AMD火速“站台”DeepSeek AI新星震撼科技界

小大

用微信扫描二维码
分享至好友和朋友圈

关键词：

2025-01-26 21:17:04 雷递

DeepSeek正成为AI领域崛起的新星，打破了国内大模型的原有格局。本周，DeepSeek发布了DeepSeek-R1，并同步开源了模型权重。DeepSeek-R1遵循MIT License，允许用户通过蒸馏技术借助R1训练其他模型。

DeepSeek-R1上线了API，对用户开放思维链输出，设置model='deepseek-reasoner'即可调用。该模型在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能与OpenAI o1正式版相当。同时，DeepSeek开源了两个660B模型，并通过DeepSeek-R1的输出蒸馏出六个小模型，其中32B和70B模型在多项能力上实现了对标OpenAI o1-mini的效果。

DeepSeek-R1 API服务定价为每百万输入tokens 1元（缓存命中）/4元（缓存未命中），每百万输出tokens 16元。DeepSeek在美国科技界引起震动，不仅因为其性能与OpenAI的o1相当且完全开源，还以极低成本实现了这一突破。知名投资人马克·安德森表示，DeepSeek R1是他见过最令人惊叹和印象深刻的突破之一，作为开源项目，这是给世界的一份重要礼物。

Scale AI创始人亚历山大·王认为，过去十年美国可能一直在人工智能竞赛中领先于中国，但DeepSeek的发布可能会改变这一局面。DeepSeek-R1与GPT-4o和Claude 3.5 Sonnet相当，训练时计算量减少10倍。这表明在美国人休息时，中国人在工作，并以更便宜、更快、更强的产品迎头赶上。

DeepSeek的动作让Meta的生成式AI团队感到恐慌。Meta CEO扎克伯格宣布加速研发Llama 4，计划投资650亿美元扩建数据中心，并部署130万枚GPU，以确保2025年Meta AI成为全球领先模型。

DeepSeek创始人梁文锋迅速在AI圈内确立地位。梁文锋本硕均就读于浙江大学信息与电子工程学专业。2015年，他与校友共同创立幻方量化。2021年，幻方量化成为国内首家突破千亿规模的量化私募大厂，被称为国内量化私募“四大天王”之一。早年，幻方量化开始大规模布局AI算力，搭建起“萤火一号”集群。2021年，“萤火二号”落成，为DeepSeek提供了快速发展的基础。

DeepSeek团队在预训练方面贡献巨大，包括超强的训练稳定度、深入使用fb8混合精度、多词同时预测、隐空间多注意力头、MOE混合专家等，大大降低了训练成本。他们仅用600万美元就训练出了一个600B的大模型，被视作工程上的奇迹。

分析人士指出，DeepSeek用较低的成本训练出比肩OpenAI o1水平的模型R1，而且R1还开源，这意味着算法有很大的提升空间，不需要那么多GPU和算力。封锁芯片和搞算力壁垒的思路行不通，而依赖大量GPU堆砌效果的模式也受到挑战。DeepSeek的出现可能导致许多购买了数千块NVIDIA芯片的AI初创公司破产，从而导致大量NVIDIA GPU流入二手市场。此外，一些运营数据中心并出租NVIDIA GPU的初创公司也可能受到影响。

这可能刺激更多专用推理模型诞生，创业公司和个人App可能会大幅减少在OpenAI API上的支出，转向开源。评论人士称，DeepSeek整合搜索信息的能力强于某些现有模型，让人对英伟达股价产生怀疑。中美科技底层差距虽然大，但中国拥有巨大的人才红利，有超过6000万工程师，超过美德日韩印总和，这是继续发展的底气和希望。(责任编辑：张蕾)

关闭

AMD火速“站台”DeepSeek AI新星震撼科技界

相关新闻

今日热点

频道热点