全球掀DeepSeek复现狂潮硅谷巨头神话崩塌！

小大

用微信扫描二维码
分享至好友和朋友圈

关键词：

2025-01-26 16:20:37 新浪财经

硅谷正经历由中国公司引发的重大变革。全美都在担忧全球人工智能的中心是否已经转向中国。此时，全球范围内掀起了复现DeepSeek模型的热潮。正如LeCun所说：“这是开源对闭源的一次胜利。”这些讨论引发了人们对数百亿美元支出必要性的质疑，甚至有人预测中国量化基金可能会导致纳斯达克崩盘。

未来，大模型时代可能进入一个分水岭：高性能模型不再仅限于算力巨头，而是每个人都能拥有。UC伯克利博士生潘家怡及其团队在CountDown游戏中复现了DeepSeek R1-Zero，结果令人满意。实验表明，通过强化学习，3B的基础语言模型也能自我验证和搜索，成本不到30美元即可见证“啊哈”时刻。该项目名为TinyZero，采用R1-Zero算法，给定基础语言模型、提示和真实奖励信号后运行强化学习。模型从简单输出开始，逐步进化出自我纠正和搜索策略。

消融实验中，研究人员使用了Qwen-2.5-Base的不同参数规模（0.5B、1.5B、3B、7B）。结果显示，0.5B模型只能猜测解决方案，而从1.5B开始，模型学会了搜索、自我验证和修正解决方案，从而获得更高分数。研究还发现，额外的指令微调并非必要，这支持了R1-Zero的设计决策。此外，具体的RL算法并不重要，PPO、GRPO、PRIME等算法都能带来不错的性能表现。

港科大助理教授何俊贤的团队仅用8K样本，在7B模型上复现了DeepSeek-R1-Zero和DeepSeek-R1的训练，取得了显著成果。他们在AIME基准上实现了33.3%的准确率，在AMC上为62.5%，在MATH上为77.2%。这一表现不仅超越了Qwen2.5-Math-7B-Instruct，还能与使用更多数据和复杂组件的PRIME和rStar-MATH相媲美。他们使用纯PPO方法训练Qwen2.5-7B-SimpleRL-Zero，并采用MATH数据集中的8K样本。Qwen2.5-7B-SimpleRL则先进行Long CoT监督微调，再进行强化学习。两种方法都只使用相同的8K MATH样本。在第44步时，模型出现了自我反思能力，并表现出更长的CoT推理能力。

HuggingFace团队也宣布复刻DeepSeek R1的所有流程，并将所有训练数据和脚本开源。项目命名为Open R1，发布一天内获得了超过1.9k星标和142个fork。DeepSeek的成功使其成为美国顶尖高校研究人员的首选模型，甚至取代了一些人对ChatGPT的需求。这次，中国AI确实震撼了世界。

(责任编辑：张佳鑫 0764)

关闭

全球掀DeepSeek复现狂潮 硅谷巨头神话崩塌！

相关新闻

今日热点

频道热点

全球掀DeepSeek复现狂潮硅谷巨头神话崩塌！