硅谷正经历由中国公司引发的重大变革。全美都在担忧全球人工智能的中心是否已经转向中国。此时,全球范围内掀起了复现DeepSeek模型的热潮。正如LeCun所说:“这是开源对闭源的一次胜利。”这些讨论引发了人们对数百亿美元支出必要性的质疑,甚至有人预测中国量化基金可能会导致纳斯达克崩盘。
未来,大模型时代可能进入一个分水岭:高性能模型不再仅限于算力巨头,而是每个人都能拥有。UC伯克利博士生潘家怡及其团队在CountDown游戏中复现了DeepSeek R1-Zero,结果令人满意。实验表明,通过强化学习,3B的基础语言模型也能自我验证和搜索,成本不到30美元即可见证“啊哈”时刻。该项目名为TinyZero,采用R1-Zero算法,给定基础语言模型、提示和真实奖励信号后运行强化学习。模型从简单输出开始,逐步进化出自我纠正和搜索策略。
消融实验中,研究人员使用了Qwen-2.5-Base的不同参数规模(0.5B、1.5B、3B、7B)。结果显示,0.5B模型只能猜测解决方案,而从1.5B开始,模型学会了搜索、自我验证和修正解决方案,从而获得更高分数。研究还发现,额外的指令微调并非必要,这支持了R1-Zero的设计决策。此外,具体的RL算法并不重要,PPO、GRPO、PRIME等算法都能带来不错的性能表现。
港科大助理教授何俊贤的团队仅用8K样本,在7B模型上复现了DeepSeek-R1-Zero和DeepSeek-R1的训练,取得了显著成果。他们在AIME基准上实现了33.3%的准确率,在AMC上为62.5%,在MATH上为77.2%。这一表现不仅超越了Qwen2.5-Math-7B-Instruct,还能与使用更多数据和复杂组件的PRIME和rStar-MATH相媲美。他们使用纯PPO方法训练Qwen2.5-7B-SimpleRL-Zero,并采用MATH数据集中的8K样本。Qwen2.5-7B-SimpleRL则先进行Long CoT监督微调,再进行强化学习。两种方法都只使用相同的8K MATH样本。在第44步时,模型出现了自我反思能力,并表现出更长的CoT推理能力。
HuggingFace团队也宣布复刻DeepSeek R1的所有流程,并将所有训练数据和脚本开源。项目命名为Open R1,发布一天内获得了超过1.9k星标和142个fork。DeepSeek的成功使其成为美国顶尖高校研究人员的首选模型,甚至取代了一些人对ChatGPT的需求。这次,中国AI确实震撼了世界。
幻方量化旗下的人工智能公司深度求索(DeepSeek)于2025年1月20日发布了DeepSeek-R1,该模型性能对标OpenAI的o1正式版,引发了全球关注
2025-02-07 12:10:50DeepSeek掀算力革命今年春节,国产大模型DeepSeek在全球范围内迅速走红。短短一周内,该应用不仅登上了美国和中国区App Store免费榜的榜首,还成为首个超越OpenAI ChatGPT的AI助手类应用
2025-02-12 15:41:17DeepSeek刷屏全球