硅谷正经历由中国公司引发的重大变革。全美都在担忧全球人工智能的中心是否已经转向中国。此时,全球范围内掀起了复现DeepSeek模型的热潮。正如LeCun所说:“这是开源对闭源的一次胜利。”这些讨论引发了人们对数百亿美元支出必要性的质疑,甚至有人预测中国量化基金可能会导致纳斯达克崩盘。
未来,大模型时代可能进入一个分水岭:高性能模型不再仅限于算力巨头,而是每个人都能拥有。UC伯克利博士生潘家怡及其团队在CountDown游戏中复现了DeepSeek R1-Zero,结果令人满意。实验表明,通过强化学习,3B的基础语言模型也能自我验证和搜索,成本不到30美元即可见证“啊哈”时刻。该项目名为TinyZero,采用R1-Zero算法,给定基础语言模型、提示和真实奖励信号后运行强化学习。模型从简单输出开始,逐步进化出自我纠正和搜索策略。
消融实验中,研究人员使用了Qwen-2.5-Base的不同参数规模(0.5B、1.5B、3B、7B)。结果显示,0.5B模型只能猜测解决方案,而从1.5B开始,模型学会了搜索、自我验证和修正解决方案,从而获得更高分数。研究还发现,额外的指令微调并非必要,这支持了R1-Zero的设计决策。此外,具体的RL算法并不重要,PPO、GRPO、PRIME等算法都能带来不错的性能表现。
港科大助理教授何俊贤的团队仅用8K样本,在7B模型上复现了DeepSeek-R1-Zero和DeepSeek-R1的训练,取得了显著成果。他们在AIME基准上实现了33.3%的准确率,在AMC上为62.5%,在MATH上为77.2%。这一表现不仅超越了Qwen2.5-Math-7B-Instruct,还能与使用更多数据和复杂组件的PRIME和rStar-MATH相媲美。他们使用纯PPO方法训练Qwen2.5-7B-SimpleRL-Zero,并采用MATH数据集中的8K样本。Qwen2.5-7B-SimpleRL则先进行Long CoT监督微调,再进行强化学习。两种方法都只使用相同的8K MATH样本。在第44步时,模型出现了自我反思能力,并表现出更长的CoT推理能力。
DeepSeek 给硅谷带来的震撼持续不断。与几个月前《黑神话·悟空》在欧美受到的追捧相比,DeepSeek 的出现可谓石破天惊,充满了各种不可能和不合理
2025-01-26 14:46:44起底让硅谷难安的DeepSeek近期,金价在经历了超过两个月的横盘整理后重获升势。7月中旬,国际金价冲破2480美元/盎司大关,这一数字超越了5月末的峰值2450美元/盎司,标示着金价再创新纪录
2024-07-18 14:42:00金价沉寂多日再创历史新高DeepSeek发布了新一代开源大模型DeepSeek-R1。该模型在数学、代码、自然语言推理等任务上的性能与美国OpenAI公司的最新o1大模型相当
2025-01-21 22:05:22DeepSeek又有重大突破短短一个月内,中国AI初创公司深度求索(DeepSeek)发布了两款大模型:DeepSeek-V3和DeepSeek-R1
2025-01-26 15:51:02DeepSeek新模型火到海外短短一个月内,中国AI初创公司深度求索(DeepSeek)发布了两款大模型——DeepSeek-V3和DeepSeek-R1
2025-01-26 10:34:01DeepSeek让Meta深陷恐慌