DeepSeek上新首个奥数金牌水平模型超越谷歌Gemini

小大

用微信扫描二维码
分享至好友和朋友圈

关键词：

2025-11-28 14:59:01 第一财经

11月27日晚，DeepSeek在Hugging Face上开源了一个新模型：DeepSeek-Math-V2。这是一个数学模型，也是目前首个达到国际奥林匹克数学竞赛金牌水平且开源的模型。

DeepSeek上新首个奥数金牌水平模型

在同步发布的技术论文中，DeepSeek表示Math-V2的部分性能优于谷歌旗下的Gemini DeepThink，并展示了该模型在IMO-ProofBench基准以及近期数学竞赛上的表现。在Basic基准上，DeepSeek-Math-V2达到了近99%的高分，远胜其他模型，而排在第二的Gemini Deep Think (IMO Gold)分数为89%。但在更难的Advanced子集上，Math-V2得分为61.9%，略逊于Gemini Deep Think (IMO Gold)的65.7%。

DeepSeek上新首个奥数金牌水平模型超越谷歌Gemini

论文《DeepSeek Math-V2：迈向可自验证的数学推理》指出，大语言模型已经在数学推理方面取得了重大进展，这是人工智能的重要试验台，如果进一步推进，可能会对科学研究产生影响。但当前AI在数学推理方面存在局限：以正确答案作为奖励并不能保证正确的推理过程。许多数学任务如定理证明需要严格的分步推导，而不是简单的数字答案。

为了突破深度推理的极限，DeepSeek认为有必要验证数学推理的全面性和严谨性。团队提出自我验证对于扩展测试时间计算尤为重要，特别是对于那些没有已知解决方案的开放问题。此次推出的Math-V2从结果导向转向了过程导向，展示了强大的定理证明能力。这一模型不依赖大量数学题答案数据，而是通过教会AI如何像数学家一样严谨地审查证明过程，在没有人类干预的情况下不断提升解决高难度数学证明题的能力。

Math-V2在IMO 2025和CMO 2024上取得了金牌级成绩，在Putnam 2024上通过扩展测试计算实现了接近满分的成绩（118/120）。DeepSeek认为这些结果表明可自我验证的数学推理是一个可行的研究方向，可能有助于开发更强大的数学AI系统。

海外网友对DeepSeek此次动作反应热烈，有人感慨DeepSeek以10个百分点的优势击败了谷歌的IMO Gold获奖模型DeepThink，这不在预测范围内。还有人期待DeepSeek未来公布编程模型时的表现。目前，行业头部厂商的模型已经迭代了一轮，OpenAI发布了GPT-5.1，xAI发布了Grok 4.1，谷歌发布了Gemini 3系列。外界关注DeepSeek的旗舰模型何时更新，期待“鲸鱼”的下一个动作。

(责任编辑：zhangxiaohua)

关闭

DeepSeek上新首个奥数金牌水平模型 超越谷歌Gemini

相关新闻

今日热点

频道热点

DeepSeek上新首个奥数金牌水平模型超越谷歌Gemini