中华网 china.com

新闻

DeepSeek上新首个奥数金牌水平模型 超越谷歌Gemini

关键词:
2025-11-28 14:59:01  第一财经

11月27日晚,DeepSeek在Hugging Face上开源了一个新模型:DeepSeek-Math-V2。这是一个数学模型,也是目前首个达到国际奥林匹克数学竞赛金牌水平且开源的模型。

DeepSeek上新首个奥数金牌水平模型

在同步发布的技术论文中,DeepSeek表示Math-V2的部分性能优于谷歌旗下的Gemini DeepThink,并展示了该模型在IMO-ProofBench基准以及近期数学竞赛上的表现。在Basic基准上,DeepSeek-Math-V2达到了近99%的高分,远胜其他模型,而排在第二的Gemini Deep Think (IMO Gold)分数为89%。但在更难的Advanced子集上,Math-V2得分为61.9%,略逊于Gemini Deep Think (IMO Gold)的65.7%。

DeepSeek上新首个奥数金牌水平模型 超越谷歌Gemini

论文《DeepSeek Math-V2:迈向可自验证的数学推理》指出,大语言模型已经在数学推理方面取得了重大进展,这是人工智能的重要试验台,如果进一步推进,可能会对科学研究产生影响。但当前AI在数学推理方面存在局限:以正确答案作为奖励并不能保证正确的推理过程。许多数学任务如定理证明需要严格的分步推导,而不是简单的数字答案。

为了突破深度推理的极限,DeepSeek认为有必要验证数学推理的全面性和严谨性。团队提出自我验证对于扩展测试时间计算尤为重要,特别是对于那些没有已知解决方案的开放问题。此次推出的Math-V2从结果导向转向了过程导向,展示了强大的定理证明能力。这一模型不依赖大量数学题答案数据,而是通过教会AI如何像数学家一样严谨地审查证明过程,在没有人类干预的情况下不断提升解决高难度数学证明题的能力。

Math-V2在IMO 2025和CMO 2024上取得了金牌级成绩,在Putnam 2024上通过扩展测试计算实现了接近满分的成绩(118/120)。DeepSeek认为这些结果表明可自我验证的数学推理是一个可行的研究方向,可能有助于开发更强大的数学AI系统。

海外网友对DeepSeek此次动作反应热烈,有人感慨DeepSeek以10个百分点的优势击败了谷歌的IMO Gold获奖模型DeepThink,这不在预测范围内。还有人期待DeepSeek未来公布编程模型时的表现。目前,行业头部厂商的模型已经迭代了一轮,OpenAI发布了GPT-5.1,xAI发布了Grok 4.1,谷歌发布了Gemini 3系列。外界关注DeepSeek的旗舰模型何时更新,期待“鲸鱼”的下一个动作。

(责任编辑:zhangxiaohua)
关闭

巴黎卢浮宫差别定价 涨价引发争议

巴黎卢浮宫差别定价2025-11-28 14:57:13

日本人求中国租大熊猫 经济与情感的双重纽带

日本人求中国租大熊猫2025-11-28 14:54:49

香港有三四千人从事竹棚架行业 背后是家庭生计考量

香港有三四千人从事竹棚架行业2025-11-28 14:41:01

法国:坚定不移奉行一个中国政策 彰显独立外交传统

法国,坚定不移奉行一个中国政策2025-11-28 14:21:15

特朗普称将对委展开地面行动 打击毒品贩运者

特朗普称将对委展开地面行动2025-11-28 13:35:15

日本纵容右翼就是与危险为伍 年轻人绝望推动极端

日本纵容右翼就是与危险为伍2025-11-28 13:29:21

美知名学者称高市早苗迈出错误一步 加剧中日紧张关系

美知名学者称高市早苗迈出错误一步2025-11-28 14:19:35

尹锡悦被控助前防长逃往国外!

尹锡悦被控助前防长逃往国外2025-11-28 13:22:33

香港庇护中心物资堆成小山 互帮互助 共渡难关!

香港庇护中心物资堆成小山2025-11-28 14:48:31

巴黎卢浮宫差别定价 涨价引发争议

巴黎卢浮宫差别定价2025-11-28 14:57:13

为讨10万港元女子诬告男子强奸 女子报假警被识破

为讨10万港元女子诬告男子强奸2025-11-28 14:54:26

俄委签署多领域合作协议 深化双边合作

俄委签署多领域合作协议2025-11-28 11:50:32

从建行辞职去房企领高额“安家费”的女高管,已被判刑14年 政商“旋转门”受贿典型案例

从建行辞职去房企领高额安家费的女高管,已被判刑14年2025-11-28 14:52:17

爸爸端火锅撞上儿子致其严重烫伤

爸爸端火锅撞上儿子致其严重烫伤2025-11-28 14:51:06

高市在党首会上被问到翻白眼 引爆国际舆论

高市在党首会上被问到翻白眼2025-11-28 13:15:19

香港已为受灾市民协调1万个床位 全力支援灾民安置

香港已为受灾市民协调1万个床位2025-11-28 14:45:08

普京亲自带货中国电动车 欧洲汽车工业的警世恒言

普京亲自带货中国电动车2025-11-28 14:44:46

美对委动武箭在弦上了吗 石油资源成关键

美对委动武箭在弦上了吗2025-11-28 13:11:20

中国时隔20年再发军控白皮书 展现和平决心

中国时隔20年再发军控白皮书2025-11-28 14:46:53

男子便秘十多天粪便从口腔喷出 再晚一天就危险!

男子便秘十多天粪便从口腔喷出2025-11-28 14:39:48

白宫枪击案后特朗普痛批拜登 要求严审阿富汗移民

白宫枪击案后特朗普痛批拜登2025-11-28 13:35:41

南部空军保密教育片搞笑但有用!

南部空军保密教育片搞笑但有用2025-11-28 14:17:01

特朗普称将永久停止接收来自第三世界国家移民 恢复美国体系

特朗普称将永久停止接收来自第三世界国家移民2025-11-28 14:50:37

我国科学家破解机器人手术缝合力盲缺陷 创新活结智能缝线

我国科学家破解机器人手术缝合力盲缺陷2025-11-28 14:40:44

美国黑手伸向比雷埃夫斯港

美国黑手伸向比雷埃夫斯港!2025-11-28 13:33:41

高市在党首会上问到翻白眼 尴尬一幕引热议

高市在党首会上问到翻白眼2025-11-28 13:13:20

为什么中国要坚定地参与维和!

为什么中国要坚定地参与维和2025-11-28 14:58:37

日本胆敢染指台湾就是侵略中国本土 东海风浪警示红线

日本胆敢染指台湾就是侵略中国本土2025-11-28 13:15:01

香港起火大楼前后对比照 惨烈火灾致重大伤亡

香港起火大楼前后对比照2025-11-28 14:41:20

俄方:保留强硬回应日本权利 日方举动加剧地区紧张

俄方,保留强硬回应日本权利2025-11-28 14:47:16

使馆提醒中国公民暂勿前往阿富汗 边境安全事件频发

使馆提醒中国公民暂勿前往阿富汗2025-11-28 13:50:06

日本人求中国租大熊猫 经济与情感的双重纽带

日本人求中国租大熊猫2025-11-28 14:54:49

俄军无人机焚毁乌军防无人机路网!铝热剂空中突袭

俄军无人机焚毁乌军防无人机路网2025-11-28 14:39:22

相关新闻