11月27日晚,DeepSeek在Hugging Face上开源了一个新模型:DeepSeek-Math-V2。这是一个数学模型,也是目前首个达到IMO金牌水平且开源的模型。

在同步发布的技术论文中,DeepSeek表示Math-V2的部分性能优于谷歌旗下的Gemini DeepThink,并展示了模型在IMO-ProofBench基准以及近期数学竞赛上的表现。具体来看,在Basic基准上,DeepSeek-Math-V2达到了近99%的高分,远胜其他模型,而排在第二的Gemini Deep Think (IMO Gold)分数为89%。但在更难的Advanced子集上,Math-V2分数为61.9%,略逊于Gemini Deep Think (IMO Gold)的65.7%。

在这篇名为《DeepSeek Math-V2:迈向可自验证的数学推理》的论文中,DeepSeek指出大语言模型已经在数学推理方面取得了重大进展,这是人工智能的重要试验台,如果进一步推进,可能会对科学研究产生影响。但当前AI在数学推理方面存在局限:以正确的最终答案作为奖励,正确的答案却不能保证正确的推理。许多数学任务如定理证明需要严格的分步推导,而不是数字答案,这使得最终答案奖励不适用。
为了突破深度推理的极限,DeepSeek认为有必要验证数学推理的全面性和严谨性。团队提出自我验证对于扩展测试时间计算尤为重要,特别是对于那些没有已知解决方案的开放问题。此次推出的Math-V2从结果导向转向了过程导向,展示了强大的定理证明能力。这一模型不依赖大量的数学题答案数据,而是通过教会AI如何像数学家一样严谨地审查证明过程,从而在没有人类干预的情况下不断提升解决高难度数学证明题的能力。
10月20日,人工智能团队DeepSeek AI发布了全新多模态模型 DeepSeek-OCR
2025-10-20 20:33:14DeepSeek开源新模型DeepSeek-OCR由于新模型R2迟迟未发布,DeepSeek近期备受关注。国际知名半导体研究机构Semianalysis的报告显示,DeepSeek的用户使用率从年初的7.5%峰值显著下降至3%,官网流量同期下滑近三成
2025-07-10 13:25:04DeepSeek使用率暴跌原因何在证券时报的文章内容仅供参考,不构成实质性投资建议,据此操作风险自担。下载“证券时报”官方APP或关注官方微信公众号,可以随时了解股市动态,洞察政策信息,把握财富机会
2025-09-20 12:51:47DeepSeek为何发表研究成果DeepSeek开源了R1最新0528版本,尽管官方未对此版本进行详细说明,但已有网友在著名代码测试平台Live CodeBench中发现其性能可与OpenAI最新的o3模型高版本相媲美
2025-05-29 08:46:15DeepSeek开源新版R1媲美OpenAIAI初创公司DeepSeek的论文最近登上了《自然》杂志。该公司表示,其强大的AI模型R1的成功并不依赖于模仿其他大型语言模型生成的示例进行训练。这一声明随着R1模型同行评审版本的发布而公布
2025-09-20 12:18:52DeepSeek在自然杂志公布论文