注册登录

中华网 china.com

新闻

国内国际社会体育专题军事财经滚动政务冬奥

用DeepSeek挑战中科院物理所竞赛题 AI表现亮眼

小大

用微信扫描二维码
分享至好友和朋友圈

关键词：

2025-01-31 09:01:43 观察者网

近日，中科院物理所在江苏省溧阳市举办了“天目杯”理论物理竞赛，并用DeepSeek-R1、GPT-o1和Claude-sonnet三个AI模型对竞赛试题进行了测试。结果显示，DeepSeek-R1表现最佳。

我国“深度求索”公司发布的开源大模型DeepSeek-R1引起了全球关注。在此之前，美国OpenAI公司的GPT-o1、Anthropic公司的Claude以及Google公司的Gemini等模型都声称具备深度思考和推理能力。这些模型在各种测试中表现出色，特别是Google的专用模型AlphaGeometry在国际奥林匹克数学竞赛中取得了28/42的成绩，获得银牌。这引发了人们的好奇，这些强大的AI在物理方面的水平如何。

1月17日，中科院物理所举办了“天目杯”理论物理竞赛。命题组完成了试卷的出题工作，七道题目大部分是原创，旨在考察实际科研中的具体技术问题。竞赛结束后，团队决定测试几个有代表性的AI模型。他们选择了DeepSeek-R1、GPT-o1和Claude-sonnet进行测试。

测试过程包括8段对话，首先交代任务和格式要求，然后依次发送题干，每道题目由文字描述和图片描述组成（第三、五、七题无图）。所有模型收到的文字材料相同。阅卷方式与人类选手相同，最终汇总得分。

测试结果显示，DeepSeek-R1表现最好，基础题满分，第六题也得到了满分，但在第七题上因未能理解题干中“证明”的含义而失分。GPT-o1总分接近DeepSeek，但有一些计算错误。Claude-sonnet在前两题中得分为零，但后续表现与GPT-o1相近。

如果将AI的成绩与人类成绩相比，DeepSeek-R1可以进入前三名，但与最高分仍有差距；GPT-o1进入前五名，Claude-sonnet则排在前十名。阅卷过程中发现，AI思路清晰，但容易在简单错误中打转，且似乎不完全理解“严密”证明的要求。此外，AI也会出现偶然性错误。

此次竞赛还发布了试题参考答案，希望帮助学生学习并引发进一步思考。(责任编辑：于浩淙 zx0176)

关闭

沪指半日涨0.29% 四大行再创新高银行股逆势走强

沪指半日涨0.29%四大行再创新高2025-02-18 13:27:50

陈晓陈妍希将共同抚养孩子和平分手引热议

陈晓陈妍希将共同抚养孩子2025-02-18 13:27:22

18岁男孩非法穿越鳌太线获救救援行动再启

18岁男孩非法穿越鳌太线获救2025-02-18 13:25:39

陈晓陈妍希将共同抚养孩子和平分手引热议

陈晓陈妍希将共同抚养孩子2025-02-18 13:27:22

美国东部8州遭洪灾影响上亿人？肯塔基紧急状态，真有这么严重吗致命风暴致8人死亡

美国东部8州遭洪灾影响上亿人,肯塔基紧急状态,真有这么严重吗2025-02-18 11:41:18

朗普新任期将满月：政策落地遇阻，全球市场格局生变

朗普新任期将满月2025-02-18 11:27:25

曾被雷军千万年薪挖角！亲属称罗福莉与丈夫研究领域相同

亲属称罗福莉与丈夫研究领域相同2025-02-18 13:11:57

美为何提议从中国向乌派遣维和人员美国的奇葩主意

美为何提议从中国向乌派遣维和人员2025-02-18 13:14:02

拉夫罗夫抵达沙特单手揣兜下飞机谈判桌上的博弈

拉夫罗夫抵达沙特单手揣兜下飞机2025-02-18 13:13:44

18岁男孩非法穿越鳌太线获救救援行动再启

18岁男孩非法穿越鳌太线获救2025-02-18 13:25:39

河北邢台一局长被曝酒后砸店伤人官方回应将调查核实

河北邢台一局长被曝酒后砸店伤人2025-02-18 13:18:04

宇树科技创始人王兴兴曾差点没考上高中从内向少年到科技领军人物

宇树科技创始人王兴兴曾差点没考上高中2025-02-18 13:07:27

特朗普批波音：总统专机怎么还没造好项目拖延引不满

特朗普批波音,总统专机怎么还没造好2025-02-18 13:02:01

网传小学老师因末位淘汰轻生真相尚在调查中

网传小学老师因末位淘汰轻生2025-02-18 13:22:50

马斯克坐实AI游戏工作室计划让游戏再次伟大

马斯克坐实AI游戏工作室计划2025-02-18 13:19:44

美客机翻覆现场视频曝光恶劣天气或成事故主因

美客机翻覆现场视频曝光2025-02-18 13:20:05

俄美今日开谈谈什么？为何选在沙特？乌欧又在“焦虑”什么？乌克兰问题成焦点

俄美今日开谈谈什么,为何选在沙特,乌欧又在焦虑什么2025-02-18 11:28:34

中国男篮与日本男篮比赛前瞻关键一战牵动人心

中国男篮与日本男篮比赛前瞻2025-02-18 13:21:09

外媒：以色列内阁投票确认扎米尔为下任以军总参谋长即将于3月5日就职

外媒,以色列内阁投票确认扎米尔为下任以军总参谋长2025-02-18 11:44:19

大衣哥"被网暴4年:有人敲门要50万：不堪其扰诉诸法律

"大衣哥"被网暴4年,有人敲门要50万2025-02-18 13:18:50

0日将允许户籍栏登记可填“台湾” 外交部敦促恪守一个中国原则

日将允许户籍栏登记可填台湾外交部敦促2025-02-18 11:42:24

多方祝福乔丹62生日快乐！艾弗森称其GOAT：我一直想像你一样艾弗森INS深情祝福

多方祝福乔丹62生日快乐,艾弗森称其GOAT,我一直想像你一样2025-02-18 13:16:27

广西首个第四代住宅亮相南宁户户有私家园林

广西首个第四代住宅亮相南宁2025-02-18 13:25:11

人工智能会取代你的工作吗职业未来变数与应对策略

人工智能会取代你的工作吗2025-02-18 13:16:43

美俄谈判今日开始泽连斯基：不承认乌克兰缺席引发争议

美俄谈判今日开始泽连斯基,不承认2025-02-18 13:20:24

沪指半日涨0.29% 四大行再创新高银行股逆势走强

沪指半日涨0.29%四大行再创新高2025-02-18 13:27:50

邻居直播大衣哥唱歌涨粉三百多万大衣哥为躲网暴者爬梯子翻墙见儿子

邻居直播大衣哥唱歌涨粉三百多万2025-02-18 13:20:31

正月二十二是啥节日？牢记4大传统、2个忌讳祈福迎好运

正月二十二是啥节日,牢记4大传统,2个忌讳2025-02-18 13:17:35

中医劝你春季养好脾胃调养脾胃祛风除湿

中医劝你春季养好脾胃2025-02-18 13:23:22

媒体批特朗普又一次“抢劫”台湾美国的真实意图暴露

媒体批特朗普又一次抢劫台湾2025-02-18 13:15:58

杨丞琳晒婚纱照低调婚礼一周年

杨丞琳晒婚纱照2025-02-18 13:20:48

小S发徐家三姐妹童年照怀念大S 温馨回忆引共鸣

小S发徐家三姐妹童年照怀念大S2025-02-18 13:17:52

大V：欧洲和乌克兰遭受三次沉重打击西方暴露三大问题

大V,欧洲和乌克兰遭受三次沉重打击2025-02-18 13:13:27

美方：乌克兰能“上桌”谈判欧洲被排除引发争议

美方,乌克兰能上桌谈判2025-02-18 11:43:42

工人胳膊卷入打孔机消防救援巧用撬棍成功解救

工人胳膊卷入打孔机消防救援2025-02-18 13:18:27

相关新闻

中科院大气物理所原所长逝世沉痛哀悼杰出科学家
中国科学院大气物理研究所退休职工洪钟祥同志，中共党员，因病医治无效，于2024年12月6日在北京逝世，享年87岁。他曾担任该所所长，对他的不幸逝世，我们表示沉痛的哀悼
2024-12-08 00:08:30中科院大气物理所原所长逝世
用编程挑战对比DeepSeek和o3-mini 谁更懂物理？
AI圈的头条被DeepSeek占据多日，直到OpenAI推出了全新的推理模型系列o3-mini。这次不仅向免费用户开放了推理模型，而且成本相比之前的o1系列降低了15倍。OpenAI表示这是其推理模型系列中最新、最具成本效益的模型
2025-02-03 08:48:16用编程挑战对比DeepSeek和o3-mini
DeepSeek美股泡沫得以延续挑战硅谷霸权
白头鹰再次针对一家小公司采取行动，使用的依旧是那些熟悉的手段。近期，一家初创公司推出的DeepSeek软件在全球范围内引起轰动，在160多个国家的AI软件下载排行榜上位居榜首
2025-02-04 19:33:47DeepSeek美股泡沫得以延续
DeepSeek回应超越ChatGPT 市场热情与挑战并存
1月27日，DeepSeek应用超越ChatGPT，登顶苹果美国区免费App下载排行榜的消息在市场上引起轰动，被视为大模型行业的黑马。对于这一变化，DeepSeek和ChatGPT分别给出了看法
2025-01-28 20:09:27DeepSeek回应超越ChatGPT
DeepSeek一夜掀翻美股挑战科技巨头主导地位
1月27日，中国人工智能初创公司DeepSeek迅速崛起，在中国即将迎来农历新年之际，这一事件影响了美国科技股市场，并引发了对美国技术主导地位的质疑
2025-01-28 09:12:00DeepSeek一夜掀翻美股
男子称用DeepSeek买双色球中奖
近日，来自安徽芜湖的李先生发帖称，自己按照DeepSeek推荐的号码来买双色球，真的中奖了。李先生称自己用5组DeepSeek推荐的数字下注，合计10元，其中一组数字中了“2+1”，“虽然奖金没多少，但起码中了”。中国福利彩票服务热线工作人...
2025-02-11 15:40:20男子称用DeepSeek买双色球中奖

今日热点

北京今天最高气温9℃，本周气温将一路攀升适宜出行暖意浓

东北地区规模最大跨海大桥工程启动总投资约79亿元

打顶级强队没赢过！尼克斯为何欺软怕硬面对强敌全败

课后延时补课每人收费400 当地回应属自愿课后服务

频道热点

主编邮箱
网上不良信息举报电话：010-56177181

关于中华网 | 广告服务 | 联系我们 | 招聘信息 | 版权声明 | 豁免条款 | 友情链接 | 中华网动态
版权所有中华网