注册登录

中华网 china.com

新闻

国内国际社会体育专题军事财经滚动政务冬奥

大模型测不出9.11和9.9哪个大 AI常识困境暴露

小大

用微信扫描二维码
分享至好友和朋友圈

关键词：

2024-07-17 13:58:59 网易

大模型测不出9.11和9.9哪个大

近期，一些主流人工智能模型在处理看似简单的数学对比问题时，意外地出现了集体失误。问题聚焦于“9.11和9.9哪一个更大”，即便是强大的GPT-4o以及谷歌的Gemini Advanced付费版等先进模型，都坚持认为9.11大于9.9。更有甚者，新晋的人工智能Claude 3.5 Sonnet还提供了一套看似合理却错误的计算逻辑，通过将数字分解为小数部分进行比较，最终得出了不正确的结论。大模型测不出9.11和9.9哪个大！

这一现象最初由Riley Goodside发现，他作为提示词工程师，在与GPT-4o的交互中注意到了这一异常。在尝试变换提问方式，甚至明确指定比较实数后，多数模型仍未能纠正这一基本的数学判断。有趣的是，当提问的顺序被调整后，某些AI模型竟然能够正确作答，揭示了它们对于词序的高度敏感性。

针对这一现象，有观察者推测，AI在没有明确指令指示其进行算术比较时，可能会误解问题的意图，从而产生不合逻辑的答案。部分原因归咎于大模型处理文本的token化方法，其中9.11中的“11”被错误地赋予了比9更高的权重，导致整体比较失准。

实验还扩展到了国产大模型，结果显示类似的问题同样存在，尽管也有如腾讯的元宝和字节跳动的豆包等模型能够正确处理并给出合理的解释。深入分析揭示，当明确告知AI这是关于双精度浮点数的比较后，它们通常能够得出正确的答案，这凸显了在特定情境下引导AI注意力机制的重要性。

此外，有讨论指出AI训练数据中可能缺乏基础数学比较的实例，而对复杂或特定格式（如书籍章节编号）的频繁接触，可能导致了这一类混淆。这不仅反映了当前AI理解能力的局限性，也引发了关于如何优化提问策略以引导AI正确解析问题的探讨。

12 全文共 2 页下一页

关闭

场面壮观！马竞新援亮相大都会球场备受球迷欢迎能否闪耀西甲赛场拭目以待

场面壮观！马竞新援亮相大都会球场备受球迷欢迎能否闪耀西甲赛场拭目以待2024-08-22 09:45:57

老人坐三轮车上昏厥司机打120

老人坐三轮车上昏厥司机打1202024-08-22 09:45:37

再度崛起：曼城连签3名日本国脚，女足梯队打造要靠“亚洲支撑”

再度崛起：曼城连签3名日本国脚，女足梯队打造要靠“亚洲支撑”2024-08-22 09:43:23

乌军进攻库尔斯克让俄军加速进攻顿涅茨克

乌军进攻库尔斯克让俄军加速进攻顿涅茨克2024-08-22 09:30:56

突发! 太阳连续裁掉2人! 库里更新简介, 哈登能力值创12年新低

突发! 太阳连续裁掉2人! 库里更新简介, 哈登能力值创12年新低2024-08-22 09:40:49

日本超20万人要求停止核污水排海安全疑虑加剧

日本超20万人要求停止核污水排海2024-08-22 09:38:53

刘晓庆早期爱女第一人演绎时代女性觉醒

刘晓庆早期爱女第一人2024-08-22 09:43:11

日印“2+2”对话硬扯中国，专家：两国有权深化双边关系，但不应针对第三方

日印“2+2”对话硬扯中国，专家：两国有权深化双边关系，但不应针对第三方2024-08-22 09:40:31

俄乌就谈判问题激烈交锋：俄外长称目前不可能恢复对话，乌总统称正在实现战略目标

俄乌就谈判问题激烈交锋：俄外长称目前不可能恢复对话，乌总统称正在实现战略目标2024-08-21 10:18:03

日本民间团体代表：冲绳不需要美军基地

日本民间团体代表：冲绳不需要美军基地2024-08-21 10:08:02

美团哈啰等电动车退出武汉大学新运营商及计费方案公布

美团哈啰等电动车退出武汉大学2024-08-22 09:38:13

俄军新建三个集团军，准备怎么用？

俄军新建三个集团军，准备怎么用？2024-08-22 09:28:09

潘展乐说在体育锻炼中突破自我实力铸就新星传奇

潘展乐说在体育锻炼中突破自我2024-08-22 09:29:34

NBA一夜动态: 太阳连裁两名球员勇士87岁名宿逝世库里发声追悼

NBA一夜动态: 太阳连裁两名球员勇士87岁名宿逝世库里发声追悼2024-08-22 09:41:37

美国不断拱火菲律宾，中方：美无权介入中菲涉海问题

美国不断拱火菲律宾，中方：美无权介入中菲涉海问题2024-08-21 10:05:19

中方驳斥美翻炒“中国核威胁论”：美国才是全球最大的核威胁、战略风险的制造者

中方驳斥美翻炒“中国核威胁论”：美国才是全球最大的核威胁、战略风险的制造者2024-08-22 09:41:30

驻美使馆提醒留学生租房换汇风险务必谨慎操作

驻美使馆提醒留学生租房换汇风险2024-08-22 09:40:37

郭刚堂希望人贩子被判死刑期待二审"顶格处理

郭刚堂希望人贩子被判死刑2024-08-22 09:42:28

美国批准对韩出售36架“阿帕奇”直升机

美国批准对韩出售36架“阿帕奇”直升机2024-08-21 10:13:29

再度崛起：曼城连签3名日本国脚，女足梯队打造要靠“亚洲支撑”

再度崛起：曼城连签3名日本国脚，女足梯队打造要靠“亚洲支撑”2024-08-22 09:43:23

老人坐三轮车上昏厥司机打120

老人坐三轮车上昏厥司机打1202024-08-22 09:45:37

俄海军“瓦良格”号编队返航通过第一岛链，远航已满7个月

俄海军“瓦良格”号编队返航通过第一岛链，远航已满7个月2024-08-22 09:31:47

俄媒：普京2011年以来首次视察俄车臣共和国，卡德罗夫在机场迎接

俄媒：普京2011年以来首次视察俄车臣共和国，卡德罗夫在机场迎接2024-08-21 10:17:01

献血证过期不能用血？医院回应血站规定引争议

献血证过期不能用血？医院回应2024-08-22 09:39:37

画面曝光！“美军事人员现身库尔斯克”

画面曝光！“美军事人员现身库尔斯克”2024-08-21 10:14:20

专家谈黑神话悟空对行业的影响国产3A游戏新纪元

专家谈黑神话悟空对行业的影响2024-08-22 09:30:36

俄乌在库尔斯克战事“白热化”，俄乌“决胜”是否在此？

俄乌在库尔斯克战事“白热化”，俄乌“决胜”是否在此？2024-08-21 10:37:27

菲律宾，要为美国两肋插刀了

菲律宾，要为美国两肋插刀了2024-08-22 09:23:56

场面壮观！马竞新援亮相大都会球场备受球迷欢迎能否闪耀西甲赛场拭目以待

场面壮观！马竞新援亮相大都会球场备受球迷欢迎能否闪耀西甲赛场拭目以待2024-08-22 09:45:57

处暑是秋天第2个节气滋阴润肺正当时

处暑是秋天第2个节气2024-08-22 09:30:57

以色列代表埃尔丹再出暴论：应把联合国大楼从地球上抹去

以色列代表埃尔丹再出暴论：应把联合国大楼从地球上抹去2024-08-22 09:34:33

机器鹰、机器鱼……军用仿生机器人崭露头角

机器鹰、机器鱼……军用仿生机器人崭露头角2024-08-22 09:10:42

“不死鸟”的后代：漫谈美海军列装新超远程空空导弹

“不死鸟”的后代：漫谈美海军列装新超远程空空导弹2024-08-22 09:29:40

0-1, 0-2! 枪手遇苦主, 5次翻车, 赛季首败或诞生, 难与曼城争冠

0-1, 0-2! 枪手遇苦主, 5次翻车, 赛季首败或诞生, 难与曼城争冠2024-08-22 09:40:59

黑悟空”爆了！一大波股票疯涨：游戏热潮席卷A股

“黑悟空”爆了！一大波股票疯涨2024-08-22 09:29:48

相关新闻

大模型集体失智：9.11和9.9哪个大，几乎全翻车了
近期，一个看似简单的数学问题挑战了众多前沿的人工智能大模型，引发了业界的关注。问题本身并不复杂：9.11和9.9哪个数字更大？然而，在第一财经记者的测试中，即便是先进的AI系统也出现了分歧
2024-07-18 09:34:37大模型集体失智：9.11和9.9哪个大
AI答不出9.11和9.8谁大大模型小学数学集体翻车
近期发生了一件有趣的事情，关于一个看似简单的数学比较问题，却让不少高级人工智能模型遭遇了“滑铁卢”。这个问题是判断9.11与9.8哪个数字更大。在7月17日的一次测试中，共有13个当前主流的人工智能模型接受了这个挑战
2024-07-17 20:40:10AI答不出9.11和9.8谁大
北京网友测试教育大模型9.9比9.11大 8大模型犯错揭示短板
近期，一个看似简单的数学问题挑战了众多先进的人工智能大模型，引发了业界关注
2024-07-19 08:05:47北京网友测试教育大模型9.9比9.11大
13.8和13.11哪个大？数学知识点引热议
最近，《歌手》节目里发生了一件有趣的事：孙楠与一位外籍歌手的得分异常接近，这一微小差距激发了网友们对数字13.8和13.11大小比较的热烈讨论
2024-07-15 08:25:2713.8和13.11哪个大？
李开复称大模型疯狂降价是双输国内大模型竞争白热化
5月21日，李开复创办的零一万物宣布其最新千亿参数模型Yi-Large在LMSYS盲测竞技场中取得佳绩，总榜排名世界第七，位居中国大模型之首，超越了Llama-3-70B、Claude 3 Sonnet等
2024-05-22 09:56:37李开复称大模型疯狂降价是双输
字节大模型比行业价格低99% 引领大模型“厘时代”革新
5月15日，字节跳动在火山引擎原动力大会上揭晓了豆包大模型
2024-05-15 17:20:28字节大模型比行业价格低99%

今日热点

西北东北多地降雪降温大范围雨雪来袭

90后女子做殡葬师一天只睡4个小时与时间赛跑的生命摆渡人

北京一女子酒后开奔驰闯红灯撞车出事故后找人顶包

特朗普大楼遭袭纽约警方称98人被捕抗议活动引发大规模逮捕

频道热点

主编邮箱
网上不良信息举报电话：010-56177181

关于中华网 | 广告服务 | 联系我们 | 招聘信息 | 版权声明 | 豁免条款 | 友情链接 | 中华网动态
版权所有中华网