中华网 china.com

新闻

大模型测不出9.11和9.9哪个大 AI常识困境暴露

关键词:
2024-07-17 13:58:59  网易

大模型测不出9.11和9.9哪个大

近期,一些主流人工智能模型在处理看似简单的数学对比问题时,意外地出现了集体失误。问题聚焦于“9.11和9.9哪一个更大”,即便是强大的GPT-4o以及谷歌的Gemini Advanced付费版等先进模型,都坚持认为9.11大于9.9。更有甚者,新晋的人工智能Claude 3.5 Sonnet还提供了一套看似合理却错误的计算逻辑,通过将数字分解为小数部分进行比较,最终得出了不正确的结论。大模型测不出9.11和9.9哪个大!

大模型测不出9.11和9.9哪个大

这一现象最初由Riley Goodside发现,他作为提示词工程师,在与GPT-4o的交互中注意到了这一异常。在尝试变换提问方式,甚至明确指定比较实数后,多数模型仍未能纠正这一基本的数学判断。有趣的是,当提问的顺序被调整后,某些AI模型竟然能够正确作答,揭示了它们对于词序的高度敏感性。

大模型测不出9.11和9.9哪个大 AI常识困境暴露

针对这一现象,有观察者推测,AI在没有明确指令指示其进行算术比较时,可能会误解问题的意图,从而产生不合逻辑的答案。部分原因归咎于大模型处理文本的token化方法,其中9.11中的“11”被错误地赋予了比9更高的权重,导致整体比较失准。

大模型测不出9.11和9.9哪个大 AI常识困境暴露

实验还扩展到了国产大模型,结果显示类似的问题同样存在,尽管也有如腾讯的元宝和字节跳动的豆包等模型能够正确处理并给出合理的解释。深入分析揭示,当明确告知AI这是关于双精度浮点数的比较后,它们通常能够得出正确的答案,这凸显了在特定情境下引导AI注意力机制的重要性。

大模型测不出9.11和9.9哪个大 AI常识困境暴露

此外,有讨论指出AI训练数据中可能缺乏基础数学比较的实例,而对复杂或特定格式(如书籍章节编号)的频繁接触,可能导致了这一类混淆。这不仅反映了当前AI理解能力的局限性,也引发了关于如何优化提问策略以引导AI正确解析问题的探讨。

大模型测不出9.11和9.9哪个大 AI常识困境暴露

至于OpenAI的新模型“草莓”的最新泄露信息,虽然据说在MATH数据集上表现出色,但在未经证实的情况下,其能否避免类似的基础数学判断失误,仍然有待观察。

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

(责任编辑:卢其龙 CN070)
关闭

3分超15中0榜眼!崔永熙撞开防守强硬得分 为队友握拳怒吼庆祝

3分超15中0榜眼!崔永熙撞开防守强硬得分 为队友握拳怒吼庆祝2024-07-17 13:58:47

工作人员为边佑锡发声 安保公司就机场风波道歉

工作人员为边佑锡发声2024-07-17 13:58:30

女子吃蘑菇中毒啥都忘了没忘记上班 监控还原离奇经历

女子吃蘑菇中毒啥都忘了没忘记上班2024-07-17 13:57:17

双方回应cos原神角色乘地铁需卸妆

双方回应cos原神角色乘地铁需卸妆2024-07-17 13:46:45

英媒警告:不光是选举,G7国家债务问题也让人揪心

英媒警告:不光是选举,G7国家债务问题也让人揪心2024-07-17 09:45:53

媒体:宝马中国全系车型涨价

媒体:宝马中国全系车型涨价2024-07-17 13:57:59

工作人员为边佑锡发声 安保公司就机场风波道歉

工作人员为边佑锡发声2024-07-17 13:58:30

“海鲲”昨再次下水,据称已安装潜望镜与蓄电池

“海鲲”昨再次下水,据称已安装潜望镜与蓄电池2024-07-17 09:38:59

老板娘为多卖饮料竟然在辣条里加辣油

老板娘为多卖饮料在辣条里加辣油2024-07-17 13:49:45

神农架招自然观察者300人录取3人 追逐“野人”梦

神农架招自然观察者300人录取3人2024-07-17 13:55:58

罗斯福号即将进入红海

罗斯福号即将进入红海2024-07-17 09:38:00

两岸关系中的美国因素复杂严峻,港媒:台美愈勾连,台湾愈不安全

港媒谈美选局变化对台海局势影响2024-07-17 13:56:10

中俄“海上联合-2024”联合演习进入海上演练阶段

中俄“海上联合-2024”联合演习进入海上演练阶段2024-07-16 09:31:23

警惕!驻日美国海军引入F-35C隐形舰载战斗机,美学者炒作“应对中国”

警惕!驻日美国海军引入F-35C隐形舰载战斗机,美学者炒作“应对中国”2024-07-17 09:50:51

“锻刀是为了不拔刀”?钧正平:不彻底反思的日本没资格说这话

“锻刀是为了不拔刀”?钧正平:不彻底反思的日本没资格说这话2024-07-16 09:30:11

国内多个品牌金饰价格突破750元/克 金价创新高点

国内多个品牌金饰价格突破750元/克2024-07-17 13:54:07

泽连斯基提议俄应出席第二次“和平峰会”,俄美回应

泽连斯基提议俄应出席第二次“和平峰会”,俄美回应2024-07-17 09:53:34

宝马中国4S店全系车型涨价,应对价格战策略实施

宝马中国4S店全系车型涨价2024-07-17 13:57:40

3分超15中0榜眼!崔永熙撞开防守强硬得分 为队友握拳怒吼庆祝

3分超15中0榜眼!崔永熙撞开防守强硬得分 为队友握拳怒吼庆祝2024-07-17 13:58:47

泽连斯基:不怕特朗普上台,将在11月前制定全面和平计划,俄方代表应出席第二次和会

泽连斯基:不怕特朗普上台,将在11月前制定全面和平计划,俄方代表应出席第二次和会2024-07-16 09:34:07

特朗普的80后副手,其实很佩服中国外交

特朗普的80后副手,其实很佩服中国外交2024-07-17 09:33:01

俄外长:美国例外主义威胁多边主义,破坏国际法基石

俄外长:美国例外主义威胁多边主义2024-07-17 13:54:44

外媒:泽连斯基称不担心特朗普可能重返白宫,“共和党多数人支持乌克兰”

外媒:泽连斯基称不担心特朗普可能重返白宫,“共和党多数人支持乌克兰”2024-07-17 10:11:27

中方:奉劝北约和某些国家反躬自省

中方:奉劝北约和某些国家反躬自省2024-07-17 10:00:14

巴黎奥运会有多“寒酸” 节俭办赛引热议

巴黎奥运会有多“寒酸”2024-07-17 13:54:26

陕西一铁路桥被洪水冲垮 机车坠桥 两名乘务员受伤

陕西一铁路桥被洪水冲垮 机车坠桥2024-07-17 13:55:31

广州一超市榴莲15元一斤遭哄抢 低价引爆消费热情

广州一超市榴莲15元一斤遭哄抢2024-07-17 13:55:48

“欧洲人不禁要问:我们是美国听话的下属吗?”

“欧洲人不禁要问:我们是美国听话的下属吗?”2024-07-17 10:50:23

美国特勤局如何保护政要?

美国特勤局如何保护政要?2024-07-16 09:48:26

俄外长:美国“例外主义”威胁多边主义

俄外长:美国“例外主义”威胁多边主义2024-07-17 10:09:14

拥有130万成员美工会或倒戈特朗普 制造业回流梦碎?

拥有130万成员美工会或倒戈特朗普2024-07-17 13:56:27

以军士兵向“可疑车辆”开枪,致3名以色列平民受伤

以军士兵向“可疑车辆”开枪,致3名以色列平民受伤2024-07-17 10:10:50

泽连斯基称俄方应参加第二次和会,克宫:不明白他是什么意思

泽连斯基称俄方应参加第二次和会,克宫:不明白他是什么意思2024-07-17 09:46:32

相关新闻