大模型测不出9.11和9.9哪个大
近期,一些主流人工智能模型在处理看似简单的数学对比问题时,意外地出现了集体失误。问题聚焦于“9.11和9.9哪一个更大”,即便是强大的GPT-4o以及谷歌的Gemini Advanced付费版等先进模型,都坚持认为9.11大于9.9。更有甚者,新晋的人工智能Claude 3.5 Sonnet还提供了一套看似合理却错误的计算逻辑,通过将数字分解为小数部分进行比较,最终得出了不正确的结论。大模型测不出9.11和9.9哪个大!
这一现象最初由Riley Goodside发现,他作为提示词工程师,在与GPT-4o的交互中注意到了这一异常。在尝试变换提问方式,甚至明确指定比较实数后,多数模型仍未能纠正这一基本的数学判断。有趣的是,当提问的顺序被调整后,某些AI模型竟然能够正确作答,揭示了它们对于词序的高度敏感性。
针对这一现象,有观察者推测,AI在没有明确指令指示其进行算术比较时,可能会误解问题的意图,从而产生不合逻辑的答案。部分原因归咎于大模型处理文本的token化方法,其中9.11中的“11”被错误地赋予了比9更高的权重,导致整体比较失准。
实验还扩展到了国产大模型,结果显示类似的问题同样存在,尽管也有如腾讯的元宝和字节跳动的豆包等模型能够正确处理并给出合理的解释。深入分析揭示,当明确告知AI这是关于双精度浮点数的比较后,它们通常能够得出正确的答案,这凸显了在特定情境下引导AI注意力机制的重要性。
此外,有讨论指出AI训练数据中可能缺乏基础数学比较的实例,而对复杂或特定格式(如书籍章节编号)的频繁接触,可能导致了这一类混淆。这不仅反映了当前AI理解能力的局限性,也引发了关于如何优化提问策略以引导AI正确解析问题的探讨。
近期,一个看似简单的数学问题挑战了众多前沿的人工智能大模型,引发了业界的关注。问题本身并不复杂:9.11和9.9哪个数字更大?然而,在第一财经记者的测试中,即便是先进的AI系统也出现了分歧
2024-07-18 09:34:37大模型集体失智:9.11和9.9哪个大近期,一个看似简单的数学问题挑战了众多先进的人工智能大模型,引发了业界关注
2024-07-19 08:05:47北京网友测试教育大模型9.9比9.11大最近,《歌手》节目里发生了一件有趣的事:孙楠与一位外籍歌手的得分异常接近,这一微小差距激发了网友们对数字13.8和13.11大小比较的热烈讨论
2024-07-15 08:25:2713.8和13.11哪个大?