大模型测不出9.11和9.9哪个大
近期,一些主流人工智能模型在处理看似简单的数学对比问题时,意外地出现了集体失误。问题聚焦于“9.11和9.9哪一个更大”,即便是强大的GPT-4o以及谷歌的Gemini Advanced付费版等先进模型,都坚持认为9.11大于9.9。更有甚者,新晋的人工智能Claude 3.5 Sonnet还提供了一套看似合理却错误的计算逻辑,通过将数字分解为小数部分进行比较,最终得出了不正确的结论。大模型测不出9.11和9.9哪个大!
这一现象最初由Riley Goodside发现,他作为提示词工程师,在与GPT-4o的交互中注意到了这一异常。在尝试变换提问方式,甚至明确指定比较实数后,多数模型仍未能纠正这一基本的数学判断。有趣的是,当提问的顺序被调整后,某些AI模型竟然能够正确作答,揭示了它们对于词序的高度敏感性。
针对这一现象,有观察者推测,AI在没有明确指令指示其进行算术比较时,可能会误解问题的意图,从而产生不合逻辑的答案。部分原因归咎于大模型处理文本的token化方法,其中9.11中的“11”被错误地赋予了比9更高的权重,导致整体比较失准。
实验还扩展到了国产大模型,结果显示类似的问题同样存在,尽管也有如腾讯的元宝和字节跳动的豆包等模型能够正确处理并给出合理的解释。深入分析揭示,当明确告知AI这是关于双精度浮点数的比较后,它们通常能够得出正确的答案,这凸显了在特定情境下引导AI注意力机制的重要性。
最近,《歌手》节目里发生了一件有趣的事:孙楠与一位外籍歌手的得分异常接近,这一微小差距激发了网友们对数字13.8和13.11大小比较的热烈讨论
2024-07-15 08:25:2713.8和13.11哪个大?“2023年的主旋律是如何做大模型,2024年的主旋律是如何用大模型”,1月24日,三六零(601360.SH
2024-01-26 16:45:18周鸿祎看好中国的大语言模型便秘和窜稀是排便中的两个极端现象,相信各位都体验过,先说便秘,就像一块块大石洞堵在洞口,屎意浓厚就是排不出来,憋得人满头大汗,等到终于排出来了,感觉身体轻松得能飘起来。
2024-05-11 09:38:457天拉1次和1天拉7次