还不如人类五岁小孩,难度为零的视觉测试,GPT-4o却挑战失败了
近期的研究探讨了GPT-4o、Claude 3.5 Sonnet等视觉语言模型(VLM)在图像理解方面的能力。尽管这些先进的模型在处理人类行为识别、物品识别等复杂场景时表现出色,但在一系列基础视觉任务上的表现却差强人意。研究通过7项涉及基本几何形状的任务测试发现,这些VLM的平均准确率仅有56.2%,显示出它们更像是基于线索推测而非真正“观看”。相关论文以“Vision language models are blind”为标题,已在arXiv网站发布。
研究中,即便是辨认线条交叉点数量、圆圈是否重叠这类对人类来说极为直观的任务,VLM的完成度也并不理想。比如,在识别交叉线数量时,最高准确率不过77.33%,且随着线条间距缩小,其性能下滑。同样,判断圆圈重叠时,没有模型能达到完美,且圆圈间距减小时,错误率增加,表明VLM在捕捉细微差异上存在困难。
此外,VLM在识别被圈定字母、重叠形状数量等任务上的表现亦暴露出不足。它们虽然能够正确拼写被圈字母所在的单词,却难以准确指出被圈的究竟是哪个字母,有时还会错误地生成不存在的字符。在计数重叠或嵌套的几何图形时,模型往往依赖训练数据中的常见模式(如奥运五环标志)进行猜测,导致准确性受限。
值得注意的是,VLM在识别网格的行列数以及计算单色路径数量的任务上也面临挑战,仅在加入辅助信息(如网格内填充文本)后,其表现才有所提升,但仍远未达到完美。这暗示着VLM在无文本辅助的纯粹视觉推理上存在局限。
研究者认为,当前VLM采用的晚期融合方法可能是其视觉理解能力受限的关键因素,未来的研究或许应探索早期融合策略,即在模型处理的更早阶段结合视觉和语言信息,以期提升其图像理解的精准度。此外,针对特定任务对模型进行微调也被视为一个潜在的研究方向,旨在培养出在视觉理解上更为高效的VLM。
还不如人类五岁小孩,难度为零的视觉测试,GPT-4o却挑战失败了。
张远是本期节目的冲榜歌手,作为出道多年的歌手,他终于登上了梦寐以求的舞台。他也挺敢的,直接向孙楠发起挑战,一首《说谎》满满的感情。
2024-06-21 22:29:41张远挑战孙楠OpenAI在5月14日凌晨发布了其最新的旗舰AI模型GPT-4o,该模型标志着AI技术的一个重要里程碑,并计划推出PC桌面版ChatGPT
2024-05-14 09:22:27GPT-4o深夜炸场!AI实时视频通话丝滑如人类5月14日凌晨,OpenAI推出了GPT-4o,这款新模型集成了听觉、视觉与语言处理能力,能够实时分析音频、视觉及文本信息,并以任意组合方式输出文本、音频或图像内容
2024-05-16 15:57:44为什么说GPT-4o并不惊艳?在5月14日的线上“春季更新”活动中,美国OpenAI公司揭晓了其新旗舰模型——GPT-4o,标志着在人机交互领域的重要进展
2024-05-14 08:06:10Open新模型:丝滑如真人5月14日深夜,美国OpenAI公司举办线上“春季更新”活动,揭晓两大核心内容:发布最新旗舰模型GPT-4o及在ChatGPT服务中增添多项免费功能
2024-05-14 07:49:16OpenAI新模型:丝滑如真人