五大AI聊天机器人盲测,ChatGPT未能夺冠,最终赢家竟来自这家“小公司”
近期,《华尔街日报》开展了一项全面的盲测,对比评估了当下五大AI聊天机器人:ChatGPT、Claude、Copilot、Gemini和Perplexity。这些机器人在解决实际问题和执行日常任务的能力上接受了检验,以此反映它们在实际应用场景中的性能。测试不仅考察了它们的准确性、实用价值,还有整体回答质量,通过一系列精心设计的提示词覆盖了诸如编程挑战、健康咨询和财务规划等多种常见需求。值得注意的是,这项测试特别采用了高级功能,包括OpenAI的ChatGPT GPT-4o模型和谷歌的Gemini 1.5 Pro,以期全面展现它们的潜力。
结果显示,Perplexity在综合评比中位居第一,ChatGPT紧跟其后,而微软的Copilot表现最不理想。Perplexity尤其在总结、编程问题及时事资讯上展现出了卓越的能力,几乎在所有单项测试中都进入了前三。这款由Perplexity AI公司开发的工具,因其在生成式AI搜索领域的革新,被誉为“谷歌杀手”,并且用户量已突破1000万,团队规模却保持精简。
尽管ChatGPT更新后被寄予厚望,但它并未能在所有测试中领先,反而是较为冷门的Perplexity在多项测试中拔得头筹。Anthropic的Claude在写作任务上表现出色,但由于访问限制和响应速度慢,总排名下滑至第四。Copilot和Gemini则在测试中表现平平,尤其是Copilot在多个测试中垫底,经常忽视关键信息。
在具体分类测试中,如健康建议、财务管理、烹饪指导、职场写作、创意写作、内容总结、时事追踪及代码编写等方面,各AI机器人表现各异。例如,Perplexity在总结和时事类问题上展现了强大的信息处理能力,而Copilot虽然在职场写作中表现不佳,却在创意写作上找回了场子。Gemini在理财建议上给出了实用的指导,但面对健康问题时给出的意见略显模糊。
测试还揭示了各机器人在速度上的差异,其中ChatGPT借助最新升级,响应迅速,而Claude和Perplexity则显得较为迟缓。
综观整个测试,虽然ChatGPT作为热门产品并未占据绝对领先地位,但Perplexity的脱颖而出证明了专注于特定领域优化同样能带来优异成果,展示了AI聊天机器人领域内多样化的竞争格局与不断进步的技术水平。
当人工智能(AI)系统突然崩溃,我们是否能窥见一丝“末日”科幻场景的轮廓?这一设想在流行文化中屡被提及,担忧着超凡的AI某天将超越其创造者的掌控,反噬人类。而这样的忧虑似乎在一夜之间变得不那么遥远
2024-06-06 10:26:58AI“末日”突然来临人工智能新创企业Anthropic宣布,其开发的生成式AI助手Claude将于周二登陆欧洲市场。这款AI工具此前已在欧洲多地的金融与酒店行业崭露头角,收获了不错的反响
2024-05-14 11:24:05Anthropic 宣布在欧洲推出 Claude 聊天机器人盲盒,作为当下的一种潮流玩具,精准地切入了年轻消费者的市场,但一些不法分子却看准了盲盒随机性强、成本低廉、有惊喜感等特点,精心设局,实施网络赌博违法犯罪行为。
2024-06-18 01:21:29拆盲盒OpenAI在最近的春季发布会上推出了GPT-4o,这是一款革命性的智能助手,能够接受和处理文本、音频、图像等多种形式的输入与输出,其交流自然流畅,甚至能感知用户的情绪变化
2024-05-14 22:51:55ChatGPT这么会聊天