媒体：GPT-4o更新 AI又来“炸场” 全能交互新时代

小大

用微信扫描二维码
分享至好友和朋友圈

关键词：

2024-05-16 18:08:02 封面新闻

在5月14日的凌晨，OpenAI举办了一场名为“春季更新”的线上活动，期间揭晓了他们的新旗舰生成式AI模型——GPT-4o。这个模型名称中的“o”蕴含深意，取自英文“Omni”，寓意着“全能”或“涵盖一切”，体现了技术的广度与深度。

GPT-4o的一大亮点在于它对语音交互的细腻捕捉。它不仅能够无缝融入或中断对话，还能精妙识别发言者的情绪与语气，根据不同的场景或命令，生成多样化的音调回复，这些回复富含人性化的感情色彩，甚至能应用户要求演唱歌曲。

视觉处理能力上，GPT-4o实现了显著飞跃。当前，它已能够辨认并翻译多种语言的菜单图片，未来展望中，这项技术或将使ChatGPT具备“观赏”实况体育赛事并解析规则的能力。此外，GPT-4o在图像处理上更进一步，不仅限于识别印刷文字，对手写体同样驾轻就熟，能解决数学方程、分析数据，并解读面部表情背后的情感。

语言处理能力方面，GPT-4o展现了其强大的多语言支持，目前可与用户通过20种语言进行音频等形式的互动，最新升级极大地增强了其多语言服务，涉及的语言种类扩展至约50种。

数据处理与性能方面，GPT-4o对比前代GPT-4Turbo及其他竞争模型，展现出显著的优势，传统基准测试结果证明了其卓越性能。

情感智能也是GPT-4o的一大突破。在演示中，当用户表达紧张情绪时，GPT-4o以类似朋友的口吻进行安慰，并引导用户进行深呼吸放松，实时分析呼吸声以给出恰当建议，实现了交互体验的情感共鸣。

响应速度方面，GPT-4o的提升令人瞩目，最快可在232毫秒内反馈对话，平均响应时间仅320毫秒，几近人类自然交流的速度，极大提升了与ChatGPT交流的流畅度，较GPT-3.5有质的飞跃。

值得注意的是，GPT-4o在一定范围内提供了免费使用的机会。它在英语及编程领域的表现与GPT-4Turbo持平，非英语文本处理能力显著增强，同时，API速度加快，速率限制放宽五倍，成本却降低了50%，践行了OpenAI让更多人免费体验高端AI技术的愿景。

OpenAI的高层对GPT-4o寄予厚望，认为它是通向更自然人机交互的重要一步，展示了多模态交互的更高境界，彰显了OpenAI在这一领域的前沿地位和技术领导力。(责任编辑：张佳鑫)

关闭

媒体：GPT-4o更新 AI又来“炸场” 全能交互新时代

相关新闻

今日热点

频道热点