OpenAI新模型:图文音频全搞定
在周二凌晨1点的春季发布会上,OpenAI继“文生视频模型”Sora后再次为市场带来新惊喜。公司CTO米拉·穆拉蒂揭晓了与ChatGPT相关的多项更新,核心内容包括两大方面:一是推出了升级版的GPT-4o多模态大模型,该模型在速度与成本上优于GPT-4 Turbo;二是宣布ChatGPT免费用户也能享用GPT-4o模型,进行复杂数据分析、图像解析、在线搜索及应用商店访问等,预示着GPT应用商店即将迎来用户量的激增。
针对不同用户群体,OpenAI调整了消息限制策略,付费用户将享有更高额度的消息发送权限,而免费用户在配额耗尽后,系统会自动切换至GPT-3.5。未来一个月左右,Plus用户还将迎来基于GPT-4o优化的语音体验,尽管当前API尚未集成语音功能。此外,专为macOS设计的ChatGPT桌面应用即将面世,Windows版本预计年内推出,便于用户通过快捷键互动提问。
米拉·穆拉蒂强调,此次发布标志着公司在易用性上取得重要进展。在演示环节,GPT-4o展现了实时语音交互、情绪感知及多语言翻译等能力,如通过语音识别用户的紧张情绪并给予放松建议,以及实时提供数学问题解答等。GPT-4o还能检测面部表情以判断情绪,并有望与代码库互动,进行数据分析与图像解读。OpenAI新模型:图文音频全搞定。
OpenAI透露,GPT-4o的文本、图像输入功能即日上线,而语音和视频功能预计在未来几周内加入。尽管市场上关于生成式AI的投入与日俱增,2023年已达291亿美元,且预计市场规模将持续膨胀,但也引发了对技术偏见及未经充分测试服务快速普及的担忧。
自2022年11月亮相以来,ChatGPT用户量飞速增长,现接近1亿周活跃用户,深受《财富》500强企业青睐。穆拉蒂承诺,未来数周内,这些创新功能将面向大众开放。她还特别感谢了英伟达提供的先进GPU技术支持。
OpenAI介绍,GPT-4o在音频响应速度上实现了显著提升,最快可在232毫秒内作出反馈,更接近人类对话节奏。此模型整合了文本、音频、图像处理能力,为自然人机交互带来了质的飞跃。虽然目前仍处于探索阶段,GPT-4o展现的潜力预示着AI技术在多模态交互上迈出了重要一步。
5月14日深夜,美国OpenAI公司举办线上“春季更新”活动,揭晓两大核心内容:发布最新旗舰模型GPT-4o及在ChatGPT服务中增添多项免费功能
2024-05-14 07:49:16OpenAI新模型:丝滑如真人5月13日,OpenAI在春季更新活动中揭晓了ChatGPT的新版本,该版本搭载了升级的人工智能模型GPT-4o
2024-05-14 08:45:16OpenAI新模型可读取用户情绪OpenAI于13日在加州的发布会推出了GPT-4o,这是一款强调多模态能力的人工智能模型,面向公众免费开放
2024-05-15 15:50:04OpenAI新模型更“通人性”OpenAI最近发布了万众瞩目的新成果,其中核心亮点是多模态模型GPT-4o,伴随着ChatGPT的新用户界面和桌面版GPT的亮相
2024-05-14 07:51:45有情绪的AI出现了