o3在编码能力和数学问题上的表现也显著提升。在SWE-bench Verified基准上,o3的准确率约为71.7%,比o1高出20%以上。在竞赛数学上,o3的准确率达到96.7%,在GPQA Diamond基准上达到87.7%。此外,在EpochAI Frontier Math基准上,o3的准确率超过25%,而其他产品低于2%。
o3-mini是一个更经济高效的版本,专注于提升推理速度和降低成本。它支持三种不同的推理时间选项——低、中、高。与o1相比,o3-mini在Codeforces上的性能具有显著的成本效益,使其非常适合编程。在数学问题上,o3-mini (low) 实现了与gpt-4o相当的低延迟。
OpenAI已经进行了大量内部安全测试,并正在推进外部安全测试。从即日起,想要参与测试的研究人员可以申请测试o3-mini,而o3的测试则需要等待。申请地址已在OpenAI网站上开放,并将于2025年1月10日关闭。申请者需填写在线表格,提供相关信息,包括之前发表的论文链接及其在Github上的代码库,并选择希望测试的模型及使用目的。
北京时间12月6日凌晨,OpenAI举办了“12天12场直播”活动的首秀,推出了推理大模型o1的满血版本和进阶模式,以及每月收费200美元(约合人民币1450元)的ChatGPT Pro订阅服务
2024-12-07 07:31:00OpenAI新功能太强大证券时报提供的信息仅供参考,不构成实质性投资建议,据此操作风险自担。下载“证券时报”官方APP或关注官方微信公众号,可随时了解股市动态,洞察政策信息,把握财富机会。AI领域持续火热
2024-11-28 08:48:05集体大涨!AI中国男篮以101比53大胜关岛队,这是郭士强指导重回中国男篮执教后的首场正式比赛胜利。虽然关岛队只是一支半职业球队,但比赛中仍能看到中国男篮的进步。赛后数据显示,锋线球员曾凡博在比赛中表现出色
2024-11-22 11:16:27惊喜连连?中国男篮重回大中锋7月4日晚,一名初次乘坐飞机的乘客在浙江衢州机场误将国航航班的应急舱门当作厕所门开启,导致滑梯意外弹出。此事得到了衢州机场公安分局的确认,他们透露该事件是由于乘客的无心之失所致,相应航班因此取消
2024-07-05 16:16:38国航航班滑梯深夜意外放出《密室大逃脱6》带着新一季的冒险启程,大神版与明星版的录制工作正如火如荼地进行。目前,节目的前两期已顺利完成录制,第三期大神版也圆满落幕,而明星版正紧随其后,持续拍摄中
2024-07-08 16:57:10吴谨言密室大逃脱路透作为上个月宣布的里程碑式协议的一部分,苹果公司将获得OpenAI董事会观察员职位,进一步加强了这对曾经不太可能合作的伙伴之间的关系。
2024-07-03 10:24:34苹果将获OpenAI董事会观察员职位