OpenAI 在为期12天的发布周期中,最终推出了新的推理系列模型o3和o3-mini。这些模型是o1系列的继任者,旨在通过增加思考时间来提高回答准确率。由于版权问题,OpenAI跳过了o2这一命名。
从昨天开始,OpenAI已经开始预热新模型,并且有开发者在网上发现了对o3_min_safety_test的引用。然而,o3系列模型不会直接公开发布,而是先进行安全测试。Sam Altman提到,他们计划在一月底左右推出o3-mini,并在不久后推出完整的o3模型。
o3模型在ARC-AGI基准上取得了突破,成为首个达到该基准优良水平的AI模型。在高效率模式下,o3的最低性能为75.7%,而在低效率模式下则能达到87.5%。ARC-AGI基准要求AI根据输入输出示例寻找规律并预测输出,类似于图形推理问题。尽管每项任务的成本较高,但o3展示了人工智能适应新任务能力的重大飞跃。
不过,报告也指出,ARC-AGI并不是对AGI的严峻考验,通过ARC-AGI并不等于实现AGI。o3在一些简单任务上仍然失败,表明其与人类智能存在根本差异。明年,ARC Prize Fundation将与OpenAI合作开发下一代基准,预计会对o3构成重大挑战。
o3在编码能力和数学问题上的表现也显著提升。在SWE-bench Verified基准上,o3的准确率约为71.7%,比o1高出20%以上。在竞赛数学上,o3的准确率达到96.7%,在GPQA Diamond基准上达到87.7%。此外,在EpochAI Frontier Math基准上,o3的准确率超过25%,而其他产品低于2%。
o3-mini是一个更经济高效的版本,专注于提升推理速度和降低成本。它支持三种不同的推理时间选项——低、中、高。与o1相比,o3-mini在Codeforces上的性能具有显著的成本效益,使其非常适合编程。在数学问题上,o3-mini (low) 实现了与gpt-4o相当的低延迟。
OpenAI已经进行了大量内部安全测试,并正在推进外部安全测试。从即日起,想要参与测试的研究人员可以申请测试o3-mini,而o3的测试则需要等待。申请地址已在OpenAI网站上开放,并将于2025年1月10日关闭。申请者需填写在线表格,提供相关信息,包括之前发表的论文链接及其在Github上的代码库,并选择希望测试的模型及使用目的。
OpenAI还介绍了一种新的安全评估方法:审议式对齐(deliberative alignment)。这种方法直接教授模型安全规范,并训练模型在回答前明确回忆规范并准确执行推理。他们使用这种方法对齐o系列模型,实现了高度精确的安全政策遵守。
北京时间12月6日凌晨,OpenAI举办了“12天12场直播”活动的首秀,推出了推理大模型o1的满血版本和进阶模式,以及每月收费200美元(约合人民币1450元)的ChatGPT Pro订阅服务
2024-12-07 07:31:00OpenAI新功能太强大证券时报提供的信息仅供参考,不构成实质性投资建议,据此操作风险自担。下载“证券时报”官方APP或关注官方微信公众号,可随时了解股市动态,洞察政策信息,把握财富机会。AI领域持续火热
2024-11-28 08:48:05集体大涨!AI中国男篮以101比53大胜关岛队,这是郭士强指导重回中国男篮执教后的首场正式比赛胜利。虽然关岛队只是一支半职业球队,但比赛中仍能看到中国男篮的进步。赛后数据显示,锋线球员曾凡博在比赛中表现出色
2024-11-22 11:16:27惊喜连连?中国男篮重回大中锋7月4日晚,一名初次乘坐飞机的乘客在浙江衢州机场误将国航航班的应急舱门当作厕所门开启,导致滑梯意外弹出。此事得到了衢州机场公安分局的确认,他们透露该事件是由于乘客的无心之失所致,相应航班因此取消
2024-07-05 16:16:38国航航班滑梯深夜意外放出《密室大逃脱6》带着新一季的冒险启程,大神版与明星版的录制工作正如火如荼地进行。目前,节目的前两期已顺利完成录制,第三期大神版也圆满落幕,而明星版正紧随其后,持续拍摄中
2024-07-08 16:57:10吴谨言密室大逃脱路透作为上个月宣布的里程碑式协议的一部分,苹果公司将获得OpenAI董事会观察员职位,进一步加强了这对曾经不太可能合作的伙伴之间的关系。
2024-07-03 10:24:34苹果将获OpenAI董事会观察员职位