中华网 china.com

新闻

刚刚,OpenAI放出最后大惊喜o3,高计算模式每任务花费数千美元 突破ARC-AGI基准

关键词:
2024-12-22 10:22:16  机器之心Pro

OpenAI 在为期12天的发布周期中,最终推出了新的推理系列模型o3和o3-mini。这些模型是o1系列的继任者,旨在通过增加思考时间来提高回答准确率。由于版权问题,OpenAI跳过了o2这一命名。

刚刚,OpenAI放出最后大惊喜o3,高计算模式每任务花费数千美元

从昨天开始,OpenAI已经开始预热新模型,并且有开发者在网上发现了对o3_min_safety_test的引用。然而,o3系列模型不会直接公开发布,而是先进行安全测试。Sam Altman提到,他们计划在一月底左右推出o3-mini,并在不久后推出完整的o3模型。

刚刚,OpenAI放出最后大惊喜o3,高计算模式每任务花费数千美元 突破ARC-AGI基准

o3模型在ARC-AGI基准上取得了突破,成为首个达到该基准优良水平的AI模型。在高效率模式下,o3的最低性能为75.7%,而在低效率模式下则能达到87.5%。ARC-AGI基准要求AI根据输入输出示例寻找规律并预测输出,类似于图形推理问题。尽管每项任务的成本较高,但o3展示了人工智能适应新任务能力的重大飞跃。

刚刚,OpenAI放出最后大惊喜o3,高计算模式每任务花费数千美元 突破ARC-AGI基准

不过,报告也指出,ARC-AGI并不是对AGI的严峻考验,通过ARC-AGI并不等于实现AGI。o3在一些简单任务上仍然失败,表明其与人类智能存在根本差异。明年,ARC Prize Fundation将与OpenAI合作开发下一代基准,预计会对o3构成重大挑战。

刚刚,OpenAI放出最后大惊喜o3,高计算模式每任务花费数千美元 突破ARC-AGI基准

o3在编码能力和数学问题上的表现也显著提升。在SWE-bench Verified基准上,o3的准确率约为71.7%,比o1高出20%以上。在竞赛数学上,o3的准确率达到96.7%,在GPQA Diamond基准上达到87.7%。此外,在EpochAI Frontier Math基准上,o3的准确率超过25%,而其他产品低于2%。

刚刚,OpenAI放出最后大惊喜o3,高计算模式每任务花费数千美元 突破ARC-AGI基准

o3-mini是一个更经济高效的版本,专注于提升推理速度和降低成本。它支持三种不同的推理时间选项——低、中、高。与o1相比,o3-mini在Codeforces上的性能具有显著的成本效益,使其非常适合编程。在数学问题上,o3-mini (low) 实现了与gpt-4o相当的低延迟。

刚刚,OpenAI放出最后大惊喜o3,高计算模式每任务花费数千美元 突破ARC-AGI基准

OpenAI已经进行了大量内部安全测试,并正在推进外部安全测试。从即日起,想要参与测试的研究人员可以申请测试o3-mini,而o3的测试则需要等待。申请地址已在OpenAI网站上开放,并将于2025年1月10日关闭。申请者需填写在线表格,提供相关信息,包括之前发表的论文链接及其在Github上的代码库,并选择希望测试的模型及使用目的。

刚刚,OpenAI放出最后大惊喜o3,高计算模式每任务花费数千美元 突破ARC-AGI基准

OpenAI还介绍了一种新的安全评估方法:审议式对齐(deliberative alignment)。这种方法直接教授模型安全规范,并训练模型在回答前明确回忆规范并准确执行推理。他们使用这种方法对齐o系列模型,实现了高度精确的安全政策遵守。

刚刚,OpenAI放出最后大惊喜o3,高计算模式每任务花费数千美元 突破ARC-AGI基准

刚刚,OpenAI放出最后大惊喜o3,高计算模式每任务花费数千美元 突破ARC-AGI基准

(责任编辑:张蕾)
关闭

买冲锋衣一定要看湿透率 选对标准更安心

买冲锋衣一定要看湿透率2024-12-22 10:21:57

特朗普说加拿大成美国第51个州是好主意 补贴争议再起

特朗普说加拿大成美国第51个州是好主意2024-12-22 10:20:57

“学霸就餐区”与“考研萌宠区”舆论天差地别 创新管理与人文关怀如何结合?:成功与公平的平衡之道

学霸就餐区与考研萌宠区舆论天差地别 创新管理与人文关怀如何结合2024-12-22 10:20:40

法国最高法院就萨科齐贪腐案最终裁决:萨科齐获刑3年 无需入狱佩戴电子手环

法国最高法院就萨科齐贪腐案最终裁决,萨科齐获刑3年2024-12-20 15:25:58

张颂文一年一部破万剧 古装探案新高度

张颂文一年一部破万剧2024-12-22 10:15:00

俄苏34战斗机轰炸俄境内乌军

俄苏34战斗机轰炸俄境内乌军2024-12-20 13:34:27

菲律宾在南海升级挑衅 中国反制加强奉陪到底

菲律宾在南海升级挑衅中国反制加强奉陪到底2024-12-20 16:38:27

应声大跌近15%!近一个月12家上市公司公告终止并购重组 市场波动影响显著

应声大跌近15%,近一个月12家上市公司公告终止并购重组2024-12-22 10:13:00

“学霸就餐区”与“考研萌宠区”舆论天差地别 创新管理与人文关怀如何结合?:成功与公平的平衡之道

学霸就餐区与考研萌宠区舆论天差地别 创新管理与人文关怀如何结合2024-12-22 10:20:40

以军被爆在加沙进行杀人比赛 任意射杀平民引发争议

以军被爆在加沙进行杀人比赛2024-12-20 13:16:44

机构密集调研豆包概念股!龙头12天7板,热门股名单来了 AI应用加速落地

机构密集调研豆包概念股,龙头12天7板,热门股名单来了2024-12-22 10:11:16

美国医疗制度是如何敲诈勒索美国人的 民众愤怒背后的深层原因

美国医疗制度是如何敲诈勒索美国人的2024-12-20 13:17:08

剪刀脚锁喉!台立法机构又爆冲突

剪刀脚锁喉!台立法机构又爆冲突2024-12-20 15:03:36

普京谈叙利亚政权更迭 快速反应背后的考量

普京谈叙利亚政权更迭2024-12-20 15:44:26

复盘马竞2-1巴萨:第96分钟绝杀12连胜登顶,西蒙尼靠沉稳击败弗里克 逆转取胜展雄风

复盘马竞2-1巴萨,第96分钟绝杀12连胜登顶,西蒙尼靠沉稳击败弗里克2024-12-22 10:20:16

解放军驻澳门部队为何被称为“静音”部队?不扰民的贴心举措

解放军驻澳门部队为何被称为静音部队2024-12-20 15:28:00

从业者称马斯克具有超强的解构能力

从业者称马斯克具有超强的解构能力2024-12-20 15:04:42

世俱杯迎来“中国德比” 朱婷和李盈莹在决赛会师 津旅科内巅峰对决

世俱杯迎来中国德比朱婷和李盈莹在决赛会师2024-12-22 10:13:17

汽油大涨价!22日92、95号汽油价格 预计上调55元/吨

汽油大涨价,22日92,95号汽油价格2024-12-22 10:11:02

本轮巴以冲突已致加沙地带45129人死亡 伤亡人数持续攀升

本轮巴以冲突已致加沙地带45129人死亡2024-12-20 15:43:53

刘强东,又拿下一块金融牌照 京东金融版图再扩张

刘强东,又拿下一块金融牌照2024-12-22 10:15:11

布林肯称援乌是给特朗普谈判留好牌 拜登移交北约架空特朗普权力

布林肯称援乌是给特朗普谈判留好牌2024-12-20 14:44:58

新能源货车为何投保屡遭拒 车主困境待解

新能源货车为何投保屡遭拒2024-12-22 10:17:22

张娜拉获SBS演技大赏 《好搭档》夺最高荣誉

张娜拉获SBS演技大赏2024-12-22 10:18:16

普京称主权至关重要应该深植于心

普京称主权至关重要应该深植于心2024-12-20 15:06:36

买冲锋衣一定要看湿透率 选对标准更安心

买冲锋衣一定要看湿透率2024-12-22 10:21:57

美称仍援乌是为给特朗普谈判留好牌

美称仍援乌是为给特朗普谈判留好牌2024-12-20 15:05:09

日方进入驻日美军基地调查污染物泄漏事件 多部门联合行动

日方进入驻日美军基地调查污染物泄漏事件2024-12-20 15:23:31

特朗普托安倍妻子转交石破茂书籍

特朗普托安倍妻子转交石破茂书籍2024-12-20 15:41:58

记者回忆我是刑警中周克华杀人案 8年残忍历程震动全国

记者回忆我是刑警中周克华杀人案2024-12-22 10:16:38

特朗普说加拿大成美国第51个州是好主意 补贴争议再起

特朗普说加拿大成美国第51个州是好主意2024-12-22 10:20:57

俄罗斯圣彼得堡市一银行发生爆炸 嫌疑人被捕并立案调查

俄罗斯圣彼得堡市一银行发生爆炸2024-12-22 10:13:36

相关新闻