中华网 china.com

新闻

AI大牛卡帕西盛赞DeepSeek 强化学习展现巨大潜力

关键词:
2025-02-13 12:54:17  智东西

AI大牛卡帕西盛赞DeepSeek!近日,OpenAI联合创始人、前特斯拉AI总监安德烈·卡帕西在YouTube上发布了一则3.5小时的免费课程,向普通观众全面介绍了大模型的相关知识。他以最近爆火的DeepSeek-R1为例,详细讲解了强化学习技术路径的巨大潜力。

卡帕西指出,在大模型训练体系中,预训练、监督微调和强化学习是三个主要阶段。他认为强化学习是其中最关键的一环,尽管其本质是“试错学习”,但在选择最佳解决方案和提示词分布等方面仍有许多细节需要解决。这些问题目前仅限于各大AI实验室内部,缺乏统一标准。

DeepSeek-R1的研究论文首次公开讨论了强化学习在大语言模型中的应用,并分享了这项技术如何使模型展现出推理能力。卡帕西认为R1在强化学习过程中涌现出的思维能力是最令人难以置信的成效。未来,如果继续在大模型领域对强化学习进行扩展,有望让大模型解锁像AlphaGo那样的“神之一手”,创造出前所未有的思考方式,例如用全新语言进行思考。但前提是需要创造足够大且多样的问题集,让模型能够自由探索解决方案。

强化学习的基本工作方式是让模型在可验证的问题上不断试错,并根据答案正误激励正确行为,最终引导模型提升能力。当前主流的大语言模型训练体系包括预训练、监督微调和强化学习。预训练和监督微调已发展成熟,而强化学习仍处于早期阶段。DeepSeek-R1论文的重要意义在于它是第一篇公开讨论强化学习在大语言模型应用的论文,激发了AI界使用RL训练大语言模型的兴趣,并提供了许多研究结果和技术细节。

DeepSeek在R1论文中展示了R1-Zero在AIME竞赛数学问题上的准确性提升过程。随着强化学习步骤增加,模型准确性持续上升。更令人惊喜的是,模型在这一过程中形成了一套独特的解题方法,倾向于使用更多token来提高准确性。R1在强化学习过程中展现了所谓的“aha moment”,即通过尝试多种想法从不同角度解决问题,显著提升了准确率。这种解决方式类似于人类解决数学问题的模式,但不是靠模仿或硬编码,而是自然涌现的。R1重新发现了人脑的思维过程,自学了思维链(CoT),这是RL应用于大语言模型时最令人难以置信的成效。

关闭

女子按摩肩颈后急性脑梗死进了ICU

女子按摩肩颈后急性脑梗死进了ICU2025-03-04 09:13:33

《仁心俱乐部》,笑着笑着就默泪了 医生的笑与泪

仁心俱乐部,笑着笑着就默泪了2025-03-04 09:11:55

意甲:尤文2-0完胜维罗纳 图拉姆破门 库普梅纳斯建功 尤文豪取5连胜

意甲,尤文2-0完胜维罗纳图拉姆破门库普梅纳斯建功2025-03-04 09:11:37

特朗普再言“忍不了”泽连斯基 争执未停歇

特朗普再言忍不了泽连斯基2025-03-04 08:17:20

村民家中煤气罐泄漏喷火 消防出手 厨房用火需谨慎

村民家中煤气罐泄漏喷火消防出手2025-03-04 09:04:30

泰国政府研究建隔离墙 探讨边境管控新措施

泰国政府研究建隔离墙2025-03-04 08:16:57

没等大陆动手,马斯克先收了“台独”分子的饭碗

没等大陆动手,马斯克先收了台独分子的饭碗2025-03-04 08:16:38

泽连斯基10年间从意气风发到憔悴 命运巨变

泽连斯基10年间从意气风发到憔悴2025-03-04 08:18:56

赖因德斯:能在来到米兰一年半之后续约 我真的很自豪 感激与期待未来

赖因德斯,能在来到米兰一年半之后续约我真的很自豪2025-03-04 09:06:15

中方谈美国鼓动他国对华加税 贸易战无赢家

中方谈美国鼓动他国对华加税2025-03-04 09:11:19

美再次对华加征10%关税 中方坚决反对 强烈不满美方威胁

美再次对华加征10%关税中方坚决反对2025-03-04 09:04:07

网易游戏发文致歉 网络故障已解决

网易游戏发文致歉2025-03-04 09:03:46

阿诺拉奥斯卡最佳原创剧本 五项大奖闪耀颁奖夜

阿诺拉奥斯卡最佳原创剧本2025-03-04 09:09:10

特朗普:对泽连斯基不会再忍了 美乌关系紧张升级

特朗普,对泽连斯基不会再忍了2025-03-04 08:59:07

大V:乌克兰将面临三大严峻情况 盟友或成幕后推手

大V,乌克兰将面临三大严峻情况2025-03-04 08:23:21

女子按摩肩颈后急性脑梗死进了ICU

女子按摩肩颈后急性脑梗死进了ICU2025-03-04 09:13:33

巴菲特罕见发声 关税或引发通胀

巴菲特罕见发声2025-03-04 08:19:38

陈晓离婚后状态 首次公开露面精神饱满

陈晓离婚后状态2025-03-04 09:02:22

外媒称特朗普上任后欧盟和中国走近 大国博弈新篇章

外媒称特朗普上任后欧盟和中国走近2025-03-04 08:19:15

外卖员雪天路边睡着 误会解开身体无恙

外卖员雪天路边睡着2025-03-04 09:01:53

《仁心俱乐部》,笑着笑着就默泪了 医生的笑与泪

仁心俱乐部,笑着笑着就默泪了2025-03-04 09:11:55

外交部驳斥鲁比奥涉华言论 回击冷战思维

外交部驳斥鲁比奥涉华言论2025-03-04 08:48:05

专家:美加征汽车关税想“一石三鸟” 盟友反弹强烈

专家,美加征汽车关税想一石三鸟2025-03-04 08:23:10

意甲:尤文2-0完胜维罗纳 图拉姆破门 库普梅纳斯建功 尤文豪取5连胜

意甲,尤文2-0完胜维罗纳图拉姆破门库普梅纳斯建功2025-03-04 09:11:37

中国空军赴哈瓦那看望古巴飞行员老爷爷 温暖的双向奔赴

中国空军赴哈瓦那看望古巴飞行员老爷爷2025-03-04 08:19:26

泽连斯基发视频感谢美国 白宫会晤风波后示好

泽连斯基发视频感谢美国2025-03-04 09:11:03

是否会向乌克兰派遣维和部队?中方回应 支持和平解决危机

是否会向乌克兰派遣维和部队,中方回应2025-03-04 08:24:42

阚清子被曝怀孕后现身机场 孕后状态成焦点

阚清子被曝怀孕后现身机场2025-03-04 09:00:28

金价大跳水入手即亏 金饰价格断崖式下调

金价大跳水入手即亏2025-03-04 09:02:05

特朗普确认对加墨征收关税 美股重挫 市场恐慌情绪升高

特朗普确认对加墨征收关税美股重挫2025-03-04 08:21:26

巴格拉姆空军基地被中国接管?阿富汗驳斥美方 情绪化言论遭批

巴格拉姆空军基地被中国接管,阿富汗驳斥美方2025-03-04 08:26:27

美乌谈崩 北约或成最大输家 美国两党内斗外溢

美乌谈崩北约或成最大输家2025-03-04 08:23:49

欧洲提出的俄乌和平方案能实现吗 欧洲挺身而出争夺主导权

欧洲提出的俄乌和平方案能实现吗2025-03-04 08:23:32

网友留言贾乃亮多关心甜馨 重视女儿心理健康

网友留言贾乃亮多关心甜馨2025-03-04 09:00:02

一男子全家六人患肠癌:兄妹7人5人确诊肠癌

兄妹7人5人确诊肠癌,一男子全家六人患肠癌2025-03-04 09:06:41

相关新闻

×