AI大牛卡帕西盛赞DeepSeek 强化学习展现巨大潜力

小大

用微信扫描二维码
分享至好友和朋友圈

关键词：

2025-02-13 12:54:17 智东西

AI大牛卡帕西盛赞DeepSeek！近日，OpenAI联合创始人、前特斯拉AI总监安德烈·卡帕西在YouTube上发布了一则3.5小时的免费课程，向普通观众全面介绍了大模型的相关知识。他以最近爆火的DeepSeek-R1为例，详细讲解了强化学习技术路径的巨大潜力。

卡帕西指出，在大模型训练体系中，预训练、监督微调和强化学习是三个主要阶段。他认为强化学习是其中最关键的一环，尽管其本质是“试错学习”，但在选择最佳解决方案和提示词分布等方面仍有许多细节需要解决。这些问题目前仅限于各大AI实验室内部，缺乏统一标准。

DeepSeek-R1的研究论文首次公开讨论了强化学习在大语言模型中的应用，并分享了这项技术如何使模型展现出推理能力。卡帕西认为R1在强化学习过程中涌现出的思维能力是最令人难以置信的成效。未来，如果继续在大模型领域对强化学习进行扩展，有望让大模型解锁像AlphaGo那样的“神之一手”，创造出前所未有的思考方式，例如用全新语言进行思考。但前提是需要创造足够大且多样的问题集，让模型能够自由探索解决方案。

强化学习的基本工作方式是让模型在可验证的问题上不断试错，并根据答案正误激励正确行为，最终引导模型提升能力。当前主流的大语言模型训练体系包括预训练、监督微调和强化学习。预训练和监督微调已发展成熟，而强化学习仍处于早期阶段。DeepSeek-R1论文的重要意义在于它是第一篇公开讨论强化学习在大语言模型应用的论文，激发了AI界使用RL训练大语言模型的兴趣，并提供了许多研究结果和技术细节。

DeepSeek在R1论文中展示了R1-Zero在AIME竞赛数学问题上的准确性提升过程。随着强化学习步骤增加，模型准确性持续上升。更令人惊喜的是，模型在这一过程中形成了一套独特的解题方法，倾向于使用更多token来提高准确性。R1在强化学习过程中展现了所谓的“aha moment”，即通过尝试多种想法从不同角度解决问题，显著提升了准确率。这种解决方式类似于人类解决数学问题的模式，但不是靠模仿或硬编码，而是自然涌现的。R1重新发现了人脑的思维过程，自学了思维链（CoT），这是RL应用于大语言模型时最令人难以置信的成效。

12 全文共 2 页下一页

关闭

AI大牛卡帕西盛赞DeepSeek 强化学习展现巨大潜力

相关新闻

今日热点

频道热点