AI大牛卡帕西盛赞DeepSeek!近日,OpenAI联合创始人、前特斯拉AI总监安德烈·卡帕西在YouTube上发布了一则3.5小时的免费课程,向普通观众全面介绍了大模型的相关知识。他以最近爆火的DeepSeek-R1为例,详细讲解了强化学习技术路径的巨大潜力。
卡帕西指出,在大模型训练体系中,预训练、监督微调和强化学习是三个主要阶段。他认为强化学习是其中最关键的一环,尽管其本质是“试错学习”,但在选择最佳解决方案和提示词分布等方面仍有许多细节需要解决。这些问题目前仅限于各大AI实验室内部,缺乏统一标准。
DeepSeek-R1的研究论文首次公开讨论了强化学习在大语言模型中的应用,并分享了这项技术如何使模型展现出推理能力。卡帕西认为R1在强化学习过程中涌现出的思维能力是最令人难以置信的成效。未来,如果继续在大模型领域对强化学习进行扩展,有望让大模型解锁像AlphaGo那样的“神之一手”,创造出前所未有的思考方式,例如用全新语言进行思考。但前提是需要创造足够大且多样的问题集,让模型能够自由探索解决方案。
强化学习的基本工作方式是让模型在可验证的问题上不断试错,并根据答案正误激励正确行为,最终引导模型提升能力。当前主流的大语言模型训练体系包括预训练、监督微调和强化学习。预训练和监督微调已发展成熟,而强化学习仍处于早期阶段。DeepSeek-R1论文的重要意义在于它是第一篇公开讨论强化学习在大语言模型应用的论文,激发了AI界使用RL训练大语言模型的兴趣,并提供了许多研究结果和技术细节。
DeepSeek在R1论文中展示了R1-Zero在AIME竞赛数学问题上的准确性提升过程。随着强化学习步骤增加,模型准确性持续上升。更令人惊喜的是,模型在这一过程中形成了一套独特的解题方法,倾向于使用更多token来提高准确性。R1在强化学习过程中展现了所谓的“aha moment”,即通过尝试多种想法从不同角度解决问题,显著提升了准确率。这种解决方式类似于人类解决数学问题的模式,但不是靠模仿或硬编码,而是自然涌现的。R1重新发现了人脑的思维过程,自学了思维链(CoT),这是RL应用于大语言模型时最令人难以置信的成效。
最近,社交平台上涌现出大量关于AI算命的讨论。以DeepSeek为代表的AI算命在年轻人中掀起了一股热潮,成为他们在应对婚恋、职场等压力时的“救命稻草”
2025-02-16 19:52:04DeepSeek爆火的启示2025年将是AI商业化落地的重要一年,智能手机行业的竞争尤为激烈。苹果CEO库克曾表示,在已开放使用Apple Intelligence技术的国家内,iPhone 16系列销量更高
2025-02-25 21:09:04分析我们需要更多的DeepSeek。过去几年里,中国大模型从业者们经常被问及中国距离追上ChatGPT还有多远。2025年初,这个问题有了新的答案
2025-02-21 17:49:36DeepSeek爆火十年后,当人们回望2025年时,或许会感慨这一年是时代的转折点。宇树科技的机器人在春晚上惊艳亮相,随后国产AI大模型DeepSeek诞生,并迅速应用于深圳福田区政务系统,提升了公文处理效率和准确率
2025-02-22 00:15:12DeepSeek时代的生存指南DeepSeek今日宣布启动“开源周”,首个开源的代码库为Flash MLA,这是针对Hopper GPU优化的高效MLA解码内核,专门对可变长度序列进行了优化,目前已投入生产
2025-02-24 18:17:43DeepSeek启动开源周