科技圈从来不缺新闻,但 DeepSeek-R1 的出现却像一颗石子投入平静的湖面,激起了层层涟漪。这家来自中国的 AI 初创公司以其开源的推理大模型 R1 搅动了全球 AI 格局。R1 不仅性能媲美甚至超越 OpenAI o1,还以低廉的成本和开放的姿态赢得了全世界的关注。DeepSeek-R1 的开源策略和高效性能正在迫使整个行业重新思考 AI 的未来。
中国计算机学会青年计算机科学与技术论坛(CCF YOCSEF)近期组织了一场研讨会,邀请了复旦大学邱锡鹏教授、清华大学刘知远长聘副教授、清华大学翟季冬教授以及上海交通大学戴国浩副教授四位专家,从不同角度深入解析了 DeepSeek-R1 的技术突破与未来影响。
要理解 R1 的突破,需要从 o1 类推理模型说起。邱锡鹏认为当前人工智能领域正面临一个重要转折点。此前 Ilya 称“预训练时代可能即将结束”,主要源于数据增长的停滞。OpenAI 开始转向强化学习和推理式计算,试图通过增加推理长度来改进模型性能,为下一代大模型的发展注入新动力。
o1 模型的训练在强化学习框架下进行,大语言模型充当一个 Agent,每个动作生成下一个 token,最终生成整个 step 或 solution。o1 这类大型推理模型可以分为四个核心要素:策略初始化、奖励函数设计、搜索策略和学习过程。策略初始化要求模型具备初始的类人推理行为能力,包括问题理解、任务分解及验证和修正错误的能力。奖励函数设计则涉及从环境中直接获得奖励信号或通过专家偏好数据训练奖励模型。搜索策略包括基于树的搜索和基于顺序修改的搜索。学习过程主要包括使用强化学习和其他方法优化模型,分为预热阶段和强化学习阶段。
R1 发布了两个版本:R1-Zero 和 R1。R1-Zero 完全依靠强化学习驱动,不经过预热阶段,没有任何初始的人工调节。在训练过程中,随着步骤的增加,模型逐渐展现出长文本推理能力,尤其是长链推理,并表现出自我修正能力。不过也存在一些问题,如语言混合的问题。
在当今社会,年轻人的生活观念正在经历深刻的变革,他们站在时代的交叉口,面对诸多挑战与迷茫。他们不仅仅追求物质满足,更渴望精神层面的富足与自由,试图在纷繁复杂的世界中,开辟出独一无二的生活路径
2024-09-22 22:40:21复旦教授梁永安评半熟男女复旦大学教授梁永安是一位年轻人颇为喜欢的“专家”,经常在网络上给“95后”、“00后”解答人生烦恼。
2024-10-30 10:42:24复旦教授提倡有条件年轻人啃几年老近日,复旦大学一位教授关于“婚姻是最大的幸福来源”的言论引发了广泛关注和讨论。婚姻这一话题自古以来就触动人心,该教授的观点为人们提供了新的思考角度。从传统角度来看,婚姻被视为幸福的基础
2025-02-15 13:22:18复旦教授称婚姻是最大的幸福来源