中华网 china.com

新闻

复旦教授谈DeepSeek AI界的“鲶鱼”效应

关键词:
2025-02-05 22:00:03  新浪新闻

科技圈从来不缺新闻,但 DeepSeek-R1 的出现却像一颗石子投入平静的湖面,激起了层层涟漪。这家来自中国的 AI 初创公司以其开源的推理大模型 R1 搅动了全球 AI 格局。R1 不仅性能媲美甚至超越 OpenAI o1,还以低廉的成本和开放的姿态赢得了全世界的关注。DeepSeek-R1 的开源策略和高效性能正在迫使整个行业重新思考 AI 的未来。

中国计算机学会青年计算机科学与技术论坛(CCF YOCSEF)近期组织了一场研讨会,邀请了复旦大学邱锡鹏教授、清华大学刘知远长聘副教授、清华大学翟季冬教授以及上海交通大学戴国浩副教授四位专家,从不同角度深入解析了 DeepSeek-R1 的技术突破与未来影响。

要理解 R1 的突破,需要从 o1 类推理模型说起。邱锡鹏认为当前人工智能领域正面临一个重要转折点。此前 Ilya 称“预训练时代可能即将结束”,主要源于数据增长的停滞。OpenAI 开始转向强化学习和推理式计算,试图通过增加推理长度来改进模型性能,为下一代大模型的发展注入新动力。

o1 模型的训练在强化学习框架下进行,大语言模型充当一个 Agent,每个动作生成下一个 token,最终生成整个 step 或 solution。o1 这类大型推理模型可以分为四个核心要素:策略初始化、奖励函数设计、搜索策略和学习过程。策略初始化要求模型具备初始的类人推理行为能力,包括问题理解、任务分解及验证和修正错误的能力。奖励函数设计则涉及从环境中直接获得奖励信号或通过专家偏好数据训练奖励模型。搜索策略包括基于树的搜索和基于顺序修改的搜索。学习过程主要包括使用强化学习和其他方法优化模型,分为预热阶段和强化学习阶段。

R1 发布了两个版本:R1-Zero 和 R1。R1-Zero 完全依靠强化学习驱动,不经过预热阶段,没有任何初始的人工调节。在训练过程中,随着步骤的增加,模型逐渐展现出长文本推理能力,尤其是长链推理,并表现出自我修正能力。不过也存在一些问题,如语言混合的问题。

关闭

拜仁不再给基米希涨薪和签字费 监事会决定不变

拜仁不再给基米希涨薪和签字费2025-03-04 15:48:20

《哪吒2》成香港票房最高内地电影 连续10天登顶票房榜

哪吒2成香港票房最高内地电影2025-03-04 15:46:35

默森质疑阿森纳胜埃因霍温能力 攻击火力成疑

默森质疑阿森纳胜埃因霍温能力2025-03-04 15:46:04

美断供若欧洲砸钱 乌能坚持下去吗

美断供若欧洲砸钱 乌能坚持下去吗2025-03-04 14:15:06

中国国防费连续9年个位数增长 占比低于世界平均水平

中国国防费连续9年个位数增长2025-03-04 15:35:01

俄称结束冲突是一个艰难的过程 俄方揭西方阵营裂痕

俄称结束冲突是一个艰难的过程2025-03-04 13:55:53

库尔德工人党会对土耳其政府服软吗 厄贾兰呼吁解散组织

库尔德工人党会对土耳其政府服软吗2025-03-04 15:31:39

美“援乌资金”至少70%被留美国

美“援乌资金”至少70%被留美国2025-03-04 15:26:59

建议回收动力电池缓解进口依赖 推动规范运营

建议回收动力电池缓解进口依赖2025-03-04 15:39:30

菲律宾一架FA50战机夜间失联 搜救行动进行中

菲律宾一架FA50战机夜间失联2025-03-04 15:27:25

反马斯克浪潮席卷全美:政府效率部引爆社会裂痕

反马斯克浪潮席卷全美,政府效率部引爆社会裂痕,深层矛盾持续发酵2025-03-04 13:22:27

默森质疑阿森纳胜埃因霍温能力 攻击火力成疑

默森质疑阿森纳胜埃因霍温能力2025-03-04 15:46:04

拜仁不再给基米希涨薪和签字费 监事会决定不变

拜仁不再给基米希涨薪和签字费2025-03-04 15:48:20

你以为胸闷只是小事?其实可能是心脏在预警! 了解背后的大隐患

你以为胸闷只是小事,其实可能是心脏在预警2025-03-04 15:31:28

埃梅里:胜利是结果不是目标 专注过程迎接挑战

埃梅里,胜利是结果不是目标2025-03-04 15:40:05

谁来承担乌克兰安全保障 美乌矿产协议引争议

谁来承担乌克兰安全保障2025-03-04 13:31:39

从小鲜肉,到苦大仇深的小老头,泽连斯基是这三年里老得最快的人

大V,泽连斯基3年时间仿佛老10岁2025-03-04 15:33:01

代表建议在全国推行“春秋假” 缓解假日旅游潮汐效应

代表建议在全国推行春秋假2025-03-04 15:42:02

吴彦祖首公开洛杉矶新家 融合五行元素

吴彦祖首公开洛杉矶新家2025-03-04 15:33:03

北京中小学至少配备一名专职心理教师 关注儿童青少年心理健康

北京中小学至少配备一名专职心理教师2025-03-04 15:28:35

专家:乌克兰最大优势是顽强 坚韧面对挑战

专家,乌克兰最大优势是顽强2025-03-04 15:32:35

美政府被曝已暂停向乌克兰输送武器 援助冻结引发担忧

美政府被曝已暂停向乌克兰输送武器2025-03-04 15:10:13

《哪吒2》成香港票房最高内地电影 连续10天登顶票房榜

哪吒2成香港票房最高内地电影2025-03-04 15:46:35

交警暴雪疏导车辆一夜冻成“雪人” 寒潮下的坚守

交警暴雪疏导车辆一夜冻成雪人2025-03-04 15:32:33

代表建议在全国推行春秋假 缓解假日旅游潮汐效应

代表建议在全国推行春秋假2025-03-04 15:44:34

伊尔迪兹:球迷渴望胜利很正常 保持出色表现

伊尔迪兹,球迷渴望胜利很正常2025-03-04 15:38:01

罗马主帅拉涅利被罚款2万欧元 批评裁判遭罚

罗马主帅拉涅利被罚款2万欧元2025-03-04 15:37:28

加拿大将只能靠乌克兰难民抵御美国扩张

加拿大将只能靠乌克兰难民抵御美国扩张2025-03-04 13:57:30

曝申花海港国脚亚冠淘汰赛后直飞西亚 备战18强赛

曝申花海港国脚亚冠淘汰赛后直飞西亚2025-03-04 15:30:58

祖冲之三号再次打破纪录 超导量子计算新突破

祖冲之三号再次打破纪录2025-03-04 15:31:11

英法支持乌克兰能否替代美国援助 欧洲夺回和谈主导权

英法支持乌克兰能否替代美国援助2025-03-04 14:27:23

大S最终墓地敲定 与邓丽君相邻 遗产及监护权问题已解决

大S最终墓地敲定与邓丽君相邻2025-03-04 15:26:57

英首相办公室:对加沙援助不能受阻 呼吁持续停火

英首相办公室,对加沙援助不能受阻2025-03-04 15:24:42

加元墨西哥比索跌至一个月新低 关税风暴冲击汇市

加元墨西哥比索跌至一个月新低2025-03-04 14:51:59

台学者:解放军实弹演习越来越近

台学者:解放军实弹演习越来越近2025-03-04 13:50:52

相关新闻