中华网 china.com

新闻

DeepSeek新模型让硅谷“失眠” 开源阵营的“反击夜”(4)

关键词:
2025-12-04 13:38:15  澎湃

这一判断并非空穴来风。过去一段时间,不少企业率先感受到的是:单纯“更会聊天”的模型,其业务边际效益在不断递减。反而是会“下手干活”的Agent,比如自动生成月报、批量处理客服工单、自动跑流程、替程序员修小bug,才是真正能闭环并被愿意付费的东西。

DeepSeek正是围绕这一趋势重构了训练路径——在V3.2的后训练阶段,它搭了一整套针对Agent的训练体系,而不是简单在模型外再缝一个“Agent框架”。据披露,团队自建了超过1800个模拟环境,并围绕这些环境自动生成了大约8.5万条复杂任务提示和任务轨迹。这些轨迹不是靠人工一条条写出来,而是借助环境构建器和轨迹打分系统自动合成,再通过强化学习不断迭代。

这种做法,实际上是在绕开“继续砸海量对话数据”的老路。与传统的聊天语料相比,Agent任务具备更强的结构化、可验证性以及高度稀缺性——一旦建立起足够丰富的任务环境,同一环境在后续训练中可以被反复利用,带来的“能力增量”要远高于再加一批闲聊对话。

为了让模型真正学会在这些环境里“行动”,DeepSeek继续沿用了GRPO(Group Relative Policy Optimization)这一强化学习策略,并按自家场景做了大量本地化改造。模型训练优化的目标,不再只是“回答对不对”,而是同时要兼顾:任务有没有完成、推理过程是否连贯、语言表达是否稳定、工具使用是否合理自然。为此,DeepSeek没有采用单一维度的奖励,而是把任务完成度、推理合理性、语言质量等拆成多维信号,让模型在训练中尽量避免“顾此失彼”。

做这一切,还有一个前提:模型要有足够强的“状态感知能力”,能在多轮任务中记住自己已经做过什么、当前在第几步。这就回到了前面提到的上下文管理——V3.2在系统级别规定:只有当用户发出新指令时,模型才会重置思考状态;在同一个任务内部,不论调用多少次工具,推理轨迹都被完整保留下来。这种设计直接保证了Agent行为链条的连续性,使得模型有能力承接更长、更复杂的跨阶段任务。

关闭

日本网站回应招聘抹黑中国人剧本写手 违规信息已被下架

日本网站回应招聘抹黑中国人剧本写手2025-12-04 13:37:47

东南亚的这轮暴雨为何这么“凶”?三百年一遇的暴击

东南亚的这轮暴雨为何这么凶"2025-12-04 13:35:58

特朗普心腹将会见乌方代表 通报莫斯科会谈情况

特朗普心腹将会见乌方代表2025-12-04 13:35:28

中方坚决反对日本挑战战后国际秩序、为军国主义招魂

是谁在为日本军国主义招魂2025-12-04 13:08:22

北京明后两天晴朗气温回升 早晚寒冷注意保暖 午间适宜户外活动

北京明后两天晴朗气温回升早晚寒冷注意保暖2025-12-04 13:33:22

大国五年|澎湃内需,铸就发展主锚 消费引擎强劲驱动

大国五年|澎湃内需,铸就发展主锚2025-12-04 13:26:01

日本着急替马克龙做决定!

日本着急替马克龙做决定2025-12-04 13:20:00

小伙埋头吃羊排头发着火还不忘点赞!

小伙埋头吃羊排头发着火还不忘点赞2025-12-04 13:18:38

高市早苗的玩梗式营销翻车 外交场合失分寸

高市早苗的玩梗式营销翻车2025-12-04 11:51:05

马克龙访华,为何去成都?:探寻合作新窗口

马克龙访华,为何去成都2025-12-04 13:23:21

日本网站回应招聘抹黑中国人剧本写手 违规信息已被下架

日本网站回应招聘抹黑中国人剧本写手2025-12-04 13:37:47

台小学校歌唱中国人绿营破防 蒋万安回应台小学校歌唱中国人

台小学校歌唱中国人绿营破防2025-12-04 13:18:58

日本宫古岛居民担心岛屿变战场 安全与生存的错位

日本宫古岛居民担心岛屿变战场2025-12-04 13:30:41

失去亲信的泽连斯基还能坚持多久 生死抉择

失去亲信的泽连斯基还能坚持多久2025-12-04 13:05:10

中国准航母舰队或绕澳航行 澳海军无法应对 实力悬殊引发担忧

中国准航母舰队或绕澳航行澳海军无法应对2025-12-04 13:31:09

美媒:美国议员首次公开一批爱泼斯坦私人岛屿的照片与视频

爱泼斯坦私人岛屿的照片被公开2025-12-04 11:53:26

乌狙击手平原上穿着伪装衣一动不动 被俄无人机瞬间发现遭袭身亡

乌狙击手平原上穿着伪装衣一动不动 被俄无人机瞬间发现遭袭身亡2025-12-04 11:50:17

办公电脑里的聊天记录被公司擅自恢复,该由谁做主?

办公电脑里的聊天记录被公司擅自恢复2025-12-04 13:23:37

王曼昱采访结束试图钻围栏离场 王曼昱是不是忘了自己的身高

王曼昱采访结束试图钻围栏离场2025-12-04 13:20:53

特朗普心腹将会见乌方代表 通报莫斯科会谈情况

特朗普心腹将会见乌方代表2025-12-04 13:35:28

钧正平:谁在为日本军国主义“招魂” 复活的幽灵再现

钧正平,谁在为日本军国主义招魂2025-12-04 13:10:19

女子跟风做趾压板超慢跑脚底喷血 健身变伤身

女子跟风做趾压板超慢跑脚底喷血2025-12-04 13:31:26

美国若对委内瑞拉动武面临哪些问题 师出无名且代价高昂

美国若对委内瑞拉动武面临哪些问题2025-12-04 11:54:55

美飞行表演队F-16坠毁背后有何原因 维护与管理挑战

美飞行表演队F-16坠毁背后有何原因2025-12-04 11:51:46

埃尔多安谴责乌克兰 局势升级威胁黑海安全

埃尔多安谴责乌克兰2025-12-04 13:28:50

我国科学家取得量子研究新进展 实现爱因斯坦思想实验

我国科学家取得量子研究新进展2025-12-04 13:26:20

丈夫被精神病人杀害妻子忆事发过程!

丈夫被精神病人杀害妻子忆事发过程2025-12-04 13:30:39

很快开展陆上打击?美威胁加剧,知情人士:马杜罗每夜更换睡觉地点 局势紧张升级

很快开展陆上打击,美威胁加剧,知情人士,马杜罗每夜更换睡觉地点2025-12-04 11:53:43

日本学者:高市破坏《中日联合声明》干涉中国内政

日本学者,高市破坏中日联合声明2025-12-04 11:53:03

日本持续推进核污染水排海!

日本持续推进核污染水排海2025-12-04 13:17:22

黄仁勋:华为是强大的科技公司之一 中国AI技术崛起引发关注

黄仁勋,华为是强大的科技公司之一2025-12-04 13:25:41

专家提醒美国日本能重演珍珠港事件 历史不会重演

专家提醒美国日本能重演珍珠港事件2025-12-04 11:51:26

东南亚的这轮暴雨为何这么“凶”?三百年一遇的暴击

东南亚的这轮暴雨为何这么凶"2025-12-04 13:35:58

日本拟打造宇宙作战集团 推进太空军事化

日本拟打造宇宙作战集团2025-12-04 13:14:34

女子收养流浪狗后被领着去见狗宝宝:善意被懂得,信任有了回应

女子收养流浪狗后被领着去见狗宝宝2025-12-04 13:21:23

相关新闻