DeepSeek新模型让硅谷“失眠” 开源阵营的“反击夜”(4)

小大

用微信扫描二维码
分享至好友和朋友圈

关键词：

2025-12-04 13:38:15 澎湃

这一判断并非空穴来风。过去一段时间，不少企业率先感受到的是：单纯“更会聊天”的模型，其业务边际效益在不断递减。反而是会“下手干活”的Agent，比如自动生成月报、批量处理客服工单、自动跑流程、替程序员修小bug，才是真正能闭环并被愿意付费的东西。

DeepSeek正是围绕这一趋势重构了训练路径——在V3.2的后训练阶段，它搭了一整套针对Agent的训练体系，而不是简单在模型外再缝一个“Agent框架”。据披露，团队自建了超过1800个模拟环境，并围绕这些环境自动生成了大约8.5万条复杂任务提示和任务轨迹。这些轨迹不是靠人工一条条写出来，而是借助环境构建器和轨迹打分系统自动合成，再通过强化学习不断迭代。

这种做法，实际上是在绕开“继续砸海量对话数据”的老路。与传统的聊天语料相比，Agent任务具备更强的结构化、可验证性以及高度稀缺性——一旦建立起足够丰富的任务环境，同一环境在后续训练中可以被反复利用，带来的“能力增量”要远高于再加一批闲聊对话。

为了让模型真正学会在这些环境里“行动”，DeepSeek继续沿用了GRPO（Group Relative Policy Optimization）这一强化学习策略，并按自家场景做了大量本地化改造。模型训练优化的目标，不再只是“回答对不对”，而是同时要兼顾：任务有没有完成、推理过程是否连贯、语言表达是否稳定、工具使用是否合理自然。为此，DeepSeek没有采用单一维度的奖励，而是把任务完成度、推理合理性、语言质量等拆成多维信号，让模型在训练中尽量避免“顾此失彼”。

做这一切，还有一个前提：模型要有足够强的“状态感知能力”，能在多轮任务中记住自己已经做过什么、当前在第几步。这就回到了前面提到的上下文管理——V3.2在系统级别规定：只有当用户发出新指令时，模型才会重置思考状态；在同一个任务内部，不论调用多少次工具，推理轨迹都被完整保留下来。这种设计直接保证了Agent行为链条的连续性，使得模型有能力承接更长、更复杂的跨阶段任务。

首页上一页 1 2 345 6 7 全文共 7 页下一页

关闭

DeepSeek新模型让硅谷“失眠” 开源阵营的“反击夜”(4)

相关新闻

今日热点

频道热点