这一判断并非空穴来风。过去一段时间,不少企业率先感受到的是:单纯“更会聊天”的模型,其业务边际效益在不断递减。反而是会“下手干活”的Agent,比如自动生成月报、批量处理客服工单、自动跑流程、替程序员修小bug,才是真正能闭环并被愿意付费的东西。
DeepSeek正是围绕这一趋势重构了训练路径——在V3.2的后训练阶段,它搭了一整套针对Agent的训练体系,而不是简单在模型外再缝一个“Agent框架”。据披露,团队自建了超过1800个模拟环境,并围绕这些环境自动生成了大约8.5万条复杂任务提示和任务轨迹。这些轨迹不是靠人工一条条写出来,而是借助环境构建器和轨迹打分系统自动合成,再通过强化学习不断迭代。
这种做法,实际上是在绕开“继续砸海量对话数据”的老路。与传统的聊天语料相比,Agent任务具备更强的结构化、可验证性以及高度稀缺性——一旦建立起足够丰富的任务环境,同一环境在后续训练中可以被反复利用,带来的“能力增量”要远高于再加一批闲聊对话。
为了让模型真正学会在这些环境里“行动”,DeepSeek继续沿用了GRPO(Group Relative Policy Optimization)这一强化学习策略,并按自家场景做了大量本地化改造。模型训练优化的目标,不再只是“回答对不对”,而是同时要兼顾:任务有没有完成、推理过程是否连贯、语言表达是否稳定、工具使用是否合理自然。为此,DeepSeek没有采用单一维度的奖励,而是把任务完成度、推理合理性、语言质量等拆成多维信号,让模型在训练中尽量避免“顾此失彼”。
做这一切,还有一个前提:模型要有足够强的“状态感知能力”,能在多轮任务中记住自己已经做过什么、当前在第几步。这就回到了前面提到的上下文管理——V3.2在系统级别规定:只有当用户发出新指令时,模型才会重置思考状态;在同一个任务内部,不论调用多少次工具,推理轨迹都被完整保留下来。这种设计直接保证了Agent行为链条的连续性,使得模型有能力承接更长、更复杂的跨阶段任务。
DeepSeek最新发布的开源数学模型DeepSeekMath-V2,在全球最难的高中数学竞赛中达到了金牌水平,成为首个实现这一成就的开源模型,标志着开源人工智能在复杂推理能力上的一次重大突破
2025-11-28 15:24:50DeepSeek新模型有多猛11月27日晚,DeepSeek在Hugging Face上开源了一个新模型:DeepSeek-Math-V2。这是一个数学模型,也是目前首个达到IMO金牌水平且开源的模型
2025-11-28 10:26:50DeepSeek推出新模型10月20日,人工智能团队DeepSeek AI发布了全新多模态模型 DeepSeek-OCR
2025-10-20 20:33:14DeepSeek开源新模型DeepSeek-OCR由于新模型R2迟迟未发布,DeepSeek近期备受关注。国际知名半导体研究机构Semianalysis的报告显示,DeepSeek的用户使用率从年初的7.5%峰值显著下降至3%,官网流量同期下滑近三成
2025-07-10 13:25:04DeepSeek使用率暴跌原因何在证券时报的文章内容仅供参考,不构成实质性投资建议,据此操作风险自担。下载“证券时报”官方APP或关注官方微信公众号,可以随时了解股市动态,洞察政策信息,把握财富机会
2025-09-20 12:51:47DeepSeek为何发表研究成果