DeepSeek用户期待的R2模型尚未到来,但V3.1版本已经发布。8月21日,DeepSeek官方公众号宣布最新大语言模型DeepSeek-V3.1正式上线,距离上一个版本DeepSeek-V3-0324已有五个月。
新版本在三个方面进行了升级:混合推理架构、更高的思考效率以及更强的Agent能力。从命名来看,DeepSeek-V3.1似乎是前一代DeepSeek-V3的小版本迭代。该模型支持两种工作模式——思考模式和非思考模式。面对简单问题时,它以非思考模式快速作答;处理复杂问题时,则切换到思考模式,提供更具深度和逻辑的答案。用户可以通过官方App或网页端的“深度思考”按钮来切换这两种模式。
与之前的DeepSeek-R1-0528相比,DeepSeek-V3.1在思考模式下的效率大幅提升,能在更短时间内给出答案,并且经过思维链压缩训练后,token消耗量减少了20%至50%,同时保持了与R1-0528相当的任务表现。此外,在非思考模式下,新模型的输出长度也得到了有效控制,能够在输出长度明显减少的情况下保持相同的性能。
通过Post-Training优化,新模型在工具使用与编程、搜索等智能体任务中的表现大幅提升。在代码修复和命令行终端任务测试中,DeepSeek-V3.1的表现显著优于以往模型。社区第三方测试数据显示,在Aider多语言编程基准测试中,V3.1取得了71.6%的高分,超越了多个知名模型,完成一次编程任务的成本仅为1.01美元,成本效益优势显著。
随着V3.1的发布,DeepSeek调整了API接口调用价格,并取消了夜间优惠。自北京时间2025年9月6日凌晨起,输入价格方面,缓存命中时为0.5元/百万tokens,缓存未命中时则涨至4元/百万tokens;输出价格调整为12元/百万tokens。DeepSeek还在评论区提到,DeepSeek-V3.1使用了UE8M0 FP8 Scale的参数精度,并对分词器及chat template进行了较大调整,与DeepSeek-V3存在明显差异。UE8M0 FP8是针对即将发布的下一代国产芯片设计的。
菲律宾东方海面有一个热带低压生成,预计24小时内增强为今年第20号台风“博罗依”。根据日本气象厅的最新信息,该热带低压强度持续增强,未来将向西朝菲律宾方向前进
2025-09-23 15:22:19第20号台风博罗依将生成台湾地区领导人赖清德上台一年多以来,民众对其两岸政策的不满情绪显著增加。最新民调显示,对赖清德处理两岸关系不满意的民众比例从去年的43%上升至63%,一年内增长了20个百分点
2025-09-23 15:20:42台媒发布两岸关系年度民调近日,蔡国强和始祖鸟在青藏高原江孜热龙地区举办的烟花活动引发广泛关注。9月21日,蔡国强工作室与始祖鸟分别发布致歉声明。中国小动物保护协会通过微信公众号表示,他们密切关注此事的后续发展
2025-09-23 15:20:08中小保称将紧盯烟花事件后续肉品供货商张某为牟利选择铤而走险,将马肉冒充驴肉卖给饭店。北京市石景山区人民检察院通报,张某因犯销售伪劣产品罪被判处有期徒刑1年6个月,缓刑1年6个月,并处罚金9万元
2025-09-23 15:18:11马肉冒充驴肉流向餐桌北京一肉品供货商获刑