中华网 china.com

新闻

DeepSeek发布V3模型更新 性能再升级

关键词:
2025-03-25 09:04:50  每日经济新闻

3月24日晚,DeepSeek发布了模型更新——DeepSeek-V3-0324。这次更新是DeepSeek V3模型的小版本升级,并非市场期待的DeepSeek-V4或R2。其开源版本已上线Hugging Face,模型体积为6850亿参数。

同日,DeepSeek在其官方交流群宣布,DeepSeek V3模型已完成小版本升级,欢迎用户前往官方网页、App和小程序试用体验。API接口和使用方式保持不变。

此前于2024年12月发布的DeepSeek-V3模型以“557.6万美金比肩Claude 3.5效果”的高性价比著称,多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上与世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。但截至目前,还没有关于新版DeepSeek-V3的能力基准测试榜单出现。

2025年1月,DeepSeek发布了性能比肩OpenAI o1正式版的DeepSeek-R1模型。该模型在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。

V3是一个拥有6710亿参数的专家混合模型(Moe),其中370亿参数处于激活状态。传统的大模型通常采用密集的神经网络结构,每个输入token都会被激活并参与计算,耗费大量算力。此外,传统的混合专家模型中,不平衡的专家负载是一个很大难题,会导致路由崩溃现象,影响计算效率。

为解决这个问题,DeepSeek对V3进行了大胆创新,提出了辅助损失免费的负载均衡策略,引入“偏差项”。在模型训练过程中,每个专家都被赋予了一个偏差项,它会被添加到相应的亲和力分数上,以此来决定top-K路由。此外,V3还采用了节点受限的路由机制,限制通信成本。通过确保每个输入最多只能被发送到预设数量的节点上,V3能够显著减少跨节点通信的流量,提高训练效率。

根据国外开源评测平台kcores-llm-arena对V3-0324的最新测试数据显示,其代码能力达到了328.3分,超过了普通版的Claude 3.7 Sonnet(322.3),可以比肩334.8分的思维链版本。

(责任编辑:于浩淙 zx0176)
关闭

夫妻中千万大奖称不告诉孩子 等待孩子成熟再告知

夫妻中千万大奖称不告诉孩子2025-04-14 13:22:17

特朗普当着孙女的面羞辱记者:看见了吗?这些就是假新闻

特朗普当着孙女的面羞辱记者2025-04-14 13:21:51

哪吒汽车 断网事件引发信任危机

哪吒汽车2025-04-14 13:09:07

“对等关税”重创美国小企业 反噬自身经济

对等关税重创美国小企业2025-04-14 13:08:39

俄称对华石油供应管够 满足中国需求

俄称对华石油供应管够2025-04-14 13:22:33

专家称关税战让美国的盟友都不再相信它

专家称关税战让美国的盟友都不再相信它2025-04-14 11:29:22

余承东和工程师拼手速还赢了

余承东和工程师拼手速2025-04-14 13:14:35

老板为报复员工扛20斤硬币支付工资 恶意履行触法网

老板为报复员工扛20斤硬币支付工资2025-04-14 13:10:48

严格依法实施各项对美反制措施 维护国家主权安全发展利益

严格依法实施各项对美反制措施2025-04-14 11:38:49

中方果断回击 美军“六代机”F-47危!稀土管制加码

中方果断回击美军六代机F-47危2025-04-14 13:20:47

如何跟大国相处 美国还得补课

如何跟大国相处 美国还得补课2025-04-14 11:27:13

日本发生食物中毒事件 已有1人死亡 诺如病毒成疑凶

日本发生食物中毒事件已有1人死亡2025-04-14 13:11:12

打扮成埃及女王逛大英博物馆 博主吐槽引热议

打扮成埃及女王逛大英博物馆2025-04-14 13:07:17

八个有望抗住关税冲击的出海赛道 解锁全球生活方式共建者新角色

八个有望抗住关税冲击的出海赛道2025-04-14 11:36:41

俄为何空袭乌克兰苏梅市 教堂钟声下的悲剧

俄为何空袭乌克兰苏梅市2025-04-14 13:10:43

缅甸灾区进入防疫消杀 中方接力驰援 救援“接力棒”持续传递

缅甸灾区进入防疫消杀中方接力驰援2025-04-14 11:33:08

老板扛20斤硬币付工资法官让其清点 恶意刁难员工

老板扛20斤硬币付工资法官让其清点2025-04-14 13:19:18

夫妻中千万大奖称不告诉孩子 等待孩子成熟再告知

夫妻中千万大奖称不告诉孩子2025-04-14 13:22:17

特朗普当着孙女的面羞辱记者:看见了吗?这些就是假新闻

特朗普当着孙女的面羞辱记者2025-04-14 13:21:51

驻日大使馆提醒注意防范地震 提高防灾意识

驻日大使馆提醒注意防范地震2025-04-14 13:06:36

高关税背景下中企如何“活下去” 三大策略稳住脚跟

高关税背景下中企如何活下去2025-04-14 11:34:34

航模爱好者自制能飞上天的“歼-20” 纸箱变身特技战机

航模爱好者自制能飞上天的歼-202025-04-14 13:06:59

剖析甲亢哥中国行直播连续剧 全民狂欢的流量盛宴

剖析甲亢哥中国行直播连续剧2025-04-14 13:11:29

杨紫《家业》逛街路透,和美女们说说笑笑…

杨紫家业逛街路透2025-04-14 11:21:18

大V:乌军在库尔斯克损失极为惨重 俄军反击得胜

大V,乌军在库尔斯克损失极为惨重2025-04-14 13:07:18

美国若想生产婚纱得先培养缝纫工 关税政策冲击婚庆业

美国若想生产婚纱得先培养缝纫工2025-04-14 13:04:59

美军再次空袭也门致多人死伤 建筑物遭袭被大火吞噬 硝烟中的平民悲剧

美军再次空袭也门致多人死伤建筑物遭袭被大火吞噬2025-04-14 11:30:24

美对等关税这剂药反噬自身 单边主义终损己利

美对等关税这剂药反噬自身2025-04-14 13:10:24

12级大风将蒙古獒幼崽刮到牧民家,网友:我想要一只牛

12级大风将蒙古獒幼崽刮到牧民家2025-04-14 13:12:55

台媒又炒:解放军军机6架次、军舰7艘持续在台海周边活动 大陆回应震慑“台独”

台媒又炒,解放军军机6架次,军舰7艘持续在台海周边活动2025-04-14 13:23:00

关税博弈下A股涌现增持回购潮 积极信号频现

关税博弈下A股涌现增持回购潮2025-04-14 11:35:07

《我的后半生》剧情有多狗血 家庭崩塌与人性觉醒

我的后半生剧情有多狗血2025-04-14 13:15:16

美国突然宣布: 部分商品免除所谓“对等关税” 电子产品获豁免

美国突然宣布,部分商品免除所谓对等关税2025-04-14 11:49:50

相关新闻