中华网 china.com

新闻

DeepSeek发布V3模型更新 性能再升级

关键词:
2025-03-25 09:04:50  每日经济新闻

3月24日晚,DeepSeek发布了模型更新——DeepSeek-V3-0324。这次更新是DeepSeek V3模型的小版本升级,并非市场期待的DeepSeek-V4或R2。其开源版本已上线Hugging Face,模型体积为6850亿参数。

DeepSeek发布V3模型更新

同日,DeepSeek在其官方交流群宣布,DeepSeek V3模型已完成小版本升级,欢迎用户前往官方网页、App和小程序试用体验。API接口和使用方式保持不变。

DeepSeek发布V3模型更新 性能再升级

此前于2024年12月发布的DeepSeek-V3模型以“557.6万美金比肩Claude 3.5效果”的高性价比著称,多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上与世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。但截至目前,还没有关于新版DeepSeek-V3的能力基准测试榜单出现。

2025年1月,DeepSeek发布了性能比肩OpenAI o1正式版的DeepSeek-R1模型。该模型在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。

V3是一个拥有6710亿参数的专家混合模型(Moe),其中370亿参数处于激活状态。传统的大模型通常采用密集的神经网络结构,每个输入token都会被激活并参与计算,耗费大量算力。此外,传统的混合专家模型中,不平衡的专家负载是一个很大难题,会导致路由崩溃现象,影响计算效率。

为解决这个问题,DeepSeek对V3进行了大胆创新,提出了辅助损失免费的负载均衡策略,引入“偏差项”。在模型训练过程中,每个专家都被赋予了一个偏差项,它会被添加到相应的亲和力分数上,以此来决定top-K路由。此外,V3还采用了节点受限的路由机制,限制通信成本。通过确保每个输入最多只能被发送到预设数量的节点上,V3能够显著减少跨节点通信的流量,提高训练效率。

根据国外开源评测平台kcores-llm-arena对V3-0324的最新测试数据显示,其代码能力达到了328.3分,超过了普通版的Claude 3.7 Sonnet(322.3),可以比肩334.8分的思维链版本。(责任编辑:于浩淙 zx0176)

关闭

姆巴佩在法国队连续7场没能进球 陷入国家队生涯最长进球荒

姆巴佩在法国队连续7场没能进球2025-03-25 09:04:31

女子突发脑干出血 儿子守在病床前:小时候你咋照顾我 我就咋照顾你

女子突发脑干出血 儿子守在病床前2025-03-25 09:04:11

美军尼米兹号航母已前往西太 填补力量空白

美军尼米兹号航母已前往西太2025-03-25 09:01:49

章泽天近照曝光 与梁朝伟夫妇合影 破次元壁合影引热议

章泽天近照曝光与梁朝伟夫妇合影2025-03-25 08:54:05

被称为“眼泪收割机”的《我会好好的》,让治愈系电影找到了新市场 年度最破防的治愈炸弹

被称为眼泪收割机的我会好好的,让治愈系电影找到了新市场2025-03-25 08:55:48

特朗普不满其肖像画难看 要求撤走画像

特朗普不满其肖像画难看2025-03-25 08:13:17

美俄利雅得会谈结束 超12小时谈判成果待公布

美俄利雅得会谈结束2025-03-25 09:04:03

俄军夺取查索夫亚尔西南城区,泽连斯基亲临哈尔科夫前线!乌军士气大振

俄军夺取查索夫亚尔西南城区,泽连斯基亲临哈尔科夫前线2025-03-25 08:11:13

佛山市场150元售老鼠干,多家商户均在售卖

市场150元售老鼠干2025-03-25 09:00:03

拉夫罗夫最新涉华表态 中俄关系达前所未有的互信水平

拉夫罗夫最新涉华表态2025-03-25 08:58:58

中国球迷:期望在主场“喊赢”国足 近7万人助威声浪

中国球迷,期望在主场喊赢国足2025-03-25 08:56:30

杜特尔特寻求中国庇护?中方回应 私人行程无此事

杜特尔特寻求中国庇护,中方回应2025-03-25 08:13:01

留给李在明的时间不多了 政治梦悬一线

留给李在明的时间不多了2025-03-25 08:55:48

美国绝密战争计划 居然这样泄露了 超级乌龙事件曝光

美国绝密战争计划居然这样泄露了2025-03-25 08:22:07

英媒提醒称马斯克商业帝国危矣 竞争对手正紧追不舍

英媒提醒称马斯克商业帝国危矣2025-03-25 08:56:19

姆巴佩在法国队连续7场没能进球 陷入国家队生涯最长进球荒

姆巴佩在法国队连续7场没能进球2025-03-25 09:04:31

千禧年零点出生的女孩猝死 年轻生命逝去引关注

千禧年零点出生的女孩猝死2025-03-25 08:51:39

“零添加” 争议再起!千禾味业接连回应,业绩压力仍是严峻挑战 股价止跌回升

零添加争议再起,千禾味业接连回应,业绩压力仍是严峻挑战2025-03-25 08:57:07

代孕女孩植入胚胎时仅16岁!

代孕女孩植入胚胎时仅16岁2025-03-25 08:59:06

泽连斯基办公室挂“克宫陷入火海”画作 俄外交部回应 引发激烈反应

泽连斯基办公室挂克宫陷入火海画作俄外交部回应2025-03-25 08:21:06

女子称在北医三院遭医生猥亵 就医过程她感到强烈不适

女子称在北医三院遭医生猥亵2025-03-25 08:55:24

外交部回应杜特尔特赴港传闻 私人度假行程

外交部回应杜特尔特赴港传闻2025-03-25 08:38:10

美军尼米兹号航母已前往西太 填补力量空白

美军尼米兹号航母已前往西太2025-03-25 09:01:49

叙利亚大马士革传出强烈爆炸声 原因不明震动城市

叙利亚大马士革传出强烈爆炸声2025-03-25 08:58:34

俄称马克龙的言论极其危险 核保护伞争议升温

俄称马克龙的言论极其危险2025-03-25 08:58:14

你相信可以用吃减肥吗?答案来了

你相信可以用吃减肥吗2025-03-25 08:56:51

美国官员群聊袭击也门拉错了人 敏感信息外泄引发批评

美国官员群聊袭击也门拉错了人2025-03-25 08:54:22

特朗普宣布美新一代战机命名为F-47 接棒F-22成主力

特朗普宣布美新一代战机命名为F-472025-03-25 08:25:41

女子突发脑干出血 儿子守在病床前:小时候你咋照顾我 我就咋照顾你

女子突发脑干出血 儿子守在病床前2025-03-25 09:04:11

阵风10级以上,局地有扬沙!北京大风,傍晚减弱 早高峰注意防风安全

阵风10级以上,局地有扬沙,北京大风,傍晚减弱2025-03-25 09:00:30

大V:泽连斯基或被迫接受国土沦丧 美俄谈判决定乌克兰命运

大V,泽连斯基或被迫接受国土沦丧2025-03-25 08:27:14

韩德洙复职 尹锡悦呢? 弹劾案宣判引焦虑

韩德洙复职尹锡悦呢2025-03-25 08:10:03

惠英红弹唱为谢霆锋宣传演唱会

惠英红弹唱为谢霆锋宣传演唱会2025-03-25 08:55:01

青岛一饮品店推出蛤蜊奶茶 创意引发热议

青岛一饮品店推出蛤蜊奶茶2025-03-25 08:58:51

国足上次主场赢澳大利亚是41年前 历史战绩回顾

国足上次主场赢澳大利亚是41年前2025-03-25 08:58:34

相关新闻

×