注册登录

中华网 china.com

新闻

国内国际社会体育专题军事财经滚动政务冬奥

DeepSeek发布V3模型更新性能再升级

小大

用微信扫描二维码
分享至好友和朋友圈

关键词：

2025-03-25 09:04:50 每日经济新闻

3月24日晚，DeepSeek发布了模型更新——DeepSeek-V3-0324。这次更新是DeepSeek V3模型的小版本升级，并非市场期待的DeepSeek-V4或R2。其开源版本已上线Hugging Face，模型体积为6850亿参数。

DeepSeek发布V3模型更新

同日，DeepSeek在其官方交流群宣布，DeepSeek V3模型已完成小版本升级，欢迎用户前往官方网页、App和小程序试用体验。API接口和使用方式保持不变。

DeepSeek发布V3模型更新性能再升级

此前于2024年12月发布的DeepSeek-V3模型以“557.6万美金比肩Claude 3.5效果”的高性价比著称，多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型，并在性能上与世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。但截至目前，还没有关于新版DeepSeek-V3的能力基准测试榜单出现。

2025年1月，DeepSeek发布了性能比肩OpenAI o1正式版的DeepSeek-R1模型。该模型在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。

V3是一个拥有6710亿参数的专家混合模型（Moe），其中370亿参数处于激活状态。传统的大模型通常采用密集的神经网络结构，每个输入token都会被激活并参与计算，耗费大量算力。此外，传统的混合专家模型中，不平衡的专家负载是一个很大难题，会导致路由崩溃现象，影响计算效率。

为解决这个问题，DeepSeek对V3进行了大胆创新，提出了辅助损失免费的负载均衡策略，引入“偏差项”。在模型训练过程中，每个专家都被赋予了一个偏差项，它会被添加到相应的亲和力分数上，以此来决定top-K路由。此外，V3还采用了节点受限的路由机制，限制通信成本。通过确保每个输入最多只能被发送到预设数量的节点上，V3能够显著减少跨节点通信的流量，提高训练效率。

根据国外开源评测平台kcores-llm-arena对V3-0324的最新测试数据显示，其代码能力达到了328.3分，超过了普通版的Claude 3.7 Sonnet（322.3），可以比肩334.8分的思维链版本。(责任编辑：于浩淙 zx0176)

关闭

姆巴佩在法国队连续7场没能进球陷入国家队生涯最长进球荒

姆巴佩在法国队连续7场没能进球2025-03-25 09:04:31

女子突发脑干出血儿子守在病床前：小时候你咋照顾我我就咋照顾你

女子突发脑干出血儿子守在病床前2025-03-25 09:04:11

美军尼米兹号航母已前往西太填补力量空白

美军尼米兹号航母已前往西太2025-03-25 09:01:49

章泽天近照曝光与梁朝伟夫妇合影破次元壁合影引热议

章泽天近照曝光与梁朝伟夫妇合影2025-03-25 08:54:05

被称为“眼泪收割机”的《我会好好的》，让治愈系电影找到了新市场年度最破防的治愈炸弹

被称为眼泪收割机的我会好好的,让治愈系电影找到了新市场2025-03-25 08:55:48

特朗普不满其肖像画难看要求撤走画像

特朗普不满其肖像画难看2025-03-25 08:13:17

美俄利雅得会谈结束超12小时谈判成果待公布

美俄利雅得会谈结束2025-03-25 09:04:03

俄军夺取查索夫亚尔西南城区，泽连斯基亲临哈尔科夫前线！乌军士气大振

俄军夺取查索夫亚尔西南城区,泽连斯基亲临哈尔科夫前线2025-03-25 08:11:13

佛山市场150元售老鼠干，多家商户均在售卖

市场150元售老鼠干2025-03-25 09:00:03

拉夫罗夫最新涉华表态中俄关系达前所未有的互信水平

拉夫罗夫最新涉华表态2025-03-25 08:58:58

中国球迷：期望在主场“喊赢”国足近7万人助威声浪

中国球迷,期望在主场喊赢国足2025-03-25 08:56:30

杜特尔特寻求中国庇护?中方回应私人行程无此事

杜特尔特寻求中国庇护,中方回应2025-03-25 08:13:01

留给李在明的时间不多了政治梦悬一线

留给李在明的时间不多了2025-03-25 08:55:48

美国绝密战争计划居然这样泄露了超级乌龙事件曝光

美国绝密战争计划居然这样泄露了2025-03-25 08:22:07

英媒提醒称马斯克商业帝国危矣竞争对手正紧追不舍

英媒提醒称马斯克商业帝国危矣2025-03-25 08:56:19

姆巴佩在法国队连续7场没能进球陷入国家队生涯最长进球荒

姆巴佩在法国队连续7场没能进球2025-03-25 09:04:31

千禧年零点出生的女孩猝死年轻生命逝去引关注

千禧年零点出生的女孩猝死2025-03-25 08:51:39

“零添加” 争议再起！千禾味业接连回应，业绩压力仍是严峻挑战股价止跌回升

零添加争议再起,千禾味业接连回应,业绩压力仍是严峻挑战2025-03-25 08:57:07

代孕女孩植入胚胎时仅16岁！

代孕女孩植入胚胎时仅16岁2025-03-25 08:59:06

泽连斯基办公室挂“克宫陷入火海”画作俄外交部回应引发激烈反应

泽连斯基办公室挂克宫陷入火海画作俄外交部回应2025-03-25 08:21:06

女子称在北医三院遭医生猥亵就医过程她感到强烈不适

女子称在北医三院遭医生猥亵2025-03-25 08:55:24

外交部回应杜特尔特赴港传闻私人度假行程

外交部回应杜特尔特赴港传闻2025-03-25 08:38:10

美军尼米兹号航母已前往西太填补力量空白

美军尼米兹号航母已前往西太2025-03-25 09:01:49

叙利亚大马士革传出强烈爆炸声原因不明震动城市

叙利亚大马士革传出强烈爆炸声2025-03-25 08:58:34

俄称马克龙的言论极其危险核保护伞争议升温

俄称马克龙的言论极其危险2025-03-25 08:58:14

你相信可以用吃减肥吗？答案来了

你相信可以用吃减肥吗2025-03-25 08:56:51

美国官员群聊袭击也门拉错了人敏感信息外泄引发批评

美国官员群聊袭击也门拉错了人2025-03-25 08:54:22

特朗普宣布美新一代战机命名为F-47 接棒F-22成主力

特朗普宣布美新一代战机命名为F-472025-03-25 08:25:41

女子突发脑干出血儿子守在病床前：小时候你咋照顾我我就咋照顾你

女子突发脑干出血儿子守在病床前2025-03-25 09:04:11

阵风10级以上，局地有扬沙！北京大风，傍晚减弱早高峰注意防风安全

阵风10级以上,局地有扬沙,北京大风,傍晚减弱2025-03-25 09:00:30

大V：泽连斯基或被迫接受国土沦丧美俄谈判决定乌克兰命运

大V,泽连斯基或被迫接受国土沦丧2025-03-25 08:27:14

韩德洙复职尹锡悦呢? 弹劾案宣判引焦虑

韩德洙复职尹锡悦呢2025-03-25 08:10:03

惠英红弹唱为谢霆锋宣传演唱会

惠英红弹唱为谢霆锋宣传演唱会2025-03-25 08:55:01

青岛一饮品店推出蛤蜊奶茶创意引发热议

青岛一饮品店推出蛤蜊奶茶2025-03-25 08:58:51

国足上次主场赢澳大利亚是41年前历史战绩回顾

国足上次主场赢澳大利亚是41年前2025-03-25 08:58:34

相关新闻

今日热点

粉丝评论姐姐没喝中药，2g冲浪的宋茜懵懵回复

大风沙尘降温天气齐至寒潮影响中东部

作业熔断后会不会陷入恶性循环

美容“套路贷”谁在割老年人韭菜？大姐美容被套路贷：2千变9万

频道热点

主编邮箱
网上不良信息举报电话：010-56177181

关于中华网 | 广告服务 | 联系我们 | 招聘信息 | 版权声明 | 豁免条款 | 友情链接 | 中华网动态
版权所有中华网