注册登录

中华网 china.com

新闻

国内国际社会体育专题军事财经滚动政务冬奥

DeepSeek发新成果稀疏注意力机制NSA显著提升长上下文处理速度

小大

用微信扫描二维码
分享至好友和朋友圈

关键词：

2025-02-18 22:53:07 智东西

2月18日，DeepSeek团队发布了一篇新论文，介绍了一种改进的稀疏注意力机制NSA，适用于超快速的长上下文训练与推理。NSA以性价比极高的方式在训练阶段应用稀疏性，在训推场景中均实现速度的明显提升，特别是在解码阶段实现了高达11.6倍的提升。

DeepSeek创始人兼CEO梁文锋出现在了合著名单之中，位列倒数第二，表明他作为项目管理者参与了一线研究工作。这篇论文的第一作者Jingyang Yuan是在实习期间完成的研究。

NSA具有三大核心组件：动态分层稀疏策略、粗粒度token压缩和精粒度token选择。这些组件协同工作，既提升了效率，也保留了模型对全局长上下文的感知能力和局部精确性。NSA专门针对现代硬件进行优化设计，支持模型训练，加速推理并降低预训练成本，对性能无明显影响。采用NSA机制的模型在通用基准、长上下文任务和基于指令的推理上，与全注意力模型相当或表现更优。

在8卡A100计算集群上，NSA的前向传播和反向传播速度分别比全注意力快9倍和6倍，由于减少了内存访问量，NSA在长序列解码时相较于全注意力模型速度显著提升。

长文本建模是下一代语言模型的关键能力，但传统注意力机制的高复杂度限制了其在长序列上的应用。例如，在解码64k长度的上下文时，注意力计算占据了总延迟的70%至80%。因此，稀疏注意力机制应运而生，通过选择性计算关键的查询键对来减少计算开销。然而，许多稀疏注意力方法在实际推理中未能显著降低延迟。

一些方法仅在自回归解码阶段应用稀疏性，而预填充阶段仍需进行密集计算；另一些方法仅关注预填充阶段的稀疏性，导致在某些工作负载下无法实现全阶段加速。还有部分稀疏方法无法适应现代高效的解码架构，导致KV缓存访问量仍然较高，无法充分发挥稀疏性优势。此外，现有的稀疏注意力方法大多仅在推理阶段应用稀疏性，缺乏对训练阶段的支持。

12 全文共 2 页下一页

关闭

命案逃犯不敢结婚怕说梦话暴露 15年终落法网

命案逃犯不敢结婚怕说梦话暴露2025-03-17 17:51:39

美滞留空间站宇航员拟18日返回提前结束漫长太空之旅

美滞留空间站宇航员拟18日返回2025-03-17 17:47:06

中国首个“星际矿工”诞生太空资源开发迈出关键一步

中国首个星际矿工诞生2025-03-17 17:40:59

FBI等部门警告：美数百用户已遭“美杜莎”勒索软件攻击！

FBI等部门警告,美数百用户已遭美杜莎勒索软件攻击,威胁范围正在扩大2025-03-17 15:42:56

乌在库尔斯克作战行动结束意味着啥战场失利与外部施压交织

乌在库尔斯克作战行动结束意味着啥2025-03-17 14:55:23

特朗普轰炸也门是地缘政治秀吗战争背后的深层逻辑

特朗普轰炸也门是地缘政治秀吗2025-03-17 17:00:03

莫迪对华最新表态：确保分歧不会演变成争端，进行“健康且自然”的竞争强调对话解决问题

莫迪对华最新表态,确保分歧不会演变成争端,进行健康且自然的竞争2025-03-17 15:51:41

资通电军是干什么的网络攻击与渗透真相

资通电军是干什么的2025-03-17 15:10:42

护士长路遇车祸上演教科书式救援为患者争取了宝贵的每一分每一秒

护士长路遇车祸上演教科书式救援2025-03-17 17:30:18

俄罗斯会否两手准备以战促谈，谈不拢就开打？

俄罗斯会否两手准备以战促谈2025-03-17 15:55:29

一组“腿脚操”给血管减龄，让血管重返年轻态！

一组“腿脚操”给血管减龄2025-03-17 17:36:13

再创历史新高的黄金还能接着涨吗三大驱动力推动金价飙升

再创历史新高的黄金还能接着涨吗2025-03-17 16:58:24

泽连斯基重申不承认被占领土属于俄坚定立场不变

泽连斯基重申不承认被占领土属于俄2025-03-17 17:19:36

机器人跳斧头帮舞蹈致敬《功夫》 AI合成引发热议

机器人跳斧头帮舞蹈致敬功夫2025-03-17 17:25:08

“用了18枚导弹”！美国航母突然遭袭胡塞武装誓言报复

用了18枚导弹,美国航母突然遭袭2025-03-17 15:46:58

国际资本对俄资产“蠢蠢欲动” 押注制裁解除

国际资本对俄资产蠢蠢欲动2025-03-17 17:25:39

英国邀20国派兵乌克兰有何意味欧洲战略自主的尝试

英国邀20国派兵乌克兰有何意味2025-03-17 14:55:53

Jonathan‘s 11 Years，loewe创意总监离任

loewe创意总监离任2025-03-17 17:08:43

命案逃犯不敢结婚怕说梦话暴露 15年终落法网

命案逃犯不敢结婚怕说梦话暴露2025-03-17 17:51:39

医院回应1750元招保安要求35岁以下高要求引发热议

医院回应1750元招保安要求35岁以下2025-03-17 17:08:12

新款iPad侧面印中国制造字样位置变化引关注

新款iPad侧面印中国制造2025-03-17 17:13:48

小米高管删除“不做卫生巾”博文卫生巾质量问题引热议

小米高管删除不做卫生巾博文2025-03-17 17:35:46

事关和平协议俄坚持要求乌做到两点中立与拒入北约

事关和平协议俄坚持要求乌做到两点2025-03-17 16:39:27

预测：菲律宾总统马科斯的结局，谁将笑到最后？

菲律宾中期选举将打响谁能笑到最后2025-03-17 14:57:27

学者解读特朗普下令空袭胡塞武装意在向伊朗发出警告

学者解读特朗普下令空袭胡塞武装2025-03-17 15:13:12

美方再次施压乌克兰割地谈判僵局难解

美方再次施压乌克兰割地2025-03-17 15:45:48

中国首个“星际矿工”诞生太空资源开发迈出关键一步

中国首个星际矿工诞生2025-03-17 17:40:59

美滞留空间站宇航员拟18日返回提前结束漫长太空之旅

美滞留空间站宇航员拟18日返回2025-03-17 17:47:06

匈总理要求欧盟不让乌克兰加入欧尔班提出12点要求

匈总理要求欧盟不让乌克兰加入2025-03-17 15:43:30

县医院招保安要求35岁以下大专以上回应：属实！

县医院招保安要求35岁以下大专以上2025-03-17 17:02:42

俄罗斯对停火为何既积极又谨慎战场形势决定态度

俄罗斯对停火为何既积极又谨慎2025-03-17 15:57:16

匈总理要求欧盟不让乌克兰加入向欧盟提出十二项要求

匈总理要求欧盟不让乌克兰加入2025-03-17 15:45:22

FBI等部门警告：美数百用户已遭“美杜莎”勒索软件攻击，威胁范围正在扩大

FBI等部门警告：美数百用户已遭“美杜莎”勒索软件攻击，威胁范围正在扩大2025-03-17 15:51:09

伊朗回应美国：勿再做以色列帮凶坚决反对美军空袭

伊朗回应美国,勿再做以色列帮凶2025-03-17 16:39:57

国乒大合影给受伤的王曼昱留了位置团队温暖细节感人

国乒大合影给受伤的王曼昱留了位置2025-03-17 17:28:20

相关新闻

今日热点

买意外险时你会看猝死是否赔付吗理赔困局揭秘

被宣告死亡5年她“复活”后起诉离婚家暴阴影下的重生

13岁男孩好奇往尿道塞41颗磁力珠医生称曾接诊尿道塞铁钉男孩

高油价对商超零售业有何影响物流与商品成本上升

频道热点

主编邮箱
网上不良信息举报电话：010-56177181

关于中华网 | 广告服务 | 联系我们 | 招聘信息 | 版权声明 | 豁免条款 | 友情链接 | 中华网动态
版权所有中华网