中华网 china.com

新闻

DeepSeek发布新论文 梁文锋是共创 NSA机制革新长文本处理

关键词:
2025-02-18 20:31:32  第一财经

2月18日,DeepSeek官方在海外社交平台X上发布了一篇关于NSA(Natively Sparse Attention,原生稀疏注意力)的技术论文。这种机制用于超快速长文本训练与推理,硬件对齐且可原生训练。NSA针对现代硬件进行了优化设计,能够加速推理过程,降低预训练成本,且不牺牲性能。它在通用基准测试、长文本任务和基于指令的推理中均能达到或超越全注意力模型的表现。

论文指出,业界越来越认识到长上下文建模对于下一代大型语言模型的重要性。推动这一需求的应用包括深度推理、仓库级代码生成和多轮自主代理系统。然而,随着序列长度的增加,标准注意力机制的高复杂度成为关键的延迟瓶颈。理论估计表明,在使用softmax架构时,注意力计算占解码64k长度上下文总延迟的70%-80%,这凸显了对更高效注意力机制的迫切需求。

DeepSeek团队表示,NSA的核心价值在于平衡效率与性能,既降低计算成本,又保持甚至提升模型能力。NSA为处理长上下文任务提供了一种高效的解决方案,有助于推动更强大、更经济的语言模型的发展,尤其是在需要处理长文本的应用场景中。通过高效的长序列处理能力,NSA使模型能够直接处理整本书籍、代码仓库或多轮对话,扩展了大语言模型在文档分析、代码生成、复杂推理等领域的应用边界。例如,Gemini 1.5 Pro已展示长上下文潜力,NSA可进一步降低此类模型的训练与推理成本。

此外,NSA能够降低算力门槛与部署成本。端到端稀疏训练可以减少预训练所需的计算资源,降低企业开发大模型的资金与技术门槛。同时,它可以加速推理,使长文本生成(如代码补全、故事续写)的实时性更高,适用于边缘设备或低延迟场景。

一位X用户在DeepSeek帖子下评论称,“NSA机制改变了游戏规则。超快速长上下文训练对于扩大教育领域AI至关重要,这与个性化学习愿景完美契合。”还有网友对此调侃“RIP Nvidia”。

自1月20日发布DeepSeek-R1以来,DeepSeek一直较为低调,这是他们在这段时间内唯一发布的技术动态。有X网友表示,“DeepSeek团队正在积极工作!”

(责任编辑:张佳鑫 0764)
关闭

这就是离开广东后的王安宇吧 不知道还以为是去广东挖煤

这就是离开广东后的王安宇吧2025-03-17 17:54:38

命案逃犯不敢结婚怕说梦话暴露 15年终落法网

命案逃犯不敢结婚怕说梦话暴露2025-03-17 17:51:39

美滞留空间站宇航员拟18日返回 提前结束漫长太空之旅

美滞留空间站宇航员拟18日返回2025-03-17 17:47:06

新款iPad侧面印中国制造 字样位置变化引关注

新款iPad侧面印中国制造2025-03-17 17:13:48

学者解读特朗普下令空袭胡塞武装 意在向伊朗发出警告

学者解读特朗普下令空袭胡塞武装2025-03-17 15:13:12

伊朗回应美国:勿再做以色列帮凶 坚决反对美军空袭

伊朗回应美国,勿再做以色列帮凶2025-03-17 16:39:57

中国首个“星际矿工”诞生 太空资源开发迈出关键一步

中国首个星际矿工诞生2025-03-17 17:40:59

国际资本对俄资产“蠢蠢欲动” 押注制裁解除

国际资本对俄资产蠢蠢欲动2025-03-17 17:25:39

一组“腿脚操”给血管减龄,让血管重返年轻态!

一组“腿脚操”给血管减龄2025-03-17 17:36:13

国乒大合影给受伤的王曼昱留了位置 团队温暖细节感人

国乒大合影给受伤的王曼昱留了位置2025-03-17 17:28:20

特朗普轰炸也门是地缘政治秀吗 战争背后的深层逻辑

特朗普轰炸也门是地缘政治秀吗2025-03-17 17:00:03

FBI等部门警告:美数百用户已遭“美杜莎”勒索软件攻击!

FBI等部门警告,美数百用户已遭美杜莎勒索软件攻击,威胁范围正在扩大2025-03-17 15:42:56

资通电军是干什么的 网络攻击与渗透真相

资通电军是干什么的2025-03-17 15:10:42

俄罗斯会否两手准备以战促谈,谈不拢就开打?

俄罗斯会否两手准备以战促谈2025-03-17 15:55:29

FBI等部门警告:美数百用户已遭“美杜莎”勒索软件攻击,威胁范围正在扩大

FBI等部门警告:美数百用户已遭“美杜莎”勒索软件攻击,威胁范围正在扩大2025-03-17 15:51:09

美方再次施压乌克兰割地 谈判僵局难解

美方再次施压乌克兰割地2025-03-17 15:45:48

县医院招保安要求35岁以下大专以上 回应:属实!

县医院招保安要求35岁以下大专以上2025-03-17 17:02:42

莫迪对华最新表态:确保分歧不会演变成争端,进行“健康且自然”的竞争 强调对话解决问题

莫迪对华最新表态,确保分歧不会演变成争端,进行健康且自然的竞争2025-03-17 15:51:41

预测:菲律宾总统马科斯的结局,谁将笑到最后?

菲律宾中期选举将打响谁能笑到最后2025-03-17 14:57:27

匈总理要求欧盟不让乌克兰加入 向欧盟提出十二项要求

匈总理要求欧盟不让乌克兰加入2025-03-17 15:45:22

美滞留空间站宇航员拟18日返回 提前结束漫长太空之旅

美滞留空间站宇航员拟18日返回2025-03-17 17:47:06

命案逃犯不敢结婚怕说梦话暴露 15年终落法网

命案逃犯不敢结婚怕说梦话暴露2025-03-17 17:51:39

小米高管删除“不做卫生巾”博文 卫生巾质量问题引热议

小米高管删除不做卫生巾博文2025-03-17 17:35:46

俄罗斯对停火为何既积极又谨慎 战场形势决定态度

俄罗斯对停火为何既积极又谨慎2025-03-17 15:57:16

机器人跳斧头帮舞蹈致敬《功夫》 AI合成引发热议

机器人跳斧头帮舞蹈致敬功夫2025-03-17 17:25:08

这就是离开广东后的王安宇吧 不知道还以为是去广东挖煤

这就是离开广东后的王安宇吧2025-03-17 17:54:38

“用了18枚导弹”!美国航母突然遭袭 胡塞武装誓言报复

用了18枚导弹,美国航母突然遭袭2025-03-17 15:46:58

泽连斯基重申不承认被占领土属于俄 坚定立场不变

泽连斯基重申不承认被占领土属于俄2025-03-17 17:19:36

医院回应1750元招保安要求35岁以下 高要求引发热议

医院回应1750元招保安要求35岁以下2025-03-17 17:08:12

Jonathan‘s 11 Years,loewe创意总监离任

loewe创意总监离任2025-03-17 17:08:43

事关和平协议 俄坚持要求乌做到两点 中立与拒入北约

事关和平协议俄坚持要求乌做到两点2025-03-17 16:39:27

英国邀20国派兵乌克兰有何意味 欧洲战略自主的尝试

英国邀20国派兵乌克兰有何意味2025-03-17 14:55:53

护士长路遇车祸上演教科书式救援 为患者争取了宝贵的每一分每一秒

护士长路遇车祸上演教科书式救援2025-03-17 17:30:18

匈总理要求欧盟不让乌克兰加入 欧尔班提出12点要求

匈总理要求欧盟不让乌克兰加入2025-03-17 15:43:30

乌在库尔斯克作战行动结束意味着啥 战场失利与外部施压交织

乌在库尔斯克作战行动结束意味着啥2025-03-17 14:55:23

相关新闻