2月18日,DeepSeek团队发布了一篇新论文,介绍了一种改进的稀疏注意力机制NSA,适用于超快速的长上下文训练与推理。NSA以性价比极高的方式在训练阶段应用稀疏性,在训推场景中均实现速度的明显提升,特别是在解码阶段实现了高达11.6倍的提升。
DeepSeek创始人兼CEO梁文锋出现在了合著名单之中,位列倒数第二,表明他作为项目管理者参与了一线研究工作。这篇论文的第一作者Jingyang Yuan是在实习期间完成的研究。
NSA具有三大核心组件:动态分层稀疏策略、粗粒度token压缩和精粒度token选择。这些组件协同工作,既提升了效率,也保留了模型对全局长上下文的感知能力和局部精确性。NSA专门针对现代硬件进行优化设计,支持模型训练,加速推理并降低预训练成本,对性能无明显影响。采用NSA机制的模型在通用基准、长上下文任务和基于指令的推理上,与全注意力模型相当或表现更优。
在8卡A100计算集群上,NSA的前向传播和反向传播速度分别比全注意力快9倍和6倍,由于减少了内存访问量,NSA在长序列解码时相较于全注意力模型速度显著提升。
长文本建模是下一代语言模型的关键能力,但传统注意力机制的高复杂度限制了其在长序列上的应用。例如,在解码64k长度的上下文时,注意力计算占据了总延迟的70%至80%。因此,稀疏注意力机制应运而生,通过选择性计算关键的查询键对来减少计算开销。然而,许多稀疏注意力方法在实际推理中未能显著降低延迟。
一些方法仅在自回归解码阶段应用稀疏性,而预填充阶段仍需进行密集计算;另一些方法仅关注预填充阶段的稀疏性,导致在某些工作负载下无法实现全阶段加速。还有部分稀疏方法无法适应现代高效的解码架构,导致KV缓存访问量仍然较高,无法充分发挥稀疏性优势。此外,现有的稀疏注意力方法大多仅在推理阶段应用稀疏性,缺乏对训练阶段的支持。
旧金山突发轰动全美的奇案,“开膛手杰克”疑似再现,嫌疑人范围指向旧金山唐人街。1月21日,《唐探1900》最新发布的“所笑披靡”版预告片引发观众强烈期待
2025-01-22 11:03:57唐探1900发新预告1月25日,武侠电影《射雕英雄传:侠之大者》发布了“铁血丹心”特别预告
2025-01-26 10:53:15射雕英雄传10月8日晚,以色列国防军发言人阿维凯·阿德拉伊在社交媒体上宣布了一项紧急撤离指令。该指令针对的是黎巴嫩首都贝鲁特南郊特定几栋建筑物的居民,要求他们立即离开,前往距离建筑物至少500米外的地方避险
2024-10-10 21:07:12以对贝鲁特发新撤离令