算法冲破算力瓶颈 DeepSeek继续开源推动AI普及与发展

小大

用微信扫描二维码
分享至好友和朋友圈

关键词：

2025-02-25 21:00:31 钛媒体APP

2月24日和25日，DeepSeek先后宣布开源了FlashMLA代码和DeepEP通信库，致力于推动大模型的开源化进程。DeepSeek-R1模型的问世与开源为大模型行业带来了新的希望，特别是在算力瓶颈方面。与其他厂商不同，DeepSeek不仅追求算力叠加，还通过算法创新解决了困扰行业的算力问题。

受DeepSeek影响，国内算力产业格局发生变化，AI服务器出货量激增，能支持DeepSeek大模型应用的一体机也变得非常受欢迎，各大厂商纷纷布局，形成了竞争激烈的市场态势。

自DeepSeek-R1 671B模型开源一个月后，DeepSeek启动了“Open Source Week”，计划在一周内开源五个代码库。2月24日，DeepSeek开源了FlashMLA代码。这是一个MoE训练加速框架，通过低秩矩阵压缩KV缓存显著减少内存占用和计算开销，支持千亿参数模型的高效训练。浪潮信息相关负责人表示，相比主流的MHA和GQA算法，FlashMLA在不降低计算精度的情况下大幅减少了推理时的KV缓存占用，提升了推理效率。

FlashMLA专为英伟达Hopper GPU设计，优化了可变长度序列处理，实现了接近H800理论峰值的性能。通过FlashMLA，用户可以将H800的性能提升到H100的水平，同时降低了大模型部署成本，推动了大模型在各行业的落地。此外，FlashMLA的开源为国产GPU兼容CUDA生态提供了参考模板，促进了多厂商竞争格局的发展。

紧接着，2月25日，DeepSeek又宣布开源了DeepEP通信库。这是第一个用于MoE模型训练和推理的开源EP通信库，支持低精度运算如FP8格式。DeepEP通过优化All-to-All通信和支持NVLink/RDMA协议，实现节点内外高效数据传输，降低训练和推理延迟。通过灵活的GPU资源调度，DeepEP在通信过程中并行执行计算任务，显著提升整体效率。

在DeepSeek开源之前，整个2024年，大模型行业都陷入了算力焦虑。高昂的算力成本让许多企业望而却步，但随着DeepSeek-R1模型的问世和开源，市场热情被重新点燃。除了EP通信库和FlashMLA的优化，DeepSeek还在多个方面进行了算法创新，显著减少了模型对高算力硬件的依赖。例如，通过混合专家架构（MoE）和FP8训练技术优化计算效率，R1模型仅需2048块GPU即可完成训练，纯算力训练成本降至500多万美元，远低于传统大模型的数亿美元投入。

12 全文共 2 页下一页

关闭

算法冲破算力瓶颈 DeepSeek继续开源 推动AI普及与发展

相关新闻

今日热点

频道热点

算法冲破算力瓶颈 DeepSeek继续开源推动AI普及与发展