尽管春节假期已经过半,但“来自东方的神秘力量的 DeepSeek”仍在全球范围内引起热议。各路业内人士从不同角度分析 DeepSeek 的模型和技术。
韩国 Mirae Asset Securities Research 的一名分析师在 X 撰写长文分析称,这一突破是通过实施大量细粒度优化和使用英伟达的汇编式 PTX 编程实现的,而非通过 CUDA 中的某些功能。CUDA 是由英伟达开发的一种通用编程框架,允许开发者利用 GPU 进行通用计算。如果 DeepSeek 绕过了 CUDA,这说明其研发团队在大模型训练中采用了不同的技术路径。
对于程序开发人员来说,CUDA 类似于一种高级语言,降低了开发难度,使开发者能够专注于算法逻辑而无需过多考虑硬件执行细节。例如,使用高级语言进行变量赋值操作只需一条命令,而用汇编语言则需要多条指令并理解寄存器、内存等概念。因此,CUDA 便于开发基于 GPU 的算法设计。
大模型开发商通常基于 CUDA 进行研发,因为 CUDA 已经封装了一些常用函数,简化了开发过程。然而,这种通用性也带来了一定的灵活性损失。对于有特定需求的开发者,如需要精细化控制多个 GPU 之间的数据传输,CUDA 可能无法提供高效的解决方案。
当使用单个 GPU 时,CUDA 非常适用。但在多节点多 GPU 环境下,CUDA 的抽象层面效率较低。开发者可以通过组合 GPU 驱动提供的函数接口来提高效率,或者直接调用底层硬件接口以实现更高效的大模型研发。绕过 CUDA 可以直接根据 GPU 的驱动函数进行新的开发,从而实现更加细粒度的操作。
DeepSeek 在多节点通信时绕过了 CUDA 直接使用 PTX,这使得模型训练速度更快。这意味着在相同时间内可以处理更多数据,间接提高了模型效果。绕过 CUDA 并非新鲜做法,一些开源框架如 Triton 也在尝试替代 CUDA。
11月13日以来,A股经历阶段性调整,各指数与行业板块呈现普跌态势,市场整体观望情绪加重。
2024-11-25 09:42:30业内解析A股本轮阶段性调整