DeepSeek-R2曝5月前上线。第三天,DeepSeek发布了DeepGEMM。这是一个支持稠密和MoE模型的FP8 GEMM计算库,可为V3/R1的训练和推理提供强大支持。仅用300行代码,这个开源库就能超越专家精心调优的矩阵计算内核,为AI训练和推理带来显著性能提升。
DeepGEMM库具有以下特点:在Hopper GPU上实现高达1350+ FP8 TFLOPS的算力;极轻量级依赖,代码清晰易懂;完全即时编译,即用即跑;核心逻辑仅约300行代码,却在大多数矩阵规模下超越专家级优化内核;同时支持密集布局和两种MoE布局。开发者惊叹于其简洁高效的设计,认为这可能是GPU运算技术的重大突破。
DeepGEMM改变了使用FP8 GEMM库的方式,简单、快速、开源,代表着AI计算的未来。在即将发布的DeepSeek-R2中,将实现更好的编码,并支持多种语言进行推理。业内人士预测,这将是AI行业的一个关键时刻。目前,DeepSeek已经在创建高成本效益模型方面取得成功,打破了该领域的垄断局面。DeepGEMM发布两天内,前两个项目FlashMLA和DeepEP分别获得了近10k和5k星标。
DeepGEMM专为清晰高效的FP8通用矩阵乘法设计,采用了DeepSeek-V3中提出的细粒度缩放技术。它支持常规矩阵乘法和混合专家模型分组矩阵乘法。DeepGEMM使用CUDA编写,通过轻量级即时编译模块在运行时编译所有内核。目前仅支持NVIDIA Hopper张量核,为了解决FP8张量核在累加计算时的精度问题,采用了基于CUDA核心的两级累加技术。尽管借鉴了CUTLASS和CuTe的一些概念,但避免了过度依赖它们的模板或代数系统,追求设计简洁,包含一个核心内核函数,代码量仅约300行。尽管采用轻量级设计,DeepGEMM在处理各种矩阵形状时的性能都能够达到甚至超越经专家调优的库。
马克・古尔曼对关于苹果新款iPhone SE 4和iPad 11将于今年4月随iOS 18.3和iPadOS 18.3一起发布的消息进行了回应
2025-01-08 08:31:21曝苹果将在4月前推出iPhoneSE412月10日,温女士在其个人账号上继续发声,通报了“21岁前台拒绝潜规则遭辞退”事件的最新进展。12月5日,双方在劳动部门调解下达成和解,饭店向温女士支付了无故辞退经济赔偿金
2024-12-12 09:02:57被曝潜规则饭店上线提拔套餐今天是春节假期的第三天,也是大年初二回门日。预计从今日起,中东部地区将有较大范围的雨雪过程
2025-01-31 10:07:49今日5省份有大到暴雪大范围雨水上线