清华大学KVCache.AI团队联合趋境科技发布了KTransformers开源项目的重大更新,成功打破了大模型推理算力的门槛。这次更新支持在24G显存(4090D)的设备上本地运行DeepSeek-R1、V3的671B满血版。
KTransformers项目的核心在于异构计算策略。通过稀疏性利用,MoE架构每次仅激活部分专家模块,团队将非共享的稀疏矩阵卸载至CPU内存,并结合高速算子处理,使显存占用压缩至24GB。此外,项目采用了4bit量化技术,配合Marlin GPU算子,效率提升了3.87倍;CPU端通过llamafile实现多线程并行,预处理速度达到286 tokens/s。CUDA Graph加速减少了CPU/GPU通信开销,单次解码只需一次完整的CUDA Graph调用,生成速度可达14 tokens/s。
这一突破带来的影响显著。传统方案中,使用8卡A100服务器的成本超过百万,按需计费每小时数千元。而现在,单卡RTX 4090方案的整机成本约为2万元,功耗仅为80W,非常适合中小团队和个人开发者。NVIDIA RTX 4090运行DeepSeek-R1满血版的案例不仅展示了技术奇迹,也是开源精神与硬件潜能结合的典范。这证明了在AI快速发展的时代,创新往往源于对“不可能”的挑战。
在ChatGPT掀起全球AI热潮两年后,大模型领域迎来了一位新星——DeepSeek。凭借高性能、低成本以及完全开源的特点,DeepSeek迅速吸引了公众的目光,成为市场上的“鲶鱼”
2025-02-14 17:24:33从DeepSeek看AI趋势进入2月份以来,受DeepSeek引发的本地部署大模型等因素驱动,上市公司机构调研的重点转向了AI大模型、AI算力、人形机器人等领域
2025-02-16 13:09:04机构扎堆调研AI板块就在DeepSeek在华尔街和应用下载榜上引起轰动的同时,深度求索公司在除夕夜再次推出了新的产品
2025-02-01 13:13:44清华翟季冬自2024年起,人工智能产业见证了显著的转型期。据统计,截至同年10月9日,共有188个人工智能大模型通过网信办备案,意味着这些模型具备上线提供服务的资格
2024-10-13 02:57:00大模型企业分化2月5日,联想集团与沐曦股份联合发布了基于DeepSeek大模型的一体机解决方案
2025-02-05 16:24:07联想联合沐曦发布DeepSeek一体机解决方案