实验结果最终表明,一个规模为300B的MoE大语言模型可以在性能较低的设备上有效训练,并在性能上达到与同规模的其他模型相当的水平。与高性能设备相比,在预训练阶段使用低规格硬件系统可显著节约成本,计算开支约降低20%。
当前最先进的MoE模型在训练过程中严重依赖高性能AI加速器,这类高端硬件持续供不应求。相比之下,性能较低的加速器更易获得且单价更低。这种差异凸显出建立一种能够在异构计算单元和分布式集群之间无缝切换的技术体系的必要性,从而优化训练与推理的整体成本。
MoE模型的训练通常依赖于如英伟达所售GPU这类高性能芯片,这使得训练成本对许多中小企业而言过于高昂,限制了更广泛的应用。蚂蚁集团一直在致力于提高大语言模型的训练效率,并突破这一限制。从其论文标题即可看出,该公司将目标定为“在无需高端GPU的情况下扩展模型规模”。
这一方向与英伟达的战略背道而驰。英伟达首席执行官黄仁勋曾表示,即便更高效的模型出现,对计算力的需求仍会持续增长,企业要实现更多营收将依赖更强大的芯片,而非通过更便宜的芯片来削减成本。他坚持打造具备更多处理核心、更高晶体管数量和更大内存容量的大型GPU的战略。
蚂蚁集团的研究论文凸显出中国AI领域技术创新和发展速度的加快。如果其研究成果属实,这将表明中国在人工智能领域正逐步走向自主可控,特别是在寻求成本更低、计算效率更高的模型架构来应对英伟达芯片出口限制的背景下。
针对此事,蚂蚁集团回应称,他们针对不同芯片持续调优,以降低AI应用成本,目前取得了一定的进展,也会逐步通过开源分享。
据知情人士透露,马云支持的蚂蚁集团正采用中国制半导体来开发训练人工智能模型的技术,此举可将成本降低20%。蚂蚁集团使用了包括阿里巴巴和华为在内的国产芯片,并通过混合专家机器学习方法进行模型训练
2025-03-24 20:37:05曝蚂蚁集团基于中国芯片实现AI突破12月8日是支付宝和蚂蚁集团的20岁生日。当天,来自全球各地的部分员工在杭州蚂蚁集团总部相聚,久未公开露面的马云也在晚间现身园区。马云表示,他是为了蚂蚁未来的20年而来
2024-12-09 08:57:00马云现身蚂蚁集团20周年活动现场蚂蚁集团Ling团队近日发表了一篇技术成果论文,展示了两款不同规模的MoE大语言模型——百灵轻量版(Ling-Lite)和百灵增强版(Ling-Plus)
2025-03-25 09:15:18曝蚂蚁集团用国产芯片训练AI中国基金报记者曹雯璟2024年12月8日是支付宝和蚂蚁集团的二十岁生日。
2024-12-09 07:49:33蚂蚁重大宣布!又一次见证历史蚂蚁集团在官方微博上澄清,最近有机构在多个平台上宣称“蚂蚁集团即将借壳上市,并掌握内部信息”,以此诱导网友加入群聊获取推荐股票信息。蚂蚁集团明确表示目前没有上市计划,也不存在所谓的“借壳上市”
2024-12-19 11:40:12蚂蚁集团即将借壳上市