蚂蚁技术研究院今日宣布推出LLaDA2.0系列离散扩散大语言模型,并同步公开了背后的技术报告,宣称这是业内首个100B扩散语言模型。LLaDA2.0包含MoE架构的16B和100B两个版本,将Diffusion模型的参数规模首次扩展到了100B量级。

该研究院表示,此次发布的模型不仅打破了扩散模型难以扩展的固有印象,还在代码、数学和智能体任务上展现出了超越同级自回归模型的性能。通过创新的Warmup-Stable-Decay持续预训练策略,LLaDA2.0能够无缝继承现有自回归模型的知识,避免了从头训练的高昂成本。结合置信度感知并行训练和扩散模型版DPO,LLaDA2.0在保证生成质量的同时,利用扩散模型的并行解码优势,实现了相比自回归模型2.1倍的推理加速,证明了在超大规模参数下,扩散模型不仅可行,而且更强、更快。
蚂蚁技术研究院在知识理解、数学、代码、推理及智能体等多个维度对模型进行了评估。结果显示,LLaDA2.0在结构化生成任务(如代码)上具有显著优势,并在其他领域与开源自回归模型持平。LLaDA2.0的模型权重及相关训练代码已在Huggingface开源。
“十一”长假后的首个交易日,A股迎来了里程碑时刻。10月9日,A股三大指数高开高走,沪指突破3900点整数大关,刷新2015年8月以来的新高。今年以来,沪指震荡走高,并在8月成功收复多个关键点位
2025-10-09 10:31:3210年来首次“十一”长假后的首个交易日,A股迎来重要时刻。10月9日,A股三大指数高开高走,沪指突破3900点整数大关,刷新2015年8月以来新高。今年以来,沪指震荡走高,并在8月成功收复多个关键点位
2025-10-09 12:32:38沪指盘中突破3900点续创10年新高8月9日晚,中超联赛第20轮比赛中,云南玉昆客场以1-5的比分不敌青岛海牛。这场比赛对云南玉昆外援亚历山德鲁-约尼查来说意义非凡,这是他代表球队出战的第50场比赛
2025-08-10 11:42:30约尼查已代表云南玉昆出场50次热解读 当地时间6月17日,习近平主席在哈萨克斯坦首都阿斯塔纳出席第二届中国—中亚峰会并作主旨发言,首次提出“中国—中亚精神”。
2025-06-19 19:43:04热解读|“新的里程碑”是如何铸成的?记者昨天(6日)从国家电投集团获悉,海阳核电4号机组核岛钢制安全壳模块吊装就位,反应堆厂房顺利实现封顶,标志着4号机组主设备安装进入全新阶段。
2025-09-07 09:46:57海阳核电二期工程里程碑节点完成过半