蚂蚁开源首个百亿级扩散模型LLaDA2.0

腾赚网 2025年12月12日 18:05 149 0

12月12日，蚂蚁集团正式开源了LLaDA2.0系列。LLaDA2.0 包含 MoE 架构的 16B (mini) 和 100B (flash) 两个版本，我们将 Diffusion 模型的参数规模首次扩展到了 100B 量级。这一突破标志着扩散语言模型在大规模参数化方向迈出了关键一步，为后续研究和应用开辟了新的可能性。

此次发布，我们的模型不仅打破了扩散模型难以扩展的固有印象，更在代码、数学和智能体任务上展现出了超越同级自回归（AR）模型的优异性能。通过引入创新的 Warmup-Stable-Decay（WSD）持续预训练策略，LLaDA2.0 在保持训练稳定性的同时显著提升了推理能力和泛化表现。

作为业内首个达到百亿参数规模的扩散语言模型，LLaDA2.0 的开源将有力推动大模型社区在非自回归架构方向的探索。其在复杂任务场景中的出色表现，也预示着扩散机制有望成为下一代大语言模型的重要技术路径之一。

本文地址： https://www.tengzhuan.com/post/772755.html

文章来源：腾赚网