蚂蚁开源首个百亿级扩散模型LLaDA2.0

腾赚网 97 0

12月12日,蚂蚁集团正式开源了LLaDA2.0系列。LLaDA2.0 包含 MoE 架构的 16B (mini) 和 100B (flash) 两个版本,我们将 Diffusion 模型的参数规模首次扩展到了 100B 量级。这一突破标志着扩散语言模型在大规模参数化方向迈出了关键一步,为后续研究和应用开辟了新的可能性。

此次发布,我们的模型不仅打破了扩散模型难以扩展的固有印象,更在代码、数学和智能体任务上展现出了超越同级自回归(AR)模型的优异性能。通过引入创新的 Warmup-Stable-Decay(WSD)持续预训练策略,LLaDA2.0 在保持训练稳定性的同时显著提升了推理能力和泛化表现。

作为业内首个达到百亿参数规模的扩散语言模型,LLaDA2.0 的开源将有力推动大模型社区在非自回归架构方向的探索。其在复杂任务场景中的出色表现,也预示着扩散机制有望成为下一代大语言模型的重要技术路径之一。

抱歉,评论功能暂时关闭!