文章来源:
腾赚网
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 wulanwray@foxmail.com 举报,一经查实,本站将立刻删除。
12月12日,蚂蚁集团正式开源了LLaDA2.0系列。LLaDA2.0 包含 MoE 架构的 16B (mini) 和 100B (flash) 两个版本,我们将 Diffusion 模型的参数规模首次扩展到了 100B 量级。这一突破标志着扩散语言模型在大规模参数化方向迈出了关键一步,为后续研究和应用开辟了新的可能性。
此次发布,我们的模型不仅打破了扩散模型难以扩展的固有印象,更在代码、数学和智能体任务上展现出了超越同级自回归(AR)模型的优异性能。通过引入创新的 Warmup-Stable-Decay(WSD)持续预训练策略,LLaDA2.0 在保持训练稳定性的同时显著提升了推理能力和泛化表现。
作为业内首个达到百亿参数规模的扩散语言模型,LLaDA2.0 的开源将有力推动大模型社区在非自回归架构方向的探索。其在复杂任务场景中的出色表现,也预示着扩散机制有望成为下一代大语言模型的重要技术路径之一。
抱歉,评论功能暂时关闭!