华为发布AI推理技术UCM,9月开源助力行业升级

腾赚网 95 0

华为近日发布了一项全新的AI推理技术——UCM(推理记忆数据管理器),该技术聚焦于KV Cache(键值缓存)管理,通过多类型缓存加速算法工具,实现对推理过程中记忆数据的分级管理,从而扩大推理上下文窗口,提升推理效率,降低每Token成本。按照计划,华为将在2025年9月于魔擎社区首发开源UCM,并逐步推广至主流推理引擎社区及相关存储厂商。

当前,AI推理落地面临“推不动、推得慢、推得贵”三大难题。相比海外头部企业,国内大模型在首Token响应速度和吞吐率方面仍有差距。随着大模型服务调用量和计算量激增,推理算力需求爆发,基础设施重心正逐步向推理倾斜。UCM已在银联的客服、营销、会议等场景开展试点,未来还将扩展至金融、政务、制造等多个行业。华为表示,随着AI迈向Agentic AI时代,推理成本与体验将成为行业落地的关键,UCM正是为应对这一挑战而生。

抱歉,评论功能暂时关闭!