华为发布AI推理技术UCM，9月开源助力行业升级

腾赚网 2025年08月13日 09:01 196 0

华为近日发布了一项全新的AI推理技术——UCM（推理记忆数据管理器），该技术聚焦于KV Cache（键值缓存）管理，通过多类型缓存加速算法工具，实现对推理过程中记忆数据的分级管理，从而扩大推理上下文窗口，提升推理效率，降低每Token成本。按照计划，华为将在2025年9月于魔擎社区首发开源UCM，并逐步推广至主流推理引擎社区及相关存储厂商。

当前，AI推理落地面临“推不动、推得慢、推得贵”三大难题。相比海外头部企业，国内大模型在首Token响应速度和吞吐率方面仍有差距。随着大模型服务调用量和计算量激增，推理算力需求爆发，基础设施重心正逐步向推理倾斜。UCM已在银联的客服、营销、会议等场景开展试点，未来还将扩展至金融、政务、制造等多个行业。华为表示，随着AI迈向Agentic AI时代，推理成本与体验将成为行业落地的关键，UCM正是为应对这一挑战而生。

本文地址： https://www.tengzhuan.com/post/755854.html

文章来源：腾赚网