文章来源:
腾赚网
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 wulanwray@foxmail.com 举报,一经查实,本站将立刻删除。
华为近日发布了一项全新的AI推理技术——UCM(推理记忆数据管理器),该技术聚焦于KV Cache(键值缓存)管理,通过多类型缓存加速算法工具,实现对推理过程中记忆数据的分级管理,从而扩大推理上下文窗口,提升推理效率,降低每Token成本。按照计划,华为将在2025年9月于魔擎社区首发开源UCM,并逐步推广至主流推理引擎社区及相关存储厂商。
当前,AI推理落地面临“推不动、推得慢、推得贵”三大难题。相比海外头部企业,国内大模型在首Token响应速度和吞吐率方面仍有差距。随着大模型服务调用量和计算量激增,推理算力需求爆发,基础设施重心正逐步向推理倾斜。UCM已在银联的客服、营销、会议等场景开展试点,未来还将扩展至金融、政务、制造等多个行业。华为表示,随着AI迈向Agentic AI时代,推理成本与体验将成为行业落地的关键,UCM正是为应对这一挑战而生。
抱歉,评论功能暂时关闭!