华为发布AI推理创新技术UCM:实现高吞吐、低时延推理体验,降低每Token推理成本
新浪科技讯 8月12日下午消息,发布在2025金融AI推理应用落地与发展论坛上,推理吞吐n推华为联合中国银联共同发布AI推理创新技术UCM(推理记忆数据管理器),创新实现高吞吐、技术低时延的现高推理体验。
在当今数字化时代,低时低AI发展日新月异。延推验降大模型训练的理体理成热潮尚未消退,AI推理体验却已悄然成为AI应用的发布关键。中信建投在2025WAIC期间发布的推理吞吐n推白皮书指出,AI正从训练向推理的创新结构性转变而快速增长。在这样的技术大背景下,AI推理体验的现高重要性愈发凸显。
推理体验直接关系到用户与AI交互时的低时低感受,包括回答问题的延推验降时延、答案的准确度以及复杂上下文的推理能力等方面。资料显示,国外主流模型的单用户输出速度已进入200 Tokens/s区间(时延5ms),而我国普遍小于60Tokens/s(时延50 - 100ms),如何解决推理效率与用户体验的难题迫在眉睫。
据介绍,华为此次发布的AI推理创新技术UCM(推理记忆数据管理器),作为一款以KV Cache为中心的推理加速套件,其融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。

责任编辑:郭栩彤
(责任编辑:娱乐)
推荐文章
-
"材料的选择不是韩信用兵多多益善,古人云“良桐方能斫美琴”。特别是对那些看起来比较新鲜生动的材料,不考虑是否有助于表现主题,统统塞进文章,结果带来了庞杂堆砌的毛病。其实,选材贵在精而不 ...[详细]
-
竞彩大势北京时间8月11日(周一),今日竞彩一共开售7场赛事,下午有日职的赛事,晚上主要是芬超、瑞典超和葡超等的赛事。而比较引人关注的比赛为大阪樱花VS新泻天鹅、埃尔夫斯堡VS韦纳穆和波尔图VS吉马良 ...[详细]
-
据港媒报道,艺人方力申昨日出席活动,谈到在音乐会上开玩笑说 “接受不了生女儿”,他表示因为这句话被骂了好几天,“连我岳父都问我太太发生了什么事。”他强 ...[详细]
-
#警方通报工人如厕时被气枪击中身亡#2025年7月7日凌晨1时,我局接群众报警称:某工地工人游某某收工离开工地后很久没有回到工地宿舍,工友四处寻找没有找到,请求帮助。属地派出所立即组织搜寻,凌晨1时5 ...[详细]
-
当我们从母体里脱离时,我们成为了一个貌似独立的个体。可我们并不是生来就是万能的。我们一直需要着------上学了,我们也没能逃脱需要。我们需要老师教授的知识,需要同学的帮助-----因为有了这些需要。 ...[详细]
-
2025・云南第二届东盟智力运动会将在昆明正式启幕。赛事推广大使俞俐均邀您共赴智力之约!见证棋盘之上的巅峰对决,让智力运动成为东盟与中国文化交融的桥梁,让每一步落子都承载着交流互鉴的美好愿景。让我们共 ...[详细]
-
简介: 马勃的功效与作用_马勃的药用价值大马勃,不孕基部小或无。残留的包被 ...[详细]
-
青马讯 根据北京市体育竞赛管理和国际交流中心以及北京市马术运动协会对于裁判的培训计划,今年下半年第二场常规培训于12月6日圆满结束,鉴于疫情原因,本次培训全由线上完成。本次培训分两天进行,主要针对北京 ...[详细]
-
高温+暴雨+强对流三预警齐发 这些区域需防范8级以上雷暴大风
中新网8月21日电 据中央气象台网站消息,中央气象台8月21日06时继续发布高温黄色预警、暴雨蓝色预警和强对流天气蓝色预警。高温黄色预警预计8月21日白天,河北南部、山东大部、河南大部、安徽、江苏、上 ...[详细]
-
这个暑期,各大热门景区和博物馆观众流持续“升温”。在国家博物馆,每天就有近160万人预约26000张门票,供需矛盾巨大,导致一票难求。面对“黄牛”恶意倒票,国家博物馆采取分段放票,升级风控策略,封禁4 ...[详细]
热点阅读