华为发布AI推理创新技术UCM:实现高吞吐、低时延推理体验,降低每Token推理成本
新浪科技讯 8月12日下午消息,发布在2025金融AI推理应用落地与发展论坛上,推理吞吐n推华为联合中国银联共同发布AI推理创新技术UCM(推理记忆数据管理器),创新实现高吞吐、技术低时延的现高推理体验。
在当今数字化时代,低时低AI发展日新月异。延推验降大模型训练的理体理成热潮尚未消退,AI推理体验却已悄然成为AI应用的发布关键。中信建投在2025WAIC期间发布的推理吞吐n推白皮书指出,AI正从训练向推理的创新结构性转变而快速增长。在这样的技术大背景下,AI推理体验的现高重要性愈发凸显。
推理体验直接关系到用户与AI交互时的低时低感受,包括回答问题的延推验降时延、答案的准确度以及复杂上下文的推理能力等方面。资料显示,国外主流模型的单用户输出速度已进入200 Tokens/s区间(时延5ms),而我国普遍小于60Tokens/s(时延50 - 100ms),如何解决推理效率与用户体验的难题迫在眉睫。
据介绍,华为此次发布的AI推理创新技术UCM(推理记忆数据管理器),作为一款以KV Cache为中心的推理加速套件,其融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。

责任编辑:郭栩彤
(责任编辑:综合)
推荐文章
-
I have a deskmate, her name is Xiao Li. We met each other when the semester began. Xiao Li is a nice ...[详细]
-
中新网北京8月15日电(记者 袁秀月)据“廉洁上海”官微8月13日消息,日前,上海对3起整治形式主义为基层减负典型问题进行通报。通报提到,2020年12月、2021年6月,闵行区虹桥镇先后组织为辖区内 ...[详细]
-
任九推荐本期任九在4场英超+1场德超杯+3场西甲+2场法甲+3场荷甲+1场葡超的基础上舍弃了几场让步较浅的比赛:桑德兰上场在友谊赛中1-0小胜奥格斯堡,结束了自己友谊赛连败的走势,状态回暖,本场主场面 ...[详细]
-
盈亏指数盈亏指数:庄家盈亏动态尽在掌握从庄家不输钱说起,通过发掘市场投注分布与庄家预先设置的概率之间的差异,观察每场比赛庄家的盈亏情况,并且量化成指数形式。负数代表庄家盈利;正数代表庄家亏损。通常说来 ...[详细]
-
中小学写作指导、写作素材、优秀作文以及有奖活动尽在“作文网”微信公众号 ...[详细]
-
酸辣土豆丝1元1份、排骨冬瓜2.5元1份、米饭1元1份(加米免费)……近日,南阳理工学院“一元菜”走红网络并被央视财经频道《第一时间》栏目播出报道。 ...[详细]
-
多场活动等你来!2024年上海市全民数字素养与技能提升月数字学习周暨长宁区数字素养与技能提升月活动启动
讯 记者 屠瑜)5月29日上午,由上海市委网信办指导,长宁区委网信办和长宁区学习办主办的2024年上海市数字素养与技能提升月数字学习周暨长宁区数字素养与技能提升月启动活动在长宁区业余大学社区学院)举行 ...[详细]
-
宝山高境镇家门口养老服务站作为老年人们距离最近的养老活动场所,始终致力于为老年朋友们打造一个温馨、和谐、健康的生活环境。近期,服务站连续举办了一系列深受老年居民喜爱的活动,不仅丰富了晚年生活,还提升了 ...[详细]
-
2025 精英童模超级联赛全球总决赛在成都圆满落幕。这场汇聚全球顶尖少儿时尚力量的盛会,吸引了全国各省市区及海外赛区的数百名优秀童模同台竞技,孩子们以灵动台步、自信姿态诠释多元时尚美学,为现场观众呈现 ...[详细]
-
北京时间8月16日周六),今天开奖的数字彩玩法主要有大乐透、福彩3D、排列三、快乐8等。专家预测战绩,白琪峰中大乐透43万,田茹雪同中2等43万,谢喜天小单擒4+2已揽千万,徐浩天小单中3等累擒236 ...[详细]
热点阅读