华为云发布FlexNPU，打造弹性伸缩的“算力金箍棒”

深圳新闻网2026年3月21日讯（记者吴乐思）3月20日，华为云中小企业AI解决方案发布会上推出了一项算力黑科技——柔性智算操作系统FlexNPU，将Token消耗“吞金兽”有效控制在企业预算范围内，打造面向Agentic时代的极致Token性价比，为企业级智能体的普及突破算力瓶颈。

华为云中国区销售伙伴发展部部长、华为云中国区Marketing与解决方案销售部部长郭婷在致辞中表示，2026年华为云将构建AI时代更加肥沃的“黑土地”，让算力服务更柔性、更适配中小企业的轻量化需求，实现从“调度靠拍板”到“成本算到精”的转变，解决“用不起、用不好”算力的核心难题。

华为云中国区销售伙伴发展部部长、华为云中国区Marketing与解决方案销售部部长郭婷

会上，华为云发布中小企业AI解决方案，涵盖AI基础设施层、模型服务层、智能体平台层、智能体应用层，帮助企业打造能对接ERP、能调用API、能闭环业务流程的“数字员工”。目前，华为云已深入2600多家企业、30多个行业，解决500多个AI场景化问题，成为企业AI创新路上的可靠伙伴。

“我们的推理池平均利用率竟然不足30%，我们花费重金建设、动辄数万、数十万卡的AI硬件算力池，竟有超过一半以上的算力在‘摸鱼，吃空饷’。”华为云首席架构师、华为公司Fellow顾炯炯在现场抛出了一组惊人数据。他指出，Agent时代企业普遍面临算力痛点：Agent自主规划、多轮迭代、长上下文导致Token消耗量呈指数级增长，如何有效降低Token成本，成为最核心和迫切的挑战。

为此，华为云发布了黑科技——柔性智算FlexNPU，通过构筑强大而灵活的AI Infra层算力调度技术，大幅提升推理池的有效算力利用率，从而以相同AI硬件算力投入，提供更大的Token吞吐输出。

对于柔性智算FlexNPU，顾炯炯以可大可小、变化随心的“如意金箍棒”生动形容，表示FlexNPU赋予NPU/GPU算力“柔性或液态化”供给与伸缩的能力，可依据任意业务需求动态变化随需而动，如同金箍棒一般“可大可小、变化随心”，通过最大化AI算力投入的利用率，最终实现Token性价比的最优化。

华为云发布FlexNPU，打造弹性伸缩的“算力金箍棒”

AI视界（以下内容由AI生成，仅供参考）

关键词

简介

重点

分析

猜你想问