深圳新闻网2026年3月21日讯(记者 吴乐思)3月20日,华为云中小企业AI解决方案发布会上推出了一项算力黑科技——柔性智算操作系统FlexNPU,将Token消耗“吞金兽”有效控制在企业预算范围内,打造面向Agentic时代的极致Token性价比,为企业级智能体的普及突破算力瓶颈。
华为云中国区销售伙伴发展部部长、华为云中国区Marketing与解决方案销售部部长郭婷在致辞中表示,2026年华为云将构建AI时代更加肥沃的“黑土地”,让算力服务更柔性、更适配中小企业的轻量化需求,实现从“调度靠拍板”到“成本算到精”的转变,解决“用不起、用不好”算力的核心难题。

华为云中国区销售伙伴发展部部长、华为云中国区Marketing与解决方案销售部部长郭婷
会上,华为云发布中小企业AI解决方案,涵盖AI基础设施层、模型服务层、智能体平台层、智能体应用层,帮助企业打造能对接ERP、能调用API、能闭环业务流程的“数字员工”。目前,华为云已深入2600多家企业、30多个行业,解决500多个AI场景化问题,成为企业AI创新路上的可靠伙伴。
“我们的推理池平均利用率竟然不足30%,我们花费重金建设、动辄数万、数十万卡的AI硬件算力池,竟有超过一半以上的算力在‘摸鱼,吃空饷’。”华为云首席架构师、华为公司Fellow顾炯炯在现场抛出了一组惊人数据。他指出,Agent时代企业普遍面临算力痛点:Agent自主规划、多轮迭代、长上下文导致Token消耗量呈指数级增长,如何有效降低Token成本,成为最核心和迫切的挑战。
为此,华为云发布了黑科技——柔性智算FlexNPU,通过构筑强大而灵活的AI Infra层算力调度技术,大幅提升推理池的有效算力利用率,从而以相同AI硬件算力投入,提供更大的Token吞吐输出。
对于柔性智算FlexNPU,顾炯炯以可大可小、变化随心的“如意金箍棒”生动形容,表示FlexNPU赋予NPU/GPU算力“柔性或液态化”供给与伸缩的能力,可依据任意业务需求动态变化随需而动,如同金箍棒一般“可大可小、变化随心”,通过最大化AI算力投入的利用率,最终实现Token性价比的最优化。