大湾区分布式人工智能新成果发布 能否打通大模型落地的“最后一公里”?

AI视界(以下内容由AI生成,仅供参考)

  • 关键词
  • 简介
  • 重点
  • 分析
  • 猜你
    想问

深圳新闻网2025年10月24日讯(记者 刘惠敏)基础模型训练资源耗费量大,领域专属知识与数据无法融入模型;隐私保护与版权归属问题使医疗、金融等敏感数据难以用于训练;基础模型难以及时吸收新知识,严重阻碍技术迭代……AI落地面临“最后一公里”难题,当下生成式人工智能(GenAI)面临的核心制约该如何打破?

香港理工大学(理大)人工智能高等研究院(PAAI)研究团队从“低成本训练”与“分布式融合”两大方向展开攻关,创新提出“协作式生成式人工智能(Co-Generative AI)”模式,将AI训练从传统集中式转向分布式。

分布式生成式人工智能的优势在于数据能够直接在本地进行模型训练和融合。这种方式不仅降低了训练成本、保障数据隐私,更打破资源壁垒,还使得更多研究机构能够参与研发。

港理大高级副校长(研究及创新)赵汝恒(左)与PAAI执行院长、计算机及数学科学学院副院长(环球事务)、电子计算学系教授杨红霞(右)。

理大成为业界首个开源发布“端到端FP8低比特训练全套方案(涵盖预训练及后训练)”的大学团队,该技术打破全球基础模型以BF16精度训练的主流格局,是全球少数掌握该核心技术的研究团队之一。与BF16相比,FP8核心优势体现在多方面:训练速度提高逾两成、显存峰值占用减少逾一成、成本大幅下降;整合“持续预训练”“监督式微调”和“强化学习”,训练效果媲美BF16模型且训练时间和显存占用进一步压缩。团队已启动更低成本的FP4精度训练探索,相关成果已发表于学术论文;经测试,其在医疗的诊断和推理上超过目前业界发布同等尺寸最优模型领域;在科研智能体领域(Research Agent)中的任务复杂度,泛化能力和生成报告质量上均取得重大突破。

传统基础模型遵循“缩放定律”,即参数越多、知识越广、性能越强,但集中式训练需要耗费百万计GPU小时,仅少数机构可以负担。理大团队研发的“InfiFusion模型融合技术”则实现关键突破:仅需数百GPU小时,即可融合出传统需100万至200万GPU小时训练的大模型;团队更以实例验证效率——用160个GPU小时完成4个尖端模型融合,不仅避免了单个尖端模型传统训练需要的百万级GPU小时,且融合后模型在多项权威测试中性能显著优于原始模型。

此外,这项由Thinking Machines Lab非常倡导模型融合的理念,被理大团队首次从理论上验证了可行性。研究团队通过严谨的数学推导,提出了“模型融合缩放定律(Model Merging Scaling Law)”,这意味着通往通用人工智能(AGI)可能还有另一条途径。理大 PAAI 执行院长、计算器及数学科学学院副院长(环球事务)及电子计算学系教授杨红霞教授指出,以超低资源实现基础模型训练,加上高效模型融合,可以助力全球学术人员投入GenAI研究,汇聚更多力量创新。

在技术落地层面,该团队已取得多领域实质进展。医疗领域中,团队训练出性能领先的医疗基础大模型,并研发专属“癌症GenAI”——在同规模模型中性能最佳,可快速积累高质量医疗数据、直接对接医疗设备,用于癌症个性化治疗规划,目前正联合复旦大学附属华山医院、中山大学肿瘤防治中心、山东省肿瘤医院及香港伊利沙伯医院推动合作与临床落地。此外,团队在智能体AI(Agentic AI)领域亦有突破,该技术可作为研究生学术助手协助论文撰写与审阅,同时作为多模态专利检索引擎为创新研发提供高效支持。

(本文图片由受访单位提供)

记者:刘惠敏 审核:田志强 校对:马丹 责任编辑:孙逊

AI视界(以下内容由AI生成,仅供参考)

关键词

简介

重点

分析

猜你想问