鹏城AI靶场助力大规模高质量中文语料数据集安全开放

读特客户端·深圳新闻网2022年9月1日讯（记者李旖露）近日，鹏城实验室在AI靶场率先开放大规模高质量中文语料数据集（鹏程·盘古语料数据集－1.1TB高质量中文语料数据、一带一路多语言语料数据集－1TB高质量多语言语料数据）。

鹏城实验室表示，AI靶场团队与网络智能研究部高效能云计算所团队联合研发了基于AISynergy的协同计算功能，加强了AI靶场协同计算能力，可完成跨多个计算集群的协同计算作业，能够实现基于中国算力网（China Computing NET，C²NET）的全新计算范式和数据隐私安全分布式业务场景，如跨域大模型协同训练与微调、多中心模型聚合、多中心联邦学习等。研究人员可在鹏城AI靶场上安全使用数据，但无法带走数据。若用户不愿上传自身数据到鹏城AI靶场，也可通过鹏城众智协同计算平台使用本地语料数据与鹏城AI靶场数据进行联合训练或微调。

据介绍，鹏城AI靶场是基于实验室领域战略科学家方滨兴院士提出的“数据不动程序动、数据可用不可见、分享价值不分享数据、保留所有权释放使用权”隐私保护新理念，由实验室新型网络研究部平台所研发的数据要素流通交易新型基础设施平台。AI靶场提出了一个模型加工场的方法，其基本思想是要构造一个可信的执行环境，把一些人为的因素、社会工程因素放在里面，以构建一个安全可控的区域。在鹏城AI靶场架构中，数据拥有方需要把数据放到模型加工场里，数据所有者可以决定数据是否能够被平台所使用。

据介绍，AI靶场通过调试环境与运行环境分离体系架构以及仿真数据生成、隐私保护前提下的调试等创新技术，确保数据所有权和使用权分离，可以让更多的数据提供方敢于将其数据安全托管，让更多的数据使用方能够充分挖掘真实场景真实数据。目前，AI靶场依托以鹏城云脑为枢纽节点的中国算力网提供的强大算力资源，通过构建可信数据空间，以张榜打靶方式将数据安全开放，进而筛选具有核心竞争力的AI团队，实现数据应用集智创新。

据悉，目前AI靶场已有力支撑了“2022年猛犸杯国际组学数据创新大赛”“昂楷杯第一届数据安全竞赛”“广东省网络安全协会数据挖掘大赛”“深圳企业高质量发展评价指标体系”“腾景AI经济预测”等多个重要领域的数据安全开放任务。