河套企业发布全球医学顶尖科研成果数据集,破解数据价值释放难题
2025-05-18 19:38
来源: 深圳新闻网
人工智能朗读:

河套企业发布全球医学顶尖科研成果数据集,破解数据价值释放难题

深圳新闻网2025年5月18日讯(记者 杨铭琪)5月17日,河套深圳园区企业东壁科技数据公司(简称“东壁科技数据”)联合上海财经大学数字经济学院于2025数据安全发展大会上,正式发布“全球医学顶尖科研成果高质量数据集索引(2019–2024)”。该数据集基于东壁科技数据自主研发的Dongbi Index(东壁指数)顶级期刊评价体系,从海量医学文献中精准提取高价值科研数据,构建覆盖基础研究、医疗器械、生物医药与人工智能四大领域的多维数据框架,旨在为全球医学研究趋势研判、政策制定与产业创新提供权威数据支撑。

据介绍,该数据集索引及报告系国家自然科学基金委专项资助项目(项目号:72442024)。东壁科技数据创始人吴登生表示,为应对医学研究的多维复杂性,团队整合了15项国家战略规划与行业报告,以及国家自然科学基金委员会与国家卫健委发布的科研指引,东壁科技数据创新设计了基础研究、医疗器械、生物医药、人工智能四个一级分类框架,细化为19个子类,构建了兼具深度与广度的医学知识图谱。针对非结构化文本解析的挑战,团队开发了“数据融合—知识抽取—质量验证”三层智能引擎,通过融合期刊影响因子、学科分类等结构化信息与论文标题、摘要等文本内容,并结合大模型技术,实现了从文献到结构化医学数据的高效自动提取。

构建高质量医学数据集破解数据价值释放难题

今年1月11日,东壁科技数据发布了由我国机构自主构建的全球学术期刊评价指标体系——Dongbi Index(东壁指数),提出了“种子期刊引文追溯+引文网络层级结构分级”模型。

此次发布的“全球医学顶尖科研成果高质量数据集索引(2019—2024)”同样基于这一模型,以《自然》(Nature)、《科学》(Science)、《美国科学院院刊》(PNAS)等三本期刊为种子,通过文献主题建模初筛医学论文,再借助多轮引文迭代追踪,最终锁定34本医学领域顶尖期刊。这些期刊涵盖肿瘤学、心血管、免疫学等10大学科,80%以上影响因子超过10。数据显示,2019–2024年间,这34本期刊累计发表论文10.6万余篇,年均发文量超1.6万篇,为高质量数据挖掘奠定了坚实基础。

东壁科技数据研究团队在15260篇顶尖论文中提取出53360项核心数据,涵盖临床记录(25618项)、实验记录(13625项)、公开数据(3242项)、调查数据(2676项)、随访数据(1451项)、文献综述数据(615项)、模拟数据(424项)等多元来源,时间跨度从数天至十余年,数据规模横跨数百至亿级。基于文献内容,团队还按照“干预效果评估”“关联与因果分析”“机制研究与生物推断”“医疗与经济管理”“医学工具开发与评估”“描述性分析”等维度,提炼出数据加工方法的多维应用场景并匹配使用示例,为全球医学研究从数据整合到知识转化提供解决方案。

本次发布的报告还基于数据集来源文献,深入分析了热点研究主题与国际研究态势,为科研院所、政府部门及产业界持续把握医学前沿、制定决策与创新实践提供参考。通过对数据集中15260篇文献的深度解析,东壁科技数据的研究团队发现,美国以9719篇核心论文占据绝对主导地位,次于美国的国家依次为英国、德国和法国,而中国以1518篇位列第五。

“在肿瘤发生与演进机制及防治、疾病治疗和传染病防控等研究领域,美国的研究数量均高于中国。”吴登生称,这表明美国在基础病理机制与临床转化研究上具有更为深厚的积累与投入,而我国在这些领域仍有提升的空间。不过在新兴或高技术含量领域上,则展现出另一种情况。吴登生表示,“如脑科学、放射治疗设备、基因疗法、医学影像等领域,中美的差距相对较小,这意味着我国在精准医疗与先进技术应用方面有望迎头赶上。”

立足高质量数据库建设为医学研究知识转化提供方案

在中国医学数据库的建设上,该报告也基于热点主题、国家使用态势及中美细分领域和方法学差异等方面提供了多维度的启示。报告提出,一方面,应构建以多组学、多中心临床试验及流行病学调查为基础的复合型数据库,保障数据的高质量与多样性。另一方面,也应在数据库设计中预置完善的临床干预、长期随访和综合指标体系,鼓励开放式数据共享与跨学科联合分析等,提升数据的挖掘价值与科研转化效率。

“安全合规与隐私保护是开展大规模数据分析的前提。”吴登生强调,可以通过差分隐私、同态加密等技术手段来确保研究者不泄露个人隐私,并最终助力全球医学数据的知识转化。

[编辑:唐娜 王容] [责任编辑:单铭捷]