Science报道“论文工厂”

5月14日,Science《科学》在其线上新闻专栏Science Insider 报道了一项令人震惊的研究发现:近 3 年来,利用美国健康与营养调查(NHANES)等公开数据库发表的低质量论文数量激增,其中超过 92% 的论文由中国研究人员贡献。这一现象被认为与“论文工厂”和人工智能(AI)技术的滥用密切相关。

论文指出Matt Spick(Scientific Reports的副主编)注意到大量风格雷同的论文涌入Scientific Reports期刊几乎每天都有一篇,有时甚至一天两篇,内容几乎一模一样这些论文都使用了同一个公开的美国数据集:国家健康与营养调查(NHANES)。

Nature报道数据库被“滥用”

Nature 也在近期的报道中指出,除了NHANES,其他生物医学数据库(UK Biobank、FAERS、GBD和FinnGen)也频繁被这些低质论文利用。面对这一问题,Journal of Global Health已经率先采取行动,收紧了对基于这些数据库的论文的审核标准。现在,使用开放数据集投稿的作者必须声明过去三年内使用类似数据集发表过多少篇论文,披露是否使用人工智能撰写手稿,并解释其如何排除结果中的假阳性。为应对“滥用数据集”的趋势,其他期刊和出版商或将效仿Journal of Global Health,引入类似的严格审核机制。

一、绝大部分低质论文来自中国,FinnGen成重灾区

根据Matt Spick、Anthony Onoja等人的研究,2021年-2025年间,有六个数据集的论文数量远超预期增长,其中NHANES、UK Biobank、FAERS、GBD和FinnGen这五个数据源的“模板化”论文爆发式增长。这些低质论文往往选取某种健康问题、关联的环境或生理因素,以及特定人群的已公开数据,通过简单替换变量生成所谓的“新发现”,如饮用半脱脂牛奶与预防抑郁症(PMID 39703337)或受教育程度与术后腹疝(PMID 39616067)之间,以及许多其他缺乏生物学基础的假设。

与ARIMA预测相比的六个数据源实际出版数量

在检查这六个数据源论文的地理来源变化时,研究发现来自中国的论文从2021年占PubMed数据库索引论文的19%猛增至2024年的65%,为所有国家/地区中增长最多的。在这六个数据集中,FinnGen数据源的中国论文增长最为显著,截至2024年,89%相关论文的主要作者来自中国

2021年至2024年PubMed中编入索引的论文增加的国家/地区

这种论文产出的不平衡分布表明,这种增长并非研究生产力的普遍提高,而是发展中国家的研究人员在“不发表就灭亡”的学术压力下,因缺乏科研支持而铤而走险,最终助长了”论文工厂“的发展。

二、五大生物医学数据库

NHANES(美国国家健康与营养检查调查)

基本介绍:由美国疾控中心(CDC)主导,始于1960年代,1999年起转为持续项目,每年调查约5,000名美国代表性人群。

数据内容

▪  访谈数据:人口统计、社会经济、饮食、慢性病史等。

▪  体检数据:医学检查(血压、口腔健康)、生理测量(骨密度、体脂)、实验室检验(血液、尿液分析)。

▪  重点疾病:糖尿病、心血管病、肥胖、环境暴露相关疾病等。

特点

▪  全国代表性:采用分层抽样,过度覆盖老年人、非裔和西班牙裔群体。

▪  数据访问:官网免费开放(XPT格式),可通过R、SAS等工具处理合并。

UK Biobank(英国生物样本库)

基本介绍:覆盖50万英国志愿者,历时15年收集基因组、生活方式及健康数据,2025年完成全球最大规模全身体成像项目(10万人)。

数据亮点

▪  影像数据:超10亿张MRI/超声图像,涵盖脑、心脏、血管等器官7。

▪  多模态整合:结合基因组、蛋白质组、电子健康记录,支持跨维度健康研究。

突破性应用

▪  开发AI工具,将心脏扫描分析时间从15分钟缩短至1秒7。

▪  预测神经退行性疾病(如阿尔茨海默病)风险。

数据访问:研究者需申请,已支撑1,300+篇论文。

FAERS(FDA不良事件报告系统)

基本介绍:FDA用于监测上市后药品安全性的数据库,接收医疗专业人员/消费者的自愿报告。

数据结构

▪  7类表格:患者信息(DEMO)、药物(DRUG)、不良事件(REAC)、治疗结果(OUTC)等。

▪  术语标准化:采用MedDRA词典编码事件类型。

局限性

▪  无法验证因果关系:报告仅反映疑似关联,需结合其他研究验证。

▪  报告偏差:受药品知名度、媒体报道影响,非全面统计。

数据访问:官网免费开放(TXT格式),含7个表(DEMO/DRUG/REAC等)。

GBD(全球疾病负担研究)

基本介绍:由华盛顿大学健康指标与评估研究所(IHME)主导,覆盖204个国家/地区、300+疾病、70+风险因素,数据追溯至1990年。

核心指标

▪  DALY(伤残调整生命年):综合死亡与残疾的健康损失度量。

▪  HALE(健康预期寿命):反映高质量生存年限。

优势

▪  开源工具:提供GBD Compare可视化平台,支持趋势分析与预测。

▪  科研产出:多篇《柳叶刀》论文涉及育龄妇女偏头痛、骨关节炎负担等主题。

数据访问:官网免费开放,可通过GBD Compare勾选参数(疾病、地区、年份、指标如DALY/死亡率),直接下载CSV文件。

FinnGen(芬兰基因组计划)

基本介绍:2017年启动的公私合作项目,整合50万芬兰人基因组与电子健康记录,利用芬兰人群遗传独特性(基因隔离)解析疾病机制。

数据进展

▪  2023年冻结数据覆盖37.7万人,含20.2万个基因变异与2,272个疾病终点。

▪  重点发现:单/双等位基因变异对疾病的差异影响(发表于《Nature》)。

独特价值

▪  孟德尔随机化研究:通过遗传变异推断环境因素与疾病的因果关系。

▪  数据共享:研究结果在1年保护期后向全球科学界开放。

数据访问:通过学术合作申请或等待1年保护期后公开(存于FinnGen Release Portal)。

期刊简介:Scientific Reports

• 出版社:Springer Nature

• ISSN:2045-2322

• 影响因子:3.9

• 期刊分区:JCR1区,中科院3区

• 检索数据库:SCIE

• 年发文量:32215

• 自引率:5.10%

• 国人占比:24.016%,排名第一

• 中科院预警记录:无

• 研究领域:OA期刊,发表来自自然科学、心理学、医学和工程学所有领域的原创研究

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐