我们面临AI撰写的"科学"论文泛滥风险——以下是应对之策
2000年代,美国制药公司惠氏被数千名因服用其激素替代药物而罹患乳腺癌的女性起诉。法庭文件揭示了"数十篇由枪手撰写的评论文章在医学期刊上发表,被用于宣传未经证实的疗效并淡化药物危害"的作用。
惠氏(2009年被某机构收购)曾付费请医学传播公司撰写这些文章,并以该领域知名医生名义发表(经其同意)。任何阅读这些文章并依赖其进行处方建议的医疗专业人员都不会意识到惠氏是幕后推手。
该制药公司坚称所有内容均科学准确,且令人震惊的是,付费请枪手提供此类服务在该行业很常见。某机构最终就药物损害支付了超过10亿美元的赔偿金。
这些文章是"伪研究"的绝佳例证——服务于企业利益的伪科学。虽然绝大多数研究人员致力于发现真相并严格验证他们的发现,但伪研究不关心真相——它只寻求说服。
近年来我们看到了许多其他例子,例如软饮料公司和肉类生产商资助的研究,与独立研究相比,这些研究更不可能显示其产品与健康风险之间的联系。
当前一个主要担忧是,AI工具将生产此类证据的成本几乎降至零。就在几年前,完成一篇论文需要数月时间。现在,一个人使用AI可以在几小时内产出多篇看似有效的论文。
公共卫生文献已经观察到大量论文利用为AI优化的数据报告单因素结果。单因素结果将单一因素与某些健康结果联系起来,例如发现吃鸡蛋与患痴呆症之间的关联。
这些研究容易产生似是而非的结果。当数据集涵盖数千人和数百条关于他们的信息时,研究人员不可避免地会发现偶然发生的误导性相关性。
对主要学术数据库Scopus和Pubmed的搜索显示,2014年至2021年间平均每年发表四篇单因素研究。仅在2024年前十个月,就发表了高达190篇。
这些不一定是由企业利益驱动的——例如,有些可能是学者希望发表更多材料以提升职业前景的结果。更重要的是,随着AI促进这类研究,它们成为寻求推广产品的企业的额外诱惑。
顺便提一下,英国刚刚给一些企业提供了生产这种材料的额外动机。新政府指南要求婴儿食品生产商只有在有科学证据支持的情况下,才能提出暗示健康益处的营销主张。
虽然出于好意,但这将激励公司寻找证明其产品健康的结果。这可能会增加他们对日益可用的AI辅助"科学证据"的需求。
解决问题
一个问题是在为政策提供信息之前,研究并不总是经过同行评审。例如,2021年,美国最高法院大法官塞缪尔·阿利托在一项关于持枪权的意见中,引用了一位乔治城学者的简报文件,该文件提供了关于枪支使用的调查数据。
该学者和枪支调查由宪法辩护基金资助,《纽约时报》将其描述为一个"亲枪非营利组织"。
由于调查数据未公开,且该学者拒绝回答相关问题,无法知道他的结果是否是伪研究。尽管如此,律师们仍在美国各地的案件中引用他的论文来捍卫枪支利益。
一个明显的教训是,任何依赖研究的人都应该警惕任何未经同行评审的研究。一个不太明显的教训是,我们还需要改革同行评审。近年来,关于已发表研究的爆炸式增长以及评审人员是否适当履行职责的讨论很多。
在过去十年左右的时间里,几个研究小组在确定降低已发表论文中似是而非发现风险的程序方面取得了有意义的进展。进展包括让作者在进行任何工作之前发布研究计划(称为预注册),然后透明地报告研究中采取的所有研究步骤,并确保评审人员检查这些步骤是否合规。
此外,对于单因素论文,最近有一种称为规范曲线分析的方法,可以全面测试声称关系相对于数据切片替代方式的稳健性。
许多领域的期刊编辑已经采纳了这些建议,并以其他方式更新了他们的规则。他们现在经常要求作者发布他们的数据、代码以及实验中使用的调查或材料(如问卷、刺激物等)。作者还必须披露利益冲突和资金来源。
一些期刊走得更远,例如针对使用AI优化数据集的发现,要求作者引用所有已发表的类似二次分析,并披露AI在其工作中的使用情况。
某些领域肯定比其他领域更具改革性。根据我的经验,心理学期刊在采用这些流程方面比经济学期刊走得更远。
例如,最近一项研究对发表在顶级《美国经济评论》上的分析应用了额外的稳健性检查。这表明发表在该期刊上的研究系统地夸大了数据中包含的证据强度。
总的来说,当前系统似乎难以应对AI将引发的论文泛滥。评审人员需要投入时间、精力和细致关注来检查预注册、规范曲线分析、数据、代码等。
这需要一个因评审质量而奖励评审人员的同行评审机制。
全球范围内,公众对科学的信任度仍然很高。这对社会有好处,因为科学方法是一个公正的裁判,它促进真实和有意义的内容,而不是流行或有利可图的内容。
然而,AI有可能使我们比以往任何时候都远离这一理想。如果科学要保持其可信度,我们迫切需要激励有意义的同行评审。