机器学习研究中的抄袭案例

本文揭露了一起机器学习研究领域的抄袭事件,详细对比了原文与被抄袭文本的技术内容,包括数据去重方法、模型架构等核心细节,并探讨了学术抄袭对研究领域的影响。

机器学习研究中的抄袭案例

近期发现一起机器学习研究领域的抄袭事件。论文《A Roadmap for Big Model》抄袭了本人近期论文《Deduplicating Training Data Makes Language Models Better》中的多个段落。(颇具讽刺的是,这篇关于大模型的论文抄袭的正是研究数据复制的论文。这种讽刺我们心知肚明。)令人遗憾的是,我们的论文并非唯一被抄袭的对象:该大模型论文至少抄袭了十余篇其他论文。

从宏观角度看,这种形式的抄袭并非最恶劣的行为。它不像某些论文直接复制前人成果的方法并宣称原创。但即使抛开剽窃他人文字的道德问题,综述论文的价值在于其对领域的重新诠释。直接抄袭前人论文的综述,其贡献甚至不及一份参考文献列表。

抄袭实例对比

下表展示了几处明显的抄袭案例,左侧为大模型论文文本,右侧为原始论文文本,抄袭内容用绿色高亮显示:

大模型论文文本 原始论文文本
数据记忆化的风险(例如提取敏感数据如有效电话号码和IRC用户名)被Carlini等人[41]强调。他们的论文发现GPT-2输出了604个训练数据样本,而我们证明模型输出的数据中超过1%是记忆化的训练数据。在计算机视觉领域,训练数据记忆化已从判别模型和生成模型多个角度进行研究。

数据去重不会损害困惑度:在去重数据集上训练的模型与原始数据集训练的基线模型相比困惑度相当。某些情况下去重可使困惑度降低10%。此外,由于近期语言模型通常仅训练几个周期[47,47],通过更高质量数据训练可使模型更快达到更高准确率。

最简单的重复样本检测方法是执行所有样本对间的精确字符串匹配,但我们将证明这种方法不足。我们提出两种互补的去重方法:首先使用后缀数组[49]移除数据集中 verbatim 重复的子串;其次使用MinHash[48](一种高效估计语料库中所有样本对n-gram相似度的算法)移除与任何其他样本具有高n-gram重叠的完整样本。

导致研究者高估模型准确率,并使模型选择偏向于故意过拟合的模型和超参数
[原始]:
数据记忆化的隐私风险(例如提取有效电话号码和IRC用户名等敏感数据)被Carlini等人(2020)强调。他们的论文发现GPT-2输出了604个训练数据样本,而我们证明模型输出的数据中超过1%是记忆化的训练数据。在计算机视觉领域,训练数据记忆化已从判别模型和生成模型多个角度进行研究。

数据去重不会损害困惑度:在去重数据集上训练的模型与原始数据集训练的基线模型相比困惑度相当。某些情况下去重可使困惑度降低10%。此外,由于近期语言模型通常仅训练几个周期(Radford等人,2019;Raffel等人,2020),通过更高质量数据训练可使模型更快达到更高准确率。

最简单的重复样本检测方法是执行所有样本对间的精确字符串匹配,但我们将证明这种方法不足。我们提出两种互补的去重方法:首先使用后缀数组(Manber和Myers,1993)移除数据集中verbatim重复的子串;其次使用MinHash(Broder,1997)(一种高效估计语料库中所有样本对n-gram相似度的算法)移除与任何其他样本具有高n-gram重叠的完整样本。

导致研究者高估模型准确率,并使模型选择偏向于故意过拟合的模型和超参数

(表格中继续展示其他技术细节的抄袭对比,包括:跨模态模型架构、自对话方法改进零样本性能、社会偏见消除技术、跨语言模型训练方法、Transformer模型训练技术等具体技术内容)

抄袭检测方法

发现过程始于合作者在阅读大模型论文时注意到某些文本异常熟悉。经核查确认存在大量直接复制我们论文的文本。

为系统检测抄袭,我们采取了以下技术方案:

  1. 收集了顶级机器学习会议(ICML/ICLR/NeurIPS等)几乎所有录用论文的PDF数据集
  2. 提取所有文本并整合到单个.txt文件
  3. 使用我们论文开发的数据去重工具(正是被抄袭的论文中提出的方法!)检测大模型论文与先前出版物中的重复文本序列

检测标准严格设定为:

  • 至少10个连续单词(经空白字符标准化后)
  • 在大模型论文中连续出现
  • 同时存在于某篇先前论文
  • 且不重复出现在多篇先前论文中

该方法有效避免了误判常见短语(如版权声明、论文标题引用等)。经人工复核后确认了最严重的抄袭案例(上文所示)。另有部分自我抄袭案例(新论文与抄袭来源论文存在共同作者)未予展示——虽然这种做法也不理想,但严重性较低。

由于检测流程限制(数据集未包含所有预印本),可能存在未发现的抄袭内容。但已发现的抄袭数量已远超合理范围,这种现象令人遗憾。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计