LIT-PCBA基准数据泄露与冗余问题分析

本文揭示LIT-PCBA基准测试中存在严重数据泄露、重复样本和结构冗余问题,包括训练集与验证集间2491个非活性化合物重复,查询集中三个本应不可见的配体出现数据泄露,某些靶点中超过80%查询配体为近似重复样本。

LIT-PCBA基准测试中的数据泄露与冗余问题

LIT-PCBA是虚拟筛选中广泛使用的基准测试集,但审计发现该数据集存在根本性缺陷。数据集存在严重的数据泄露、大量重复和普遍的结构冗余问题,这些缺陷使其无法用于公平的模型评估。

主要发现

数据重复问题

  • 训练集和验证集中存在2,491个重复的非活性化合物
  • 单个数据分割内部存在大量重复:训练集2,945个,验证集789个

数据泄露问题

查询集中三个本应代表未见测试案例的配体出现泄露:

  • 两个出现在训练集中
  • 一个出现在验证集中

结构冗余问题

  • 某些靶点中超过80%的查询配体是近似重复样本(Tanimoto相似度≥0.9)
  • 仅ALDH1靶点就发现训练集与验证集间存在323个高度相似的活性化合物对

影响分析

这些缺陷共同导致在LIT-PCBA上训练的模型倾向于记忆而非泛化。为证明数据完整性问题的影响,研究实现了一个基于记忆的简单基线方法:

  • 不使用学习算法
  • 不涉及物理原理
  • 不需要建模

该方法仅通过利用数据缺陷,就在LIT-PCBA上超越了包括CHEESE等深度神经网络在内的最先进模型。

结论与建议

研究结果表明该基准测试不适合其预期用途,并对其既往使用结果的有效性提出质疑。所有用于重现审计结果和基线实现的脚本均已公开提供,以帮助社区开发更严格可靠的数据集。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计