LIT-PCBA基准测试中的数据泄露与冗余问题
LIT-PCBA是虚拟筛选中广泛使用的基准测试集,但审计发现该数据集存在根本性缺陷。数据集存在严重的数据泄露、大量重复和普遍的结构冗余问题,这些缺陷使其无法用于公平的模型评估。
主要发现
数据重复问题
- 训练集和验证集中存在2,491个重复的非活性化合物
- 单个数据分割内部存在大量重复:训练集2,945个,验证集789个
数据泄露问题
查询集中三个本应代表未见测试案例的配体出现泄露:
- 两个出现在训练集中
- 一个出现在验证集中
结构冗余问题
- 某些靶点中超过80%的查询配体是近似重复样本(Tanimoto相似度≥0.9)
- 仅ALDH1靶点就发现训练集与验证集间存在323个高度相似的活性化合物对
影响分析
这些缺陷共同导致在LIT-PCBA上训练的模型倾向于记忆而非泛化。为证明数据完整性问题的影响,研究实现了一个基于记忆的简单基线方法:
- 不使用学习算法
- 不涉及物理原理
- 不需要建模
该方法仅通过利用数据缺陷,就在LIT-PCBA上超越了包括CHEESE等深度神经网络在内的最先进模型。
结论与建议
研究结果表明该基准测试不适合其预期用途,并对其既往使用结果的有效性提出质疑。所有用于重现审计结果和基线实现的脚本均已公开提供,以帮助社区开发更严格可靠的数据集。