钓鱼攻击仍然是一个普遍且不断增长的威胁,造成了严重的经济和声誉损失。虽然机器学习在实时检测钓鱼攻击方面表现有效,但由于缺乏大规模、高质量的数据集和基准测试,进展受到了阻碍。除了数据收集困难导致的低质量问题外,现有数据集还存在数据泄露和基准率不现实的问题,从而导致性能评估过于乐观。
在本文中,我们介绍了PhreshPhish,一个针对钓鱼网站的大规模高质量数据集,解决了这些局限性。与现有的公开数据集相比,PhreshPhish规模更大,并且通过估计无效或错误标记数据点的比例,其质量显著更高。此外,我们提出了一套全面的基准测试数据集,专门设计用于现实模型评估,通过最小化数据泄露、提高任务难度、增强数据集多样性以及调整更接近现实世界的基准率来实现。
我们训练并评估了多种解决方案方法,以提供基准测试集的基线性能。我们相信,该数据集和基准测试的可用性将实现现实、标准化的模型比较,并推动钓鱼检测领域的进一步进展。数据集和基准测试可在Hugging Face上获取(链接)。