RETSim：鲁棒且高效的文本相似度模型 | 国际学习表征会议出版物

摘要

本文介绍了RETSim（Resilient and Efficient Text Similarity），这是一种轻量级、多语言的深度学习模型，经过训练可为近重复文本检索、聚类和数据集去重任务生成鲁棒的度量嵌入。我们在本文中展示了如何结合RETSim的检索能力来创建本地LLM RAG系统。

通过全面评估，我们证明RETSim比MinHash和神经文本嵌入方法显著更加鲁棒和准确，在数据集去重、对抗性文本检索基准测试和垃圾邮件聚类任务中实现了新的最先进性能。

我们还引入了W4NT3D基准（Wiki-40B对抗性近文本数据集），用于评估对抗设置下的多语言近重复文本检索能力。

RETSim和W4NT3D基准测试在MIT许可证下开源，作为UniSim软件包的一部分，可在以下地址获取： https://github.com/google/unisim

Marina Zhang, Owen Vallis, Aysegul Bumin, Tanay Vakharia, Elie Bursztein

国际学习表征会议（ICLR） - 2024年