RETSim:高效鲁棒的文本相似度计算模型
本论文介绍了RETSim(Resilient and Efficient Text Similarity),这是一种轻量级、多语言的深度学习模型,经过训练能够生成鲁棒的度量嵌入,用于近重复文本检索、聚类和数据集去重任务。我们在本文中展示了如何结合RETSim的检索能力来创建本地LLM RAG系统。
通过全面评估,我们在论文中证明RETSim比MinHash和神经文本嵌入方法显著更加鲁棒和准确,在数据集去重、对抗性文本检索基准测试和垃圾邮件聚类任务中实现了新的最先进性能。我们还介绍了W4NT3D基准(Wiki-40B对抗性近文本数据集),用于评估对抗环境下多语言近重复文本检索能力。
RETSim和W4NT3D基准已在MIT许可证下开源,作为UniSim包的一部分提供: https://github.com/google/unisim