高效鲁棒文本相似度模型RETSim:革新文本检索与去重技术

RETSim是一种轻量级多语言深度学习模型,专为近重复文本检索、聚类和数据集去重任务设计,在对抗环境下显著优于MinHash和神经文本嵌入方法,并开源W4NT3D基准测试数据集。

RETSim: Resilient and Efficient Text Similarity

本文介绍RETSim(弹性高效文本相似度模型),这是一种轻量级、多语言的深度学习模型,经过训练可生成鲁棒的度量嵌入,用于近重复文本检索、聚类和数据集去重任务。我们在本文中展示了如何结合RETSim的检索能力构建本地LLM RAG系统。

通过全面评估,我们证明RETSim在鲁棒性和准确性上显著优于MinHash和神经文本嵌入方法,在数据集去重、对抗文本检索基准测试和垃圾信息聚类任务中实现了新的最先进性能。我们还推出了W4NT3D基准(Wiki-40B对抗近文本数据集),用于评估对抗设置下的多语言近重复文本检索能力。

RETSim和W4NT3D基准已在MIT许可证下开源,作为UniSim软件包的一部分,可通过以下地址获取: https://github.com/google/unisim

相关技术标签: Google, 反滥用, 数据挖掘, retsim

相关研究

  • RETVec: Resilient and Efficient Text Vectorizer
  • AI for Cybersecurity: Get Started Today
  • AI Security: Top 5 Recommendations To Get Started Today
  • How Large Language Models Are Reshaping the Cybersecurity Landscape
  • Toward Secure & Trustworthy AI: Independent Benchmarking

作者信息

  • Marina Zhang
  • Owen Vallis
  • Aysegul Bumin
  • Tanay Vakharia
  • Elie Bursztein

会议: International Conference on Learning Representations (ICLR) - 2024

引用格式:

1
2
3
4
5
6
7
@inproceedings{NANRETSIM:,
  title = {RETSim: Resilient and Efficient Text Similarity},
  author = {"Marina Zhang" and "Owen Vallis" and "Aysegul Bumin" and "Tanay Vakharia" and "Elie Bursztein"},
  booktitle = {International Conference on Learning Representations},
  year = {2024},
  organization = {ICLR}
}
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计