RETSim: Resilient and Efficient Text Similarity
本文介绍RETSim(弹性高效文本相似度模型),这是一种轻量级、多语言的深度学习模型,经过训练可生成鲁棒的度量嵌入,用于近重复文本检索、聚类和数据集去重任务。我们在本文中展示了如何结合RETSim的检索能力构建本地LLM RAG系统。
通过全面评估,我们证明RETSim在鲁棒性和准确性上显著优于MinHash和神经文本嵌入方法,在数据集去重、对抗文本检索基准测试和垃圾信息聚类任务中实现了新的最先进性能。我们还推出了W4NT3D基准(Wiki-40B对抗近文本数据集),用于评估对抗设置下的多语言近重复文本检索能力。
RETSim和W4NT3D基准已在MIT许可证下开源,作为UniSim软件包的一部分,可通过以下地址获取: https://github.com/google/unisim
相关技术标签: Google, 反滥用, 数据挖掘, retsim
相关研究
- RETVec: Resilient and Efficient Text Vectorizer
- AI for Cybersecurity: Get Started Today
- AI Security: Top 5 Recommendations To Get Started Today
- How Large Language Models Are Reshaping the Cybersecurity Landscape
- Toward Secure & Trustworthy AI: Independent Benchmarking
作者信息
- Marina Zhang
- Owen Vallis
- Aysegul Bumin
- Tanay Vakharia
- Elie Bursztein
会议: International Conference on Learning Representations (ICLR) - 2024
引用格式:
|
|