RETSim:高效鲁棒的文本相似度模型,革新文本检索与去重技术

RETSim是一种轻量级多语言深度学习模型,专为近重复文本检索、聚类和数据集去重任务设计,在对抗环境下显著优于MinHash和神经文本嵌入方法,并开源了W4NT3D基准测试数据集。

RETSim:鲁棒且高效的文本相似度模型 | 国际学习表征会议出版物

摘要

本文介绍了RETSim(Resilient and Efficient Text Similarity),这是一种轻量级、多语言的深度学习模型,经过训练可为近重复文本检索、聚类和数据集去重任务生成鲁棒的度量嵌入。我们在本文中展示了如何结合RETSim的检索能力来创建本地LLM RAG系统。

性能表现

通过全面评估,我们证明RETSim比MinHash和神经文本嵌入方法显著更加鲁棒和准确,在数据集去重、对抗性文本检索基准测试和垃圾邮件聚类任务中实现了新的最先进性能。

基准测试

我们还引入了W4NT3D基准(Wiki-40B对抗性近文本数据集),用于评估对抗设置下的多语言近重复文本检索能力。

开源资源

RETSim和W4NT3D基准测试在MIT许可证下开源,作为UniSim软件包的一部分,可在以下地址获取: https://github.com/google/unisim

作者信息

Marina Zhang, Owen Vallis, Aysegul Bumin, Tanay Vakharia, Elie Bursztein

会议信息

国际学习表征会议(ICLR) - 2024年

相关研究

  • RETVec:鲁棒且高效的文本向量化器
  • 大型语言模型如何重塑网络安全格局
  • 迈向安全可信的AI:独立基准测试
  • 在Google开发安全AI工作流的经验教训
  • AI安全:今日开始的五大建议
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计