RETVec:高效且鲁棒的文本向量化技术

RETVec是一种专为神经文本处理设计的高效、鲁棒且支持多语言的文本向量化工具。它结合新颖字符编码与小型嵌入模型,将词汇映射至256维向量空间,并通过成对度量学习预训练以抵御拼写错误和字符级对抗攻击。

RETVec:鲁棒且高效的文本向量化器 | 神经信息处理系统出版物

摘要

本文介绍了RETVec,一种专为基于神经网络的文本处理设计的高效、鲁棒且多语言的文本向量化工具。RETVec结合了一种新颖的字符编码与可选的小型嵌入模型,将单词嵌入到256维向量空间中。RETVec嵌入模型通过成对度量学习进行预训练,以增强对拼写错误和字符级对抗攻击的鲁棒性。在本文中,我们在流行的模型架构和数据集上评估并比较了RETVec与最先进的向量化器和词嵌入方法。这些比较表明,RETVec能够产生具有竞争力的多语言模型,显著提高了对拼写错误和对抗文本攻击的抵抗力。RETVec基于Apache 2许可证在 https://github.com/google-research/retvec 提供。

作者

  • Elie Bursztein
  • Marina Zhang
  • Owen Vallis
  • Xinyu Jia
  • Alexandros Kapravelos
  • Alexey Kurakin

引用信息

1
2
3
4
5
6
7
@inproceedings{BURSZTEIN2023RETVEC:,
  title = {RETVec: Resilient and Efficient Text Vectorizer},
  author = {"Elie, Bursztein" and "Marina, Zhang" and "Owen, Vallis" and "Xinyu, Jia" and "Alexandros, Kapravelos" and "Alexey, Kurakin"},
  booktitle = {Neural Information Processing Systems},
  year = {2023},
  organization = {NeurIPS}
}

相关资源

  • PDF全文:可在原页面查看
  • 代码仓库:https://github.com/google-research/retvec
  • 技术背景:Google反滥用团队开发

精选媒体报道

  • Forbes:《Google确认重大Gmail更新——这对您意味着什么》
  • Ars Technica:《Gmail的AI驱动的垃圾邮件检测是多年来最大的安全升级》

相关研究

  • 针对机器学习的攻击——概述(博客文章,2018年5月)
  • 训练AI对抗滥用时面临的挑战(博客文章,2018年4月)
  • 为什么AI是强大反滥用防御的关键(博客文章,2018年4月)

作者简介

Dr. Elie Bursztein是Google & DeepMind AI网络安全技术和研究负责人,也是Etteilla基金会的创始人。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计