RETVec:鲁棒且高效的文本向量化器 | 神经信息处理系统出版物
摘要
本文介绍了RETVec,一种专为基于神经网络的文本处理设计的高效、鲁棒且多语言的文本向量化工具。RETVec结合了一种新颖的字符编码与可选的小型嵌入模型,将单词嵌入到256维向量空间中。RETVec嵌入模型通过成对度量学习进行预训练,以增强对拼写错误和字符级对抗攻击的鲁棒性。在本文中,我们在流行的模型架构和数据集上评估并比较了RETVec与最先进的向量化器和词嵌入方法。这些比较表明,RETVec能够产生具有竞争力的多语言模型,显著提高了对拼写错误和对抗文本攻击的抵抗力。RETVec基于Apache 2许可证在 https://github.com/google-research/retvec 提供。
作者
- Elie Bursztein
- Marina Zhang
- Owen Vallis
- Xinyu Jia
- Alexandros Kapravelos
- Alexey Kurakin
引用信息
|
|
相关资源
- PDF全文:可在原页面查看
- 代码仓库:https://github.com/google-research/retvec
- 技术背景:Google反滥用团队开发
精选媒体报道
- Forbes:《Google确认重大Gmail更新——这对您意味着什么》
- Ars Technica:《Gmail的AI驱动的垃圾邮件检测是多年来最大的安全升级》
相关研究
- 针对机器学习的攻击——概述(博客文章,2018年5月)
- 训练AI对抗滥用时面临的挑战(博客文章,2018年4月)
- 为什么AI是强大反滥用防御的关键(博客文章,2018年4月)
作者简介
Dr. Elie Bursztein是Google & DeepMind AI网络安全技术和研究负责人,也是Etteilla基金会的创始人。