RETVec: Resilient and Efficient Text Vectorizer
本论文介绍RETVec,一种高效、鲁棒且支持多语言的文本向量化器,专为基于神经网络的文本处理而设计。RETVec结合了新颖的字符编码与可选的小型嵌入模型,将单词嵌入到256维向量空间中。RETVec嵌入模型通过成对度量学习进行预训练,以增强对拼写错误和字符级对抗攻击的鲁棒性。
在本文中,我们在流行的模型架构和数据集上评估并比较了RETVec与最先进的向量化器和词嵌入方法。这些比较表明,RETVec能够构建具有竞争力的多语言模型,且在应对拼写错误和对抗文本攻击方面显著更加鲁棒。RETVec基于Apache 2许可证发布,可在 https://github.com/google-research/retvec 获取。
技术特点
- 高效字符编码: 创新编码方案提升处理速度
- 256维向量空间: 紧凑表示降低计算开销
- 对抗攻击鲁棒性: 专门针对字符级攻击进行优化
- 多语言支持: 适用于多种语言的文本处理任务
性能表现
实验结果显示,RETVec在保持竞争力的同时,相比现有解决方案:
- 拼写错误容忍度提升显著
- 对抗文本攻击的抵御能力更强
- 在多语言场景下表现一致优异
开源许可
项目采用Apache 2.0开源协议,鼓励学术和工业界使用与贡献。
相关技术已应用于Google反滥用系统,为大规模文本处理提供可靠保障。