潜在对抗训练提升大语言模型抗持续有害行为能力
大型语言模型(LLMs)经常表现出经过明确微调试图避免的不良行为。例如,针对LLMs的红队测试研究已开发出多种"越狱"技术,能够从经过无害化微调的模型中诱导出有害文本。最近关于红队测试、模型编辑和可解释性的研究表明,这一挑战源于(对抗性)微调主要起到抑制而非消除LLMs不良能力的作用。
先前研究提出的潜在对抗训练(LAT)作为一种提高对广泛故障类别鲁棒性的方法。这些研究考虑了非针对性潜在空间攻击,即对手通过扰动潜在激活来最大化理想行为示例的损失。非针对性LAT可提供通用类型的鲁棒性,但未能利用特定故障模式的信息。
本文实验了针对性LAT方法,其中对手寻求最小化特定竞争任务的损失。研究发现该方法能够增强多种最先进方法的效果:
首先,采用针对性LAT提升对越狱攻击的鲁棒性,在计算量减少数个数量级的情况下,性能超越强大的R2D2基线方法。
其次,在完全不了解触发器的情况下,该方法能更有效地移除后门漏洞。
最后,该方法能更有效地针对特定不良任务进行知识遗忘,同时对重新学习具有更强鲁棒性。
总体而言,研究结果表明针对性LAT可成为防御LLMs有害行为的有效工具。
代码与模型
相关代码和模型可通过指定https链接获取。