基于先例预测的多模态RAI防护栏定制技术
多模态防护栏必须根据用户定义的策略有效过滤图像内容,识别可能包含仇恨言论、强化有害刻板印象、包含露骨材料或传播错误信息的素材。然而,在实际应用中部署此类防护栏面临重大挑战:用户通常需要多样化且高度可定制的策略,且往往无法为每个定制策略提供大量示例。因此,理想的防护栏应能扩展到多策略场景,并以最小重训练成本适应用户标准的演变。
现有微调方法通常基于预定义策略进行预测,这限制了其对新策略的泛化能力,或需要大量重训练来适应。相反,免训练方法受限于上下文长度,难以全面纳入所有策略。为克服这些限制,本文提出基于"先例"(即与给定输入相似的先前数据点的推理过程)来条件化模型判断。通过利用先例而非固定策略,该方法显著增强了防护栏的灵活性和适应性。
本文介绍了用于收集高质量先例的批判-修订机制,以及两种利用先例进行稳健预测的策略。实验结果表明,该方法在少样本和全数据集场景下均优于先前方法,并对新策略表现出卓越的泛化能力。
研究贡献:
- 提出基于先例的预测框架,突破固定策略限制
- 设计批判-修订机制确保先例质量
- 在多种场景下验证方法的有效性和泛化能力
技术亮点:
- 动态适应新策略无需重训练
- 支持多模态内容综合评估
- 实现策略定制与规模化的平衡
该研究由某机构团队完成,论文已被COLM 2025会议接收。