塑造包容性表征以拥抱多样性、确保公平参与和价值反映,是许多基于对话的模型的核心目标。然而,现有方法多依赖表面包容性,如提及用户人口统计特征或社会群体行为属性。这类方法忽视了对话中嵌入的细微、隐性的意见表达。此外,过度依赖显性线索可能加剧模型输出中的错位,并强化有害或刻板表征。
因此,研究重新审视并认识到:公平包容需要考量意见的隐性表达,并利用回应立场验证规范对齐。本研究旨在通过引入对齐评估框架,评估自然语言处理或计算模型中意见的表征方式。该框架突出常被忽视的隐性对话,并评估规范性社会观点与论述。方法将回应立场建模为潜在意见的代理,从而实现对社会多元观点的深思熟虑和反思性表征。
评估框架采用两种方式:
- 基于正未标记(PU)在线学习与基础分类器;
- 指令调优语言模型以评估训练后对齐。
通过这一框架,研究揭示了隐性意见如何被(错误)表征,并为实现更包容的模型行为提供了技术路径。