基于社会规范对齐隐式对话的包容性意见表征技术

塑造包容性表征以拥抱多样性、确保公平参与和价值反映，是许多基于对话的模型的核心目标。然而，现有方法多依赖表面包容性，如提及用户人口统计特征或社会群体行为属性。这类方法忽视了对话中嵌入的细微、隐性的意见表达。此外，过度依赖显性线索可能加剧模型输出中的错位，并强化有害或刻板表征。

因此，研究重新审视并认识到：公平包容需要考量意见的隐性表达，并利用回应立场验证规范对齐。本研究旨在通过引入对齐评估框架，评估自然语言处理或计算模型中意见的表征方式。该框架突出常被忽视的隐性对话，并评估规范性社会观点与论述。方法将回应立场建模为潜在意见的代理，从而实现对社会多元观点的深思熟虑和反思性表征。

评估框架采用两种方式：

基于正未标记（PU）在线学习与基础分类器；
指令调优语言模型以评估训练后对齐。

通过这一框架，研究揭示了隐性意见如何被（错误）表征，并为实现更包容的模型行为提供了技术路径。