基于社会规范对齐隐式对话的包容性意见表征技术

本文提出EMBRACE框架,通过将隐式对话与社会规范对齐来塑造包容性意见表征。研究采用正未标记在线学习和指令调优语言模型,评估模型输出的规范对齐程度,为解决对话模型中隐含意见的误表征问题提供技术路径。

塑造包容性表征以拥抱多样性、确保公平参与和价值反映,是许多基于对话的模型的核心目标。然而,现有方法多依赖表面包容性,如提及用户人口统计特征或社会群体行为属性。这类方法忽视了对话中嵌入的细微、隐性的意见表达。此外,过度依赖显性线索可能加剧模型输出中的错位,并强化有害或刻板表征。

因此,研究重新审视并认识到:公平包容需要考量意见的隐性表达,并利用回应立场验证规范对齐。本研究旨在通过引入对齐评估框架,评估自然语言处理或计算模型中意见的表征方式。该框架突出常被忽视的隐性对话,并评估规范性社会观点与论述。方法将回应立场建模为潜在意见的代理,从而实现对社会多元观点的深思熟虑和反思性表征。

评估框架采用两种方式:

  1. 基于正未标记(PU)在线学习与基础分类器;
  2. 指令调优语言模型以评估训练后对齐。

通过这一框架,研究揭示了隐性意见如何被(错误)表征,并为实现更包容的模型行为提供了技术路径。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计