环境计算为何需要自学习技术

在ACM信息检索特别兴趣小组（SIGIR）年会上，某中心对话AI应用科学总监发表了题为《环境计算中的智能对话代理》的主题演讲。以下为该演讲的编辑版本。

计算范式的演进

数十年来，个人计算的范式一直是桌面计算机，随后出现笔记本电脑，最终演变为可手持的移动设备。然而这些设备始终将用户束缚在屏幕前，需要物理接触才能使用，这在许多场景下显得不够自然便捷。

下一代计算范式很可能是物联网（IoT）与其他智能连接系统。物联网的交互界面将如何呈现？是否需要为每个联网设备配备独立应用？抑或是走进房间时直接通过语音重新配置设备？某中心认为对话AI将成为物联网的交互界面，这将彻底改变对对话AI的认知。

上下文理解的关键作用

物联网为对话AI模型创造了新型上下文环境。“上下文"指围绕特定事件、情境或实体的环境因素和事实集合，AI模型可借此提升性能。例如：

设备状态：若烤箱处于开启状态，“当前温度是多少"的询问更可能指烤箱温度
设备类型：带屏幕的设备更可能将"播放饥饿游戏"理解为播放电影
用户行为：常听爵士乐的用户说"播放音乐"应与常听硬摇滚的用户获得不同响应

类似逻辑适用于其他上下文信号：时间、设备位置、传感器监测的环境变化等。训练对话代理处理多维度上下文信号远比训练其识别歌曲标题复杂。理想情况下需要大量训练样本覆盖所有用户-设备-上下文组合，但这显然不现实。

自学习框架的解决方案

解决方案是自学习——使自主代理能够从用户系统交互、系统信号和预测模型中学习的框架。

反馈机制

用户系统交互可提供隐式和显式反馈：

隐式反馈：用户中断响应（“打断”）或重新表述请求
显式反馈：用户通过交互教学功能主动指导系统处理特定请求

自学习的优势包括：无需数据标注、更好保护用户隐私、最小化模型更新成本时间、使用高质量训练数据（用户最了解自身意图）。

技术应用方向

目前主要聚焦四个自学习应用方向：

自动生成真实标注
缺陷减少
可教学AI
失败根本原因确定

自动真实标注生成

某中心已启动多年计划，将机器学习模型开发从基于人工标注转向主要基于自学习。核心挑战是将二元或低维用户反馈（是/否、缺陷/正常）转换为高维合成标签（转录文本、命名实体标注）。

系统架构

解决方案包含两大组件：

探索模块
反馈收集与标签生成模块

标签生成模型的输入特征包括：对话上下文（用户语句、系统响应、前后轮次）、分类特征（领域、意图、对话状态）、数值特征（词元数量、语音识别与自然语言理解置信度）、原始音频数据。模型包含轮次级编码器和基于Transformer的对话级编码器，其中文本编码器采用预训练RoBERTa模型。

模型训练与评估

通过合成对比数据以自监督方式预训练模型（如随机交换不同对话答案作为缺陷样本），随后在多任务上使用显隐式用户反馈进行监督训练。

评估显示模型在目标分割（确定对话中与特定任务相关的语句）和目标评估（判断目标是否成功达成）任务上的输出与人工标注相当：准确率略高但F1分数略低。通过设置更高阈值可显著超越人工性能，同时保持远超人工的标注吞吐量。

除目标相关标签外，模型还按意图（用户希望执行的动作）、槽位（意图操作的数据类型）和槽值（槽位具体值）标注语句。相比不包含上下文信息的RoBERTa基线模型，新模型在所有指标上均表现更优。

基于自学习的缺陷减少

三年前部署的自学习机制基于纯隐式信号自动修正对话代理理解缺陷。该机制不涉及重新训练自然语言理解模型，而是覆盖模型输出以提高准确性。

重写方法

提供重写的两种方式：

预计算重写：离线生成请求-重写对并在运行时加载

优势：无延迟限制，可使用复杂模型；训练时可利用丰富离线信号（用户后续轮次、重新表述、系统响应、视频点击率）
劣势：运行时无法利用上下文信息

在线重写：运行时利用上下文信息（先前对话轮次、对话位置、时间等）生成重写

优势：可重写长尾缺陷查询
劣势：需满足延迟约束；训练无法利用离线信息

预计算重写技术

实验两种预计算重写对方法：预训练BERT模型和吸收马尔可夫链。

BERT方法将重新表述检测视为跨度预测问题，预测每个词元作为跨度起始或结束的概率，使用最终BERT层的嵌入输出，并通过时间戳限制作为重新表述候选的后续请求数量。

马尔可夫链方法使用吸收马尔可夫链从广泛交互中复现的重新表述候选提取重写对。马尔可夫链将动态系统建模为状态序列，每个状态都有概率转移到其他状态。吸收马尔可夫链具有可从任何其他状态访问的最终状态（转移概率为零），用于编码相同查询的重新表述在跨交互中的转移概率，求解链可获得最可能成功的请求重写。

在线重写机制

在线重写机制使用检索和排序模型生成重写（而非依赖用户重新表述）。重写基于用户与代理的习惯使用模式，例如根据交互历史将"威尔克森天气如何"重写为"加州威尔克森天气如何”（尽管"华盛顿威尔克森天气如何"是更常见查询）。

机制同时包含全局层和个性化层：个性化层考虑用户上下文，全局层防止过度个性化（例如推断喜欢Selena Gomez歌曲的用户也会喜欢《Encanto》歌曲），并在用户交互历史提供极少指导时启用重写。

个性化工作流和全局工作流都包含检索和排序模型：

检索模型使用密集段落检索（DPR）模型将文本映射到低维连续空间，提取索引和查询的嵌入向量，通过相似度度量决定重写分数
排序模型结合模糊匹配（如单编码器结构）与多种元数据重新排序

实验效果

部署三种自学习方法（基于BERT的离线重写、基于马尔可夫链的离线重写、在线重写）均显著提升用户体验质量：

BERT离线方法在六个机器标注和两个人标注数据集上全面超越四个基线模型，机器标注数据集改进达16-17%，人标注数据集改进近翻倍
基于吸收马尔可夫链的离线方法重写了数千万个语音识别模型输出，胜败比为8.5:1（每1个错误重写对应8.5个正确重写）
在线重写引擎A/B测试显示，仅全局重写即可降低缺陷率13%，添加个性化重写模型进一步降低4%

可教学AI系统

除依赖隐式信号进行查询重写外，用户也可显式教授个人偏好（如"我是勇士队球迷"或"喜欢意大利餐厅”）。可教学机制可由用户或系统发起：系统主动感知可教学时刻（如用户多次重复相同请求或声明响应不满意），用户可通过"学习我的偏好"等指令发起引导式问答。系统可在下一次交互中立即应用所学偏好。

失败点隔离

除通过查询重写恢复缺陷外，还需理解失败的根本原因。对话代理依赖多阶段处理模型：语音触发→语音识别→自然语言理解→实体识别→响应生成→语音合成。自学习的重要组成部分是自动确定失败发生的组件。

上游错误可能在管道中传播，导致多组件失败，因此重点识别首次发生不可恢复失败的组件（称为"失败点"）。初始工作识别五个错误点加"正确"类（无组件失败），可能失败点包括：错误唤醒、语音识别错误、自然语言理解错误（如将"播放哈利波特"错误路由至视频而非有声读物）、实体识别解析错误、结果错误（如播放错误电影）。

失败点隔离方法使用扩展对话上下文、从代理日志提取的特征（如语音识别置信度）、决策组件轨迹（如自然语言理解模块）。最佳失败点隔离模型在不同类别上接近人工性能（>92%），在结果和正确类检测上超越人类，语音识别、实体解析和自然语言理解准确率在90-95%范围内。

未来展望

计算融入环境、用户通过语音随意指导嵌入式计算设备的时代或许仍在未来，但某中心对话AI已在这条道路上取得长足进展，并且每天都在向前迈进。