自助服务如何 democratize 人工智能技术

2021年9月28日，某中心展示了三项自助服务功能，使客户能够配置机器学习模型而无需编程或机器学习专业知识。这些功能包括偏好教学、自定义声音事件检测和基于摄像头的自定义事件警报。

偏好教学

偏好教学允许客户使用自然语言教导语音助手偏好设置，例如“我是爱国者队的忠实粉丝”或“我喜欢泰国菜”。这是对去年推出的交互式教学功能的扩展，关键区别在于客户主动发起教学。

核心技术基于两个模型：

今年重要技术进展是对话管理模型与NLU模型一样采用深度神经网络架构。使用对话系统进行训练，仅需提供对话示例即可自动生成变体，使训练数据量增加100倍。

偏好教学初始支持三类偏好：

当模型识别客户偏好后，会搜索相关知识库进行匹配，必要时请求更多信息。研究人员正在为偏好提取模型添加常识推理能力，例如将“我不吃肉”解读为偏好素食餐厅。

这两项功能采用类似的少样本学习方法，即从少量示例中学习新分类任务。

客户提供6-10个新声音示例（如门铃声），语音助手据此构建检测器。检测到目标声音时执行客户设定的例行程序（如闪烁最远房间的灯光）。

客户在摄像头视野内划定关注区域（如棚屋门），通过历史图像识别该区域的两种状态各5个示例（如门开/关）。当关注区域状态变化时可配置发送警报。

两类任务均训练神经分类模型（音频分类和视频分类），采用编码器-解码器架构：

对于事件检测（音频或视觉），仅使用编码器。同类事件示例经编码器产生的嵌入在嵌入空间中定义区域，通过衡量嵌入距离识别新实例。

自定义声音事件检测的编码器训练采用自监督学习：

环型自定义事件警报同样采用这种方法，并利用公开可用数据。

这些技术方案展示了通过自助服务实现人工智能民主化的多种途径，持续推动自服务科学发展，使AI更具可定制性和实用性。

研究领域：对话式AI、计算机视觉
技术标签：声学事件检测、自然语言理解、对话系统、语音助手