自助服务如何 democratize 人工智能技术
2021年9月28日,某中心展示了三项自助服务功能,使客户能够配置机器学习模型而无需编程或机器学习专业知识。这些功能包括偏好教学、自定义声音事件检测和基于摄像头的自定义事件警报。
偏好教学
偏好教学允许客户使用自然语言教导语音助手偏好设置,例如“我是爱国者队的忠实粉丝”或“我喜欢泰国菜”。这是对去年推出的交互式教学功能的扩展,关键区别在于客户主动发起教学。
核心技术基于两个模型:
- 自然语言理解(NLU)模型:识别用户意图、实体名称和类型
- 对话管理模型:管理客户交互并决定采取的行动
今年重要技术进展是对话管理模型与NLU模型一样采用深度神经网络架构。使用对话系统进行训练,仅需提供对话示例即可自动生成变体,使训练数据量增加100倍。
偏好教学初始支持三类偏好:
- 处理天气请求的首选技能
- 偏好运动团队
- 食物偏好
当模型识别客户偏好后,会搜索相关知识库进行匹配,必要时请求更多信息。研究人员正在为偏好提取模型添加常识推理能力,例如将“我不吃肉”解读为偏好素食餐厅。
自定义声音事件检测和环型自定义事件警报
这两项功能采用类似的少样本学习方法,即从少量示例中学习新分类任务。
自定义声音事件检测
客户提供6-10个新声音示例(如门铃声),语音助手据此构建检测器。检测到目标声音时执行客户设定的例行程序(如闪烁最远房间的灯光)。
环型自定义事件警报
客户在摄像头视野内划定关注区域(如棚屋门),通过历史图像识别该区域的两种状态各5个示例(如门开/关)。当关注区域状态变化时可配置发送警报。
技术实现
两类任务均训练神经分类模型(音频分类和视频分类),采用编码器-解码器架构:
- 编码器模块将输入嵌入为向量表示
- 解码器基于嵌入进行预测
对于事件检测(音频或视觉),仅使用编码器。同类事件示例经编码器产生的嵌入在嵌入空间中定义区域,通过衡量嵌入距离识别新实例。
自定义声音事件检测的编码器训练采用自监督学习:
- 第一阶段:训练网络重构输入信号,使用未标记数据开发强编码器
- 第二阶段:用标记数据(按类型标注的录音)微调模型,使编码器学习更细粒度的声音区分
环型自定义事件警报同样采用这种方法,并利用公开可用数据。
这些技术方案展示了通过自助服务实现人工智能民主化的多种途径,持续推动自服务科学发展,使AI更具可定制性和实用性。
研究领域:对话式AI、计算机视觉
技术标签:声学事件检测、自然语言理解、对话系统、语音助手