自助服务如何 democratize 人工智能技术

本文介绍了通过自助服务功能实现人工智能民主化的技术方案,包括偏好教学、自定义声音事件检测和自定义事件警报系统,详细解析了自然语言理解模型、对话管理系统以及少样本学习技术的应用与实现原理。

自助服务如何 democratize 人工智能技术

2021年9月28日,某中心展示了三项自助服务功能,使客户能够配置机器学习模型而无需编程或机器学习专业知识。这些功能包括偏好教学、自定义声音事件检测和基于摄像头的自定义事件警报。

偏好教学

偏好教学允许客户使用自然语言教导语音助手偏好设置,例如“我是爱国者队的忠实粉丝”或“我喜欢泰国菜”。这是对去年推出的交互式教学功能的扩展,关键区别在于客户主动发起教学。

核心技术基于两个模型:

  • 自然语言理解(NLU)模型:识别用户意图、实体名称和类型
  • 对话管理模型:管理客户交互并决定采取的行动

今年重要技术进展是对话管理模型与NLU模型一样采用深度神经网络架构。使用对话系统进行训练,仅需提供对话示例即可自动生成变体,使训练数据量增加100倍。

偏好教学初始支持三类偏好:

  • 处理天气请求的首选技能
  • 偏好运动团队
  • 食物偏好

当模型识别客户偏好后,会搜索相关知识库进行匹配,必要时请求更多信息。研究人员正在为偏好提取模型添加常识推理能力,例如将“我不吃肉”解读为偏好素食餐厅。

自定义声音事件检测和环型自定义事件警报

这两项功能采用类似的少样本学习方法,即从少量示例中学习新分类任务。

自定义声音事件检测

客户提供6-10个新声音示例(如门铃声),语音助手据此构建检测器。检测到目标声音时执行客户设定的例行程序(如闪烁最远房间的灯光)。

环型自定义事件警报

客户在摄像头视野内划定关注区域(如棚屋门),通过历史图像识别该区域的两种状态各5个示例(如门开/关)。当关注区域状态变化时可配置发送警报。

技术实现

两类任务均训练神经分类模型(音频分类和视频分类),采用编码器-解码器架构:

  • 编码器模块将输入嵌入为向量表示
  • 解码器基于嵌入进行预测

对于事件检测(音频或视觉),仅使用编码器。同类事件示例经编码器产生的嵌入在嵌入空间中定义区域,通过衡量嵌入距离识别新实例。

自定义声音事件检测的编码器训练采用自监督学习:

  1. 第一阶段:训练网络重构输入信号,使用未标记数据开发强编码器
  2. 第二阶段:用标记数据(按类型标注的录音)微调模型,使编码器学习更细粒度的声音区分

环型自定义事件警报同样采用这种方法,并利用公开可用数据。

这些技术方案展示了通过自助服务实现人工智能民主化的多种途径,持续推动自服务科学发展,使AI更具可定制性和实用性。

研究领域:对话式AI、计算机视觉
技术标签:声学事件检测、自然语言理解、对话系统、语音助手

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计