在近日举办的Alexa Live活动中,某中心设备与开发者副总裁宣布正在采用深度神经网络(DNN)来提升语音助手的技能体验。深度神经网络由数千甚至数百万个密集连接的处理节点组成,其设计灵感源于大脑神经元结构,通过分析海量训练数据中的模式来学习任务执行。
“我们采用深度神经网络来提升对单个词语和句子的自然语言理解能力,“副总裁向现场观众表示,“该技术已开始应用于定制技能,初期成果令人振奋。“据透露,采用新型DNN技术的技能平均准确率预计提升15%,某中心计划在今年年底前将DNN技术扩展至美国、英国、印度和德国市场的40万个适用技能。
此前,语音技能一直完全依赖最大熵和条件随机场(MaxEnt-CRF)模型,这些模型通过判断语句意图和标注语义槽位来实现自然语言理解。这些模型的输入特征包括语句n-元组(从语句中提取的n个连续单词序列)以及其他特征如语句长度和每个词元(构成独立语义单元的单词或词组)的相对位置。这些模型基于输入信号的线性组合进行预测,使其具有轻量级、易训练和推理快速的特点。
相比之下,DNN模型能更有效地识别自然语言。结合无监督预训练技术,DNN在各种自然语言处理领域都实现了最先进的性能表现。词嵌入是DNN模型的核心组件,它将每个词元表示为300维向量空间中的单个点,使具有相似含义(相似共现特征)的词语聚集在一起。
为开发有效的词嵌入,某中心科学家采用了基于BERT流行的无监督掩码语言建模(MLM)预训练技术,并结合多个训练语料库。“通过预训练词嵌入,DNN能够从’给我买个苹果’泛化到’为我订购一个橙子’,因为苹果/橙子和购买/订购在底层嵌入空间中具有相似表示,“该项目科学负责人解释道,“这种迁移学习机制赋予DNN关键优势,使模型不再仅从开发者提供的对话示例中学习。”
然而存储词嵌入需要极高的内存开销。为使DNN能实际应用于超过10万个技能,科学家们将大型共享通用嵌入库与小型技能特定嵌入库相结合。最终,多个非线性隐藏层使DNN能够学习输入信号与目标输出之间更复杂的关联关系。凭借这些综合优势,DNN模型的表现超越了MaxEnt-CRF模型。
在同场活动中,某中心科学家还宣布了对话管理系统的公开测试版发布,该版本允许开发者利用基于深度学习的最先进对话管理器来创建复杂的非线性对话体验。