Alexa语音唤醒技术升级实现多唤醒词共存

某中心通过多目标学习和迁移学习技术,成功实现"Hey Samuel"与"Alexa"双唤醒词系统,解决了训练数据不足和设备资源限制等挑战,提升了语音交互体验。

语音交互体验的革新

“Alexa,让塞缪尔·杰克逊播报天气。”塞缪尔·杰克逊:“多云,可能有我出现的机会。”某中心于2019年12月发布了塞缪尔·杰克逊名人语音功能。这项新功能使得用户可以从这位传奇演员那里获取新闻、天气、笑话等内容。

“塞缪尔·杰克逊名人语音是实现我们多角色愿景的重要里程碑,”Alexa唤醒词团队高级产品经理表示。

用户反馈驱动的改进

尽管用户喜欢与杰克逊语音互动,但许多人发现初始体验较为繁琐。

“每次都需要让Alexa去询问塞缪尔。我原本以为可以让Alexa直接用塞缪尔的声音对我说话,而不是现在使用的女声。结果发现只有在我让Alexa去问塞缪尔时才行。谁愿意在已经需要多个步骤才能得到回复的情况下再增加步骤呢?我不理解,”一位评论者说。

另一位评论者表示:“虽然向到访的朋友展示这个功能很酷……但必须特意让Alexa去问塞缪尔做某事,这种操作很快就会让人感到厌烦。”

团队密切关注初始反馈,Alexa文本转语音团队也通过进一步提高塞缪尔·杰克逊语音的自然度来解决用户反馈,使其更贴近这位演员兼制片人的活泼个性。

“客户至上是我们在某中心所有工作的核心,”Alexa文本转语音团队高级软件开发经理表示。“我们认真对待客户的反馈。我们决定通过允许用户使用新的唤醒词来调用塞缪尔·杰克逊,从而改进名人语音功能。”

技术挑战与突破

研究挑战

让“Hey Samuel”唤醒词与“Alexa”唤醒词共存提出了艰巨的研究和工程挑战。随着今天的公告发布,Alexa用户现在可以通过直接说“Hey Samuel”来与塞缪尔·杰克逊语音互动。

开发新的“Hey Samuel”唤醒词的机器学习模型是团队自2013年加入Alexa组织以来遇到的更具挑战性的问题之一。

“Alexa唤醒词每周有数十亿次互动,”Alexa高级机器学习经理表示。“然而,‘Hey Samuel’唤醒词的训练数据非常匮乏。为了开发支持‘Hey Samuel’和Alexa的多唤醒词模型,我们必须开发新的训练和数据建模技术,同时借鉴过去的经验。”

研究人员必须训练算法识别新的唤醒词(“Hey Samuel”),同时还要检测其他主要唤醒词——“Alexa”、“Echo”、“Amazon”和“Computer”。

Alexa科学家没有为每个唤醒词单独训练模型,而是利用多目标学习,通过利用任务间的相似性同时执行多个学习任务。在多目标学习中,一个输入用于预测多个输出。就其本质而言,考虑到变量数量庞大且必须高速处理,多目标训练 inherently 更加复杂。

“多目标训练不是一项容易的任务,”Alexa高级机器学习经理表示,“特别是当你需要处理单字唤醒词(‘Alexa’、‘Amazon’、‘Echo’和‘Computer’)和短语唤醒词(‘Hey Samuel’)时。团队必须在多个领域进行创新来解决这个问题。仅举一个例子,我们必须进行广泛研究,开发新的数据准备和训练技术来平衡每个词的数据集。我们在确保多目标训练达到与设备预期相同准确性的困难任务中取得了重大进展,并且我们正在不断改进。”

团队还必须创新处理误拒问题。误拒指用户说了“Hey Samuel”或“Alexa”,但唤醒词未被识别的情况。由于没有音频发送到云端,团队没有任何数据来帮助减少误拒。

为了克服这一障碍,Alexa科学家利用迁移学习技术训练新的多唤醒词模型,以接受各种发音细微差别,从而减少误拒。迁移学习允许算法将在某一领域学到的技能转移到另一领域。在这种情况下,团队在一个中等词汇识别任务上训练了一个基线模型,然后调整该模型以更有效地识别“Hey Samuel”唤醒词,同时使用最少的训练数据。

工程挑战

与Alexa的其他机器学习系统不同,唤醒词检测器必须在设备上运行。这种设备上的计算资源远比云端可用于Alexa其他组件的资源有限。

因此,Alexa科学家和工程师必须开发能够在不超过CPU、内存和其他资源的情况下执行检测两个唤醒词这一复杂任务的唤醒词解决方案。更复杂的是,多唤醒词功能必须同时在新旧 Echo 设备上运行。

某中心的工程团队还开发了推理算法,能够适应不同前缀及其对应长度,以应对未来可能使用的唤醒词。随着具有不同长度和前缀的额外合作伙伴代理和角色上线,这将特别有用,并将使团队能够坚持其在语音互操作性倡议中概述的愿景。

未来展望

虽然更新的塞缪尔·杰克逊技能已于今天发布,但对唤醒词团队来说,这仍是第一天。现在团队已经添加了一个新的唤醒词,它正在继续突破与如何向多目标模型添加新唤醒词相关的研究,使用最少的训练数据,且不降低现有唤醒词的准确性。

“凭借这种使用很少或没有先前数据开发唤醒词的新能力,我们有机会在支持Alexa的设备上提供更丰富的客户体验,”Alexa唤醒词团队高级产品经理表示。“我们很高兴看到客户对这种更新体验的反应,以及我们将如何继续改善客户的体验。”

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计