语音计算新篇章:工程与科学的完美融合

本文探讨了如何通过工程与科学的紧密结合推动语音助手技术的发展,重点介绍了机器学习模型构建、推理引擎设计等技术细节,以及跨学科团队协作在智能食谱推荐系统中的应用实践。

语音计算新篇章:工程与科学的完美融合

作为某中心的高级首席工程师,Luu Tran负责监督许多语音助手功能的计划-构建-部署-扩展周期:计时器、闹钟、提醒、日历、食谱、即时通话、公告等功能。

早期语音计算的探索

早在几十年前,当个人电脑还没有声卡、麦克风甚至音频插孔时,Tran就通过自行构建解决方案开始了与计算机的语音交互。“我记得当我拿到第一块Sound Blaster声卡时,它附带了一个麦克风和名为Dragon Naturally Speaking的软件,”Tran回忆道。

通过简单的即插即用工程,他突然能够使用语音在1990年代中期的个人电脑上打开和保存文件。用语音取代键盘和鼠标是一种神奇的体验,让他窥见了语音计算未来的可能性。

语音计算的黄金时代

快进到2023年,我们正处于语音计算的黄金时代,这得益于机器学习、人工智能和语音助手技术的进步。“某中心对语音助手的愿景始终是成为一个会话式、自然的个人助手,能够了解你、理解你,并具有一定个性,”Tran说。

如今,Tran正在通过促进公司工程师与学术科学家之间的合作来帮助某中心推进机器学习和人工智能的发展,这些科学家包括全职学者和参与某中心学者与访问学者项目的研究人员。

工程与科学的协同创新

Tran认为与科学家的合作对于持续创新至关重要。“将工程与科学结合起来是一个强大的组合。我们的许多项目不仅仅是可以通过更多代码和更好算法解决的确定性工程问题,”他说。“我们必须运用大量不同的技术并利用科学来填补空白,例如机器学习建模和训练。”

为了实现最佳协作,语音助手团队采用了比过去更加敏捷的方法——组建由产品经理、工程师和科学家组成的项目团队,通常根据目标、功能或所需技术进行不同组合。没有教条或原则规定特定团队必须包含哪些角色。

智能食谱推荐系统的实践

最近一个受益于新型敏捷协作方法的项目是语音助手的新食谱推荐引擎。为了向请求食谱的客户提供相关推荐,语音助手必须从其庞大的集合中选择一个食谱,同时理解客户的期望和上下文环境。

Tran解释说,语音助手必须将所有参数纳入其食谱推荐中,并在毫秒内返回它认为既高度相关(例如墨西哥菜肴)又个性化(例如为素食客户不含肉类)的食谱。为每位客户提供相关、安全、满意的推荐所涉及的技术极其复杂。“这不是可以通过蛮力工程构建的东西,”Tran指出。“它需要大量科学。”

构建新食谱引擎需要两个并行项目:一个新的机器学习模型,训练用于从数百万在线食谱语料库中筛选和选择食谱;以及一个新的推理引擎,确保语音助手收到的每个请求都附加了去标识化的个人和上下文数据。

科学家的机器学习模型工作

团队中的科学家主要专注于机器学习模型。他们首先研究了所有现有的、公开可用的食谱推荐ML方法——对模型类型进行分类,并根据他们认为性能最佳的方法进行筛选。“科学家们研究了许多不同的方法——贝叶斯模型、基于图的模型、跨域模型、神经网络和协同过滤——并确定了六种他们认为最适合我们尝试的模型,”Tran解释道。

工程师的推理引擎构建

与此同时,工程师们开始设计和构建新的推理引擎,以更好地捕获和分析用户信号,包括隐式信号(例如一天中的时间)和显式信号(用户请求的是晚餐还是午餐食谱)。推理引擎必须构建为能够适应现有用户和从未请求过食谱推荐的新用户的查询。性能和隐私是关键要求。

持续改进与未来展望

食谱项目并未就此结束。现在它已经上线并投入生产,还有一个持续改进的过程。“我们始终从客户行为中学习。哪些食谱客户真正满意?哪些是他们从不选择的?”Tran说。“工程师和科学家在这方面也持续合作,以完善解决方案。”

为了进一步加速语音助手创新,某中心成立了语音助手首席社区——一个由数百名工程师和科学家组成的矩阵团队,致力于研究语音助手及相关技术。“我们有来自公司各个部门的人员,无论他们向谁汇报,”Tran补充道。“将我们联系在一起的是我们共同致力于语音助手背后的技术,这真是太棒了。”

Tran非常享受与科学家们的工作,他觉得从这种合作中受益匪浅。“与众多科学家密切合作帮助我了解最先进的人工智能能够实现什么,以便我可以在我设计和构建的系统中利用它。但他们也帮助我理解其局限性,这样我就不会高估并尝试构建在现实时间范围内无法实现的东西。”

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计