构建包容性儿童对话AI的技术探索
“我们的身份决定了我们说话的内容和方式”——某研究中心科学部门
信号处理的复杂基础
根据某研究中心研究奖获得者Shrikanth Narayanan的描述,每一次人类对话都是一项工程壮举——一个用于创建和解释令人眼花缭乱信号阵列的复杂系统。
“当我说话时,我产生了这个音频信号,你能够通过听觉系统和神经系统进行处理来理解它,”Narayanan说。“同时,你正在解码我的意图和情绪。我一直对此很着迷。”
Narayanan利用信号处理和机器学习来更好地理解这类现实世界的信息传输。2020年,他的实验室因在“为儿童创建包容性人机对话体验”方面的工作获得了某研究中心研究奖。
从生理学到语音工程
Narayanan回忆说,早在高中时他就对人类体验的科学方面着迷。当时,他说,他主要对我们的生理学感兴趣。但回想起来,他说他的好奇心带有修补工程师的特点。
“我总是在想这一切是如何运作的,”他说。“我想知道心脏是如何工作的,大脑中发生了什么,它们是如何协同工作的。我通过系统这个镜头来看待人类——个体内部和个体之间发生的信息流。”
语音信号的复杂性
“人类语音是一个具有这些复杂基础的信号,”他说。“有一个认知方面,即思维,和运动方面。我们使用声音乐器来创建信号,而信号又被人处理。”
Narayanan着迷于帮助对话顺利进行所涉及的所有数据——以及对话多么容易出错。
信号分析与解释实验室(SAIL)
2000年,Narayanan创立了南加州大学的信号分析与解释实验室(SAIL),专注于“以人为中心的信号和信息处理,解决关键的社会需求”。在过去的二十年里,SAIL在音频、语音、语言、图像、视频和生物信号处理、人类和环境传感与成像以及以人为中心的机器学习方面取得了进展。
儿童语音识别的技术挑战
“即使我们说同一种语言,”Narayanan说,“我们的身份也决定了我们说什么以及如何说。这对儿童来说尤其有趣,因为他们的语音代表了一个随着持续发展变化而移动的目标。”
不仅仅是孩子的发声器官随着成长不断变化。他们还在认知和社交方面发展。这可能意味着他们使用的词语以及使用方式迅速变化。
说话人日志和年龄估计技术
当同时与两个人互动时,分析变得更加复杂,特别是如果其中一个是成人,一个是儿童。使用某弹性计算云(某EC2)处理数据,SAIL在自动语音识别等核心能力方面取得了进展,以改进说话人日志——划分人类语音音频以确定谁在何时说话的过程。
2021年,SAIL还发表了一项关于儿童语音识别的详细实证研究。他们发现,在成人语音上设定高基准的最先进的端到端系统在理解儿童方面存在严重缺陷。次年,该实验室提出了一种基于儿童语音时间变异性来估计儿童年龄的新技术。
可信语音处理与隐私保护
通过测量使儿童难以与AI交互的语音方面——如停顿长度的变化和发音某些声音所需的时间——他的团队能够可靠地测量儿童的发展阶段。这可以帮助AI适应语言技能较不成熟的用户的需求。由于分析依赖于可以剥离其他识别信息的信号,该方法还有助于保护儿童的隐私。
Narayanan将这项及类似项目称为“可信语音处理”,并表示他和通过某机构找到的合作者正在努力在他们蓬勃发展的领域中传播对这一想法的兴趣。
技术合作与人才培养
与某机构的合作使Narayanan的实验室能够通过实践镜头探索关键研究主题。他指出,这种性质的合作为他这样的学者提供了时间和支持来处理复杂、精细的研究问题——例如涉及儿童和其他弱势群体的问题。
此外,Narayanan的研究生可以直接与某机构的科学家合作,了解他们研究的潜在实际应用。
“这种合作真正将研究提升到了一个新的水平,”他说。
技术前景
Narayanan指出,过去五年我们在收集和分析人类行为信息的能力方面发生了根本性变化。
“技术系统实现了这种工程飞跃,并允许了我们甚至尚未想象的应用,”他说。“所有这些人都在开放的现实世界环境中与这些设备互动,我们拥有机器学习和深度学习的进步来实际使用这些音频数据。”
他说,下一个巨大挑战是找出如何处理这些数据,不仅要服务于用户,还要确保他们的信任。除了继续研究各种发展差异可能如何影响语音识别——以及AI如何学会适应它们——Narayanan希望找到新的方法来掩盖尽可能多的用户数据以保护隐私,同时提取语音助手所需的信号。