构建包容性人机对话的语音技术突破

南加州大学教授通过信号处理与机器学习技术,开发能适应儿童语音特征的包容性对话系统,突破传统语音识别在多样性场景下的局限,推动可信语音处理技术的发展。

构建包容性人机对话的语音技术突破

“我们的身份决定了我们说话的内容和方式” —— 某中心科学研究院

南加州大学教授Shrikanth Narayanan获得某中心研究奖项,致力于创建包容性的人机对话体验。

2023年7月5日


根据Shrikanth Narayanan的描述,每一次人类对话都是工程学的壮举——一个通过生成和解析复杂信号组成的精密系统。“当我说话时,我产生音频信号,你能通过听觉系统和神经系统进行处理理解。同时,你还在解读我的意图和情绪。这一直让我着迷。”

Narayanan在南加州大学担任工程学教授期间,运用信号处理和机器学习技术来深入理解这类现实世界的信息传递。2020年,他的实验室因"为儿童创建包容性人机对话体验"的研究工作获得某中心研究奖项。目前,他通过南加州大学维特比工程学院的安全可信机器学习中心与某中心研究人员持续合作。他还以培养未来科学家而闻名,数十名 former学生现全职任职于该机构。

他们正在探索机器学习隐私、安全性和可信度的新方法,助力塑造一个更加公平、安全和共情的未来。

具有"复杂基础"的信号

Narayanan回忆道,早在高中时期他就对人类体验的科学层面着迷。当时他主要对生理学感兴趣,但回顾过去,他认为自己的好奇心带有工程师钻研的特质。

“我一直对这一切如何运作感兴趣,“他说,“我想知道心脏如何工作,大脑中发生了什么,它们如何协同工作。我通过系统视角来看待人类——个体内部和个体之间发生的信息流。”

90年代初,他在加州大学洛杉矶分校攻读电气工程博士学位时,成功融合了自己多样的兴趣。“我接受的是电气工程培训,但我真正希望有机会研究更直接连接人类系统的内容。“他在AT&T贝尔实验室实习时意识到,人类语言包含了他希望帮助解决的所有谜题。

“人类语音是一个具有复杂基础的信号,“他说,“涉及认知层面、心理层面和运动层面。我们使用发声器官创建信号,进而被人们处理。“Narayanan对确保对话顺利进行所涉及的所有数据着迷——以及对话多么容易出错。

他还对发育障碍和健康状况如何改变生成和理解语音的过程产生兴趣,以及人类文化背景的丰富多样性如何影响语音识别和合成的效果。

2000年,Narayanan创立了南加州大学信号分析与解释实验室(SAIL),专注于"以人为中心的信号和信息处理,解决关键社会需求”。过去二十年间,SAIL在音频、语音、语言、图像、视频和生物信号处理、人类和环境传感与成像,以及以人为中心的机器学习方面取得了进展。该实验室还应用研究发现创建"包容性技术和支持包容的技术”。

这意味着除了确保语音识别等技术真正为所有人服务外——他最早的一些工作涉及帮助AI捕捉说话者的情绪状态,无论其使用何种语言——他还使用信号分析和解释来帮助揭示和关注不平等现象。

2017年,SAIL创建了分析电影剧本对话的算法,以衡量BIPOC角色的代表性。另一个SAIL工具直接分析镜头内容来跟踪和统计女性屏幕时间和发言时间。

2019年,该实验室报告称,基于人类语音模式训练的算法可以预测面临困境的夫妇是否会真正在一起。其表现甚至优于观看相关夫妇视频记录的训练有素的治疗师。该算法不解释讨论内容或任何视觉线索,而是专注于节奏和音高等因素。类似工具预测精神病患者心理健康变化的能力与人类医生相当。

建立对AI的信任

“即使我们说同一种语言,“Narayanan说,“我们的身份决定了我们说话的内容和方式。这对儿童尤其引人入胜,因为他们的语音代表了一个随着持续发展变化而移动的目标。”

不仅是儿童的发音器官随着成长不断变化,他们还在认知和社交方面不断发展。这可能意味着他们使用的词语和使用方式快速变化。当加入其他可能使这些语音变化与已经多样化的平均水平不同的因素时——文化背景、言语或听力障碍、认知差异或发育延迟——训练语音助手与儿童有效沟通提出了真正挑战。

当同时与两个人互动时,分析变得更加复杂,尤其当其中一个是成人,一个是儿童时。SAIL使用某中心弹性计算云(某EC2)处理数据,在自动语音识别等核心能力方面取得进展,改进了说话人日志——划分人类语音音频以确定谁在何时说话的过程。

2021年,SAIL还发布了一项关于儿童语音识别的详细实证研究。他们发现,在成人语音上设定高基准的最先进端到端系统在理解儿童方面存在严重缺陷。次年,该实验室提出了一种基于语音时间变异性估计儿童年龄的新技术。

通过测量使儿童难以与AI交互的语音特征——如停顿长度的变化和发音特定声音所需的时间——他的团队能够可靠地测量儿童的发展阶段。这可以帮助AI适应语言能力较不成熟的用户需求。由于分析依赖于可以剥离其他识别信息的信号,该方法还有助于保护儿童隐私。

Narayanan将此类项目称为"可信语音处理”,并表示通过与某中心合作找到的合作者,他正努力在他们蓬勃发展的领域传播对这一理念的兴趣。3月,国际语音通信协会(ISCA)授予他科学成就奖章——该组织最负盛名的奖项——以表彰他对语音通信科学技术及其在以人为中心的工程系统中应用的持续多样化贡献。他将于8月在爱尔兰都柏林举行的Interspeech 2023上接受奖章并发表开幕主题演讲。

Narayanan指出,过去五年我们在收集和分析人类行为信息能力方面发生了根本性变化。

“技术系统实现了这种工程飞跃,实现了我们尚未想象的应用,“他说,“所有这些人都在开放的真实世界环境中与这些设备互动,我们拥有机器学习和深度学习进步来实际使用这些音频数据。”

他说,下一个重大挑战是找出如何处理这些数据,不仅服务于用户,还要确保他们的信任。除了继续研究各种发展差异如何影响语音识别——以及AI如何学会适应它们——Narayanan希望找到新方法在提取语音助手所需信号的同时,尽可能屏蔽用户数据以保护隐私。

引领下一代研究人员

与某中心合作使Narayanan的实验室能够通过实践视角探索关键研究主题。他指出,这种性质的合作为他这样的学者提供了时间和支持来处理复杂、微妙的研究问题——例如涉及儿童和其他脆弱群体的问题。

此外,Narayanan的研究生可以直接与某中心科学家合作,了解他们研究的潜在实际应用。

“这种合作伙伴关系真正将研究提升到新水平,“他说。

Narayanan还鼓励数十名学生到某中心实习,探索行业所能提供的机会。正如他在贝尔实验室的时光帮助明确了自己的兴趣一样,他说他目睹了无数年轻工程师在某中心为他们的技能找到令人兴奋的新应用。

最初 gently 推动考虑某中心实习和职位发布已发展成为稳定的招聘渠道——Narayanan表示这完全归功于实验室校友的优点。

某中心AI高级应用科学经理Angeliki Metallinou在Narayanan的鼓励下于2014年全职加入。当时某助手是一个绝密项目,所以她直到到达才知道具体工作内容。她感谢Narayanan鼓励她深入参与。

“作为学生,我没有意识到某中心科学家与学术界合作的程度,以及能够在顶级场所和会议上发表工作,“她回忆道,“我甚至不知道这里有如此强大的科学社区。但Shri已经有几位前博士学生在某中心工作,他推荐这里作为行业职业发展的好地方。”

某助手高级应用科学家Rahul Gupta于2015年SAIL博士生涯末期首次联系某中心实习。他说,如今仅他的小组中就有一两名SAIL学生进行暑期实习。

“SAIL和某中心之间有很好的文化契合度,“Gupta说。

Narayanan在办公室墙上自豪地展示所有实验室毕业生的照片,他承认已经数不清这些年来有多少人在某中心工作过。

“这很令人兴奋,“他说,“正在发生的AI革命与某中心的动态有着非常好的联系,所以自然这里是我的学生找到最令人兴奋的挑战和机会的地方。但我也看到许多人晋升到领导职位,我尽最大努力为他们做好准备——我总是鼓励创造力和协作,在实验室里我不会微观管理他们。”

他说,既然他的毕业生在某中心蓬勃发展,当前学生的实习机会就更加充实。

“它自我维持,“他说,“他们在某中心和社区中所做的事情中闪耀,这又连接回实验室。这非常令人兴奋。”

研究领域

  • 对话式AI
  • 机器学习

标签

  • 自然语言处理(NLP)
  • 自然语言理解(NLU)
  • 多样性、公平与包容
  • 南加州大学(USC)
  • 某中心研究奖项
  • 负责任AI
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计