语音浏览艺术收藏的对话AI技术

介绍基于Alexa Conversations对话管理模型开发的Art Museum技能,通过语音指令浏览艺术藏品的技术实现,包括AI驱动的对话管理、上下文处理和API集成等核心技术架构。

语音浏览艺术收藏的技术实现

芝加哥艺术学院在因疫情关闭后重新开放,而在某中心的Echo Show设备上,得益于Alexa技能Art Museum,博物馆始终向访客开放。该技能使用Alexa Conversations对话管理模型开发,允许用户通过语音指令浏览馆藏中的300多件艺术品。

Alexa Conversations是美国开发者现已可用的首个基于深度学习的对话管理系统,利用人工智能帮助开发者创建自然、类人的语音交互,弥合了手动构建体验与有机发生的广泛交互可能性之间的差距。

技能功能与体验

使用Art Museum时,访客可以说"我想看一幅画"、“带我去看印度的雕塑"或"给我看类似的作品"等短语来浏览藏品。同时,微妙的环境音频(博物馆中熟悉的人群低语声)营造出实体环境的氛围。

该技能通过芝加哥艺术学院公共API实现,去年秋季在Alexa Conversations技能挑战赛中荣获大奖。用户可通过说"Alexa,打开Art Museum"来访问该技能。

技术开发背景

Art Museum开发者John Gillilan和Katy Boungard最初在2018年某机构re:Invent大会的黑客马拉松上创建了该概念的原型。当去年Alexa Conversations挑战赛出现时,他们认识到这是以新方式探索文化资产目录的机会。

语音编码的复杂性

语音编码可能看似简单实则复杂。以订购披萨为例,用户可能一次性提交多个数据点,然后修改订单。开发人员可能需要考虑数千个对话路径来完成一个披萨订单。

Alexa Conversations通过使用深度学习基于开发人员提供的样本来推断不同的措辞变化和对话路径,减少了需要编写的代码量。对于Art Museum,这使得基于用户的简单请求动态构建艺术收藏成为可能,无论用户是否熟悉艺术。

上下文管理与视觉识别

用户可能要求看法国的画作,然后突然决定切换至意大利画作。Alexa Conversations提供的上下文管理帮助实现了这种无缝过渡。开发人员还使用了某机构Rekognition服务提取额外的描述性标签,如水域或树木等视觉元素。

Alexa Conversations的AI技术

与传统线性语音体验工具包不同,Alexa Conversations鼓励开发者从想要创建的自然对话体验反向工作。其核心是基于深度学习模型,无需在所有可能的语言变体上进行训练即可解释语言。

该模型通过模拟人机对话进行训练,开发者无需提供自己的训练数据,而是提供样本对话,并指定何时调用API及其所需参数,使对话管理器能够收集信息来触发开发者技能代码。

Alexa Conversations可以直接"从词语预测API”,这是以最少开发者工作量创作口语对话体验的未来方向。

开发体验

开发者表示,Alexa Conversations的灵活性鼓励了关于如何设计和构建语音交互的全新思维方式。对于交易导向的项目,使用Alexa Conversations将使开发变得更加容易。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计