语音推荐系统技术解析

本文深入解析基于Alexa对话式AI和Fire TV推荐技术的影视推荐系统,涵盖多轮对话处理、个性化推荐算法、屏幕上下文理解等核心技术,以及如何通过飞轮效应持续优化用户体验。

“我该看什么?“功能背后的科学技术

在充斥着海量节目内容的娱乐世界中,“我该看什么?“已成为许多家庭最常提出的问题之一。根据调研数据,超过半数用户认为跨平台寻找内容很困难,49%的用户对推荐质量不佳感到失望。普通智能电视用户平均需要12分钟才能选定节目,有些观众甚至需要半小时。

技术解决方案

“What Should I Watch”(WSIW)体验于9月中旬发布,结合了对话式AI和电视推荐技术,将语音助手转变为能够提供相关建议的娱乐专家。该功能支持多种电视设备,包括新款电视立方体、QLED系列电视和语音遥控专业版。

当用户询问"Alexa,我该看什么?“时,系统会显示个性化推荐。用户可以通过语音指令(例如"只显示免费内容”)或使用遥控器选择屏幕过滤器来定制推荐,还可以观看预告片、查看详细信息(如类型、评分)并启动播放。

技术创新

该体验结合了电视平台的内容目录、搜索和推荐功能,以及驱动对话式AI的技术突破。团队特别采用了围绕"Alexa对话"开发的新创新,让客户能够以多种自然方式与语音助手交互,而不局限于单一表达方式。

通过去年秋季的预览版和客户测试,团队不断优化用户体验。验证的核心假设是:观众自然倾向于使用自然语言与语音助手交互,且输入方式存在多样性。

对话式AI的挑战

虽然该功能基于现有的自然语言理解和自动语音识别能力,但将自然对话引入娱乐领域面临独特挑战。例如节目名称可能存在歧义,或者电影目录快速更新。优化该功能需要将自然多轮对话的AI核心进步与快速变化的目录相结合。

团队确保个性化推荐既基于用户偏好(如总是倾向选择的英国侦探剧系列),又包含用户可能未见过的新内容。这是通过定制电视平台的现有推荐技术实现的,将个性化与热门标题混合,并随机化这些列表的子集,使观众每次打开电视都能遇到新内容。

技术架构创新

基于深度学习的对话系统使开发数千个潜在对话转折变得简单得多。该对话系统包含三个模型:实体识别(例如识别汤姆·克鲁斯为演员)、动作预测(使用"电影搜索"API查找电影)和参数填充(指定要搜索汤姆·克鲁斯主演的电影)。

近期新增的功能包括:

  • 对话问答:允许用户对推荐内容提出广泛问题,例如哪些电影获得过奥斯卡奖
  • 上下文重置功能:允许用户"重新开始”
  • 视觉上下文理解:增强语音助手正确响应屏幕上显示内容的能力

该体验是首个具有增强屏幕上下文理解功能的产品,也是首个结合所有上述功能以改善用户体验的系统。

飞轮效应创新

该功能接入了语音助手和电视平台的多种不同服务,既利用了电视平台在推荐领域的领域知识和能力,又尝试提高标准:如何将从使用中收集的信息反馈到系统中,形成持续改进的飞轮效应。

与语音团队的合作不仅实现了建议功能,还带来了新的上下文命令,例如电视播放和音量调节,这些功能以前是不可用的。

未来发展方向

团队继续致力于使推荐功能更快、更智能。未来的可能性包括用户通过明确指导语音助手,例如"我是科幻迷"或"我不喜欢恐怖电影”。这种交互代表了语音助手适应客户参与偏好的机会,有些用户喜欢直接指导服务,而有些用户则希望放松地接受推荐。

随着合作的继续,语音助手和电视平台都变得更有能力。这可能产生更广泛的影响,特别是对技能开发生态系统。开发的功能最终可能使第三方技能开发者受益,包括改进的长期记忆、更好的上下文重置和更好的视觉上下文理解。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计