“我该看什么?“功能背后的科学技术
在充斥着海量节目内容的娱乐世界中,“我该看什么?“已成为许多家庭最常提出的问题之一。根据调研数据,超过半数用户认为跨平台寻找内容很困难,49%的用户对推荐质量不佳感到失望。普通智能电视用户平均需要12分钟才能选定节目,有些观众甚至需要半小时。
技术解决方案
“What Should I Watch”(WSIW)体验于9月中旬发布,结合了对话式AI和电视推荐技术,将语音助手转变为能够提供相关建议的娱乐专家。该功能支持多种电视设备,包括新款电视立方体、QLED系列电视和语音遥控专业版。
当用户询问"Alexa,我该看什么?“时,系统会显示个性化推荐。用户可以通过语音指令(例如"只显示免费内容”)或使用遥控器选择屏幕过滤器来定制推荐,还可以观看预告片、查看详细信息(如类型、评分)并启动播放。
技术创新
该体验结合了电视平台的内容目录、搜索和推荐功能,以及驱动对话式AI的技术突破。团队特别采用了围绕"Alexa对话"开发的新创新,让客户能够以多种自然方式与语音助手交互,而不局限于单一表达方式。
通过去年秋季的预览版和客户测试,团队不断优化用户体验。验证的核心假设是:观众自然倾向于使用自然语言与语音助手交互,且输入方式存在多样性。
对话式AI的挑战
虽然该功能基于现有的自然语言理解和自动语音识别能力,但将自然对话引入娱乐领域面临独特挑战。例如节目名称可能存在歧义,或者电影目录快速更新。优化该功能需要将自然多轮对话的AI核心进步与快速变化的目录相结合。
团队确保个性化推荐既基于用户偏好(如总是倾向选择的英国侦探剧系列),又包含用户可能未见过的新内容。这是通过定制电视平台的现有推荐技术实现的,将个性化与热门标题混合,并随机化这些列表的子集,使观众每次打开电视都能遇到新内容。
技术架构创新
基于深度学习的对话系统使开发数千个潜在对话转折变得简单得多。该对话系统包含三个模型:实体识别(例如识别汤姆·克鲁斯为演员)、动作预测(使用"电影搜索"API查找电影)和参数填充(指定要搜索汤姆·克鲁斯主演的电影)。
近期新增的功能包括:
- 对话问答:允许用户对推荐内容提出广泛问题,例如哪些电影获得过奥斯卡奖
- 上下文重置功能:允许用户"重新开始”
- 视觉上下文理解:增强语音助手正确响应屏幕上显示内容的能力
该体验是首个具有增强屏幕上下文理解功能的产品,也是首个结合所有上述功能以改善用户体验的系统。
飞轮效应创新
该功能接入了语音助手和电视平台的多种不同服务,既利用了电视平台在推荐领域的领域知识和能力,又尝试提高标准:如何将从使用中收集的信息反馈到系统中,形成持续改进的飞轮效应。
与语音团队的合作不仅实现了建议功能,还带来了新的上下文命令,例如电视播放和音量调节,这些功能以前是不可用的。
未来发展方向
团队继续致力于使推荐功能更快、更智能。未来的可能性包括用户通过明确指导语音助手,例如"我是科幻迷"或"我不喜欢恐怖电影”。这种交互代表了语音助手适应客户参与偏好的机会,有些用户喜欢直接指导服务,而有些用户则希望放松地接受推荐。
随着合作的继续,语音助手和电视平台都变得更有能力。这可能产生更广泛的影响,特别是对技能开发生态系统。开发的功能最终可能使第三方技能开发者受益,包括改进的长期记忆、更好的上下文重置和更好的视觉上下文理解。