语音交互的影视推荐新体验
“我该看什么?”在内容日益丰富的流媒体时代,这已成为许多家庭最常见的困惑。最新推出的“What Should I Watch”(WSIW)功能通过结合对话式AI与智能推荐技术,将语音助手转变为娱乐专家,提供个性化推荐和自然对话体验。
技术架构与创新
多模态交互系统
WSIW系统集成以下核心技术:
- 自然语言理解:支持多样化表达方式,用户可以说“我想看搞笑的内容”或“只要免费的内容”
- 自动语音识别:准确捕捉语音指令中的关键信息
- 屏幕上下文感知:首次实现屏幕内容理解,支持“播放左边那个”等指代性指令
- 个性化推荐引擎:结合用户偏好与热门内容,每次推荐都会随机组合确保新鲜感
对话管理系统
采用基于深度学习的Alexa Conversations技术,包含三个核心模型:
- 实体识别(如识别“汤姆·克鲁斯”为演员)
- 动作预测(调用“电影搜索”API)
- 参数填充(指定要搜索汤姆·克鲁斯的电影)
用户体验优化
通过beta测试收集的洞察:
- 用户自然倾向于使用多变的自语言与系统交互
- 增加“免费内容”永久筛选器,成为最受欢迎功能
- 用屏幕上下文提示替换介绍视频,降低使用门槛
- 支持播放控制指令扩展,如音量调节和播放控制
技术挑战与突破
娱乐领域特有挑战
- 处理模糊名称(如《黑袍纠察队》等歧义标题)
- 快速更新内容库(每周新增热门内容)
- 平衡个性化推荐与新内容发现
系统集成创新
- 首次实现Alexa与电视推荐系统的深度整合
- 开发飞轮效应机制,使用数据持续优化推荐质量
- 扩展Alexa技能API,支持从技能内直接启动内容播放
未来发展方向
团队正在探索:
- 显式用户偏好引导(如“我是科幻迷”或“不喜欢恐怖片”)
- 改进长期记忆功能
- 增强上下文重置能力
- 提升视觉上下文理解
- 为第三方技能开发者提供改进的技术能力
这项技术不仅提升了影视推荐体验,更为对话式AI在娱乐领域的发展树立了新标杆。