多臂赌博机问题的通用解决方案

本文介绍了一种解决多臂赌博机问题的通用框架,该框架结合了上下文信息和位置偏差建模,在音乐推荐和自然语言理解任务中取得了显著效果提升,包括播放选择率提高7.6%和接受播放率提升50-70%。

多臂赌博机问题的通用解决方案

问题概述

多臂赌博机问题是指智能体在与环境交互时,需要同时最大化某种奖励并学习如何最大化该奖励的问题。名称来源于赌场场景:赌徒试图找出哪台老虎机提供最佳赔付,同时尽量减少投入低胜率机器的资金。

解决方案框架

设计了一个简单灵活的多臂赌博机问题解决框架,使得强大的统计工具能够应用于各种场景。该框架将每次交互建模为对给定动作列表的排序。

核心设计

  • 每个动作被建模为固定长度的向量,支持后期添加新动作
  • 向量可包含上下文信息,使模型在不同情境下做出不同选择
  • 模型呈现动作列表后,接收关于一个或多个动作的反馈

算法应用

在国际信息与知识管理会议上展示了两项应用:

学习排序研究:专注于确定向客户展示物品列表的顺序,考虑了位置偏差的影响——列表中靠前位置的项目被选择的概率更高。

自然语言理解应用:将学习排序应用于语音助手处理客户请求时的NLU解释排序。当话语有多个可能的NLU解释时,系统根据个别客户的收听历史重新排序。

实验结果

音乐推荐测试

  • 客户选择推荐歌曲播放的频率增加7.6%
  • 所选歌曲的收听时长增加7.2%

NLU重新排序测试

  • 在有限流量上测试,接受播放率显著增加50%至70%

技术细节

探索与利用平衡

框架需要平衡探索环境(了解哪些动作能获得最大奖励)和利用已获知识(最大化奖励)的关系。

算法适配

适配了两种知名学习算法:

  • 上置信界算法
  • 汤普森采样

框架足够灵活,支持使用其他算法。

上下文信息

在NLU解释研究中,关键适配是确定在动作向量中包含哪些上下文信息:

  • 待播放歌曲或专辑的流行度
  • 基于收听历史的客户对艺术家的"亲和力"指标

这些应用展示了该框架在提升客户体验质量方面的实际价值。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计