多臂赌博机问题的通用解决方案
问题概述
多臂赌博机问题是指智能体在与环境交互时,需要同时最大化某种奖励并学习如何最大化该奖励的问题。名称来源于赌场场景:赌徒试图找出哪台老虎机提供最佳赔付,同时尽量减少投入低胜率机器的资金。
解决方案框架
设计了一个简单灵活的多臂赌博机问题解决框架,使得强大的统计工具能够应用于各种场景。该框架将每次交互建模为对给定动作列表的排序。
核心设计
- 每个动作被建模为固定长度的向量,支持后期添加新动作
- 向量可包含上下文信息,使模型在不同情境下做出不同选择
- 模型呈现动作列表后,接收关于一个或多个动作的反馈
算法应用
在国际信息与知识管理会议上展示了两项应用:
学习排序研究:专注于确定向客户展示物品列表的顺序,考虑了位置偏差的影响——列表中靠前位置的项目被选择的概率更高。
自然语言理解应用:将学习排序应用于语音助手处理客户请求时的NLU解释排序。当话语有多个可能的NLU解释时,系统根据个别客户的收听历史重新排序。
实验结果
音乐推荐测试
- 客户选择推荐歌曲播放的频率增加7.6%
- 所选歌曲的收听时长增加7.2%
NLU重新排序测试
- 在有限流量上测试,接受播放率显著增加50%至70%
技术细节
探索与利用平衡
框架需要平衡探索环境(了解哪些动作能获得最大奖励)和利用已获知识(最大化奖励)的关系。
算法适配
适配了两种知名学习算法:
- 上置信界算法
- 汤普森采样
框架足够灵活,支持使用其他算法。
上下文信息
在NLU解释研究中,关键适配是确定在动作向量中包含哪些上下文信息:
- 待播放歌曲或专辑的流行度
- 基于收听历史的客户对艺术家的"亲和力"指标
这些应用展示了该框架在提升客户体验质量方面的实际价值。