多臂赌博机问题的通用解决方案

本文介绍了一种解决多臂赌博机问题的通用框架，该框架结合了上下文信息和位置偏差建模，在音乐推荐和自然语言理解任务中取得了显著效果提升，包括播放选择率提高7.6%和接受播放率提升50-70%。

多臂赌博机问题的通用解决方案

问题概述

多臂赌博机问题是指智能体在与环境交互时，需要同时最大化某种奖励并学习如何最大化该奖励的问题。名称来源于赌场场景：赌徒试图找出哪台老虎机提供最佳赔付，同时尽量减少投入低胜率机器的资金。

解决方案框架

设计了一个简单灵活的多臂赌博机问题解决框架，使得强大的统计工具能够应用于各种场景。该框架将每次交互建模为对给定动作列表的排序。

核心设计

每个动作被建模为固定长度的向量，支持后期添加新动作
向量可包含上下文信息，使模型在不同情境下做出不同选择
模型呈现动作列表后，接收关于一个或多个动作的反馈

算法应用

在国际信息与知识管理会议上展示了两项应用：

学习排序研究：专注于确定向客户展示物品列表的顺序，考虑了位置偏差的影响——列表中靠前位置的项目被选择的概率更高。

自然语言理解应用：将学习排序应用于语音助手处理客户请求时的NLU解释排序。当话语有多个可能的NLU解释时，系统根据个别客户的收听历史重新排序。

实验结果

音乐推荐测试

客户选择推荐歌曲播放的频率增加7.6%
所选歌曲的收听时长增加7.2%

NLU重新排序测试

在有限流量上测试，接受播放率显著增加50%至70%

技术细节

探索与利用平衡

框架需要平衡探索环境（了解哪些动作能获得最大奖励）和利用已获知识（最大化奖励）的关系。

算法适配

适配了两种知名学习算法：

上置信界算法
汤普森采样

框架足够灵活，支持使用其他算法。

上下文信息

在NLU解释研究中，关键适配是确定在动作向量中包含哪些上下文信息：

待播放歌曲或专辑的流行度
基于收听历史的客户对艺术家的"亲和力"指标

这些应用展示了该框架在提升客户体验质量方面的实际价值。

comments powered by Disqus