大语言模型增强的强化学习实现多样化推荐
摘要
在推荐系统中,多样性和新颖性对于捕捉用户多样化偏好和促进探索至关重要,但许多系统仍优先考虑点击相关性。虽然强化学习(RL)已被探索用于提高多样性,但它通常依赖于可能不符合用户兴趣的随机探索。我们提出LAAC(LLM引导的对抗性演员评论家),这是一种新颖的方法,利用大语言模型(LLM)作为参考策略来建议新颖项目,同时训练轻量策略使用系统特定数据优化这些建议。该方法将训练制定为演员和评论家网络之间的双层优化,使评论家能够有选择地偏好有前景的新颖动作,而演员则能够改进其策略以超越LLM推荐。为减轻对不可靠LLM建议的高估,我们应用正则化方法,将未探索项目的评论家值锚定在良好估计的数据集动作附近。在真实数据集上的实验表明,LAAC在多样性、新颖性和准确性方面优于现有基线,同时在数据不平衡时保持鲁棒性,有效整合了LLM知识而无需昂贵的微调。
方法
LAAC框架
LAAC方法的核心是通过大语言模型生成初始推荐项,随后通过强化学习框架进行优化。具体包括:
- LLM作为参考策略:大语言模型提供新颖的项目建议
- 轻量策略训练:使用系统特定数据微调推荐策略
- 双层优化:演员网络和评论家网络协同训练
- 正则化机制:防止对未探索项目的过度估计
技术优势
该方法避免了直接微调大语言模型的高成本,同时有效利用了LLM的泛化能力。通过锚定机制,系统能够在保持推荐准确性的同时,显著提升推荐的多样性和新颖性。
实验结果
在多个真实数据集上的测试表明,LAAC方法在以下指标上表现优异:
- 推荐多样性提升显著
- 新颖项目推荐比例增加
- 整体推荐准确性保持稳定
- 在数据不平衡场景下表现鲁棒
结论
LAAC方法成功地将大语言模型与强化学习相结合,为推荐系统提供了有效平衡准确性、多样性和新颖性的解决方案。该方法无需昂贵的大模型微调,为实际应用提供了可行的技术路径。