可解释集成模型提升产品检索效果

本文提出了一种基于梯度提升决策树和Shapley值的可解释集成模型方法,通过聚合多模型输出来提升电商搜索相关性,在公开数据集上验证了其优于单一模型的性能表现。

可解释集成模型提升产品检索效果

梯度提升决策树(GBDT)用于聚合模型输出,而Shapley值帮助识别集成中最有用的模型。

研究背景

机器学习领域快速发展,新模型不断涌现。然而针对特定用例评估新模型耗时耗力。某中心商店等在线服务需要持续提供前沿技术,同时处理全天候高流量请求。

在某机构举办的2024年网络会议上提出的解决方案是:使用模型集成而非单一模型(或语言模型+图神经网络的组合)处理用户查询。集成模型的输出由GBDT进行聚合,通过Shapley值量化各模型对最终决策的贡献度,从而按效用对模型排序。根据可用计算资源,选择保留最实用的高效用模型并行运行。

方法实现

未经充分评估的新模型可以先利用可用数据进行训练,加入集成系统参与Shapley值分析。该分析可能淘汰新模型,也可能发现新模型使旧模型过时。无论哪种情况,用户都能获得最佳技术体验。

实验使用2022年知识发现与数据挖掘会议挑战赛发布的Shopping Queries Dataset,包含数百万三种语言的查询-产品对,按ESCI标准(精确匹配、替代品、互补品、无关)标注关系。训练了3个大语言模型(LLM)和3个图神经网络(GNN),采用准确率、宏观F1和加权F1三个指标对比单一模型与GBDT集成方法。结果显示集成模型全面超越单一模型。

ESCI分类体系

传统信息检索模型根据结果相关性评估,某中心开发了更精细的ESCI分类:

  • 精确匹配:符合查询指定的品牌/型号
  • 替代品:同类不同厂家的产品
  • 互补品:配套产品(如手机查询对应的手机壳)
  • 无关:适用于绝大多数产品的分类

实现ESCI分类主要有两种方式:

  1. 微调语言模型:仅基于产品描述和查询文本
  2. 使用图神经网络:纳入产品间、产品与查询间的关系

某中心构建的图结构包含以下信息:

  • 不同品类产品的共同购买模式
  • 单次搜索会话中的共同浏览产品
  • 特定查询词的高频关联产品

GNN通过迭代过程将图信息映射到表示空间:先嵌入节点数据,再组合节点、邻居及其关系的新嵌入,通常覆盖1-4跳距离。经ESCI任务微调的GNN能利用查询和产品描述语义之外的信息。

模型集成技术

研究发现结合LLM和GNN的输出通常在ESCI任务中表现最佳。论文描述了扩展集成模型数量的通用方法:

  • 各模型输出由GBDT聚合
  • 决策树通过一系列二元决策(通常判断数据特征值是否超过阈值)实现分类
  • 使用基于博弈论的Shapley加法解释计算各模型贡献度
  • 通过系统变化GBDT输入并追踪决策树传播路径,估算所有可能输入的聚合效应
  • 据此选择最具实用性的模型组成集成,在计算资源允许范围内优化

虽然运行模型集成比单一模型计算成本更高,但论文提出了多项效率优化技术:

  • 缓存已见查询-产品对的标签以供复用
  • 预计算高频检索产品邻域的GNN嵌入 实验证明集成模型可实际应用于实时部署场景。
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计