可解释集成模型提升产品检索效果

本文介绍通过梯度提升决策树集成语言模型与图神经网络的方法,利用Shapley值量化模型贡献度,在ESCI商品检索任务中实现性能提升,并探讨了实时部署的优化策略。

可解释集成模型改进产品检索技术

在电子商务搜索场景中,如何高效整合多种机器学习模型提升检索精度是关键挑战。某机构研究团队提出了一种基于梯度提升决策树(GBDT)的模型集成方法,通过Shapley值量化各模型贡献度,实现可解释的集成学习框架。

技术架构

多模型集成策略

  • 同步部署三个大型语言模型(LLM)和三个图神经网络(GNN)
  • 使用GBDT聚合六大模型的输出结果
  • 采用Shapley附加解释(SHAP)方法计算每个模型对最终决策的贡献度

ESCI分类体系

提出四层级商品匹配标准:

  • 精确匹配(Exact):完全符合查询条件的商品
  • 替代商品(Substitute):同类不同品牌的商品
  • 互补商品(Complement):具有互补关系的商品(如手机与手机壳)
  • 无关商品(Irrelevant):与查询无关的商品

实验验证

使用包含多语言百万级查询-商品对的数据集进行测试:

  • 集成模型在准确率、宏观F1和加权F1指标上均显著优于单一模型
  • 通过缓存历史查询-商品对标签、预计算高频商品邻域嵌入等方式优化计算效率
  • 实验证明集成模型具备实时部署可行性

技术优势

  1. 动态模型更新:新模型无需完整评估即可加入集成,通过Shapley值自动筛选最优模型组合
  2. 多模态信息融合:同时利用文本语义(LLM)和图结构信息(GNN)
  3. 资源自适应:根据计算资源动态调整集成模型中保留的模型数量

该方法在2024年万维网会议上发表,为大规模商业系统中的模型部署提供了可解释、高效率的解决方案。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计