可解释集成模型提升产品检索效果

本文介绍通过梯度提升决策树集成语言模型与图神经网络的方法，利用Shapley值量化模型贡献度，在ESCI商品检索任务中实现性能提升，并探讨了实时部署的优化策略。

可解释集成模型改进产品检索技术

在电子商务搜索场景中，如何高效整合多种机器学习模型提升检索精度是关键挑战。某机构研究团队提出了一种基于梯度提升决策树（GBDT）的模型集成方法，通过Shapley值量化各模型贡献度，实现可解释的集成学习框架。

技术架构

多模型集成策略

同步部署三个大型语言模型（LLM）和三个图神经网络（GNN）
使用GBDT聚合六大模型的输出结果
采用Shapley附加解释（SHAP）方法计算每个模型对最终决策的贡献度

ESCI分类体系

提出四层级商品匹配标准：

精确匹配（Exact）：完全符合查询条件的商品
替代商品（Substitute）：同类不同品牌的商品
互补商品（Complement）：具有互补关系的商品（如手机与手机壳）
无关商品（Irrelevant）：与查询无关的商品

实验验证

使用包含多语言百万级查询-商品对的数据集进行测试：

集成模型在准确率、宏观F1和加权F1指标上均显著优于单一模型
通过缓存历史查询-商品对标签、预计算高频商品邻域嵌入等方式优化计算效率
实验证明集成模型具备实时部署可行性

技术优势

动态模型更新：新模型无需完整评估即可加入集成，通过Shapley值自动筛选最优模型组合
多模态信息融合：同时利用文本语义（LLM）和图结构信息（GNN）
资源自适应：根据计算资源动态调整集成模型中保留的模型数量

该方法在2024年万维网会议上发表，为大规模商业系统中的模型部署提供了可解释、高效率的解决方案。

comments powered by Disqus