可解释集成模型改进产品检索技术
在电子商务搜索场景中,如何高效整合多种机器学习模型提升检索精度是关键挑战。某机构研究团队提出了一种基于梯度提升决策树(GBDT)的模型集成方法,通过Shapley值量化各模型贡献度,实现可解释的集成学习框架。
技术架构
多模型集成策略
- 同步部署三个大型语言模型(LLM)和三个图神经网络(GNN)
- 使用GBDT聚合六大模型的输出结果
- 采用Shapley附加解释(SHAP)方法计算每个模型对最终决策的贡献度
ESCI分类体系
提出四层级商品匹配标准:
- 精确匹配(Exact):完全符合查询条件的商品
- 替代商品(Substitute):同类不同品牌的商品
- 互补商品(Complement):具有互补关系的商品(如手机与手机壳)
- 无关商品(Irrelevant):与查询无关的商品
实验验证
使用包含多语言百万级查询-商品对的数据集进行测试:
- 集成模型在准确率、宏观F1和加权F1指标上均显著优于单一模型
- 通过缓存历史查询-商品对标签、预计算高频商品邻域嵌入等方式优化计算效率
- 实验证明集成模型具备实时部署可行性
技术优势
- 动态模型更新:新模型无需完整评估即可加入集成,通过Shapley值自动筛选最优模型组合
- 多模态信息融合:同时利用文本语义(LLM)和图结构信息(GNN)
- 资源自适应:根据计算资源动态调整集成模型中保留的模型数量
该方法在2024年万维网会议上发表,为大规模商业系统中的模型部署提供了可解释、高效率的解决方案。