PECOS框架在检索与自动补全中的应用

本文介绍PECOS极端多标签排序框架在商品检索和会话感知查询自动补全中的应用。通过三阶段索引-匹配-排序方法,该框架在准确性和效率方面均优于现有基准模型,支持实时系统部署。

应用PECOS框架优化商品检索与文本自动补全

两篇KDD论文展示了某中心“极端多标签排序”(XMR)框架的强大能力与灵活性。

框架概述

PECOS采用三阶段解决方案处理XMR问题:

  1. 索引阶段:按主题对标签进行分组
  2. 匹配阶段:将输入与主题匹配,显著缩小候选空间
  3. 排序阶段:基于输入特征对匹配主题中的标签重新排序

商品检索应用

在商品检索应用中,团队调整了PECOS的标准匹配模型XR-Linear。该模型通过B叉树结构减少计算时间,树结构顶层代表完整标签集,下层依次划分更小的分区。

关键技术改进

  • 权重剪枝:删除低于阈值的边权重
  • 多特征输入:查询词n-gram、字符n-gram和TF-IDF特征
  • 束搜索优化:限制每层探索节点数量

实验结果显示,该模型在recall@10指标上达到神经模型两倍以上、线性模型近四倍的性能,同时训练时间仅为神经模型的六分之一,平均查询处理时间仅1.25毫秒。

会话感知查询自动补全

在此应用中,输入结合了用户先前查询和新查询的开头几个字符,标签是信息检索系统先前见过的查询。

核心创新

  • 使用字典树(trie)结构改进索引方案
  • 开发混合聚类技术,结合trie与嵌入方法
  • 改进TF-IDF方法:在字符级别应用,并对词首字符串赋予更高权重

该模型在平均倒数排名和BLEU指标上均优于现有最佳线性和神经模型,虽然执行时间高于线性模型,但仍满足实时应用要求。

性能对比

商品检索结果对比 基于PECOS的商品检索系统与两个前代系统对"rose of jericho plant"查询的返回结果对比。绿色框线产品至少被一位执行该搜索的客户购买,红色框线产品未被购买。

三种聚类方法对比 传统树结构、字典树和字典树-树混合结构对八个字符串的三种不同聚类方式对比。

该研究证明了PECOS框架在不同信息检索任务中的强大适应性和优异性能。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计