应用PECOS框架优化商品检索与文本自动补全
两篇KDD论文展示了某中心“极端多标签排序”(XMR)框架的强大能力与灵活性。
框架概述
PECOS采用三阶段解决方案处理XMR问题:
- 索引阶段:按主题对标签进行分组
- 匹配阶段:将输入与主题匹配,显著缩小候选空间
- 排序阶段:基于输入特征对匹配主题中的标签重新排序
商品检索应用
在商品检索应用中,团队调整了PECOS的标准匹配模型XR-Linear。该模型通过B叉树结构减少计算时间,树结构顶层代表完整标签集,下层依次划分更小的分区。
关键技术改进:
- 权重剪枝:删除低于阈值的边权重
- 多特征输入:查询词n-gram、字符n-gram和TF-IDF特征
- 束搜索优化:限制每层探索节点数量
实验结果显示,该模型在recall@10指标上达到神经模型两倍以上、线性模型近四倍的性能,同时训练时间仅为神经模型的六分之一,平均查询处理时间仅1.25毫秒。
会话感知查询自动补全
在此应用中,输入结合了用户先前查询和新查询的开头几个字符,标签是信息检索系统先前见过的查询。
核心创新:
- 使用字典树(trie)结构改进索引方案
- 开发混合聚类技术,结合trie与嵌入方法
- 改进TF-IDF方法:在字符级别应用,并对词首字符串赋予更高权重
该模型在平均倒数排名和BLEU指标上均优于现有最佳线性和神经模型,虽然执行时间高于线性模型,但仍满足实时应用要求。
性能对比
基于PECOS的商品检索系统与两个前代系统对"rose of jericho plant"查询的返回结果对比。绿色框线产品至少被一位执行该搜索的客户购买,红色框线产品未被购买。
传统树结构、字典树和字典树-树混合结构对八个字符串的三种不同聚类方式对比。
该研究证明了PECOS框架在不同信息检索任务中的强大适应性和优异性能。