产品搜索竞赛9200份提交的技术解析

某中心在KDD 2022会议举办的ESCI产品搜索挑战赛吸引了来自65个国家的1600多名参与者,提交超过9200个解决方案。竞赛聚焦查询-产品排序、多类别产品分类和替代产品识别三大技术任务,并发布了包含多语言查询的大型购物查询数据集。

竞赛概况

在KDD 2022会议的知识发现与数据挖掘会议(KDD)期间,某机构举办了一场研讨会,公布了ESCI产品搜索改进挑战赛的结果。该竞赛在KDD Cup框架下启动,旨在同时提升产品查询检索结果的排名相关性(与客户需求的相关性)并提供有吸引力的替代产品(即可替代商品)。

技术挑战

竞赛于2022年3月15日至7月20日期间进行,吸引了来自65个国家的1600多名参与者,提交了超过9200个解决方案。参赛者在挑战期间提交了超过2.5TB的代码和模型,创下前所未有的提交量。竞赛奖金池为21,000美元,并为表现最佳的团队额外提供10,500美元的某云服务积分。

作为挑战赛的一部分,主办方推出了购物查询数据集(Shopping Queries Data Set),这是一个包含困难搜索查询的大型数据集,旨在促进查询-产品语义匹配领域的研究。

尽管机器学习领域近期取得进展,但正确分类产品查询结果仍然存在挑战。结果中的噪声信息、查询意图理解的困难以及商品多样性都增加了该问题的复杂性。

技术任务设计

ESCI产品搜索改进挑战赛将相关性分为四个类别:精确匹配(E)、替代产品(S)、互补产品(C)和不相关(I),因此得名"ESCI挑战"。

使用购物查询数据集的KDD Cup竞赛包含三个技术任务:

任务1:查询-产品排序 给定用户指定查询和匹配产品列表,将相关产品排名高于不相关产品(通过标准化折损累积增益nDCG衡量)

任务2:多类别产品分类 给定查询和匹配产品列表,将每个产品分类为精确匹配、替代品、互补品或与查询不相关(通过准确率衡量)

任务3:产品替代识别 评估系统在给定查询结果列表中识别替代产品的能力(通过准确率衡量)

数据集特性

该数据集具有以下重要技术特征:

  • 源自真实客户的在线产品搜索,产品链接到在线目录
  • 为每个查询提供最多40个潜在相关结果及其ESCI相关性判断
  • 包含英语、日语和西班牙语查询的多语言数据集
  • 提供广度(大量查询)和深度(每个查询约20个结果)
  • 所有结果都在电子商务背景下进行了多值相关性标签的人工标注
  • 查询不是随机抽样,而是专门抽样以提供各种具有挑战性的问题(如否定、属性解析等)
  • 每个查询-产品对都附带额外的公共目录信息(包括标题、产品描述和其他产品相关要点)

竞赛结果

研讨会上展示了KDD Cup竞赛获奖者的方案。发布数据集时同时发布了强基线模型,作为参赛者方案的基准。

任务1的获胜团队(来自中国广州的某机构互动娱乐集团)在nNDCG指标上比基线提高了6.35%(团队nDCG得分为0.9043,显著优于基线0.8503)。

任务2和3的获胜团队(来自中国浙江杭州的某机构)分别比基线提高了12.36%(0.8326对比0.7410)和5.66%(0.8790对比0.8319)。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计