产品搜索竞赛9200份提交的技术解析

竞赛概况

在KDD 2022会议的知识发现与数据挖掘会议（KDD）期间，某机构举办了一场研讨会，公布了ESCI产品搜索改进挑战赛的结果。该竞赛在KDD Cup框架下启动，旨在同时提升产品查询检索结果的排名相关性（与客户需求的相关性）并提供有吸引力的替代产品（即可替代商品）。

竞赛于2022年3月15日至7月20日期间进行，吸引了来自65个国家的1600多名参与者，提交了超过9200个解决方案。参赛者在挑战期间提交了超过2.5TB的代码和模型，创下前所未有的提交量。竞赛奖金池为21,000美元，并为表现最佳的团队额外提供10,500美元的某云服务积分。

作为挑战赛的一部分，主办方推出了购物查询数据集（Shopping Queries Data Set），这是一个包含困难搜索查询的大型数据集，旨在促进查询-产品语义匹配领域的研究。

尽管机器学习领域近期取得进展，但正确分类产品查询结果仍然存在挑战。结果中的噪声信息、查询意图理解的困难以及商品多样性都增加了该问题的复杂性。

ESCI产品搜索改进挑战赛将相关性分为四个类别：精确匹配（E）、替代产品（S）、互补产品（C）和不相关（I），因此得名"ESCI挑战"。

使用购物查询数据集的KDD Cup竞赛包含三个技术任务：

任务1：查询-产品排序 给定用户指定查询和匹配产品列表，将相关产品排名高于不相关产品（通过标准化折损累积增益nDCG衡量）

任务2：多类别产品分类 给定查询和匹配产品列表，将每个产品分类为精确匹配、替代品、互补品或与查询不相关（通过准确率衡量）

任务3：产品替代识别 评估系统在给定查询结果列表中识别替代产品的能力（通过准确率衡量）

该数据集具有以下重要技术特征：

研讨会上展示了KDD Cup竞赛获奖者的方案。发布数据集时同时发布了强基线模型，作为参赛者方案的基准。

任务1的获胜团队（来自中国广州的某机构互动娱乐集团）在nNDCG指标上比基线提高了6.35%（团队nDCG得分为0.9043，显著优于基线0.8503）。

任务2和3的获胜团队（来自中国浙江杭州的某机构）分别比基线提高了12.36%（0.8326对比0.7410）和5.66%（0.8790对比0.8319）。