竞赛背景
在2022年知识发现与数据挖掘会议(KDD)期间,某中心以KDD Cup名义举办了ESCI商品搜索改进挑战赛。该竞赛旨在同时提升商品查询结果的相关性排序效果,并为用户推荐有吸引力的替代商品。
技术挑战
尽管机器学习技术取得进展,商品查询结果的准确分类仍存在三大挑战:
- 结果中的噪声信息干扰
- 查询意图理解的复杂性
- 可用商品的多样性
竞赛任务
基于发布的Shopping Queries数据集,竞赛设置三个技术任务:
任务1:查询-商品排序 给定用户查询和匹配商品列表,将相关商品排序在非相关商品之前(以nDCG指标衡量)
任务2:多类别商品分类 对查询结果中的商品进行四分类:精确匹配(E)、替代商品(S)、互补商品(C)和不相关商品(I)
任务3:替代商品识别 评估系统在查询结果中识别替代商品的能力(以准确率衡量)
数据集特性
发布的数据集具有以下技术特征:
- 源自真实用户在线商品搜索行为
- 包含英语、日语和西班牙语的多语言查询
- 每个查询提供最多40个潜在相关结果及ESCI相关性标注
- 专门采样具有挑战性的查询(如否定句、属性解析等)
- 每个查询-商品对附带商品目录信息(标题、描述、产品要点)
竞赛成果
竞赛期间收到超过2.5TB的代码和模型提交,最终结果:
- 任务1冠军团队(某机构)nDCG指标提升6.35%
- 任务2和3冠军团队(某机构)准确率分别提升12.36%和5.66%
数据集和基线模型已公开发布,旨在成为商品搜索领域的"ImageNet级"基准数据集。