竞赛概况
在KDD 2022会议的知识发现与数据挖掘会议(KDD)期间,某机构举办了一场研讨会,公布了ESCI产品搜索改进挑战赛的结果。该竞赛在KDD Cup框架下启动,旨在同时提升产品查询检索结果的排名相关性(与客户需求的相关性)并提供有吸引力的替代产品(即可替代商品)。
技术挑战
竞赛于2022年3月15日至7月20日期间进行,吸引了来自65个国家的1600多名参与者,提交了超过9200个解决方案。参赛者在挑战期间提交了超过2.5TB的代码和模型,创下前所未有的提交量。竞赛奖金池为21,000美元,并为表现最佳的团队额外提供10,500美元的某云服务积分。
作为挑战赛的一部分,主办方推出了购物查询数据集(Shopping Queries Data Set),这是一个包含困难搜索查询的大型数据集,旨在促进查询-产品语义匹配领域的研究。
尽管机器学习领域近期取得进展,但正确分类产品查询结果仍然存在挑战。结果中的噪声信息、查询意图理解的困难以及商品多样性都增加了该问题的复杂性。
技术任务设计
ESCI产品搜索改进挑战赛将相关性分为四个类别:精确匹配(E)、替代产品(S)、互补产品(C)和不相关(I),因此得名"ESCI挑战"。
使用购物查询数据集的KDD Cup竞赛包含三个技术任务:
任务1:查询-产品排序 给定用户指定查询和匹配产品列表,将相关产品排名高于不相关产品(通过标准化折损累积增益nDCG衡量)
任务2:多类别产品分类 给定查询和匹配产品列表,将每个产品分类为精确匹配、替代品、互补品或与查询不相关(通过准确率衡量)
任务3:产品替代识别 评估系统在给定查询结果列表中识别替代产品的能力(通过准确率衡量)
数据集特性
该数据集具有以下重要技术特征:
- 源自真实客户的在线产品搜索,产品链接到在线目录
- 为每个查询提供最多40个潜在相关结果及其ESCI相关性判断
- 包含英语、日语和西班牙语查询的多语言数据集
- 提供广度(大量查询)和深度(每个查询约20个结果)
- 所有结果都在电子商务背景下进行了多值相关性标签的人工标注
- 查询不是随机抽样,而是专门抽样以提供各种具有挑战性的问题(如否定、属性解析等)
- 每个查询-产品对都附带额外的公共目录信息(包括标题、产品描述和其他产品相关要点)
竞赛结果
研讨会上展示了KDD Cup竞赛获奖者的方案。发布数据集时同时发布了强基线模型,作为参赛者方案的基准。
任务1的获胜团队(来自中国广州的某机构互动娱乐集团)在nNDCG指标上比基线提高了6.35%(团队nDCG得分为0.9043,显著优于基线0.8503)。
任务2和3的获胜团队(来自中国浙江杭州的某机构)分别比基线提高了12.36%(0.8326对比0.7410)和5.66%(0.8790对比0.8319)。