WSDM会议精选论文与技术突破

本文介绍WSDM 2020会议的四篇精选论文,涵盖实体匹配自动阻断框架、多语言产品搜索表示学习、度量差分隐私文本分析技术以及语音搜索购买行为分析等前沿计算机技术研究。

Web Search and Data Mining会议"极其精选"——仅15%提交论文被接收

2020年1月28日 · 作者:Larry Hardesty

Web Search and Data Mining(WSDM)会议将于下周在休斯顿召开。某中心作为会议金牌赞助商,有七名科学家担任会议委员会成员,并有四篇论文被接收。

WSDM会议联合创始人、某机构研究副总裁指出:“该会议的特点是采用大规模、原则性方法。‘原则性’至关重要:必须基于理论——非常严谨的数学方法,同时要能扩展到网络级别规模。其他会议可能只对20名用户进行研究,而WSDM的研究规模应达到数十万甚至数百万级别。”

技术论文精选

《AutoBlock:实体匹配的无干预阻断框架》

提出自动化阻断技术,通过将文本数据映射到几何空间实现嵌入表示,使相似文本字符串聚集在一起。研究人员提出高效的空间搜索算法,可轻松处理包含数百万条记录的数据库。

《电商平台产品搜索的语言无关表示学习》

展示通过多语言数据训练单一机器学习模型可提升所有语言性能。关键技术是将相同产品和客户查询映射到表示空间的相同区域,而不考虑源语言。

###《通过校准多元扰动实现隐私与效用保护的文本分析》 采用度量差分隐私变体,为语音转录数据集提供隐私保障。研究人员设计了一种系统,用语义相关词替换每个转录语句中的单词,生成在降低隐私泄露风险的同时仍能进行有效分析的重新表述。

###《为什么人们在语音产品搜索中购买看似无关的商品?》 对语音搜索客户购买看似不相关商品的情况进行详细统计分析,为改进产品发现模型提供建议。

技术标签

  • 多任务学习
  • 差分隐私
  • 语音助手
  • WSDM

封面图片来源:某机构研究团队提供的嵌入表示可视化示意图

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计