知识发现与数据挖掘最高荣誉获奖技术解析

本文深入解析了获奖研究中关于信息检索系统偏见问题的创新解决方案,包括从隐式反馈中学习的方法、无偏学习排序技术以及提供公平性保证的排序方法,这些技术对推荐系统和搜索引擎具有重要价值。

某中心学者荣获知识发现与数据挖掘"最高荣誉"

本周,在计算机协会知识发现与数据挖掘年度会议上,康奈尔大学计算机科学教授、某中心学者Thorsten Joachims获得了该会议的创新奖。组织该会议的ACM特别兴趣小组将该奖项描述为"知识发现和数据挖掘领域技术卓越的最高荣誉"。

获奖引文肯定了Joachims在"研究信息检索中的人类偏见、支持向量机和结构化输出预测方面的影响力工作",特别是他"从隐式反馈中获取可靠偏好的方法、无偏学习排序的方法以及提供公平性保证的排序方法"。

信息检索中"人类偏见"的问题是什么?

大部分工作涉及尝试从人类行为中学习,特别是在提供排名或推荐的系统中的行为。这些系统提供的重要反馈来源包括用户是否点击结果、重新制定查询并最终消费某些内容。这提供了大量数据,与训练这些系统的传统方式不同,它不依赖于专家认为与查询相关的内容,而是实际反映了用户的想法——什么是该查询的正确答案或对他们有帮助的内容。

从这种隐式反馈中学习的问题是系统会偏置人们的行为。排名靠前的内容会比排名靠后的内容获得更多曝光,这也会影响用户点击或购买的内容。因此,通过系统采取的行动,数据也被污染了。处于第一位置的内容获得最多点击,因此它保持在第一位置。这就形成了一个自我强化的循环,这意味着相当差的内容可能保持在第一位置,而相当好的内容永远不会被发现。

关键问题是如何处理系统引入的偏见?一个普遍的见解是将这些系统视为与人类互动的智能体:它们不仅仅收集数据,还在采取行动,比如进行推荐。我们观察到的是人们如何对这种干预做出反应。

这意味着系统很像医学中的对照随机试验。你给患者一种治疗,观察患者对该治疗的反应,但你无法看到如果给患者另一种治疗会发生什么。

推荐系统或排名系统也是如此:你看到如果进行特定干预会发生什么——推荐这部电影,用户观看或不观看——但你无法看到如果推荐不同项目会发生什么。我们为推荐系统带来的想法是,从统计角度来看,你希望以与对照随机试验相同的方式对待它们。

在某些方面,这个问题比医学中更容易。我们获得更多数据,风险也更小。但在某种意义上也更困难。在医学中,你可能有三种不同的治疗方法,而在推荐系统中,数据库中的每个项目都是潜在的治疗方法。我们有数百万个项目,因此处理问题的复杂性和规模具有挑战性。

处于第一位置的内容获得最多点击,因此它保持在第一位置。这就形成了一个自我强化的循环。

有两种方法可以解决这个问题:在线方式和离线方式。在线方式是不断尝试新的干预措施,观察人们的反应,然后逐步调整策略,始终以交互方式运行这些实验。这被称为在线学习,特别是上下文多臂赌博机在线学习。

在某种意义上,在线学习是浪费的,并且可能对客户产生负面影响,因为你可能多次尝试实际上并不好的事情。

但我们已经有 terabytes 的现有数据,我们知道在该上下文中为该客户采取了该行动,并且客户感到满意。我们能否回收所有这些旧数据并将其用于机器学习,而不是反复尝试?

我们开发的内容包括这些批量学习方法,你可以将其视为事后从对照随机试验中学习。一旦你有了数据,就问这个问题:“如果我能倒回时间并回到数据收集时,最好的策略是什么?“我认为这些离线算法特别有前景。

在获奖引文中提到的"学习排序"环境中是否使用相同方法?

学习排序是一种特定类型的反馈。上下文多臂赌博机更像是,你要求Alexa播放音乐,Alexa必须为你播放一些内容。它恰好选择一个动作:播放一首曲目,用户喜欢或不喜欢。排名设置稍微宽容一些。你呈现项目的排名,因此即使你没有抓住第一个,如果用户有耐心并向下查看排名,你仍然可以获得反馈。

但如果用户没有点击某些内容,可能有两个原因。一个原因是用户不喜欢它。另一个原因是用户根本没有看到它;用户没有向下滚动到足以发现该项目。

因此,与上下文多臂赌博机设置相比,额外的复杂性是你必须理清这种模糊性。我们提出了技术,你至少可以在期望中理清这两个原因。尽管你无法为任何单个展示这样做,但你可以说:“在期望中,我知道未看到项目负责那么多缺失点击,缺乏相关性负责其余部分。“因此,来自对照随机试验的类似技术也可以用于这个问题。

引文中还提到的"结构化输出预测"是什么?

许多机器学习问题被表述为二元分类——预测是或否——或回归问题,你只预测一个数字——5.7或类似的东西。

但对于许多其他问题,你预测的是一个结构化对象。排名是结构化对象的一个例子,你预测的东西是一个组合对象。它是一个排列。

你想模拟这个排名中的依赖关系。例如,如果你有查询"Michael Jordan”,这是模糊的。它可能指篮球运动员;可能指统计学家;可能指演员。

也许篮球运动员是最可能的解释,但仅用关于篮球运动员的链接填充前10个结果可能不是正确的事情,因为不是每个人都在寻找那个。

你想模拟依赖关系:如果我放置关于篮球运动员的第一个链接,接下来放置什么最好?也许下一个最受欢迎的意图是演员。你想将你放入排名中的内容预测为所有这些相互依赖的项目的预测。

这给你带来了这些机器学习问题,你预测的东西是这个巨大组合空间中的一个元素,该空间包含文档上所有可能排列,其数量比宇宙中的原子还多。你仍然想学习这些模型,并且想有效计算要呈现的最佳排名。

这是一个与某中心相关的问题。它也与许多其他问题相关,比如预测蛋白质的结构。你有序列,想预测它如何折叠。你真的必须模拟所有依赖关系,事物在蛋白质中如何相互作用。

或者它与自然语言处理相关——例如,预测句子的语义解析的组成部分。你需要考虑句子的所有组成部分如何相互关联。因此它确实与许多预测问题相关。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计