知识发现与数据挖掘最高荣誉获奖技术解析

某中心学者荣获知识发现与数据挖掘"最高荣誉"

本周，在计算机协会知识发现与数据挖掘年度会议上，康奈尔大学计算机科学教授、某中心学者Thorsten Joachims获得了该会议的创新奖。组织该会议的ACM特别兴趣小组将该奖项描述为"知识发现和数据挖掘领域技术卓越的最高荣誉"。

获奖引文肯定了Joachims在"研究信息检索中的人类偏见、支持向量机和结构化输出预测方面的影响力工作"，特别是他"从隐式反馈中获取可靠偏好的方法、无偏学习排序的方法以及提供公平性保证的排序方法"。

信息检索中"人类偏见"的问题是什么？

大部分工作涉及尝试从人类行为中学习，特别是在提供排名或推荐的系统中的行为。这些系统提供的重要反馈来源包括用户是否点击结果、重新制定查询并最终消费某些内容。这提供了大量数据，与训练这些系统的传统方式不同，它不依赖于专家认为与查询相关的内容，而是实际反映了用户的想法——什么是该查询的正确答案或对他们有帮助的内容。

从这种隐式反馈中学习的问题是系统会偏置人们的行为。排名靠前的内容会比排名靠后的内容获得更多曝光，这也会影响用户点击或购买的内容。因此，通过系统采取的行动，数据也被污染了。处于第一位置的内容获得最多点击，因此它保持在第一位置。这就形成了一个自我强化的循环，这意味着相当差的内容可能保持在第一位置，而相当好的内容永远不会被发现。

关键问题是如何处理系统引入的偏见？一个普遍的见解是将这些系统视为与人类互动的智能体：它们不仅仅收集数据，还在采取行动，比如进行推荐。我们观察到的是人们如何对这种干预做出反应。

这意味着系统很像医学中的对照随机试验。你给患者一种治疗，观察患者对该治疗的反应，但你无法看到如果给患者另一种治疗会发生什么。

推荐系统或排名系统也是如此：你看到如果进行特定干预会发生什么——推荐这部电影，用户观看或不观看——但你无法看到如果推荐不同项目会发生什么。我们为推荐系统带来的想法是，从统计角度来看，你希望以与对照随机试验相同的方式对待它们。

在某些方面，这个问题比医学中更容易。我们获得更多数据，风险也更小。但在某种意义上也更困难。在医学中，你可能有三种不同的治疗方法，而在推荐系统中，数据库中的每个项目都是潜在的治疗方法。我们有数百万个项目，因此处理问题的复杂性和规模具有挑战性。

处于第一位置的内容获得最多点击，因此它保持在第一位置。这就形成了一个自我强化的循环。

有两种方法可以解决这个问题：在线方式和离线方式。在线方式是不断尝试新的干预措施，观察人们的反应，然后逐步调整策略，始终以交互方式运行这些实验。这被称为在线学习，特别是上下文多臂赌博机在线学习。

在某种意义上，在线学习是浪费的，并且可能对客户产生负面影响，因为你可能多次尝试实际上并不好的事情。

但我们已经有 terabytes 的现有数据，我们知道在该上下文中为该客户采取了该行动，并且客户感到满意。我们能否回收所有这些旧数据并将其用于机器学习，而不是反复尝试？

我们开发的内容包括这些批量学习方法，你可以将其视为事后从对照随机试验中学习。一旦你有了数据，就问这个问题：“如果我能倒回时间并回到数据收集时，最好的策略是什么？“我认为这些离线算法特别有前景。

在获奖引文中提到的"学习排序"环境中是否使用相同方法？

学习排序是一种特定类型的反馈。上下文多臂赌博机更像是，你要求Alexa播放音乐，Alexa必须为你播放一些内容。它恰好选择一个动作：播放一首曲目，用户喜欢或不喜欢。排名设置稍微宽容一些。你呈现项目的排名，因此即使你没有抓住第一个，如果用户有耐心并向下查看排名，你仍然可以获得反馈。

但如果用户没有点击某些内容，可能有两个原因。一个原因是用户不喜欢它。另一个原因是用户根本没有看到它；用户没有向下滚动到足以发现该项目。

因此，与上下文多臂赌博机设置相比，额外的复杂性是你必须理清这种模糊性。我们提出了技术，你至少可以在期望中理清这两个原因。尽管你无法为任何单个展示这样做，但你可以说：“在期望中，我知道未看到项目负责那么多缺失点击，缺乏相关性负责其余部分。“因此，来自对照随机试验的类似技术也可以用于这个问题。

引文中还提到的"结构化输出预测"是什么？

许多机器学习问题被表述为二元分类——预测是或否——或回归问题，你只预测一个数字——5.7或类似的东西。

但对于许多其他问题，你预测的是一个结构化对象。排名是结构化对象的一个例子，你预测的东西是一个组合对象。它是一个排列。

你想模拟这个排名中的依赖关系。例如，如果你有查询"Michael Jordan”，这是模糊的。它可能指篮球运动员；可能指统计学家；可能指演员。

也许篮球运动员是最可能的解释，但仅用关于篮球运动员的链接填充前10个结果可能不是正确的事情，因为不是每个人都在寻找那个。

你想模拟依赖关系：如果我放置关于篮球运动员的第一个链接，接下来放置什么最好？也许下一个最受欢迎的意图是演员。你想将你放入排名中的内容预测为所有这些相互依赖的项目的预测。

这给你带来了这些机器学习问题，你预测的东西是这个巨大组合空间中的一个元素，该空间包含文档上所有可能排列，其数量比宇宙中的原子还多。你仍然想学习这些模型，并且想有效计算要呈现的最佳排名。

这是一个与某中心相关的问题。它也与许多其他问题相关，比如预测蛋白质的结构。你有序列，想预测它如何折叠。你真的必须模拟所有依赖关系，事物在蛋白质中如何相互作用。

或者它与自然语言处理相关——例如，预测句子的语义解析的组成部分。你需要考虑句子的所有组成部分如何相互关联。因此它确实与许多预测问题相关。