信息检索中过滤"禁止文档"的新方法
新方法同时优化了检索相关内容和过滤不良内容这两大需求
内容所有者会投入大量精力来消除可能对客户产生不利影响的不良内容。不良内容可能采取多种形式,例如虚假新闻、付费评论、垃圾邮件、攻击性语言等。我们将此类数据项(文档)简称为禁止文档或f-docs。
然而,任何数据清理过程都容易出错。无论清理过程投入多少努力,一些不良内容可能仍然存在。在某机构Alexa Shopping研究团队发表的一篇论文中,特别关注了在存在f-docs的情况下优化满足客户请求的相关内容检索和过滤f-docs这双重需求。
例如,考虑在社区问答(CQA)网站上提出的问题,目标是按答案质量和相关性进行排名,同时过滤掉不良答案。
过滤算法的挑战
过滤算法容易出现两种类型的错误:(1)误报(即过滤非f-docs)和(2)漏报(即在结果中包含f-docs)。
通常,排名质量和过滤准确性是独立测量的。然而,过滤后排名列表中剩余的f-docs数量及其排名位置会严重影响排名分数和过滤分数。因此,需要在做出过滤决策时评估系统的排名质量。
合适的评估指标
寻找一种根据三个标准强化排序器的评估指标:(1)从检索列表中修剪尽可能多的f-docs;(2)不从列表中修剪非f-docs;(3)根据剩余文档与查询的相关性进行排名,同时将f-docs推至列表底部。
论文分析了可用于测量搜索结果排名和过滤质量的指标类型。自然选择是归一化折损累积增益(nDCG),该指标会对出现在列表中较靠后位置的结果相关性进行折损;即根据相关性和排名顺序评估排序算法。
使用nDCG时,相关标签与正分数相关联,不相关标签与零分相关联,“禁止标签"与负分数相关联。nDCG分数对各个列表项的分数求和,因此包含f-docs的排名列表的分数将反映列表中f-docs的数量、它们在排名中的相对位置及其禁止程度。
nDCG与普通DCG(折损累积增益)分数的不同之处在于,结果通过理想排名列表的DCG分数进行归一化——即根据真实标签排名的列表。它可以解释为给定排名与理想排名之间的距离。
当所有标签分数均为非负时——即结果中前k个文档中没有f-docs——nDCG有界于[0,1]范围,其中0表示所有搜索结果都不相关,而1表示排名理想。
然而,在存在负分标签的情况下,nDCG是无界的,因此不可靠。例如,无界性可能导致某些查询的极端高估或低估,对平均指标分数产生不成比例的影响。
nDCGmin指标(Gienapp等人在CIKM'20提出的nDCG修改版本)解决了负分标签情况下的无界性问题。它测量最差可能排名列表(理想排名列表的反向)和理想列表的DCG分数,然后使用这两个极端分数执行最小-最大归一化。
新指标nDCGf
论文表明,当排名和过滤同时进行时——即当允许排序器检索(和排名)搜索结果的子列表时——nDCGmin变得无界。作为替代方案,提出了nDCGf,这是nDCGmin的修改版本,通过修改归一化方案来处理子列表检索,从而解决了这第二个无界性问题。
具体而言,nDCGf测量结果列表的所有可能子列表中理想和最差子列表的DCG分数,然后使用这些子列表的极端分数进行最小-最大归一化。
从理论和实证两方面表明,虽然nDCGmin不适合同时进行排名和过滤的评估任务,但nDCGf是一个可靠的指标。可靠性是衡量指标通过测量查询测试集上的偏差稳定性来捕获排序器之间实际性能差异能力的标准度量。
模型构建
在建立相关指标后,论文将重点转向联合学习排序和过滤(LTRF)。假设一个LTRF模型优化搜索结果的排名,同时调整过滤阈值,使得任何分数低于此阈值的文档都被过滤掉。
使用两个编译的数据集PR(用于产品评论)和CQA(用于社区问答)进行了两个需要排名和过滤的任务的实验。已公开发布CQA数据集以支持IR社区对LTRF任务的进一步研究。
在PR数据集中,任务是根据产品评论的有用性进行排名,同时过滤那些标记为垃圾邮件的评论。同样,在CQA数据集中,任务是对特定问题的人工答案列表进行排名,同时过滤不良答案。研究表明,仅排名和仅过滤都无法提供高质量的排名和过滤列表(以nDCGf分数衡量)。
在任何学习排序框架中,模型训练的关键组成部分是要优化的损失函数,它决定了当前模型相对于最优模型的"损失”。针对这两个任务实验了几种损失函数,证明了它们在为同时学习和过滤任务生成有效LTRF模型方面的成功。
未来方向
LTRF是一个新的研究方向,提出了许多值得进一步研究的挑战。虽然LTRF模型在排名和过滤方面取得了成功,但检索列表中f-docs的数量仍然太高。改进LTRF模型是一个开放的挑战,希望工作能够鼓励其他研究人员解决这个问题。