模型评估产品评论中建议的有效性

该方法使客户能够评估建议可靠性的支持证据。

研究背景

产品评论是电子商务网站中受欢迎且重要的功能，许多客户在购物过程中依赖这些评论。评论通常包含个人经验和观点，可帮助其他客户做出更明智的购买决策。此外，评论中还包含实用且非显而易见的建议，以帮助更好、更轻松、更安全地使用产品。例如：“首次使用此相机前充电8小时”。此类推荐被称为"产品建议"。

为节省客户阅读数十甚至数百条评论以查找有用建议的时间，研究人员引入了从评论中自动提取建议的方法。这些建议可以显示在网站的专用小部件中。然而，由于建议通常是非显而易见的推荐，客户可能会合理质疑其有效性，并寻找其他客户的支持或反对意见。

在ACM信息检索特别兴趣组会议上发表的论文中，我们提出了一种确定建议受到产品所有评论支持或反对程度的方法。

我们方法的核心是一个模型，用于确定建议与另一条评论句子之间的支持、矛盾或中立程度。这是一项具有挑战性的任务，因为两个自然语言句子之间的支持和矛盾有多种形式。例如，建议"首次使用此相机前充电8小时"受到句子"建议使用前充电"的支持，但被陈述"电池已预充电"所矛盾。

在使用多个产品类别产品建议的实验中，我们为每个建议检索了最多五个被模型识别为支持建议的评论句子，以及最多五个被识别为矛盾建议的句子。在50%的覆盖度下（即仅考虑模型预测置信度最高的50%建议-句子对），我们的方法在检测支持关系和矛盾关系方面的精确度分别达到72%和58%。

由于我们的任务以精确度为导向，我们还考虑了25%的覆盖度，发现检测支持和矛盾关系的精确度分别提高到79%和67%。这些结果反映了相对于现成模型8%和29%的相对改进，证明了该任务的挑战性。我们进一步发现，至少一半的提取建议有支持性评论，至少三分之一有矛盾性评论。

我们的方法按三个步骤操作：

步骤1：给定从客户评论中提取的产品建议，我们的目标是衡量该建议受到该产品所有评论的支持和矛盾程度。然而，某些产品有数千条评论，因此我们的算法检索与建议相似度最高的几百个句子。我们使用句子嵌入的最近邻搜索来估计相似度，以加速后续步骤。

步骤2：使用句子到句子的支持级别分类器，我们计算建议与每个相关句子的支持分数和矛盾分数。支持级别分类器是一个神经模型，在手动标注为相互支持、矛盾或中立的句子对上进行训练。分类器输出三个分数（支持、矛盾和中立），总和为1。

步骤3：最后，对所有相关句子的支持分数和矛盾分数进行聚合，提供全局支持分数和全局矛盾分数，反映所有评论相对于给定建议的支持水平。

根据估计的建议支持和矛盾分数，我们定义以下分类法来表征建议：

我们的新方法可以集成到提供建议的小部件中，同时提供其支持水平和相关评论的链接，以便客户评估其有效性。通过显示每个建议的支持水平并提供支持或反对评论的链接，我们可以帮助客户估计建议的有效性并决定对每个建议给予多少信任。