产品评论实用建议有效性自动评估技术

本文介绍了一种基于神经网络的分类器模型,能够自动分析电商产品评论中提取的使用建议与其他评论之间的支持、矛盾或中立关系,通过三步骤算法计算全局支持度评分,帮助用户评估建议的可靠性。

模型评估产品评论中建议的有效性

该方法使客户能够评估建议可靠性的支持证据。

产品评论是电子商务网站中受欢迎且重要的功能,许多客户在购物过程中依赖这些评论。评论通常包含个人经验和观点,可帮助其他客户做出更明智的购买决策。此外,评论还包含实用且非显而易见的建议,以便更好、更轻松、更安全地使用产品。例如,“首次使用此相机前充电8小时”。此类推荐被称为“产品建议”。

为节省客户阅读数十甚至数百条评论以查找有用建议的时间,研究人员引入了从评论中自动提取建议的方法。这些建议可以显示在网站的专用小部件中。然而,由于建议通常是非显而易见的推荐,客户可能会合理质疑其有效性,并寻找其他客户的支持或反对意见。

在今年ACM信息检索特别兴趣小组(SIGIR)会议上发表的一篇论文中,提出了一种方法,用于确定建议受到产品所有评论支持或反对的程度。该方法的核心是一个模型,用于确定建议与另一条评论句子之间的支持、矛盾或中立水平。这是一项具有挑战性的任务,因为两个自然语言句子之间的支持和矛盾有多种形式。例如,建议“首次使用此相机前充电8小时”受到句子“建议使用前充电”的支持,但被陈述“电池预充电”所反驳。

在使用来自多个产品类别的产品建议进行的实验中,为每个建议检索了最多五个被模型识别为支持该建议的评论句子,以及最多五个被识别为反驳该建议的句子。在覆盖率为50%时(即仅考虑模型最自信预测的50%建议-句子对),该方法在检测支持关系和矛盾关系方面的精确度分别达到72%和58%。由于任务以精确度为导向,还考虑了25%的覆盖率,发现检测支持和矛盾关系的精确度分别提高到79%和67%。这些结果反映了相对于现成模型的8%和29%相对改进,证明了该任务的挑战性。进一步发现,至少一半的提取建议有支持评论,至少三分之一有矛盾评论。

新方法可能集成到提供建议的小部件中,并提供其支持水平和相关评论的链接,以便客户评估其有效性。

建议支持水平估计

该方法按三个步骤操作,如下例所示:

步骤1:给定从客户评论中提取的产品建议,目标是衡量该建议受到该产品所有评论的支持和矛盾程度。然而,某些产品有数千条评论,因此算法检索与建议最相似的几百个句子。使用句子嵌入的最近邻搜索估计相似性。这样做是为了加快后续步骤,这些步骤依赖更计算密集的模型。

步骤2:使用句子到句子的支持水平分类器,计算建议与每个相关句子的支持分数和矛盾分数。支持水平分类器是一个神经模型,在手动标注为相互支持、矛盾或中立的句子对上训练。分类器输出三个分数——支持、矛盾和中立——总和为1。

步骤3:最后,所有支持分数和矛盾分数在所有相关句子上聚合,提供全局支持分数和全局矛盾分数,反映所有评论相对于给定建议的支持水平。

能够估计建议的支持和矛盾分数后,定义以下分类来表征建议:

  • 高度支持:有许多支持且几乎无矛盾句子的建议。
  • 高度矛盾:有许多矛盾且几乎无支持句子的建议。
  • 有争议:有许多支持和许多矛盾句子的建议。
  • 轶事:几乎无支持和无矛盾句子的建议。

为检查按此分类的建议分布,将支持和矛盾分数分为低、中、高三个范围。然后将建议分配到所属单元格,创建三乘三热图。例如,下图显示(a)所有类别和(b)服装类别的热图。发现争议建议在服装类别非常常见(43%的建议)。这些建议通常与尺寸相关,例如“订购比平时穿的大一码”,而其他评论建议“这款尺寸标准,合身完美。”

产品评论,尤其是产品建议,对客户重要且有帮助。相信通过显示每个建议的支持水平并提供支持或反对评论的链接,可以帮助客户估计建议的有效性并决定给予每个建议多少信任。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计