构建常识知识图谱提升商品推荐效果

本文介绍COSMO框架如何利用大语言模型从用户行为数据中挖掘常识关系,构建知识图谱以提升商品推荐效果,实验表明该方法可使推荐准确率提升高达60%。

利用常识知识图谱优化商品推荐

通过大语言模型识别常识关系,可将下游任务性能提升高达60%。

基于用户行为的隐性知识挖掘

为增强推荐系统的常识推理能力,某中心正在构建知识图谱,编码商品与使用场景之间的关系(功能、受众、使用场景等)。例如,知识图谱可用"used_for_audience"关系连接"防滑鞋"与"孕妇"。

在2024年ACM数据管理国际会议(SIGMOD)上发表的论文中,介绍了COSMO框架。该框架利用大语言模型(LLM)从电商平台用户交互数据中识别常识关系,其核心流程包括:

  1. LLM生成关于查询-购买/联合购买数据的假设
  2. 人工标注与机器学习模型联合过滤低质量假设
  3. 从高质量假设中提取指导原则
  4. 基于原则生成LLM提示指令

COSMO框架评估

使用KDD Cup 2022竞赛中的购物查询数据集进行评估,比较三种模型:

  • 双编码器(双塔模型)
  • 交叉编码器(统一模型)
  • 结合COSMO知识图谱的增强型交叉编码器

在编码器固定的情况下,结合COSMO的模型比基线模型宏F1值提升60%。经过微调后,所有模型性能显著提升,但COSMO模型仍保持28%的宏F1优势和22%的微F1优势。

知识图谱构建流程

  1. 数据准备:处理查询-购买对和联合购买对,通过产品图进行噪声过滤
  2. 关系生成:LLM识别四种基础关系(usedFor/capableOf/isA/cause)
  3. 关系细化:迭代生成更细粒度的关系描述
  4. 质量过滤:通过语义相似度等启发式方法过滤低质量候选
  5. 人工标注:评估候选关系的合理性和典型性
  6. 模型训练:构建分类器筛选高质量关系
  7. 知识图谱组装:生成实体-关系-实体三元组

模型架构对比

  • 双编码器:查询和产品分别编码,通过神经网络模块计算相关性
  • 交叉编码器:统一编码所有特征,性能通常优于双编码器
  • COSMO增强型:在交叉编码器基础上加入知识图谱关系数据

实验表明,引入常识知识能显著提升推荐系统的语义理解能力,特别是在处理需要常识推理的查询时效果更为突出。该方法为构建具有人类认知水平的推荐系统提供了新思路。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计