电商用户意图迁移建模基准与多任务评估

本文提出SessionIntentBench基准数据集,包含195万条意图条目和113万条会话意图轨迹,通过四个子任务评估语言(视觉)语言模型在跨会话意图迁移建模中的能力。实验表明现有模型难以有效捕捉复杂会话场景中的用户意图,而注入意图信息可提升模型性能。

摘要

会话历史是记录用户在浏览多个商品过程中的交互行为的常用方式。例如,如果用户点击商品页面后离开,可能是因为某些功能无法满足用户需求,这成为即时用户偏好的重要指标。然而,所有现有工作都未能有效捕捉和建模客户意图,原因是信息利用不足且仅使用描述和标题等表面信息。同时缺乏专门针对电商商品购买会话中意图显式建模的数据集和基准。

方法创新

为解决这些问题,研究引入了意图树的概念并提出了数据构建流程。在此基础上构建了多模态基准SessionIntentBench,通过四个子任务评估L(V)LMs在理解跨会话意图迁移方面的能力。该基准包含1,952,177个意图条目、1,132,145条会话意图轨迹,以及从10,905个会话中挖掘出的13,003,664个可用任务,为利用现有会话数据理解客户意图提供了可扩展的方案。

实验验证

通过人工标注收集部分数据的真实标签形成评估黄金集。在标注数据上的大量实验进一步证实,当前的L(V)LMs难以在复杂会话设置中捕捉和利用意图。进一步分析表明,注入意图信息能够增强LLMs的性能表现。

数据规模

  • 意图条目:1,952,177条
  • 会话意图轨迹:1,132,145条
  • 可用任务数:13,003,664个
  • 源会话数:10,905个

技术贡献

该研究首次提供了专门针对电商领域跨会话意图迁移建模的基准数据集,为后续研究提供了重要的数据基础和技术评估标准。通过多任务评估框架,系统性地验证了现有模型在意图理解方面的局限性,并证明了意图注入技术的有效性。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计