电商用户意图迁移建模基准与多任务评估

摘要

会话历史是记录用户在浏览多个商品过程中的交互行为的常用方式。例如，如果用户点击商品页面后离开，可能是因为某些功能无法满足用户需求，这成为即时用户偏好的重要指标。然而，所有现有工作都未能有效捕捉和建模客户意图，原因是信息利用不足且仅使用描述和标题等表面信息。同时缺乏专门针对电商商品购买会话中意图显式建模的数据集和基准。

方法创新

为解决这些问题，研究引入了意图树的概念并提出了数据构建流程。在此基础上构建了多模态基准SessionIntentBench，通过四个子任务评估L(V)LMs在理解跨会话意图迁移方面的能力。该基准包含1,952,177个意图条目、1,132,145条会话意图轨迹，以及从10,905个会话中挖掘出的13,003,664个可用任务，为利用现有会话数据理解客户意图提供了可扩展的方案。

实验验证

通过人工标注收集部分数据的真实标签形成评估黄金集。在标注数据上的大量实验进一步证实，当前的L(V)LMs难以在复杂会话设置中捕捉和利用意图。进一步分析表明，注入意图信息能够增强LLMs的性能表现。

数据规模

意图条目：1,952,177条
会话意图轨迹：1,132,145条
可用任务数：13,003,664个
源会话数：10,905个

技术贡献

该研究首次提供了专门针对电商领域跨会话意图迁移建模的基准数据集，为后续研究提供了重要的数据基础和技术评估标准。通过多任务评估框架，系统性地验证了现有模型在意图理解方面的局限性，并证明了意图注入技术的有效性。