AI增强商品数据价值评估技术解析

本文探讨了利用因果随机森林和贝叶斯结构时间序列评估商品数据增强效果的技术方案,通过机器学习模型优化商品信息呈现,减少A/B测试成本并提升客户购物决策体验。

评估AI增强商品数据的有用性

全球数百万客户依赖某中心庞大的在线商品目录(包含数亿产品信息)做出购买决策。为确保商品数据全面、一致且准确,某中心目录团队采用多种机器学习模型——包括生成式AI模型,该模型可综合来自卖家列表、制造商网站、客户评论等多源信息的文本与视觉内容以丰富商品数据。

生成式AI模型能整合多源信息,旨在使产品信息更清晰简洁。为验证增强数据对客户体验的提升效果,某中心目录团队进行A/B测试:部分客户接触增强信息,其他客户则看到当前版本。

但A/B测试存在机会成本,包括延迟向部分客户推送目录改进方案,以及维护两套后端系统的高资源消耗。为解决这些问题,提出两种科学方法。

基于机器学习的推断模型

首先致力于减少实验次数。开发了可扩展的基于机器学习的推断模型,有效吸收历史 enrichment 计划实验的洞察并应用于新场景。针对具体需求调整了因果随机森林方法(经典随机森林算法的扩展版本)。

在现有A/B实验训练过程中,算法随机选择训练集与验证集,并生成因果决策树集合。每棵树将实验涉及的产品按特征相似性分割为更小子组,平衡处理状态下观测结果的样本内拟合度与验证集的样本外性能。随后聚合所有因果树的预测结果,基于不同产品特征生成关于enrichment效果的统一预测。模型训练完成后,可通过额外实验验证预测效果与实际处理效果的一致性。

已验证模型可用于测试不同产品对enrichment的响应差异。若存在差异,则可重点关注响应效果显著的产品类别。此外,全年处理不同产品组时,可利用该模型预测并记录计划enrichment对客户的影响。例如仅通过有限实验即可评估跨目录修正与完善产品信息工作的影响。

贝叶斯结构时间序列

当A/B实验不可行时,可采用贝叶斯结构时间序列建模等观测性技术。该方法融合了时间序列分析、合成控制法与贝叶斯统计的思想。

通过长期监测所有产品销售数据,可为任何产品组构建反映销售表现(考虑销售趋势与季节性)的合成双胞胎组。若对某产品组实施enrichment后观察到显著销售差异,即可将变化归因于enrichment措施。贝叶斯框架允许整合来自各类分析(包括A/B实验)的先验知识,并向业务方有效传递不确定性信息。

已在部分适用场景中通过A/B实验验证该观测模型的有效性,并借此评估大规模机器学习系统的影响——这些系统通过自动产品分类提升客户通过搜索或浏览发现产品的可能性。

通过增强商品数据,客户能够做出更明智且更自信的购物决策。

致谢:Philipp Eisenhauer

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计