AI增强型商品数据价值评估技术解析

本文探讨了利用因果随机森林和贝叶斯结构时间序列等机器学习技术,从稀疏数据中推断商品信息增强效果的方法,旨在优化电商平台商品数据的完整性和准确性,提升客户购物决策体验。

评估AI增强型商品数据的有用性

全球数百万客户依赖某中心庞大的在线商品目录(包含数亿产品信息)做出购买决策。为确保商品数据全面、一致且准确,某中心商品目录团队采用多种机器学习模型——包括生成式AI模型,这些模型能够从卖家列表、制造商网站、客户评论等来源合成文本和视觉信息以丰富商品数据。

生成式AI模型可从多种来源合成信息,旨在使产品信息更清晰简洁。为验证增强数据是否能改善客户体验,团队进行A/B测试:部分客户接触增强信息,其他客户则看到当前版本。

但A/B测试存在机会成本,因为需延迟向部分客户推出目录改进功能,且维护两套后端系统资源消耗大。为解决这些挑战,团队提出两种科学方法。

基于机器学习的外推模型

首先,团队力求尽可能减少实验次数。开发了可扩展的基于机器学习的外推模型,有效整合先前 enrichment 计划实验的洞察并应用于新场景。团队针对自身场景定制了因果随机森林方法(该方法本身是经典随机森林算法的扩展)。

在现有A/B实验训练过程中,算法随机选择训练和验证数据集,并生成因果决策树集合。每棵树将实验涉及的产品按特征相似性拆分为更小子组,通过处理状态平衡观测结果的样本内拟合与验证数据集上的样本外性能。然后聚合所有因果树的不同预测,生成关于不同产品特征下 enrichment 效果的单一预测。模型训练完成后,可通过额外实验验证预测处理效果与实际效果的吻合度。

验证后的模型可测试不同产品对 enrichment 的响应差异。若存在差异,则可重点优化响应效果显著的产品组。此外,全年处理不同产品组时,可利用估计值预测并记录计划 enrichment 对客户的影响。例如,仅通过有限实验即可评估跨目录修正和完善产品信息工作的影响。

贝叶斯结构时间序列

当A/B实验不可行时,可采用观测建模技术如贝叶斯结构时间序列建模。该方法综合了时间序列分析、合成控制方法和贝叶斯统计的思想。

通过持续监测所有产品销售情况,可为任何产品组匹配反映其销售表现的合成双胞胎组(考虑销售趋势和季节性)。若对某产品组进行 enrichment 后观察到显著销售差异,即可将变化归因于 enrichment 工作。在贝叶斯框架内操作能够整合来自各类分析(包括A/B实验)的先验知识,并向业务利益相关者有效传达不确定性。

团队已在选定用例中通过A/B实验验证观测模型(两种方法均可行),并利用该方法评估大规模机器学习系统的影响——这些系统自动分类产品以提升客户通过搜索或浏览发现产品的可能性。

通过增强的商品数据,客户能够做出更明智、更自信的购物决策。

致谢:Philipp Eisenhauer

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计