评估AI增强型商品数据的有用性
全球数百万客户依赖某中心庞大的在线商品目录(包含数亿产品信息)做出购买决策。为确保商品数据全面、一致且准确,某中心商品目录团队使用多种机器学习模型——包括生成式AI模型——这些模型从卖家列表、制造商网站、客户评论等来源合成文本和视觉信息以丰富商品数据。
生成式AI模型可从多种来源合成信息,旨在使产品信息更清晰简洁。为确增强数据改善客户体验,某中心商品目录进行A/B实验:部分客户接触增强信息,其他客户接触当前替代信息。
但A/B测试可能产生机会成本,因为延迟向部分客户推出目录改进,且维护两个后端系统资源密集。为应对这些挑战,提出两种科学方法。
基于机器学习的外推模型
首先力求尽可能少做实验。开发了可扩展的基于机器学习的外推模型,有效整合先前 enrichment 计划实验的见解并应用于新场景。针对具体设置定制了因果随机森林方法(经典随机森林算法的扩展)。
在现有A/B实验训练期间,算法随机选择训练和验证数据集,并生成因果决策树集合。每棵树将实验涉及的产品拆分为更小子组(按特征相似性排序),平衡按处理状态观察结果的样本内拟合和验证数据集上的样本外性能。然后聚合所有因果树的不同预测,生成给定不同产品特征的enrichment效果预测。模型训练后,可通过额外实验验证,比较预测与实际处理效果。
经验证的模型可测试不同产品对enrichment的响应差异。若存在差异,则可专注于响应特别好的产品组。此外,可用估计值预测并记录全年处理不同产品组时计划enrichment对客户的影响。例如,仅通过有限实验即可评估跨目录校正和完成产品信息工作的影响。
贝叶斯结构时间序列
当A/B实验不可行时,可采用贝叶斯结构时间序列建模等观察性建模技术。该方法综合时间序列分析、合成控制方法和贝叶斯统计的思想。
随时间监测所有产品销售时,可为任何产品组配对其销售表现的合成双胞胎,考虑销售趋势和季节性。若随后丰富产品组并观察到销售表现显著差异,则可归因于enrichment工作。在贝叶斯框架内操作能够整合来自各种分析(包括A/B实验)的先验知识,并向业务利益相关者有效传达不确定性。
针对两种方法均可行的选定用例,已通过A/B实验验证观察模型,并采用该方法评估大规模机器学习系统的影响——这些系统自动分类产品以通过搜索或浏览提高客户可发现性。
通过增强的商品数据,客户能够做出更明智、更自信的购物决策。
致谢:Philipp Eisenhauer