电商平台价格实验的科学方法

本文详细介绍了在电商平台进行价格实验的科学方法,包括时间绑定实验、触发式实验、随机天数实验和交叉实验等多种实验设计,以及如何应对溢出效应和残留效应,确保实验结果的准确性和可靠性。

电商平台价格实验的科学方法

电商平台中产品的价格反映了需求、季节性和总体经济趋势等一系列因素。定价策略通常涉及考虑这些因素的公式;较新的定价策略通常依赖机器学习模型。

通过某机构的定价实验室,可以进行一系列在线A/B实验来评估新的定价策略。由于实行非歧视性定价——所有访问者在同一时间看到所有产品的相同价格——需要随时间对产品价格应用实验处理,而不是同时在不同客户上测试不同的价格点。这使实验设计变得复杂。

在某机构《商业经济学杂志》三月发表的一月在美国经济学会年会上展示的论文中,描述了一些可以进行的实验,以防止溢出、提高精度,并在评估新定价策略时控制需求趋势和处理组差异。

可以执行的最简单类型的实验是时间绑定实验,其中对特定类别中的某些产品应用处理,而将类别中的其他产品留作未处理的对照组。

时间绑定实验,从第八天开始,处理组为红色,对照组为白色。

这种类型实验中一个潜在的噪声源是外部事件——例如,不同商店对同一产品的临时折扣——可能影响处理效果。如果可以提前定义这些类型的事件,可以进行触发干预,将处理和对照期的开始时间与事件的发生时间对齐。这可能导致不同产品实验的交错开始时间。

触发实验的设计。红色表示处理组,绿色表示对照组。每个实验的开始由外部事件触发。

如果产品的需求曲线足够相似,并且处理组和对照组之间的结果差异足够显著,时间绑定和触发实验可能足够。但对于更精确地评估定价策略,可能需要在同一产品上运行处理和对照实验,就像典型的A/B测试一样。这需要一个切换实验。

最直接的切换实验是随机天数实验,其中每天每个产品被随机分配到对照组或处理组。分析表明,随机天数可以将实验结果的標準誤差减少60%——即观察统计量与干预真实统计量之间的平均差异程度。

随机天数实验。实验从第8天开始;红色代表处理,白色代表对照。

然而,任何切换实验的一个缺点是有残留效应的风险,即处理的效果从实验的处理阶段延续到对照阶段。例如,如果处理增加了产品的销售,推荐算法可能会更频繁地推荐该产品。这可能会在对照期间人为地提高产品的销售。

可以通过在过渡到处理和对照阶段时设立黑屏期来对抗残留效应。例如,在交叉实验中,可能对组中的某些产品应用处理,将其他产品留作对照,但丢弃第一周的两组数据。然后,在收集足够的数据后——比如两周的数据——从前处理组中移除处理,并将其应用到前对照组。再次丢弃第一周的数据,让残留效应消退。

交叉实验,实验每个阶段开始时都有黑屏期。在第7周,处理(红色)已应用于产品A、D、F、G和J,但数据被丢弃。在第10周,第一个处理和对照组交换角色,但再次丢弃第一周的数据。

交叉实验可以将结果测量的標準誤差减少40%到50%。这不如随机天数好,但残留效应得到了缓解。

异质面板处理效应

某机构的定价实验室还提供了两种更复杂的评估定价策略的方法。第一种是异质面板处理效应(HPTE)。

HPTE是一个四步过程:

  1. 从去趋势数据估计产品级第一次差异。
  2. 过滤异常值。
  3. 使用因果森林从分组产品估计第二次差异。
  4. 自助法数据估计噪声。

估计产品级第一次差异从去趋势数据。 在标准的差异中的差异(DID)分析中,第一次差异是实验开始前后单个产品结果之间的差异。

然而,不是简单地从处理后的结果中减去处理前的结果,而是分析历史趋势以预测如果产品在处理期间未处理会发生什么。然后从观察结果中减去该预测。

过滤异常值。 在定价实验中,经常有未观察到的因素可能导致结果测量的极端波动。将异常值的截止点定义为结果分布的一个百分比(分位数),该分位数与数据中的产品数量成反比。这种方法以前使用过,但在模拟中进行了验证。

使用因果森林从分组产品估计第二次差异。 在DID分析中,第二次差异是处理组和对照组的第一次差异之间的差异。由于考虑异质产品组,仅对具有足够亲和力的产品计算第二次差异,以使比较信息丰富。然后跨产品平均第二次差异。

为了计算亲和力分数,使用决策树的一种变体,称为因果森林。典型的决策树是一个连通无环图——一棵树——每个节点代表一个问题。在这种情况下,这些问题涉及产品特性——例如,“它需要可更换电池吗?”或“它的宽度大于三英寸吗?”。问题的答案决定了遵循树的哪个分支。

因果森林由许多这样的树组成。问题从数据中学习,并定义了数据显示最大方差的轴。因此,用于训练树的数据不需要标签。

在训练因果森林后,使用它来评估实验中的产品。最终到达树的同一终端节点或叶的处理组和对照组的产品被认为足够相似,应计算它们的第二次差异。

自助法数据估计噪声。 为了计算標準誤差,从数据集中随机抽样产品并计算它们的平均处理效果,然后将它们返回到数据集并再次随机抽样。多次重采样允许计算结果测量中的方差。

溢出效应

在某机构的定价实验室,还研究了衡量溢出效应的方法,溢出效应发生在处理一个产品导致对另一个类似产品的需求变化时。这可能会干扰处理效果的测量。

例如,如果新的定价策略增加了对特定厨房椅的需求,更多客户将查看该椅子的产品页面。然而,其中一部分客户可能会购买页面“发现类似物品”部分列出的不同椅子。

如果第二把椅子在对照组中,其销售可能会因第一把椅子的处理而人为地增加,导致低估处理效果。如果第二把椅子在处理组中,其销售的增加可能导致高估处理效果。

为了纠正溢出效应,需要测量它。该过程的第一步是构建一个具有相关需求的产品图。

从根据某机构商店目录中的细粒度分类等标准相互关联的产品列表开始。然后对于每对相关项目,查看一年的数据以确定一个价格的变化是否影响另一个的需求。如果这些连接足够强,通过在可替代物品图中用边连接产品。

从图中,计算任何给定对可替代产品包含在同一实验中的概率,以及它们将被分配到哪个组,处理或对照。从这些概率中,可以使用逆概率加权模式来估计溢出对观察结果的影响。

然而,估计溢出效应不如消除它好。一种方法是将可替代产品视为单个产品类,并将它们整体分配到处理组或对照组。这确实降低了实验的效力,但给了业务伙伴信心,结果没有被溢出污染。

为了确定在每个产品类中包含哪些产品,使用一种聚类算法,搜索可替代产品图中密集互连的区域,并切断这些区域与图其余部分的连接。在迭代过程中,这将图划分为紧密相关产品的簇。

在模拟中,发现这种聚类过程可以将溢出偏差减少37%。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计