机器学习工具增强假设检验效能
捕获"辅助信息"的上下文向量可以使实验提供更多信息。
假设检验是检验假设的常用统计方法。改变网页字体会导致人们花费更多时间浏览吗?某个基因是否对特定性状有贡献?技术机构广泛使用的A/B测试——比较客户对产品或服务两个版本的反应——就是统计假设检验的一个例子。
在线假设检验中,假设按顺序进行测试。例如,在完成A/B测试确定网页字体后,可能需要进行比较不同背景颜色的实验。
理想情况下,在测试背景颜色时,您希望控制页面上的所有其他元素——页面内容、横幅广告的大小和位置、桌面与移动布局等。但这意味着需要为每个背景颜色测试所有这些元素的所有可能排列,并为每个排列获取足够的数据以获得统计显著结果。这种细粒度的实验控制很少实用。
在今年的人工智能与统计国际会议(AISTATS)上,我们提出了一种在线假设检验方法,该方法考虑了辅助信息——如网页设计的其他元素——而不需要为数十个控制组进行数十个不同的实验。
我们使用机器学习中的一个常见思想:上下文向量,它捕获实验发生环境的信息。我们从理论上证明,如果上下文向量包含关于实验环境的真实信息,它们的加入会增加假设检验方法的统计效能,即识别真实现象的能力。
同时我们证明,即使添加了上下文向量,某中心高级首席科学家Dean Foster和Robert Stine开创的在线假设检验方法(称为alpha投资规则)的变体,仍然可以强制执行对假设检验错误发现率的预定限制,即该方法将错误假设接受为真实的频率。
投资规则
在假设检验中,每个假设都有一个p值,即获得比随机机会更显著结果的概率。
当同时测试多个假设时,即使实验设计和执行正确,也可能失去对假阳性比例的控制。在这种情况下,我们需要根据所需的错误发现率调整假设的p值,并计算任何假设必须满足的阈值调整p值才能被视为有效。在离线设置中,这通常通过Yoav Benjamini和Yosef Hochberg于1995年引入的经典程序实现。
然而,在线设置中,必须实时调整p值并估计阈值。Foster和Stine的alpha投资规则(后来研究人员发展为广义alpha投资(GAI)规则)旨在在这种情况下控制错误发现率。
GAI规则以错误发现预算(类比投资称为"财富")开始,该预算对应于所需的最大错误发现率。测试新假设会产生成本,从而减少预算。但识别有效假设会增加预算,从而更自由地接受后续假设。
一旦错误发现预算耗尽,测试就结束。这确保测试过程永远不会超过最大错误发现率。
上下文的威力
在我们称为上下文GAI的过程中,我们使用上下文向量来调整每个假设可用的错误发现预算。有时调整是向上的,增加接受假设的可能性,有时是向下的,降低可能性。
调整程度由具有可调参数的函数确定,该参数取决于先前假设检验的结果;也就是说,该函数随着测试的进行学习进行更有用的调整。在我们的实验中,我们使用神经网络来学习调整。
在论文中,我们证明,只要上下文向量捕获了关于实验环境的真实信息,相对于标准GAI,这种方法将始终提高测试的统计效能。当然,提高程度取决于上下文特征的选择,这由实验设计者决定。
我们还表明,上下文GAI强制执行与经典GAI相同的错误发现率限制。
最后,我们将我们的方法应用于糖尿病预测和基因表达分析的公共数据集,并表明在这两种情况下,它在强制执行错误发现率上限的同时提高了分析的统计效能。
糖尿病预测数据集包括每个患者的传记信息以及药物、实验室结果、免疫接种、过敏和生命体征的详细信息。我们仅使用传记信息作为上下文向量。
在错误发现率限制为0.2的情况下,我们的方法将假设检验程序的统计效能提高了约51%。
在基因分析数据集中,称为单核苷酸多态性(SNP)的遗传标记已经与感兴趣的性状相关联,目标是找到这些SNP与细胞中基因产物浓度之间的关联。因此,每个SNP都与每个附近的基因一起测试。
除了每个SNP-基因对外,我们尝试了三种不同的上下文向量信息源:SNP与基因之间的距离;与基因相关的蛋白质在个体中的普遍性;以及基因的进化保守性——跨物种共享的程度——通过标准PhastCons分数测量。
使用所有三个信息源,我们的方法发现的基因-性状相关性数量分别增加了5.5%、2.6%和2%。