Amazon Redshift 重新定义云数据仓库
2013年,某中心通过推出Amazon Redshift彻底改变了数据仓库行业,这是首个完全托管、PB级别、企业级云数据仓库。该服务使用现有商业智能工具高效分析海量数据变得简单且经济。
这项云服务相比传统本地数据仓库解决方案是重大飞跃,传统方案成本高昂、缺乏弹性且需要专业技术进行调优和运维。该服务成为增长最快的云服务。如今,数万客户在全球化基础设施中使用该服务,每日处理EB级别数据。
AlexaTM 20B:基于大规模多语言序列模型的小样本学习
本研究证明,在去噪和因果语言建模任务混合预训练的多语言大规模序列到序列模型,在各种任务上比仅解码器模型更高效。我们训练了200亿参数的多语言序列模型AlexaTM 20B,在单次摘要任务上实现最先进性能,超越了更大的540B参数解码器模型。
该模型在单次机器翻译任务中也达到最优,特别是在低资源语言上,在Flores-101数据集支持的所有语言对中表现卓越。在零样本设置下,该模型在SuperGLUE和SQuADv2数据集上超越GPT-3,并在多语言任务上提供最佳性能。总体而言,我们的结果为序列模型作为大规模语言模型训练的强大替代方案提供了有力证据。
某中心NoSQL数据库服务:可扩展、性能稳定的全托管解决方案
该NoSQL云数据库服务在任何规模下都能提供一致性能。数十万客户依赖其核心特性:稳定性能、高可用性、持久性和全托管无服务器体验。在2021年长达66小时的购物活动中,某中心系统(包括语音助手、电商网站和物流中心)向该数据库发起了数万亿次API调用,峰值达8920万请求/秒,同时保持高可用性和毫秒级性能。
自2012年推出以来,其设计和实现根据运维经验不断演进。系统成功处理了公平性、分区流量不平衡、监控和自动化系统操作等问题,且不影响可用性或性能。可靠性至关重要,即使最轻微的中断也会严重影响客户。本文介绍了大规模运维经验以及架构如何持续演进以满足客户工作负载不断增长的需求。
将图像转换为地图的新方法
我们将即时地图生成(将图像转换为世界俯视图)视为翻译问题。展示了新型Transformer网络如何用于将图像和视频直接映射到俯视地图或鸟瞰图,通过单个端到端网络实现。我们假设图像中的垂直扫描线与穿过相机位置的地图射线存在一一对应关系。
这使我们能够将地图生成表述为一组序列到序列的翻译任务。将问题构建为翻译允许网络在解释每个像素作用时使用图像上下文。这种基于问题强物理基础的约束公式,产生了一个仅在水平方向卷积的受限Transformer网络。该结构使我们在训练时能高效利用数据,并在三个大规模数据集的即时地图生成中获得了最先进的结果,在nuScenes和Argoverse数据集上相对现有最佳方法分别获得15%和30%的相对提升。
非平稳A/B测试新框架
A/B测试已被数据驱动企业广泛用于指导决策和测试创新想法。同时,非平稳性(如时间效应)常见于各种业务指标中。我们证明,不充分处理非平稳性会导致A/B测试统计效率低下或无效,从而得出错误结论。
为解决这些问题,我们开发了新框架,为非平稳A/B测试提供适当建模和充分统计分析。在不改变现有A/B测试流程基础设施的情况下,我们提出新估计器,将时间视为连续协变量,使用样本依赖的分层数进行事后分层。我们证明了非平稳性自然极限状态下的中心极限定理,从而获得有效的大样本统计推断。我们证明所提估计器在所有估计器中达到最优渐近方差。当A/B测试的实验设计阶段允许时,我们提出新的时间分组随机化方法,在时间非平稳性存在下更好地平衡处理和对照分配。
Alexa教师模型:预训练与蒸馏数十亿参数编码器用于自然语言理解系统
我们展示了从7亿到93亿非嵌入参数编码器预训练的大规模实验结果,及其后续蒸馏到1.7亿-1.7亿参数较小模型的过程,及其在虚拟助手系统自然语言理解组件中的应用。尽管使用70%口语数据训练,我们的教师模型在书面形式跨语言自然语言推理语料库上评估时与XLM-R和mT5表现相当。
我们使用系统内领域数据对教师模型进行第二阶段预训练,意图分类错误率相对降低3.86%,槽填充错误率相对降低7.01%。我们发现,即使从第二阶段教师模型蒸馏的1.7亿参数模型,与仅使用公共数据训练的第一阶段23亿参数教师模型相比,意图分类错误率降低2.88%,槽填充错误率降低7.69%,强调了领域内数据对预训练的重要性。当使用标记NLU数据离线评估时,我们的第二阶段蒸馏模型在意图分类和槽填充任务上均优于基线模型。
超参数优化的自动终止方法
贝叶斯优化是机器学习中超参数优化的流行方法。其核心是迭代评估有希望的配置,直到耗尽用户定义的预算。虽然调优后的最终性能很大程度上取决于提供的预算,但很难预先指定最优值。
本工作中,我们提出有效直观的贝叶斯优化终止准则,如果过程足够接近全局最优则自动停止。我们的关键见解是:真实目标与可计算目标之间的差异表明,一旦优化目标的次优性被统计估计误差主导,就应该停止。在大量真实超参数优化问题和基线中,我们证明终止准则在测试性能和优化时间之间实现了更好权衡。此外,我们发现过拟合可能发生在超参数优化环境中,这可能是文献中被忽视的问题,并展示了终止准则如何帮助在大小数据集上缓解这种现象。
使用AuctionGym学习竞价策略
在线广告机会通过拍卖在网络上每日销售数十亿次。参与这些拍卖的广告主需要决定竞价策略:愿意为给定展示机会出价多少。
决定这样的策略并非易事,因为重复拍卖机制具有交互性和反应性。广告主无法观察未提交出价的反事实结果,成功的广告主会根据竞争对手的出价调整自己的策略。这些特性使基于记录数据有效学习和评估竞价策略变得复杂。
因果推断模型验证新方法
因果推断的基本挑战是反事实结果无法完全观测。此外,在观察性研究中,处理分配很可能存在混淆。许多统计方法已在给定预处理协变量的无混淆条件下出现,包括基于倾向得分、预后得分和双重稳健的方法。不幸的是,对于应用研究者来说,没有适用于所有情况的通用因果方法。
实践中,因果方法主要在手工模拟数据上进行定量评估。这种数据生成过程价值有限,因为它们通常是现实的简化模型。为简化而缺乏真实世界数据的复杂性。对应用研究者来说,理解方法在现有数据上的表现至关重要。我们的工作引入了基于深度生成模型的框架Credence来验证因果推断方法。该框架的创新在于其生成锚定在观测样本经验分布上的合成数据的能力,因此与后者几乎无法区分。该方法允许用户指定因果效应形式和大小以及混淆偏差作为协变量函数的真实值。因此,模拟数据集用于评估各种因果估计方法在应用于与观测样本相似数据时的潜在性能。
个性化互补产品推荐技术
互补产品推荐旨在提供经常一起购买的产品建议以满足联合需求。现有工作主要关注在群体级别建模产品关系,但未考虑不同客户的个性化偏好。本文中,我们提出个性化互补产品推荐框架,能够推荐符合客户需求和偏好的产品。
具体而言,我们分别使用图注意力网络和序列行为Transformer建模产品关系和用户偏好。两个网络通过个性化重排序和对比学习融合在一起,其中用户和产品嵌入以端到端方式联合学习。系统通过学习客户购买历史以及客户与产品之间的相关性来识别不同的客户兴趣。实验结果表明,我们的模型受益于学习个性化信息,并在真实生产数据上优于非个性化方法。