Amazon Redshift重新定义云数据仓库
2013年,某机构云服务通过推出Amazon Redshift彻底变革了数据仓库行业,这是首个完全托管、PB级、企业级云数据仓库服务。该服务使得使用现有商业智能工具高效分析海量数据变得简单且经济高效。
这项云服务相比传统的本地数据仓库解决方案实现重大飞跃,传统方案成本高昂、缺乏弹性且需要专业调优运维能力。该服务获得广泛采用,成为云服务中增长最快的产品。目前数万客户通过全球基础设施每日处理EB级数据。[阅读完整摘要并下载论文]
AlexaTM 20B:基于大规模多语言seq2seq模型的少样本学习
本研究证明,基于去噪和因果语言建模混合任务预训练的多语言大规模序列到序列(seq2seq)模型,在各种任务上比仅解码器模型具有更高效的少样本学习能力。我们训练了200亿参数的多语言seq2seq模型Alexa Teacher Model(AlexaTM 20B),在单次摘要任务中达到最先进性能,优于参数量达540B的PaLM解码器模型。
该模型在Flores-101数据集支持的所有语言对(阿拉伯语、英语、法语、德语、印地语、意大利语、日语、马拉地语、葡萄牙语、西班牙语、泰米尔语和泰卢固语)上,尤其在低资源语言方面实现单次机器翻译最先进性能。在零样本设置下,AlexaTM 20B在SuperGLUE和SQuADv2数据集上超越GPT-3(175B),并在XNLI、XCOPA、Paws-X和XWinograd等多语言任务中提供最先进性能。[阅读并下载论文]
某机构DynamoDB:可扩展、性能可预测的全托管NoSQL数据库服务
DynamoDB是一种NoSQL云数据库服务,可在任何规模下提供一致性能。数十万客户依赖其核心特性:一致性能、可用性、持久性和全托管无服务器体验。在2021年持续66小时的某购物活动期间,包括语音助手、电商站点和履约中心在内的系统向DynamoDB发起数万亿次API调用,峰值达每秒8920万请求,同时保持高可用性和个位数毫秒级性能。
自2012年推出以来,DynamoDB的设计和实现根据运营经验持续演进。系统成功处理了公平性、分区流量不平衡、监控和自动化系统操作等问题,且不影响可用性或性能。可靠性至关重要,最轻微的中断都会对客户产生重大影响。本文介绍了大规模运营DynamoDB的经验以及架构如何持续演进以满足客户工作负载不断增长的需求。[阅读并下载论文]
将图像转换为地图的新方法
我们将即时地图生成(将图像转换为世界俯视图)视为翻译问题。展示了一种新型Transformer网络如何直接将图像和视频映射到俯视图或鸟瞰图(BEV),通过单一端到端网络实现。假设图像中的垂直扫描线与穿过俯视图中相机位置的光线存在1-1对应关系。
这使我们将图像生成地图的问题转化为一组序列到序列的翻译任务。将问题表述为翻译使得网络在解释每个像素作用时能够利用图像上下文。这种基于问题强物理基础的约束表述,产生了一个仅在水平方向具有卷积能力的受限Transformer网络。该结构使我们在训练时能高效利用数据,并在三个大规模数据集的即时地图生成中取得最先进结果,在nuScenes和Argoverse数据集上分别相对现有最佳方法获得15%和30%的性能提升。[阅读并下载论文]
非平稳A/B测试框架
数据驱动企业广泛使用A/B测试(又称在线控制实验)来指导决策和测试创新想法。同时,各种业务指标中普遍存在非平稳性(如时间效应)。研究表明,不充分处理非平稳性会导致A/B测试统计效率低下或无效,从而得出错误结论。
为解决这些问题,我们开发了新框架,为非平稳A/B测试提供适当建模和充分统计分析。在不改变现有A/B测试流程基础设施的情况下,提出新估计器将时间视为连续协变量,使用样本依赖的分层数进行后分层。证明了非平稳条件下自然极限状态下的中心极限定理,从而提供有效的大样本统计推断。证明该估计器在所有估计器中达到最优渐近方差。当A/B测试的实验设计阶段允许时,提出新的时间分组随机化方法以在时间非平稳性存在时更好地平衡处理和控制分配。[阅读并下载论文]
Alexa教师模型:预训练与蒸馏数十亿参数编码器用于自然语言理解系统
我们展示了大规模预训练实验成果,编码器非嵌入参数范围从700M到9.3B,随后蒸馏到17M-170M参数的小型模型,并应用于虚拟助手系统的自然语言理解(NLU)组件。尽管使用70%口语数据训练,我们的教师模型在书面形式跨语言自然语言推理(XNLI)语料库上评估表现与XLM-R和mT5相当。
使用系统内领域数据对教师模型进行第二阶段预训练,意图分类错误率相对降低3.86%,槽填充错误率相对降低7.01%。发现从第二阶段教师模型蒸馏的170M参数模型,与仅使用公共数据训练的第一阶段23B参数教师模型相比,意图分类错误率降低2.88%,槽填充错误率降低7.69%,强调领域内数据对预训练的重要性。使用标记NLU数据离线评估时,我们的17M参数第二阶段蒸馏模型分别优于XLM-R Base(85M参数)和DistillBERT(42M参数)4.23%至6.14%。最后展示了完整虚拟助手实验平台结果,发现使用我们的预训练和蒸馏管道训练的模型,在全系统用户不满意度的自动测量上比从85M参数教师模型蒸馏的模型表现优3.74%-4.91%。[阅读并下载论文]
超参数优化的自动终止机制
贝叶斯优化(BO)是机器学习中超参数优化(HPO)的流行方法。其核心是迭代评估有希望的配置,直到耗尽用户定义的预算(如挂钟时间或迭代次数)。虽然调整后的最终性能很大程度上取决于提供的预算,但提前指定最优值很困难。
本研究提出有效直观的BO终止准则,当程序足够接近全局最优时自动停止。关键见解是:真实目标(测试数据预测性能)与可计算目标(验证性能)之间的差异表明,一旦优化目标的次优性被统计估计误差主导就应停止。在大量真实HPO问题和基线中,我们的终止准则在测试性能和优化时间之间实现了更好的权衡。还发现HPO中可能存在过拟合现象(文献中 arguably 被忽视的问题),并展示我们的终止准则如何帮助在大小数据集上缓解这种现象。[阅读并下载论文]
基于AuctionGym的竞价学习系统
在线广告机会通过拍卖每天在网络上售出数十亿次。参与拍卖的广告商需要决定竞价策略:愿意为给定展示机会出价多少。
决定这样的策略并非易事,因为重复拍卖机制具有交互性和反应性。广告商无法观察到未提交投标金额的反事实结果,成功的广告商会根据竞争对手的出价调整自己的策略。这些特性使仅基于记录数据有效学习和评估竞价策略变得复杂。[阅读完整摘要并下载论文]
因果推断模型验证框架
因果推断的根本挑战是反事实结果无法被完全观测。此外,在观察性研究中,治疗分配很可能存在混淆。许多统计方法在给定预处理协变量的无混淆条件下涌现,包括:基于倾向评分的方法、基于预后评分的方法和双稳健方法。
对应用研究者而言,没有适用于所有场景的通用因果方法。实践中,因果方法主要通过在手工模拟数据上进行定量评估。这种数据生成程序价值有限,因为它们通常是现实的概念化模型,为易处理性而简化,缺乏真实世界数据的复杂性。对应用研究者来说,理解方法在手头数据上的表现至关重要。我们的工作引入基于深度生成模型的框架Credence来验证因果推断方法。该框架的创新在于能够生成锚定在观测样本经验分布上的合成数据,因此与实际数据几乎无法区分。该方法允许用户将因果效应的形式和幅度以及混杂偏倚指定为协变量的函数。 thus 使用这些模拟数据集来评估各种因果估计方法应用于与观测样本相似数据时的潜在性能。通过大规模模拟研究和来自Lalonde和Project STAR研究的两个真实数据应用,证明Credence能准确评估因果估计技术的相对性能。[阅读并下载论文]
个性化互补产品推荐系统
互补产品推荐旨在提供经常一起购买的产品建议以满足联合需求。现有工作主要关注在群体级别建模产品关系,但未考虑不同客户的个性化偏好。本文提出个性化互补产品推荐框架,能够推荐符合客户需求和偏好的产品。
具体而言,我们分别使用图注意力网络和序列行为Transformer建模产品关系和用户偏好。两个网络通过个性化重排序和对比学习结合,其中用户和产品嵌入以端到端方式联合学习。系统通过从购买历史以及客户与产品之间的相关性中学习来识别不同客户兴趣。实验结果表明,我们的模型受益于学习个性化信息,并在真实生产数据上优于非个性化方法。[阅读并下载论文]