AWS基础模型构建实战经验分享

本文详细介绍了在某机构云平台上构建基础模型的技术实践,涵盖分布式训练架构、多组织协作模式、参考架构设计以及性能监控方案,为大规模机器学习项目提供可复制的实施框架。

跨职能协作团队模式

技术协作的关键经验表明,运行多组织、国家级机器学习计划需要跨不同内部团队的协调支持。建立了虚拟团队,整合了客户团队、专业解决方案架构师和服务团队。这种协作模式依赖于客户与多层技术团队结构的紧密合作。

客户通常由业务和技术负责人组成,包括机器学习和平台工程师,负责执行训练工作负载。客户团队负责管理关系、维护文档并与客户和内部专家保持沟通流。全球专家组织框架团队专注于大规模机器学习工作负载,重点包括核心高性能计算和容器服务。该团队负责建立协作结构并监督技术协作,与其他利益相关者合作领导协作,并作为其他利益相关者的升级点。他们直接与服务团队合作,帮助引导协作、升级问题,并确保协作框架正常运行。

另一个关键成功因素是建立客户与技术团队之间的强大沟通渠道。沟通策略的基础是用于项目协调的专用内部频道,连接客户团队与首席架构师。该频道支持实时故障排除、知识共享和快速升级客户问题。此外,外部频道桥接技术团队与客户,创建了协作环境,参与者可以提问、分享见解并获得即时支持。

技术团队维护全面的工作负载跟踪文档,详细说明每个客户的训练实施细节(模型架构、分布式训练框架和相关软件组件)以及基础设施规格(实例类型和数量、集群配置以及存储解决方案)。跟踪系统还维护客户互动和支持案例的时间顺序历史记录。此外,协作团队每周召开审查会议,跟踪未解决的客户咨询和技术问题。

参考架构设计

另一个早期经验是可靠参考架构的重要性。技术团队创建了预先验证的模板和自动化方案,涵盖两种主要方法:高性能计算集群(用于用户管理的HPC集群)和托管弹性集群服务。这些参考架构覆盖完整技术栈——从计算、网络、存储到容器环境和监控——并通过代码仓库交付,使团队能够以最小阻力进行部署。

高性能计算集群工具被证明对多节点GPU训练非常宝贵。该工具自动化在云平台上设置基于Slurm的HPC集群,使用简单的YAML配置来建立环境。对于该计划,还提供了托管服务作为某些团队的另一个选项。该托管服务为大规模机器学习配置GPU和Trainium集群,与Slurm或Kubernetes等编排器集成以进行调度,提供围绕集群弹性的额外托管功能。

参考架构(如下图所示)将计算、网络、存储和监控无缝结合到专为大规模基础模型训练设计的集成系统中。

基础架构栈可作为云形成模板使用,以最小努力配置完整基础设施栈。该模板自动配置具有优化网络设置的专用虚拟私有云,并为训练数据实施高性能Lustre文件系统(辅以可选OpenZFS支持共享主目录)。架构通过S3存储桶完成,为数据集和模型检查点提供持久的长期存储,保持数据可用性远超单个训练周期。

可选监控基础设施结合托管Prometheus和托管Grafana(或在EC2上运行的自管理Grafana服务),提供全面的可观察性。它集成了GPU指标导出器和网络指标导出器,实现系统健康和性能的实时监控。该设置允许持续跟踪GPU健康、网络性能和训练进度,通过Grafana仪表板实现异常自动警报。

可复现部署指南与结构化赋能会议

即使是最好的参考架构,也只有当团队知道如何使用时才有效。该计划成功的关键要素是通过研讨会进行可复现部署指南和结构化赋能。

技术团队与全球专家组织框架团队共同为计划参与者进行了大规模赋能会议,邀请来自美国的框架团队成员分享在云平台上进行基础模型训练的最佳实践。

赋能会议欢迎了80多名参与者,提供了讲座、动手实验室和小组讨论的全面组合。讲座环节涵盖基础设施基础,探索编排选项,以及使用云服务构建和训练大规模基础模型所需的软件组件。会议重点介绍了基础模型开发中的实际挑战——包括大规模计算需求、可扩展网络和高吞吐存储——并将其映射到适当的云服务和最佳实践。

另一个环节专注于最佳实践,与会者学习使用Prometheus和Grafana设置性能仪表板,监控EFA流量,并使用DCGM工具包和基于框架团队管理2000个P5实例集群经验的定制Grafana仪表板进行GPU故障排除。

此外,专家团队为高性能计算集群和托管服务准备了研讨会,为上述参考架构提供详细部署指南。使用这些材料,参与者进行了动手练习,使用Slurm部署训练集群,文件系统包括Lustre和OpenZFS,运行多节点PyTorch分布式训练。研讨会的另一个部分专注于可观察性和性能调优,教导参与者如何监控资源利用率、网络吞吐量和系统健康。

通过这些赋能会议,客户和支持工程师建立了共享的知识基线和最佳实践工具包。使用在研讨会期间获得的资产和知识,客户参加了入职会议——与首席架构师进行的结构化动手会议。这些会议与早期研讨会的不同之处在于专注于针对每个团队独特用例的客户特定集群部署。

成果与展望

该计划证明,大规模训练基础模型从根本上是一个组织挑战,而不仅仅是硬件挑战。通过结构化支持、可复现模板和跨职能协作团队,即使小型团队也能成功在云中执行大规模工作负载。

得益于这种结构,12个客户在一天内在多个云区域启动了超过127个P5实例和24个Trn1实例。成功训练了多个大语言模型和定制模型,包括在Trainium上的320亿参数多模态模型和4050亿参数的旅游重点多语言模型。

通过该计划建立的技术协作框架为大规模基础模型开发提供了关键见解。基于此经验,技术团队正在多个维度推进改进:协作模式、技术资产和实施指导。正在加强跨职能协作和系统化知识共享,以建立更高效的支持结构。参考架构和自动化训练模板持续增强,基于经验教训编纂实用技术研讨会和最佳实践。

技术团队已经开始为下一周期做准备。作为入职流程的一部分,在东京举办了全面技术活动,为基础模型构建者提供动手经验和架构指导。该活动有50多名参与者参加,展示了技术团队对支持可扩展、弹性生成式AI基础设施的承诺。

活动重点介绍了技术团队对该计划的技术协作模式,以及其他支持机制。当天举办了关于托管服务和Slurm的强化研讨会,参与者获得了多节点GPU集群、分布式PyTorch训练和可观察性工具的动手经验。会议涵盖了基本主题,包括容器化机器学习、分布式训练策略和专用芯片解决方案。合作伙伴分享了实用的托管服务见解,技术团队工程师演示了大规模GPU工作负载的架构模式。

通过这些举措,技术团队将继续提供强大的技术支持,促进大规模基础模型训练的顺利执行。致力于通过技术专长为全球生成式AI发展做出贡献。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计