谷歌云推出Flex-start虚拟机:革新GPU资源访问方式
创新背景
随着AI创新的快速发展,GPU等加速器在需求高峰时期往往难以获取。为解决这一挑战,谷歌云推出了动态工作负载调度器(DWS)服务。今年7月,我们在DWS中发布了日历模式,提供短期ML容量而无需长期承诺。今天,我们迈出了下一步:Flex-start虚拟机的正式发布。
什么是Flex-start虚拟机?
Flex-start虚拟机由动态工作负载调度器提供支持,引入了主要云提供商中的首个高度差异化的消费模式,让您能够创建单个虚拟机实例,公平且改进地访问GPU资源。
Flex-start虚拟机非常适合不需要立即启动的定时任务,例如:
- AI模型微调
- 批量推理
- 高性能计算(HPC)
- 研究实验
通过灵活调整启动时间,您可以获得两大主要优势:
显著提高资源获取能力:通过允许您的容量请求在队列中持续最多两小时,您增加了获取资源的可能性,无需构建自己的重试逻辑。
成本效益定价:Flex-start虚拟机SKU相比标准按需定价提供显著折扣,使尖端加速器更易获得。
Flex-start虚拟机可以连续运行最多七天,并消耗可抢占配额。
新的容量请求方式
使用Flex-start虚拟机,您现在可以通过单个参数request-valid-for-duration
来选择在容量不可立即获得时如何处理您的请求。
没有此参数时:创建虚拟机时,Compute Engine会进行简短的最佳努力尝试(约90秒)来确保您的资源。如果容量可用,您的虚拟机将被配置。如果不可用,请求会快速失败并返回缺货错误。这种"快速失败"行为适用于需要立即获得答案的工作流程。
对于可以等待的工作负载:您现在可以通过设置request-valid-for-duration
标志来发出持久容量请求。选择90秒到2小时之间的时间段,指示Compute Engine将您的请求保留在队列中。您的虚拟机进入PENDING状态,系统会在您指定的时间范围内努力配置您的资源。
Flex-start虚拟机的关键特性
直接实例API访问:通过与instances.insert
集成或通过单个CLI命令,您可以简单直接地创建单个Flex-start虚拟机,轻松将其集成到自定义调度程序和工作流程中。
停止和启动功能:您可以完全控制Flex-start虚拟机。例如,您可以停止实例以暂停计费并释放底层资源。然后,当您准备恢复时,只需发出启动命令即可放置新的容量请求。一旦容量成功配置,七天最长运行时长时钟将重置。
可配置的终止操作:对于许多高级用例,您可以设置instanceTerminationAction = STOP
,这样当您的虚拟机的七天运行时间到期时,实例将停止而不是被删除。这会保留您的虚拟机配置,包括其IP地址和启动磁盘,为后续运行节省设置时间。
客户评价
Hudson River Trading系统工程师Ragnar Kjørstad:“我们的自定义调度环境需要精确控制和直接API访问。Instance API中Flex-start的正式发布,特别是其停止/启动功能和可配置终止,改变了游戏规则。”
Oz Forensics机器学习负责人Bakai Zhamgyrchiev:“对于我们关键的反欺诈模型训练,Flex-start虚拟机改变了游戏规则。队列机制为我们提供了可靠访问强大A100 GPU的途径,以显著的性能成本优势增强了我们的开发周期和安全产品。”
立即开始使用
开始使用队列式Flex-start虚拟机非常简单。您可以使用gcloud命令或直接通过API创建一个。
gcloud示例(在队列中等待):
|
|
API请求片段(JSON):
|
|
Instance API中的Flex-start虚拟机直接响应了对高效、可靠和公平访问高需求AI加速器的需求。通过引入新颖的队列机制,您可以轻松将新的Flex-start消费模型集成到现有工作流程中,从而减少为按需访问构建重试循环的时间。