谷歌云推出Flex-start虚拟机:革新GPU资源访问方式

谷歌云正式发布Flex-start虚拟机,通过创新的队列机制解决GPU资源紧缺问题。该服务允许用户创建可等待GPU资源的单虚拟机实例,提供最高2小时的排队等待时间和7天的连续运行时长,显著提升资源获取成功率并降低成本。

谷歌云推出Flex-start虚拟机:革新GPU资源访问方式

创新背景

随着AI创新的快速发展,GPU等加速器在需求高峰时期往往难以获取。为解决这一挑战,谷歌云推出了动态工作负载调度器(DWS)服务。今年7月,我们在DWS中发布了日历模式,提供短期ML容量而无需长期承诺。今天,我们迈出了下一步:Flex-start虚拟机的正式发布。

什么是Flex-start虚拟机?

Flex-start虚拟机由动态工作负载调度器提供支持,引入了主要云提供商中的首个高度差异化的消费模式,让您能够创建单个虚拟机实例,公平且改进地访问GPU资源。

Flex-start虚拟机非常适合不需要立即启动的定时任务,例如:

  • AI模型微调
  • 批量推理
  • 高性能计算(HPC)
  • 研究实验

通过灵活调整启动时间,您可以获得两大主要优势:

显著提高资源获取能力:通过允许您的容量请求在队列中持续最多两小时,您增加了获取资源的可能性,无需构建自己的重试逻辑。

成本效益定价:Flex-start虚拟机SKU相比标准按需定价提供显著折扣,使尖端加速器更易获得。

Flex-start虚拟机可以连续运行最多七天,并消耗可抢占配额。

新的容量请求方式

使用Flex-start虚拟机,您现在可以通过单个参数request-valid-for-duration来选择在容量不可立即获得时如何处理您的请求。

没有此参数时:创建虚拟机时,Compute Engine会进行简短的最佳努力尝试(约90秒)来确保您的资源。如果容量可用,您的虚拟机将被配置。如果不可用,请求会快速失败并返回缺货错误。这种"快速失败"行为适用于需要立即获得答案的工作流程。

对于可以等待的工作负载:您现在可以通过设置request-valid-for-duration标志来发出持久容量请求。选择90秒到2小时之间的时间段,指示Compute Engine将您的请求保留在队列中。您的虚拟机进入PENDING状态,系统会在您指定的时间范围内努力配置您的资源。

Flex-start虚拟机的关键特性

直接实例API访问:通过与instances.insert集成或通过单个CLI命令,您可以简单直接地创建单个Flex-start虚拟机,轻松将其集成到自定义调度程序和工作流程中。

停止和启动功能:您可以完全控制Flex-start虚拟机。例如,您可以停止实例以暂停计费并释放底层资源。然后,当您准备恢复时,只需发出启动命令即可放置新的容量请求。一旦容量成功配置,七天最长运行时长时钟将重置。

可配置的终止操作:对于许多高级用例,您可以设置instanceTerminationAction = STOP,这样当您的虚拟机的七天运行时间到期时,实例将停止而不是被删除。这会保留您的虚拟机配置,包括其IP地址和启动磁盘,为后续运行节省设置时间。

客户评价

Hudson River Trading系统工程师Ragnar Kjørstad:“我们的自定义调度环境需要精确控制和直接API访问。Instance API中Flex-start的正式发布,特别是其停止/启动功能和可配置终止,改变了游戏规则。”

Oz Forensics机器学习负责人Bakai Zhamgyrchiev:“对于我们关键的反欺诈模型训练,Flex-start虚拟机改变了游戏规则。队列机制为我们提供了可靠访问强大A100 GPU的途径,以显著的性能成本优势增强了我们的开发周期和安全产品。”

立即开始使用

开始使用队列式Flex-start虚拟机非常简单。您可以使用gcloud命令或直接通过API创建一个。

gcloud示例(在队列中等待)

1
2
3
4
5
6
gcloud compute instances create my-flex-start-vm \
  --machine-type=a3-megagpu-8g \
  --provisioning-model=FLEX_START \
  --max-run-duration=3d \
  --request-valid-for-duration=2h \
  --zone=us-central1-a

API请求片段(JSON)

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
{
  "name": "my-flex-start-vm",
  "machineType": "zones/us-central1-a/machineTypes/a3-megagpu-8g",
  "scheduling": {
    "provisioningModel": "FLEX_START",
    "maxRunDuration": {
      "seconds": "259200"
    }
  },
  "params": {
    "request_valid_for_duration": {
      "seconds": "7200"
    }
  }
}

Instance API中的Flex-start虚拟机直接响应了对高效、可靠和公平访问高需求AI加速器的需求。通过引入新颖的队列机制,您可以轻松将新的Flex-start消费模型集成到现有工作流程中,从而减少为按需访问构建重试循环的时间。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计