谷歌云推出Flex-start虚拟机：革新GPU资源访问方式

创新背景

随着AI创新的快速发展，GPU等加速器在需求高峰时期往往难以获取。为解决这一挑战，谷歌云推出了动态工作负载调度器（DWS）服务。今年7月，我们在DWS中发布了日历模式，提供短期ML容量而无需长期承诺。今天，我们迈出了下一步：Flex-start虚拟机的正式发布。

什么是Flex-start虚拟机？

Flex-start虚拟机由动态工作负载调度器提供支持，引入了主要云提供商中的首个高度差异化的消费模式，让您能够创建单个虚拟机实例，公平且改进地访问GPU资源。

Flex-start虚拟机非常适合不需要立即启动的定时任务，例如：

AI模型微调
批量推理
高性能计算（HPC）
研究实验

通过灵活调整启动时间，您可以获得两大主要优势：

显著提高资源获取能力：通过允许您的容量请求在队列中持续最多两小时，您增加了获取资源的可能性，无需构建自己的重试逻辑。

成本效益定价：Flex-start虚拟机SKU相比标准按需定价提供显著折扣，使尖端加速器更易获得。

Flex-start虚拟机可以连续运行最多七天，并消耗可抢占配额。

新的容量请求方式

使用Flex-start虚拟机，您现在可以通过单个参数request-valid-for-duration来选择在容量不可立即获得时如何处理您的请求。

没有此参数时：创建虚拟机时，Compute Engine会进行简短的最佳努力尝试（约90秒）来确保您的资源。如果容量可用，您的虚拟机将被配置。如果不可用，请求会快速失败并返回缺货错误。这种"快速失败"行为适用于需要立即获得答案的工作流程。

对于可以等待的工作负载：您现在可以通过设置request-valid-for-duration标志来发出持久容量请求。选择90秒到2小时之间的时间段，指示Compute Engine将您的请求保留在队列中。您的虚拟机进入PENDING状态，系统会在您指定的时间范围内努力配置您的资源。

Flex-start虚拟机的关键特性

直接实例API访问：通过与instances.insert集成或通过单个CLI命令，您可以简单直接地创建单个Flex-start虚拟机，轻松将其集成到自定义调度程序和工作流程中。

停止和启动功能：您可以完全控制Flex-start虚拟机。例如，您可以停止实例以暂停计费并释放底层资源。然后，当您准备恢复时，只需发出启动命令即可放置新的容量请求。一旦容量成功配置，七天最长运行时长时钟将重置。

可配置的终止操作：对于许多高级用例，您可以设置instanceTerminationAction = STOP，这样当您的虚拟机的七天运行时间到期时，实例将停止而不是被删除。这会保留您的虚拟机配置，包括其IP地址和启动磁盘，为后续运行节省设置时间。

客户评价

Hudson River Trading系统工程师Ragnar Kjørstad：“我们的自定义调度环境需要精确控制和直接API访问。Instance API中Flex-start的正式发布，特别是其停止/启动功能和可配置终止，改变了游戏规则。”

Oz Forensics机器学习负责人Bakai Zhamgyrchiev：“对于我们关键的反欺诈模型训练，Flex-start虚拟机改变了游戏规则。队列机制为我们提供了可靠访问强大A100 GPU的途径，以显著的性能成本优势增强了我们的开发周期和安全产品。”

立即开始使用

开始使用队列式Flex-start虚拟机非常简单。您可以使用gcloud命令或直接通过API创建一个。

gcloud示例（在队列中等待）：

1
2
3
4
5
6


gcloud compute instances create my-flex-start-vm \
  --machine-type=a3-megagpu-8g \
  --provisioning-model=FLEX_START \
  --max-run-duration=3d \
  --request-valid-for-duration=2h \
  --zone=us-central1-a

API请求片段（JSON）：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15


{
  "name": "my-flex-start-vm",
  "machineType": "zones/us-central1-a/machineTypes/a3-megagpu-8g",
  "scheduling": {
    "provisioningModel": "FLEX_START",
    "maxRunDuration": {
      "seconds": "259200"
    }
  },
  "params": {
    "request_valid_for_duration": {
      "seconds": "7200"
    }
  }
}

Instance API中的Flex-start虚拟机直接响应了对高效、可靠和公平访问高需求AI加速器的需求。通过引入新颖的队列机制，您可以轻松将新的Flex-start消费模型集成到现有工作流程中，从而减少为按需访问构建重试循环的时间。