在AI平台上实现定制化模型的按需部署
AI平台提供模型定制功能,使客户能够通过微调和蒸馏等功能,根据特定需求定制基础模型(FM)版本。现在推出用于定制模型的按需部署功能,这些模型可部署在AI平台上。
按需部署的优势
按需部署为定制模型提供了额外的部署选项,可根据使用模式进行扩展。这种方法允许仅在需要时调用定制模型,请求实时处理而无需预先配置计算资源。
按需部署选项采用基于令牌的定价模型,根据推理期间处理的令牌数量收费。这种按需付费方法补充了现有的预置吞吐量选项,为用户提供了灵活性,以选择最符合其特定工作负载要求和成本目标的部署方法。
定制模型按需部署工作流程
模型定制生命周期代表了从概念化到部署的端到端旅程。该过程从定义特定用例开始,准备和格式化适当的数据,然后通过AI平台微调或AI平台模型蒸馏等功能执行模型定制。每个阶段都建立在前一个阶段的基础上,创建了一条部署生产就绪的生成式AI功能的路径。以下图表说明了此工作流程。
定制模型后,评估和部署阶段决定了模型将如何可用于推理。这就是定制模型按需部署变得有价值的地方,它提供了与可变工作负载和成本敏感型实现相一致的部署选项。使用按需部署时,可以通过某中心控制台或使用模型标识符的标准API操作调用定制模型,计算资源仅在需要时自动分配。
实施前提
本文假设在使用按需部署之前拥有定制的AI模型。按需部署需要在此发布后新定制的AI模型。先前定制的模型与此部署选项不兼容。
按需部署实施指南
通过控制台实施
- 在AI平台控制台上,选择要部署的定制模型(微调或模型蒸馏)
- 选择"设置推理"并选择"按需部署"
- 在部署详细信息下,输入名称和描述
- 可选择添加标签
- 选择"创建"开始按需部署
通过API或SDK实施
|
|
最佳实践和注意事项
冷启动延迟
使用按需部署时,可能会遇到初始冷启动延迟,通常持续几秒钟,具体取决于模型大小。当部署最近没有收到流量并需要重新初始化计算资源时,会发生这种情况。
区域可用性
在发布时,定制模型部署将在美国东部(北弗吉尼亚)区域可用于AI模型。
配额管理
每个定制模型部署都有特定配额:
- 每分钟令牌数(TPM)
- 每分钟请求数(RPM)
- 创建状态部署数量
- 单个账户中的总按需部署数
成本管理
按需部署使用基于推理期间处理的令牌数量的按需付费定价模型。可以在按需部署上使用成本分配标签来跟踪和管理推理成本,通过某中心成本浏览器实现更好的预算跟踪和成本优化。
清理资源
如果一直在测试按需部署功能并且不打算继续使用,请清理资源以避免产生不必要的成本。
通过控制台删除:
- 导航到定制模型部署
- 选择要删除的部署
- 删除部署
通过API删除:
|
|
结论
在AI平台上推出定制模型的按需部署代表了使AI模型部署对所有规模的企业更加易用、成本效益更高和更灵活的重大进步。按需部署提供以下优势:
- 成本优化:按需付费定价让您只需为实际使用的计算资源付费
- 操作简单性:自动资源管理消除了手动基础设施配置的需要
- 可扩展性:无缝处理可变工作负载,无需前期容量规划
- 灵活性:根据特定需求自由选择按需或预置吞吐量
立即开始探索在AI平台上的定制模型按需部署!访问AI平台文档开始您的模型定制之旅,体验灵活、成本效益高的AI基础设施的好处。