亚马逊云科技宣布Amazon Bedrock新增强化学习微调功能
突破传统困境:更易用、更高效的模型定制
许多组织在为特定业务需求定制AI模型时,常常面临两难选择:要么接受通用模型提供的平庸结果,要么就得投入巨大的复杂性和成本去进行高级模型定制。传统的方案,要么是性能不佳的小模型,要么是部署大型模型变体和管理复杂基础设施带来的高额开销。强化学习微调作为一种先进技术,利用反馈而非海量标注数据来训练模型,但其实现通常需要专业的机器学习知识、复杂的算力支持和高昂投资,且难以保证最终达到特定应用场景所需的精准度。
今天,我们很高兴地宣布亚马逊云科技的Amazon Bedrock新增了强化学习微调功能。这是一项全新的模型定制能力,能够创建出更智能、更具成本效益的模型,它们从反馈中学习,并为特定业务需求输出更高质量的结果。强化学习微调采用反馈驱动的训练方法,模型基于奖励信号进行迭代式改进,平均能比基础模型提升66% 的准确度。Amazon Bedrock自动化了强化学习微调的工作流,使得这项先进的模型定制技术能够为更广泛的开发者所用,而无需他们具备深厚的机器学习(ML)专业知识或准备大型标注数据集。
原理剖析:如何通过奖励机制引导模型学习
强化学习微调建立在强化学习原理之上,旨在解决一个普遍性挑战:让模型能持续产生符合业务要求和用户偏好的输出。传统微调需要大量带有标注的数据集和昂贵的人工标注工作,而强化学习微调则采用了不同的路径。它不再是从固定示例中学习,而是使用奖励函数来评估和判断哪些响应对于特定的商业用例是“好”的。这种方法教会模型理解何为优质响应,而无需海量预先标注的训练数据,使Amazon Bedrock中的高级模型定制变得更易于实现且成本更低。
以下是使用Amazon Bedrock强化学习微调功能的主要优势:
- 易用性:Amazon Bedrock自动化了大部分复杂性,让构建AI应用的开发者更容易上手。模型可以直接使用Amazon Bedrock中存储的API日志,或上传数据集作为训练数据进行训练,省去了准备标注数据集或搭建基础设施的麻烦。
- 更优的模型性能:强化学习微调平均能将模型准确率提升66%,超越了基础模型。这使您可以针对性价比进行优化,训练出更小、更快、更高效的模型变体。该功能目前支持Amazon Nova 2 Lite模型,可为特定业务需求改善质量和性价比,更多模型的支持即将推出。
- 安全性:在整个定制过程中,您的数据始终保留在安全的AWS环境内,有效缓解了安全与合规方面的顾虑。
该功能支持两种互为补充的方法,为模型优化提供了灵活性:
- 基于可验证奖励的强化学习:适用于代码生成、数学推理等客观性任务,使用基于规则的评估器(即“打分器”)。
- 基于AI反馈的强化学习:适用于指令遵循、内容审核等主观性任务,采用基于AI的评估器作为“裁判”。
实践指南:一步步创建强化学习微调任务
让我们一步步了解如何创建一个强化学习微调任务。
- 启动任务:首先,我访问Amazon Bedrock控制台,导航至“自定义模型”页面。点击“创建”按钮,然后选择“强化学习微调任务”。
- 配置基本信息:我为这个定制任务输入名称,然后选择我的基础模型。在发布初期,强化学习微调支持Amazon Nova 2 Lite模型,更多模型的支持即将到来。
- 准备训练数据:接下来,我需要提供训练数据。我可以直接使用我存储的API调用日志,无需上传单独的数据集。我也可以上传新的JSONL文件,或从Amazon S3中选择已有的数据集。强化学习微调会自动验证我的训练数据集,并支持OpenAI Chat Completions数据格式。如果我提供的是Amazon Bedrock原生调用或对话格式的日志,Amazon Bedrock会自动将其转换为Chat Completions格式。
- 设定奖励函数:这是定义“什么是好响应”的核心环节。我有两种选择。对于客观性任务,我可以选择“自定义代码”,编写通过AWS Lambda函数执行的Python代码。对于更主观的评估,我可以选择“模型作为裁判”,通过提供评估指令来使用基础模型作为裁判。在此示例中,我选择“自定义代码”,并创建一个新的Lambda函数或使用现有的一个作为奖励函数。我可以从提供的模板之一开始,并根据我的具体需求进行定制。
- 调整超参数与安全设置(可选):我可以选择性地修改默认的超参数,例如学习率、批处理大小和训练轮数。为了增强安全性,我可以配置虚拟私有云设置和AWS KMS加密,以满足组织的合规要求。最后,点击“创建”以启动模型定制任务。
监控、部署与测试
在训练过程中,我可以监控实时指标来了解模型是如何学习的。训练指标仪表盘会展示关键的性能指标,包括奖励分数、损失曲线以及随时间推移的准确率改进情况。这些指标帮助我理解模型是否在正常收敛,以及奖励函数是否能有效引导学习过程。
当强化学习微调任务完成后,我可以在“模型详情”页面上看到最终的任务状态。一旦任务完成,我只需单击一下即可部署模型。点击“设置推理”,然后为按需推理选择“部署”。在此,我提供我的模型的少量细节信息。
部署之后,我可以使用Amazon Bedrock的“游乐场”快速评估模型的性能。这有助于我用示例提示词测试微调后的模型,并将其响应与基础模型的响应进行比较,从而验证改进效果。点击“在游乐场中测试”。游乐场提供了一个直观的界面,用于快速测试和迭代,帮助我在将模型集成到生产应用之前,确认它满足我的质量要求。
更多须知信息
- 模板:提供了七个开箱即用的奖励函数模板,涵盖了从客观到主观任务的常见用例。
- 定价:欲了解更多定价详情,请参阅Amazon Bedrock定价页面。
- 安全性:您的训练数据和定制模型是私有的,不会被用于改进公开使用的基础模型。该功能支持VPC和AWS KMS加密以增强安全性。
现在即可开始使用强化学习微调功能,请访问强化学习微调文档并登录Amazon Bedrock控制台体验。
祝您开发愉快!
— Donnie Prakoso