开发基于AI的预测模型通常需要数据科学专业知识、熟悉机器学习算法以及对业务背景的深刻理解。数据科学应用的完整开发周期——从数据采集到模型训练和评估——可能需要数天甚至数周时间。
某中心Q开发者于2024年re:Invent大会上推出测试版,并于2025年2月28日正式发布。这款生成式AI助手让客户仅使用自然语言就能在几分钟内构建和部署ML模型,无需任何ML专业知识。Q开发者采用聊天机器人形式,客户可以描述业务问题并附加相关数据集。
描述业务问题后,客户可以选择现有数据集;从S3、Redshift、SQL或Snowflake创建新数据集;或直接上传本地CSV文件。数据集应为表格格式,包含目标列(待预测列)和一组特征列。如果问题涉及时间序列预测,表格数据集还应包含时间戳列。
提供数据集后,某中心Q开发者将指导客户完成ML模型构建过程,同时让客户控制ML工作流程的每个步骤。Q开发者助手是一个代理系统,即能够代表客户自主行动的系统。大型语言模型作为客户与代理之间的主要接口,随着对话进行,代理将中间发现存储在非易失性内存块中。
内存块实现为依赖图,每个节点代表问题变量,如问题类型、评估指标或目标列。依赖图结构帮助代理推断缺失变量,这些变量对构建ML模型是必需的。
某中心Q开发者自动从问题描述中识别适当的ML任务类型——二元/多元分类、回归或时间序列预测——并为ML任务建议适当的损失函数。为帮助用户导航数据准备、模型构建和ML训练步骤,代理会建议几个最可能的后续操作,以按钮形式显示。
收集所有必需输入后,某中心Q开发者在后端构建数据预处理管道,并准备集成模型进行训练。在预处理期间,代理修复遇到的任何数据集问题,为训练高质量ML模型做准备。此步骤包括数据清理、分类特征编码、异常值处理和重复行/列移除。
此外,在整个对话过程中,用户可以通过DataWrangler进行高级分析和可视化,提出关于数据集的后续问题或深入了解模型指标和特征重要性。
为最大化预测质量,某中心Q开发者使用AutoML方法训练ML模型集成(包括XGBoost、CatBoost、LightGBM、线性模型、神经网络模型等),而不是单个模型。集成子模型训练完成后,会进行超参数优化。特征工程和超参数搜索都由AutoML算法自动处理,对最终用户抽象。
集成模型训练后,用户可以在测试数据集上运行推理,或通过几次点击将模型部署为推理端点。此时,用户可以访问自动生成的可解释性报告,帮助可视化和理解数据集属性、特征归因分数、模型训练过程和性能指标。