自然语言驱动的数据科学AI助手技术解析

开发基于AI的预测模型通常需要数据科学专业知识、熟悉机器学习算法以及对业务背景的深刻理解。数据科学应用的完整开发周期——从数据采集到模型训练和评估——可能需要数天甚至数周时间。

某中心Q开发者于2024年re:Invent大会上推出测试版，并于2025年2月28日正式发布。这款生成式AI助手让客户仅使用自然语言就能在几分钟内构建和部署ML模型，无需任何ML专业知识。Q开发者采用聊天机器人形式，客户可以描述业务问题并附加相关数据集。

描述业务问题后，客户可以选择现有数据集；从S3、Redshift、SQL或Snowflake创建新数据集；或直接上传本地CSV文件。数据集应为表格格式，包含目标列（待预测列）和一组特征列。如果问题涉及时间序列预测，表格数据集还应包含时间戳列。

提供数据集后，某中心Q开发者将指导客户完成ML模型构建过程，同时让客户控制ML工作流程的每个步骤。Q开发者助手是一个代理系统，即能够代表客户自主行动的系统。大型语言模型作为客户与代理之间的主要接口，随着对话进行，代理将中间发现存储在非易失性内存块中。

内存块实现为依赖图，每个节点代表问题变量，如问题类型、评估指标或目标列。依赖图结构帮助代理推断缺失变量，这些变量对构建ML模型是必需的。

某中心Q开发者自动从问题描述中识别适当的ML任务类型——二元/多元分类、回归或时间序列预测——并为ML任务建议适当的损失函数。为帮助用户导航数据准备、模型构建和ML训练步骤，代理会建议几个最可能的后续操作，以按钮形式显示。

收集所有必需输入后，某中心Q开发者在后端构建数据预处理管道，并准备集成模型进行训练。在预处理期间，代理修复遇到的任何数据集问题，为训练高质量ML模型做准备。此步骤包括数据清理、分类特征编码、异常值处理和重复行/列移除。

此外，在整个对话过程中，用户可以通过DataWrangler进行高级分析和可视化，提出关于数据集的后续问题或深入了解模型指标和特征重要性。

为最大化预测质量，某中心Q开发者使用AutoML方法训练ML模型集成（包括XGBoost、CatBoost、LightGBM、线性模型、神经网络模型等），而不是单个模型。集成子模型训练完成后，会进行超参数优化。特征工程和超参数搜索都由AutoML算法自动处理，对最终用户抽象。

集成模型训练后，用户可以在测试数据集上运行推理，或通过几次点击将模型部署为推理端点。此时，用户可以访问自动生成的可解释性报告，帮助可视化和理解数据集属性、特征归因分数、模型训练过程和性能指标。