部署Prodigy云服务支持金融聊天机器人标注
2023年2月16日 · 17分钟阅读
随着大型金融机构纷纷采用自然语言处理(NLP)技术数字化客服渠道,信用合作社和社区银行等小型机构面临跟进困难。某波士顿人工智能技术公司为此提供数字语音助理服务,专注于为金融机构开发基于真实银行对话训练的定制NLP模型。
定制化标注工作流
团队采用Prodigy构建多标注者平台,关键优势在于可定制界面设计。标注专家反馈:“传统工具需要反复滚动查看标签,选项过多导致操作困难。Prodigy允许我们自定义界面布局。”
标注流程包含三个核心环节:
- 制定标注指南并创建语料库
- 三名标注者同时进行标注,使用唯一会话ID区分
- 通过标注者间一致性(IAA)评估标注质量
管理员通过Prodigy的审查配方协调领域专家解决标注分歧,最终生成用于模型训练的黄金标准标注。
云端架构实现
团队围绕Prodigy构建定制云标注服务,包含以下技术组件:
- 部署架构:基于Google Cloud Platform的Kubernetes工作负载,通过GitLab CI/CD使用Helm部署
- 后端存储:CloudSQL实例中的PostgreSQL数据库存储标注数据,Google Cloud Storage桶管理配方配置和输入文件
- 身份验证:OAuth2服务器实现Google凭证认证
- 接口设计:FastAPI接口供标注者选择任务,管理员管理任务队列
系统支持同时运行5个以上Prodigy实例,每个标注任务在独立URL上运行。
实际应用场景
银行服务时刻分析
标注者需要判断聊天机器人是否提供有效帮助,目标是识别10亿个有效银行时刻。挑战在于客户聊天记录较长,团队通过自定义HTML模板实现全聊天记录链接跳转。
语义FAQ校准
开发自定义语义FAQ系统(SemFAQ),使用语言模型生成嵌入空间存储FAQ语句。通过余弦相似度计算用户语句与FAQ语句的匹配度,并采用标注任务校准模型。
标注中心建设
团队创建标注中心作为文档管理和开发跟踪平台,包含:
- 视频教程和最佳实践指南
- 任务定义和问题追踪器
- Prodigy功能需求清单
- Streamlit应用用于意图语料库检索
技术实践创新
界面定制实践
通过自定义HTML/CSS和Blocks功能组合界面,添加了:
- 语音转文字错误检查框
- 进度条监控功能
- 调试标记系统
- 开放式文本输入框
未来技术规划
- 生成式AI应用:通过Prodigy的OpenAI配方实现零样本/少样本学习,使用GPT-3作为后端模型生成训练数据
- 时间追踪功能:开发标注进度统计看板,实现实时队列监控和按需标注下载
- 实时验证机制:通过validate_answer回调函数检查标注一致性,使用余弦相似度标识不一致标签
|
|
技术选型考量
选择Prodigy基于以下因素:
- 简洁性与可扩展性设计
- 活跃的开发者社区(超过20,000个帖子)
- 支持快速迭代实验的开发理念
- 数据隐私保护能力
通过持续的技术优化,即使最小的合作银行也能利用团队通过NLP工作流发现的集体洞察力。