融合生成式AI与计算机视觉的产品质检技术
技术方案概述
通过结合生成式人工智能和计算机视觉成像隧道技术,某机构正在主动改善客户体验。尽管某中心履约中心存储着数亿商品,但客户报告损坏商品的情况极为罕见。基于客户至上的文化理念,技术团队持续致力于在问题商品送达客户前进行拦截。
核心技术架构
计算机视觉检测系统
在北美多个履约中心内,从狗粮、手机壳到T恤和书籍等商品均需通过成像隧道进行多维度检测。系统扩展了人工智能检测单个商品缺陷的功能:
- 光学字符识别(OCR)技术检测产品包装有效期,确保不过期商品发给客户
- 计算机视觉(CV)模型通过商品目录参考图像和实际发货图像进行训练,检测如书籍封面弯曲等损坏迹象
多模态生成式AI突破
最新突破性解决方案利用生成式AI处理多模态信息的能力:
- 合成履约过程中捕获的图像证据
- 结合客户书面反馈触发快速纠正措施
- 该项目代号"P.I."(私人调查员),旨在使用侦探式工具集发现缺陷及其根本原因
缺陷检测工作流
机器学习模型集成
项目团队开发包含机器学习模型的工具系统:
- OCR模型在库存到达时检查标签信息,与数据库信息比对
- 发现日期不匹配时隔离并检查整批商品
- 采用集成方法结合自监督模型与监督Transformer模型
客户反馈增强训练
当商品质量问题在交付后被发现时:
- 团队追踪商品批次并验证问题
- 从货架移除问题商品并退款
- 利用客户反馈训练多种ML模型识别细微缺陷
生成式AI技术实现
多模态大语言模型(MLLM)
科学团队利用生成式AI突破使缺陷检测更可扩展和稳健:
- 训练MLLM识别破损密封、撕裂包装和弯曲书封面等损坏
- 以自然语言报告检测到的损坏情况
- 实现零样本学习能力,识别训练中未见的损坏模式
视觉-语言协同分析
系统使用MLLM调查负面客户体验的根本原因:
- 分析客户反馈问题
- 检查隧道采集的商品图像和其他数据源
- LLM与视觉语言模型协同分析多源多模态数据
- LLM触发视觉语言模型完成所有验证任务
实施成果与未来规划
实际部署效果
自2022年5月起,在北美多个履约中心部署商品级缺陷检测解决方案:
- 每月处理数百万件通过隧道的商品
- 准确识别过期商品和颜色尺寸错误等问题
技术演进方向
未来目标包括实现本地图像处理的近实时缺陷检测:
- 缺陷商品从传送带自动移除
- 自动订购替换商品
- 减少退货带来的可持续发展效益
技术挑战与解决方案
模型优化需求
在全网络无缝集成解决方案需要精炼AI模型:
- 解析缺陷误判与实际缺陷的区别
- 适应各履约中心和地区的独特细微差别
- 多语言数据提取能力提升
数据应用扩展
团队计划使销售合作伙伴更易获取缺陷数据:
- 提供库存可视性支持
- 提供更精确的退货根本原因分析
- 通过数据收集和AI模型创建使客户和销售伙伴受益