生成式AI与计算机视觉提升商品质检

某中心通过融合生成式AI与计算机视觉技术,在物流中心部署成像隧道系统,实现商品缺陷自动检测。该系统结合光学字符识别、多模态大语言模型分析图像与客户反馈,可识别包装损坏、标签错误等问题,从源头提升订单准确率。

生成式AI与计算机视觉在商品质检中的创新应用

某中心通过结合生成式人工智能和计算机视觉成像隧道技术,主动提升客户体验。尽管某中心物流中心存储数亿商品,客户报告损坏商品的情况极少,但团队仍致力于在交付前发现并移除有缺陷的商品。

技术架构与实现

计算机视觉检测系统

在北美物流中心,商品(从狗粮、手机壳到T恤和书籍)通过成像隧道进行多用途处理,包括按目的地分拣。该系统扩展至使用人工智能检测单个商品缺陷:

  • 光学字符识别(OCR)技术检查产品包装有效期,确保不过期商品发给客户
  • 计算机视觉(CV)模型通过产品目录参考图像和实际发货图像训练,检测如书籍封面弯曲等损坏迹象

多模态生成式AI突破

最新解决方案利用生成式AI处理多模态信息的能力:

  • 合成物流过程中捕获的图像证据
  • 结合书面客户反馈触发快速纠正措施
  • 该项目代号"P.I."(私人调查员),旨在使用侦探式工具集发现缺陷及其根本原因

缺陷检测工作流

机器学习模型集成

项目P.I.衍生自某中心产品质量计划,科学家团队开发包含机器学习模型的工具系统:

  • OCR模型在库存到达时检查标签信息,与数据库信息比对
  • 发现异常(如狗粮保质期早于数据库日期)时隔离并检查货盘
  • 检测到单品缺陷时,调查是否属于缺陷批次并隔离整批商品

客户反馈增强训练

尽管团队尽力,部分质量问题仍在商品交付后通过客户退货反馈显现。团队追踪产品批次、验证问题、下架商品并通知卖家。为提前发现问题,团队利用隧道图像更早识别缺陷商品,在包装发货前采取针对性措施。

技术挑战与解决方案

精准缺陷识别

初期挑战在于训练CV模型准确识别缺陷。团队采用集成方法:

  • 结合自监督模型与监督Transformer模型(使用注意力机制的神经网络架构)
  • 通过学习正常订单对应的"正确"产品外观,比较待包装商品与"正常"图像的差异度

细粒度缺陷检测

为识别T恤尺码错误或包装盒弯曲等细节问题,团队利用客户反馈训练多种ML模型:

  • 使用带标签的详细数据 refine 模型
  • 针对性聚焦需识别区域,使模型学习更精细细节

生成式AI的应用扩展

多模态大语言模型(MLLM)

科学团队利用生成式AI突破使产品缺陷检测更可扩展和稳健:

  • 部署MLLM识别损坏类型(如密封破损、包装撕裂、书籍封面弯曲)
  • 以自然语言报告检测到的损坏
  • MLLM具备零样本学习能力,可识别训练中未见的损坏模式

统一解决方案优势

传统CV技术需为每种损坏场景训练独立模型,导致数十至数百个模型的不可扩展集成。MLLM作为单一可扩展统一解决方案,提供超越经典计算机视觉的新能力。

根因分析系统

团队近期投产生成式AI系统,使用MLLM调查负面客户体验的根本原因:

  1. 系统审核客户反馈的问题
  2. 分析隧道采集的商品图像和其他数据源确认根因 例如:客户订购双人床单却收到特大号床单时,系统交叉参考反馈与物流中心图像,询问"产品标签是否可见?"、“标签显示特大号还是双人?“等问题。

视觉语言模型查看图像,提取标签文本并回答问题。LLM将答案转换为通俗易懂的调查摘要。LLM与视觉语言模型协同分析多来源、多模态数据,触发视觉语言模型完成所有验证任务。

实施成果与未来方向

实际部署效果

自2022年5月起,产品质量团队在北美多个物流中心使用成像隧道推出单品缺陷检测解决方案。系统每月处理数百万件商品,准确识别过期商品以及颜色或尺寸错误等问题。

未来目标

团队旨在通过本地图像处理实现近实时产品缺陷检测:

  • 缺陷商品可从传送带取下
  • 自动订购替换商品
  • 消除对物流流程的中断

可持续发展效益

拦截错误或有缺陷商品意味着更少退货,减少往返运输开销,同时提供更好客户体验。

持续挑战与研究方向

模型优化需求

在全网络无缝集成这些解决方案需精炼AI模型,例如:

  • 解析缺陷误判与实际缺陷的能力(如"生产日期"与"过期日期"混淆)
  • 适应各物流中心和地区的独特细微差别(如搬运箱尺寸颜色)
  • 跨多种语言的数据提取能力

数据扩展应用

团队积累的数据显示缺陷有时源于物流中心外部问题(如承运商问题)。团队还计划向卖家更便捷提供缺陷数据,帮助预防错误重演。

通过收集的数据和创建的AI模型,最终将使客户和销售伙伴共同受益。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计