深度学习如何减少包装浪费

本文介绍如何通过深度学习、自然语言处理和计算机视觉技术的结合,实现产品包装的智能优化。系统利用文本数据和产品图像分析,自动选择最合适的包装类型,显著减少包装材料使用,在保证产品安全的同时提升可持续性。

深度学习如何减少包装浪费

选择合适的包装来运输物品可能具有挑战性——对于拥有数亿种商品且不断变化的电商平台来说,这更是一个持续的挑战。此外,平台的规模意味着无法通过人工检查来为每个商品选择包装。出于同样的原因,通用的包装规则和普通逻辑也无法满足需求。需要的是一个能够即时适应变化环境的智能自动化机制。

幸运的是,机器学习方法——特别是深度学习——擅长处理大数据和大规模场景,自然语言处理和计算机视觉的先锋性结合使平台能够精确确定合适的包装用量。这些工具在过去六年中帮助平台推动了变革,使每批货物的包装重量减少了36%,并减少了超过100万吨的包装材料,相当于超过20亿个运输箱。

“当我2017年加入该平台时,我们进行了大量的产品物理测试,但缺乏一个可扩展的机制来评估数亿种商品,以确定每种产品的最佳包装类型,”研究科学经理Matthew Bales说。Bales也是一位物理学家,负责客户包装体验团队的机器学习工作。

“统计测试是第一步,但它们基本上只适用于产品已经以多种包装类型发货的情况。我们希望能够预测产品在保护性较弱、更轻便、更可持续的包装类型中的表现。一旦进入预测领域,就需要机器学习,”Bales解释道。

客户反馈的力量

为了预测特定产品是否可以在特定包装类型中安全运输,Bales和他的同事构建了一个机器学习模型,主要基于客户在电商平台上找到的文本数据——商品名称、描述、价格、包装尺寸等。

该模型基于数百万个成功以各种包装类型交付的产品示例进行训练,也包括在给定包装类型中损坏的产品示例。当产品包装保护不足时,平台几乎可以实时获得反馈,因为客户通过在线退货中心和其他形式的反馈(包括产品评论)进行报告。

“客户反馈至关重要,”Bales说。“它为我们所有的统计测试提供了动力。”

模型学习到某些关键词在做出包装决策时特别重要。例如,表明加垫邮件袋不是合适包装的关键词包括“陶瓷”、“杂货”、“杯子”和“玻璃”。这些产品最好用盒子运输。表明邮件袋是正确选择的关键词包括“多件装”和“袋子”。这些表明产品可能已经有某种形式的保护性包装。

“模型从电商平台学习到的部分已经很好地了解了产品是什么以及其尺寸,”Bales说。

计算机视觉的作用

这是一个重要的步骤,但自动学习产品是什么只代表了一半的战斗。同样重要的是供应商在将产品发送到履行中心之前如何包装产品。例如,一个陶瓷杯可能装在透明塑料袋中,也可能装在坚固的盒子中。

为了大规模识别产品包装,需要部署计算机视觉。机器学习团队已经知道电商平台上的产品图像在选择包装时没有帮助。例如,一个多件装LED灯泡可能用单个未包装的灯泡图片说明,表明它易碎,但多件装实际上由供应商安全包装,不需要额外的包装。最好以其原容器运输。

Bales的团队通过使用平台自身的图像数据解决了这一挑战。当产品被送到履行中心时,许多产品通过传送带穿过特殊的计算机视觉隧道,这些隧道配备了从多个角度捕捉产品图像的摄像头。这些隧道用于许多事情,包括确定产品尺寸和发现缺陷。

应用科学家Prasanth Meiyappan扩展了团队机器学习模型的训练,除了目录中的文本分类器外,还包括这些标准化的产品图像——一种多模态方法。

“我们的模型检测包装边缘以确定形状,识别穿孔、产品周围的袋子,或透过玻璃瓶的光线,”Meiyappan解释道。但在某种程度上,模型如何判断它在图像中检测到的内容对人类来说很难辨别,因为模型识别和加权的产品特征往往很复杂。

“重要的是,”Bales指出,“模型生成的包装决策在经验上是准确的。”

与仅使用文本数据相比,结合文本和视觉数据将机器学习模型的性能提高了多达30%。Bales和Meiyappan已经撰写了一篇立场论文描述他们的工作。

“当模型对给定产品的最佳包装类型确定时,我们允许它自动认证该包装类型,”Bales说。“当模型不太确定时,它会标记产品及其包装供人工测试。”该技术目前应用于北美、欧洲和日本的产品线——自动以越来越大的规模减少浪费。

“这是一个三赢,”Bales说。“减少浪费,提高客户满意度,并降低成本。”

平衡挑战

然而,为了达到这一三赢局面,团队还必须解决机器学习领域经常遇到的一个棘手挑战:类别不平衡。简而言之,问题是:如果你希望机器学习模型有效学习,理想情况下你应提供尽可能多的失败和成功示例,以便它能够有效区分两者。

用于训练模型的数据有数百万个产品/包装配对示例,但根据包装类型,这些示例中只有1%是某种方式对内部产品不合适的包装。

“在实施机器学习之前,我们已经有一段时间用信封和邮件袋运输某些产品,”Bales说。“所以,我们有很多在邮件袋中表现良好的例子,但没有很多在邮件袋中表现不佳的例子。机器学习模型对这种压倒性的不平衡有问题。”

“与包装相关的机器学习文献相当稀少,”Meiyappan说。“没有多少人在包装领域处理我们正在处理的那种数据集。一种技术在处理数据集不平衡方面的有效性既取决于领域也取决于数据集。”

因此,团队对类别不平衡问题的方法主要是实验性的。在他们应用的六种方法中——四种基于数据,两种基于算法——明显的赢家显著提高了模型准确性。那是一种基于数据的方法,称为带随机欠采样的两阶段学习,它在训练的第一阶段专注于少数类别,然后在第二阶段专注于所有数据。“在我们的立场论文中,我们与机器学习社区分享这些知识,”Bales说,“以便任何遇到类似问题的人可以尝试这种方法,看看它是否在他们的领域也有效。”

未来展望

团队表示他们渴望通过训练模型理解所有平台客户的语言,同时结合每个国家履行的独特方面来扩展该工具的使用。

虽然平台科学家继续研究其他利用机器学习消除浪费的方法,但该公司也在努力减少整个电子商务供应链中的包装浪费。例如,平台越来越多地激励其供应商自行创建优化的电子商务包装,在不影响产品保护的情况下节省空间和材料。

通过2019年共同创立并承诺的《气候宣言》,我们的目标是在2040年前在全球运营中实现净零碳排放,同时激励和邀请其他人采取行动。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计