机器学习团队如何用技术创新服务全球客户

如何通过机器学习技术创新服务全球客户

作为某中心印度机器学习副总裁，Rajeev Rastogi带领团队开发的技术创新不仅影响印度消费者，更惠及全球客户。例如，印度团队开发的模型被全球用于提升商品目录质量，确保所有产品的图片与标题匹配。此外，在搜索排名中加入配送速度特征——这一帮助用户在搜索结果中看到"更快"选项的关键因素——最初就是在某中心印度率先推出的。

科学如何改善购物体验

印度市场具有多重特殊性：超过6亿网民，其中85%的流量来自各式移动设备。由于信号塔拥堵和切换，移动用户常遇到网速波动问题。

团队开发了预测模型，通过设备特征、信号塔信息和请求延迟等标准识别网络状况不佳的用户。对此类用户提供自适应体验，展示更易浏览的简化页面。

面对22种语言和19500种方言的多样性，团队在搜索中添加了"区域销量"特征，使搜索结果能呈现地区性热门商品。例如古吉拉特邦用户搜索纱丽时可能想看"Bandhani"，而卡纳塔克邦用户则可能寻找"Mysore Silk"。

地址不规范是另一个挑战。团队开发了基于机器学习的"地址可投递性评分"系统，在创建地址时就能识别并拦截质量差、不完整的地址。

商品目录质量方面，团队使用多种深度学习模型从商品标题和图片中提取属性（如颜色），并补全缺失信息。其中采用注意力机制让卷积神经网络聚焦于图像中需要提取颜色的区域。半监督学习技术的运用大幅减少了对标注数据的依赖。

通过科学实现可持续发展

某中心承诺2040年实现碳中和，比巴黎协定提前十年。科学在实现这一目标的创新中扮演关键角色。

团队在欧洲机器学习会议上提出了确定产品最佳包装方式的新模型。错误包装不仅浪费资源、损害环境，还会增加包装和赔偿成本。

由于缺乏真实数据以及需要保持顺序性（更便宜的包装选项应预测更高的损坏概率），标准机器学习方法难以直接应用。团队开发了线性模型，通过对模型参数精心设计的约束来保持顺序性，并通过数据增强进一步强化这一特性。

该模型已应用于数十万个包裹，显著减少了运输损坏，同时降低了运输成本。

疫情中的科学创新

疫情爆发后，团队开发了名为CRISP的概率图模型，通过个体间接触追踪COVID-19传播。该模型基于SEIR（易感-暴露-感染-移除）方法，考虑了接触持续时间、距离和地点等因素。

团队还开发了块吉布斯采样算法来推断每个个体的潜在感染状态，以及蒙特卡洛期望最大化算法来推断每次接触的传播概率。

运营团队建立了虚拟取件点，为隔离公寓楼的客户配送包裹。通过地址分割机器学习模型从客户输入的配送地址中提取公寓楼名称，然后向这些客户发送电子邮件通知新功能。宣布虚拟取件点的邮件打开率超过50%。

八年来，团队始终致力于通过科学研究改善全球数百万人的生活。