使用学习排序技术精确定位包裹投递位置
适应信息检索的模型能够很好地处理噪声GPS输入,并可以利用地图信息。
对于送货司机来说,找到应该投放包裹的门阶可能出人意料地困难。门牌号可能被树叶遮挡,或者完全缺失;一些社区使用随意的编号系统,使得门牌号难以猜测;而多栋建筑的综合体有时共享一个单一街道地址。
在这张图中,深蓝色圆圈代表记录到同一地址的送货GPS坐标。红色圆圈是客户门阶的实际位置。取测量值的平均值(质心)会产生位于街道中间的位置(浅蓝色圆圈),使司机不确定并导致延误。
拥有客户门阶的正确经纬度坐标将使送货更高效,但该信息难以获得。当司机确认送货时,我们的应用程序会记录当前的GPS位置,该位置可能在客户的门和停在路边的送货车辆之间的任何地方。此外,在城市"峡谷"中,GPS卫星的视线严重受限,GPS测量误差可能很大。
在欧洲机器学习会议(ECML)上发表的论文中,我采用了信息检索中的一个想法——学习排序——来从过去的GPS数据预测送货位置的坐标。
在实验中,我将新方法与解决该问题的另外两种方法——质心计算和核密度估计(KDE)——进行了比较,发现新方法显著优于其前辈。在纽约州的送货数据上,新方法的误差远小于表现最佳的基线KDE。
学习排序
在信息检索的背景下,学习排序是一种从成对偏好数据中学习的方法。如果搜索引擎呈现一个排序的结果列表,仅点击第三个搜索结果隐含地提供了两个成对偏好:用户更喜欢第三个搜索结果而不是第一个结果,用户也更喜欢第三个结果而不是第二个结果。这提供了两个标记的偏好对,可以帮助训练排序模型以改进未来其他查询的搜索结果。
类似地,我训练一个排序模型从一组特定地址的候选位置中选择最佳点。对最佳位置的单个标记点击暗示了(几乎)所有候选位置对之间的偏好顺序;最接近标记位置的候选是首选。因此,每个标记点击产生的训练对数量比信息检索中多得多。基础二元分类器模型将点对作为输入,并训练以偏好更接近标记点的点。
然而,信息检索中流行的学习排序方法与我对它们的适应之间存在差异。在搜索引擎场景中,算法可能筛选数万份文档或产品以产生排名。尽管模型通过成对比较进行训练,但在推理时,它没有足够的时间将每个候选文档与所有其他文档进行比较。相反,它作为回归模型工作,独立地对每个候选进行评分,最终排名仅按分数排序。
然而,在地理空间情况下,我们通常离线计算,并且每个送货地址通常考虑少于100个足够不同的候选位置。这使得在推理时将每个候选位置与所有其他候选进行比较变得可行:我们选择赢得最多成对比较的那个。实验表明,这比从成对数据训练的回归模型(如RankNet)产生更好的结果。
我使用的主要机器学习模型是随机森林——一个从训练数据中学习的,比如30棵决策树的集合。每棵决策树对选定的一组数据属性(特征)执行一系列评估以产生分数。所有树的分数的平均值是模型对给定输入项的整体分数,表明对两个候选点之一的偏好。
实验结果
为了生成候选位置,我们首先精简过去报告的许多GPS送货位置:只有一两个点将代表一个紧密的点簇。然后我们沿着附近建筑物的面添加潜在的候选。
每个候选的特征向量包括基于其附近过去GPS测量密度的特征,以及基于附近地图数据的特征。这些包括诸如到最近街道的距离、到最近停车场的距离、到最近建筑物的距离等。除其他外,这些类型的特征帮助模型不选择在街道或停车场中间的位置,质心或KDE模型可能很容易做到这一点(如上图所示)。还有一些上下文特征也有帮助,例如过去送货的数量和附近建筑物轮廓的数量。
利用各种信息特征的能力解释了排序模型相对于基线的优势。并非所有区域都有可靠的地图数据,但我的模型性能最强的许多地址可能确实有。由于基线模型无法利用这些信息,性能差距更大。
从技术上讲,我考虑的第一个基线是一个中心点方法,它选择最接近过去GPS测量质心的候选位置。质心、中心点和几何中位数方法都犯了在多峰分布中间选择一个低密度点的错误。
KDE方法通过找到过去GPS点的密集簇来避免这一点,但通常真实门阶位于簇的边缘,而不是中间。因此,我们确实需要一种监督机器学习方法,可以利用许多不同的信号,包括来自在线地图的信息。该方法对地图不完整的地方(例如,缺少建筑物轮廓甚至道路)具有一定的弹性。
我还将新模型与一个始终选择最接近门阶真实位置的候选位置的预言机进行了比较;除非你有一个全知的候选生成器或生成所有点,否则你不会总是有一个超级接近真实标签的候选。
以下是显示新颖排序模型(GeoRank)与中心点和KDE方法、预言机以及作为上限的随机选择的性能图。它们显示了两组不同的数据,一组来自纽约州,一组来自华盛顿州。y轴是损失,所以越低越好;x轴揭示了损失的整个分布(而不是每个方法的单个标量平均值)。
可以看出,GeoRank模型显著优于基线,并与预言机相比具有优势。通过将这项工作付诸实践,我们显著提高了送货效率,为某中心的客户和某中心最后一英里的送货司机带来了好处。请阅读论文以获取更多细节。