自动驾驶预测系统技术解析

本文深入解析某机构自动驾驶系统如何通过传感器融合、卷积神经网络和图神经网络技术,实现对未来8秒内车辆、行人等动态物体轨迹的精准预测,确保行车安全决策。

某机构自动驾驶系统如何实现全场景实时预测

我们人类常常感叹无法预测未来,但在短期预测方面其实拥有非凡能力。城市驾驶就是一个很好的例子 - 当你驾车穿行时,大脑会持续预测周围环境的变化:“那辆车可能要变道”、“那个行人可能要走上马路”、“停着的车辆前轮转动了,可能要启动”。

这种预测能力在你从A点到B点的行程中,为你、乘客和周围所有人创造了一个保护缓冲区。这种广泛而微妙的能力在现实机器人应用中极难复制。

然而,某机构团队在这方面取得了显著成功。通过整合尖端硬件、传感器技术和定制机器学习方法,开发出的自动驾驶出租车能够预测周围车辆、行人甚至动物未来长达8秒的轨迹 - 这为车辆做出明智安全的驾驶决策提供了充足时间。

“预测未来 - 即场景中其他参与者的意图和移动 - 是安全自动驾驶的核心组成部分,“某机构预测团队总监表示。

感知、预测、规划的三步流程

某机构驾驶系统核心的AI堆栈主要包括三个顺序流程:感知、预测和规划。这三个步骤分别对应:观察世界及周围一切物体的当前移动状态,预测它们接下来的移动方式,以及根据这些预测决定如何从A点移动到B点。

感知团队从车辆的数十个传感器收集高分辨率数据,包括视觉摄像头、激光雷达、雷达和长波红外摄像头。这些安装在车辆四个角落高处的传感器提供了重叠的360度视野,可延伸至百米开外。借用流行说法:这辆车能够同时看到所有方向的一切。

自动驾驶出租车已经包含了环境的详细语义地图(称为某机构道路网络),这意味着它了解当地基础设施、道路规则、限速、交叉口布局、交通信号位置等所有信息。

感知系统快速识别并分类场景中的其他车辆、行人和骑行者(统称为"参与者”),并关键地跟踪每个参与者的速度和当前轨迹。这些数据随后与某机构道路网络结合,为车辆提供对环境极其详细的理解。

在将这些组合数据传递给预测系统之前,它们会立即被简化为精华,转换为适合机器学习的格式。为此,预测系统最终操作的是一个自上而下、空间精确的图形描绘,展示了车辆及其环境中所有相关动态和静态方面:一个以自动驾驶出租车为中心、机器可读的场景鸟瞰图。

“我们将所有内容绘制成2D图像,提供给卷积神经网络,由它确定哪些距离重要,哪些参与者之间的关系重要等,“总监解释道。

从数据丰富的图像中学习

虽然人类可以理解这张地图的要旨,比如场景中所有车辆(用方框表示)和行人(用不同、更小的方框表示)的相对位置,但它并非为人类消费而设计。

“这不是RGB图像。它约有60个通道或层,还包括语义信息,“高级软件工程师指出。“例如,由于使用手机的行人往往行为不同,我们可能有一个通道将持手机的行人表示为'1’,无手机的行人表示为'0’。”

从这个数据丰富的图像中,机器学习系统为场景中每个动态参与者生成潜在轨迹的概率分布,从卡车到在人行横道附近徘徊的宠物狗都包括在内。

这些预测不仅考虑每个参与者的当前轨迹,还包括诸如汽车在特定道路布局上的预期行为、交通信号灯状态、人行横道运作等因素。

这些预测通常可达到未来约8秒,但随着感知系统不断提供新信息,它们每十分之一秒就会重新计算一次。

这些加权预测被传递给AI堆栈的规划部分 - 车辆的决策执行者 - 帮助某机构车辆决定如何安全操作。从感知到规划,整个过程都是实时进行的;如有需要,这辆自动驾驶出租车拥有闪电般的反应速度。

利用图神经网络

虽然完美预测本质上是不可能的,但团队目前正从多个方面采取措施,将车辆的预测能力提升到新水平,首先是利用图神经网络方法。

“将图神经网络视为一个消息传递系统,场景中的所有参与者和静态元素都相互连接,“预测团队的高级软件工程师表示。“这使得能够显式编码场景中所有参与者之间的关系,以及某机构车辆与它们的关系,以及这些关系未来可能如何发展。”

举个日常例子:想象你走在长廊中央,看到一个陌生人也在长廊中央朝你走来。看到彼此的行为实际上传递了一个默契信息,很可能导致你们都稍微调整路线,这样当你们相遇时就不会碰撞或需要急转弯。这是人类的天性。

因此,这种图神经网络方法能够预测某机构车辆周围参与者之间更自然的行为,因为算法通过对某机构大量真实道路数据的训练,能够更好地模拟现实世界中行人或车辆如何相互影响行为。

预测准确性的持续提升

预测团队提高准确性的另一种方法是接受这样一个事实:你作为驾驶员的行为会影响其他驾驶员,而这反过来又会影响你。例如,如果你从停放的车辆中稍微驶入繁忙交通,后面上来的驾驶员可能会减速或停车让你出来,或者他们可能直接开过去,迫使你等待更好的机会。

“预测不是在真空中发生的。其他人的行为取决于他们世界的变化方式。如果你在预测中没有捕捉到这一点,就是在限制自己,“总监表示。

下一步工作

目前正在进行的工作是将预测与规划更深度地集成,创建一个反馈循环。规划系统现在可以与预测系统进行这样的交互:“如果我执行行动X、Y或Z,我周围的参与者在每种情况下可能会如何调整他们自己的行为?”

通过这种方式,某机构自动驾驶出租车将变得更加自然,更擅长与其他车辆协商,同时为乘客创造更顺畅的乘坐体验。

“我和团队几年前开始研究这种新模式,当时只是一个研究项目,“高级软件工程师表示,“现在我们专注于它的集成,解决所有问题,减少延迟,使其为生产做好准备。”

某机构自动驾驶出租车预测能力的日益复杂化,是专注于此的团队明显的自豪源泉。

“我在这个团队已经五年多了。我见证了预测从仅用三个源代码文件实现基本启发式轨迹预测,发展到如今处于深度学习的前沿。一切发展速度令人难以置信,“高级软件工程师表示。确实,按照这个速度,某机构自动驾驶出租车最终可能成为道路上最有预见的车辆。不过这个预测附带通常的警告:没有人能完美预测未来。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计