零样本行人意图预测技术突破

本文提出了一种基于Gemini 2.5 Pro的零样本行人意图预测方法BF-PIP,通过处理原始时序视频和多模态线索,无需重新训练即可实现73%的预测准确率,比GPT-4V基准方法提升18%,为智能交通系统提供灵活的感知方案。

零样本行人意图预测:基于原始时序视频与多模态线索的创新方法

行人意图预测在复杂城市环境下的自动驾驶中至关重要。传统方法依赖于对帧序列的监督学习,并且需要大量重新训练以适应新场景。本文介绍BF-PIP(超帧行人意图预测),这是一种基于Gemini 2.5 Pro构建的零样本方法。它直接从富含结构化JAAD元数据的短连续视频片段中推断穿越意图。

与基于离散帧操作的GPT-4V方法不同,BF-PIP处理连续的时间片段。它还通过专门的多模态提示整合边界框标注和自车速度。在没有任何额外训练的情况下,BF-PIP实现了73%的预测准确率,比GPT-4V基准方法高出18%。

这些发现表明,将时序视频输入与上下文线索相结合,可以增强时空感知能力,并在模糊条件下改进意图推断。该方法为智能交通系统中灵活、无需重新训练的感知模块铺平了道路。

会议收录:已被IEEE第三届人工智能、区块链和物联网国际会议(AIBThings 2025)接受。

研究领域:计算机视觉与模式识别(cs.CV);人工智能(cs.AI);机器学习(cs.LG)

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计