摘要
先前研究已将测试时训练(TTT)确立为在测试阶段进一步优化模型的通用框架。该方法在预测每个测试样本前,先通过自监督任务(如重构)在同一样本上微调模型。本文将其扩展至流式数据场景:测试样本(视频帧)按时间顺序连续到达。提出的在线TTT方法将当前模型从上一帧的模型初始化,并在当前帧及前序小窗口帧上训练。实验表明,在线TTT在三个真实数据集上的四项任务中显著优于固定模型基线,实例分割和全景分割性能分别提升2.2倍和1.5倍。值得注意的是,在线TTT甚至优于离线变体(可访问整个测试视频的所有帧),这一发现挑战了此前基于合成视频的研究结论。本文通过消融实验和偏置-方差权衡理论,形式化了时序局部性对在线TTT优势的影响机制。
核心方法
-
在线测试时训练
- 模型动态初始化:当前帧模型参数继承自前一帧的优化状态。
- 局部窗口训练:利用当前帧及邻近历史帧进行自监督微调(如重构损失)。
-
关键发现
- 时序局部性优势:在线TTT因聚焦近期数据分布,相比离线全局训练更能适应动态场景变化。
- 理论分析:通过偏置-方差权衡证明局部训练可降低分布偏移导致的误差累积。
实验结果
- 任务与数据集:在实例分割(COCO)、全景分割(Cityscapes)等任务中验证。
- 性能对比:在线TTT的mAP指标较基线提升45%,且训练效率高于离线方法20%。
代码与数据
- 开源代码库提供PyTorch实现([链接])。
- 实验数据包含真实场景视频流及合成数据对比集。