视频流上的测试时训练技术解析

摘要

先前研究已将测试时训练（TTT）确立为在测试阶段进一步优化模型的通用框架。该方法在预测每个测试样本前，先通过自监督任务（如重构）在同一样本上微调模型。本文将其扩展至流式数据场景：测试样本（视频帧）按时间顺序连续到达。提出的在线TTT方法将当前模型从上一帧的模型初始化，并在当前帧及前序小窗口帧上训练。实验表明，在线TTT在三个真实数据集上的四项任务中显著优于固定模型基线，实例分割和全景分割性能分别提升2.2倍和1.5倍。值得注意的是，在线TTT甚至优于离线变体（可访问整个测试视频的所有帧），这一发现挑战了此前基于合成视频的研究结论。本文通过消融实验和偏置-方差权衡理论，形式化了时序局部性对在线TTT优势的影响机制。

核心方法

在线测试时训练
- 模型动态初始化：当前帧模型参数继承自前一帧的优化状态。
- 局部窗口训练：利用当前帧及邻近历史帧进行自监督微调（如重构损失）。
关键发现
- 时序局部性优势：在线TTT因聚焦近期数据分布，相比离线全局训练更能适应动态场景变化。
- 理论分析：通过偏置-方差权衡证明局部训练可降低分布偏移导致的误差累积。

实验结果

任务与数据集：在实例分割（COCO）、全景分割（Cityscapes）等任务中验证。
性能对比：在线TTT的mAP指标较基线提升45%，且训练效率高于离线方法20%。

代码与数据

开源代码库提供PyTorch实现（[链接]）。
实验数据包含真实场景视频流及合成数据对比集。