通过持续预训练构建地理空间基础模型

本文介绍了一种通过持续预训练构建地理空间基础模型的新方法,该方法利用掩码图像建模技术和教师-学生架构,在多个下游任务中显著提升性能,同时降低资源消耗和环境影响。

通过持续预训练构建地理空间基础模型

地理空间技术在全球范围内已迅速上升到至关重要的位置。通过更好地理解地球不断变化的景观及人类与环境的复杂互动,这些技术帮助我们应对复杂的全球挑战。随着地理空间数据量的增加,研究人员正在探索如何充分发挥深度学习在数据分析中的作用。

在人工智能(AI)领域,基础模型已成为一种变革性技术,在计算机视觉和自然语言处理等领域提供无与伦比的性能。然而,当现有的图像嵌入模型适应地理空间领域时,由于自然图像和遥感数据之间的固有差异,它们往往表现不佳。另一方面,从头开始训练地理空间特定模型资源密集、耗时且环境成本高。

在2023年国际计算机视觉会议(ICCV)上发表的近期工作中,展示了一种在控制资源需求的同时构建更强大地理空间基础模型的方法。与常规方法不同,探索了持续预训练的潜力,该方法涉及通过二次预训练阶段进一步优化现有基础模型以适应特定领域。优化后的模型可以在其领域内针对各种下游任务进行微调。

在测试中,将该方法与七个下游数据集上的六个基线进行了比较,涵盖变化检测、分类、多标签分类、语义分割和超分辨率等任务。在所有七个任务中,该方法均显著优于基线。

GeoPile数据构建

构建有效的基础模型始于数据选择。预训练地理空间模型的常见选择是来自Sentinel-2卫星的数据。然而,仅仅拥有大量此类图像是不够的。

为了预训练地理空间模型,使用了已成为基础模型标准的自监督类型:在称为掩码图像建模(MIM)的过程中,掩盖输入图像的元素,模型学习填充它们。但在这种背景下,Sentinel-2数据缺乏复杂性和可变性,可能使重建任务过于简单。

为了应对这一挑战,结合了来自五个开源数据集的数据(包括标记和未标记图像),生成多样化的地理空间预训练数据,称为GeoPile。为了纹理细节,确保了各种地面采样距离(GSD),包括分辨率远高于Sentinel-2捕获的图像(GSD为10米)。此外,标记数据集涵盖来自一般遥感场景的各种图像类别,确保样本之间的视觉多样性。

地理空间基础模型的持续预训练

先前许多关于地理空间基础模型(GFM)的研究忽略了现有的自然图像模型。相反,认为利用这些模型中编码的知识应该以最小开销产生强大的性能。为此,提出了一种无监督、多目标的训练范式,用于有效且高效地预训练地理空间模型。

GFM持续预训练范式是一种教师-学生方法,使用两个并行模型分支。教师(FT)具备ImageNet-22k初始化的权重知识,并在训练过程中充当指导力量。学生(FS)从零开始,最终演变为地理空间基础模型。

这种范式实现了理想的双重优化。从教师中间特征进行蒸馏确保学生可以从教师的多样化知识中受益,在更短的时间内学习更多。同时,学生通过自己的MIM预训练目标自由适应领域内数据,收集新特征以提高性能。

该方法有潜力通过使用大规模ImageNet表示作为构建强大地理空间模型的基础来增强性能。计算机视觉社区不断改进自然图像模型,提供了持续改进的基线模型来源。该方法为地理空间模型以最小资源消耗利用这些进步打开了大门,最终为地理空间社区带来可持续的益处。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计