构建地理空间基础模型的持续预训练方法
地理空间技术已在全球范围内占据重要地位。通过更好地理解地球不断变化的景观及我们与环境的复杂互动,这些技术帮助我们应对复杂的全球挑战。随着地理空间数据量的增加,研究人员正在探索如何将深度学习的全部力量应用于其分析。
在人工智能领域,基础模型已成为变革性技术,在计算机视觉和自然语言处理等领域提供无与伦比的性能。然而,当现有的图像嵌入模型适应地理空间领域时,由于自然图像和遥感数据之间的固有差异,它们往往表现不佳。另一方面,从头开始训练地理空间特定模型资源密集、耗时且环境成本高。
在我们发表于2023年国际计算机视觉会议的工作中,我们展示了如何在控制资源需求的同时构建更强大的地理空间基础模型。我们探索了持续预训练的潜力,这涉及通过二次预训练阶段进一步优化现有的基础模型以适应特定领域。优化后的模型可以在其领域内针对各种下游任务进行微调。
在测试中,我们将我们的方法与六个基线在七个下游数据集上进行了比较,涵盖变化检测、分类、多标签分类、语义分割和超分辨率等任务。在所有七项任务中,我们的方法显著优于基线。
GeoPile数据集
构建有效的基础模型始于数据选择。预训练地理空间模型的常见选择是来自Sentinel-2卫星的数据。然而,仅仅拥有大量此类图像是不够的。
为了预训练我们的地理空间模型,我们使用已成为基础模型标准的自监督类型:在称为掩码图像建模的过程中,我们掩码输入图像的元素,模型学习填充它们。但在这种背景下,Sentinel-2数据中复杂性和可变性的缺乏可能使重建任务过于简单。
为了应对这一挑战,我们结合了五个开源数据集的数据——包括标记和未标记图像——生成了多样化的地理空间预训练数据集,我们称之为GeoPile。对于纹理细节,我们确保了各种地面采样距离,包括比Sentinel-2捕获的图像分辨率高得多的图像。此外,标记数据集涵盖了来自一般遥感场景的各种图像类别,确保了样本间的视觉多样性。
地理空间基础模型的持续预训练
许多先前关于地理空间基础模型的研究忽视了现有的自然图像模型。相反,我们推断利用这些模型中编码的知识应该能以最小开销产生强大的性能。为此,我们提出了一种无监督、多目标的训练范式,用于地理空间模型的有效和高效预训练。
我们的GFM持续预训练范式是一种教师-学生方法,使用两个并行模型分支。教师网络具备ImageNet-22k初始化的重量级知识,并在训练期间充当指导力量。学生网络从零开始,最终演变为最终的地理空间基础模型。
这种范式实现了理想的双重优化。从教师中间特征的蒸馏确保学生能够受益于教师的多样化知识,用更少的时间学习更多。同时,学生通过自己的MIM预训练目标获得适应域内数据的自由,收集新特征以提高性能。