地理空间技术在全球范围内已变得至关重要。随着地理空间数据量的增加,研究人员正在探索如何将深度学习的强大能力应用于其分析。在人工智能领域,基础模型已成为一项变革性技术,在计算机视觉和自然语言处理等领域表现出色。然而,现有的图像嵌入模型在适应地理空间领域时往往表现不佳,因为自然图像与遥感数据存在固有差异。从头开始训练地理空间专用模型则资源密集、耗时且环境成本高。
在2023年国际计算机视觉会议(ICCV)上发表的论文《通过持续预训练构建地理空间基础模型》中,展示了一种在控制资源需求的同时构建更强大地理空间基础模型的方法。该方法探索了持续预训练的潜力,即通过二次预训练阶段进一步优化现有基础模型以适应特定领域。优化后的模型可以在其领域内针对各种下游任务进行微调。
在测试中,该方法在七个下游数据集上与六个基线模型进行了比较,涵盖变化检测、分类、多标签分类、语义分割和超分辨率等任务。在所有七个任务中,该方法均显著优于基线模型。
该方法通过利用大规模ImageNet表示作为构建强大地理空间模型的基础,具有提升性能的潜力。计算机视觉社区不断改进自然图像模型,为地理空间模型利用这些进步提供了持续的资源。
构建有效的基础模型始于数据选择。为预训练地理空间模型,使用了来自五个开源数据集的数据,组合成一个多样化的地理空间预训练数据集GeoPile。该数据集包含标记和未标记图像,确保地面样本距离(GSD)的多样性,包括分辨率远高于Sentinel-2(GSD为10米)的图像。
地理空间基础模型(GFM)的持续预训练采用了一种无监督、多目标的训练范式。该范式是一种教师-学生方法,使用两个并行模型分支。教师模型(FT)具有ImageNet-22k初始化的丰富知识,作为训练过程中的指导力量。学生模型(FS)从零开始,最终演变为地理空间基础模型。
这种范式实现了理想的双重优化。从教师模型的中间特征进行蒸馏确保学生模型能够受益于教师的多样化知识,在更短时间内学习更多内容。同时,学生模型通过自身的MIM预训练目标自由适应领域内数据,收集新特征以提高性能。