地理空间基础模型的持续预训练技术

本文介绍了一种通过持续预训练构建地理空间基础模型的新方法,该方法利用ImageNet预训练模型,结合多源地理空间数据GeoPile,采用师生网络架构和掩码图像建模技术,在七类下游任务中显著提升性能的同时降低资源消耗。

通过持续预训练构建地理空间基础模型

地理空间技术在全球范围内已上升到至关重要的地位。通过更好地理解地球不断变化的景观及人类与环境的复杂互动,这些技术帮助我们应对复杂的全球挑战。随着地理空间数据量的增长,研究人员正在探索如何充分发挥深度学习在数据分析中的作用。

在人工智能领域,基础模型已成为变革性技术,在计算机视觉和自然语言处理等领域提供卓越性能。然而,当现有图像嵌入模型适配到地理空间领域时,由于自然图像与遥感数据之间的固有差异,往往表现不佳。另一方面,从头开始训练地理空间专用模型需要大量资源、时间且环境成本高昂。

在2023年国际计算机视觉会议(ICCV)上发表的研究中,展示了一种在控制资源需求的同时构建更强大地理空间基础模型的方法。不同于常规方法,该研究探索了持续预训练的潜力,即通过二次预训练阶段进一步优化现有基础模型以适应特定领域。优化后的模型可在其领域内针对各种下游任务进行微调。

在测试中,该方法在七个下游数据集上与六个基线模型进行比较,涵盖变化检测、分类、多标签分类、语义分割和超分辨率等任务。在所有七项任务中,该方法均显著优于基线模型。

技术方法

GeoPile数据构建

有效的模型始于数据选择。预训练地理空间模型的常见选择是Sentinel-2卫星数据,但仅拥有大量此类图像并不足够。研究结合五个开源数据集(包含标注和未标注图像)构建了多样化地理空间预训练数据集GeoPile。为确保纹理细节,研究涵盖了多种地面采样距离(GSD),包括分辨率远高于Sentinel-2(GSD为10米)的图像。标注数据集包含来自通用遥感场景的多种图像类别,确保样本间的视觉多样性。

持续预训练范式

研究提出无监督多目标训练范式,采用师生网络架构。教师网络(FT)承载ImageNet-22k初始化的权重知识,在训练中起指导作用;学生网络(FS)从零开始,最终演变为地理空间基础模型。该范式通过投影器和解码器(多层感知机)处理数据,结合中间特征的余弦相似度损失(Lfeat)和重建像素的L1损失(LMIM)实现双重优化:既通过教师特征蒸馏使学生受益于先验知识,又通过掩码图像建模(MIM)目标自适应学习领域新特征。

性能优势

该方法以大规模ImageNet表示为基拙构建鲁棒地理空间模型,使地理空间社区能够以最小资源消耗利用计算机视觉领域的最新进展,实现可持续发展。实验结果表明,该方法在所有七项任务中均显著超越基线模型。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计