适应动态场景的神经辐射场(NeRFs)技术
计算机视觉中最引人入胜的挑战之一,是通过单个移动相机的快照来理解动态场景。想象一下,从视频或不同角度拍摄的一系列快照中,数字重建繁华街道的三维场景或舞者流畅的细微动作。这将使模型能够从未见过的相机角度生成视图,放大和缩小视图,并在不同时间实例创建三维模型的快照,从而解锁对我们周围世界更深入的三维理解。
神经辐射场(NeRFs)使用机器学习将三维场景映射到三维颜色和密度场,已成为从二维图像生成三维模型的核心技术。然而,即使是NeRFs也难以建模动态场景,因为问题高度欠约束:对于一组给定的快照,多个动态场景在数学上可能是合理的,尽管其中一些可能不现实。
在人工智能促进协会(AAAI)年会上展示的一项最新突破中,引入了一种新颖方法,显著提升了捕捉和建模具有复杂动态场景的能力。这项工作不仅解决了先前的局限性,还为从虚拟现实到数字保存的新应用打开了大门。
该方法展示了在动态场景中分解时间和空间的卓越能力,使得能够更有效地建模具有变化光照和纹理条件的三维场景。本质上,将动态三维场景视为高维时变信号,并对其施加数学约束以产生现实解决方案。在测试中,观察到运动定位以及光场和密度场分离的改进,相对于现有技术,提升了可生成三维模型的整体质量和保真度。
带限辐射场
三维场景的辐射场可以分解为两种低维场:光场和密度场。光场描述了视场中每个点的光线方向、强度和能量。密度场描述了在相关点反射或发射光的体积密度。这类似于为场景的每个三维位置分配颜色值和对象放置的概率。然后,可以使用经典渲染技术轻松地从这种表示创建三维模型。
本质上,该方法将三维场景的光场和密度场建模为带限高维信号,其中“带限”意味着特定带宽之外的信号能量被过滤掉。带限信号可以表示为基函数的加权和,或描述规范波形的函数;傅里叶分解的频带是最熟悉的基函数。
想象一下,由于对象内部的动态,三维场景的状态随时间变化。每个状态可以重建为特定基函数集的唯一加权和。通过将权重视为时间的函数,可以获得时变加权和,用于重建三维场景的状态。
在这种情况下,端到端学习权重和基函数。该方法的另一个关键方面是,与NeRFs通常对整个辐射场进行建模不同,分别对光场和密度场进行建模。这使得能够独立建模对象形状或运动的变化以及光或纹理的变化。
该方法将动态三维场景的光场和密度场表示为基函数(bi(t))的加权和,其权重随时间变化。
在论文中还表明,传统的NeRF技术虽然为静态场景提供了卓越的结果,但通常在动态方面表现不佳,混淆了信号的各个方面,如光照和运动。解决方案从非刚性运动结构(NRSFM)的成熟领域汲取灵感,该领域几十年来一直在完善对运动场景的理解。
BLIRF模型可以集成来自非刚性运动结构领域的强大数学先验,例如运动的时间聚类,确保三维场景的状态随时间平滑变化,沿着非常低维的流形。
具体来说,集成了来自NRSFM的强大数学先验,例如运动的时间聚类以将其限制在低维子空间中。本质上,这确保三维场景的状态随时间平滑变化,沿着非常低维的流形,而不是经历在现实世界场景中不太可能发生的 erratic 变化。
在实验中,跨越各种动态场景,包括复杂的长程运动、光线变化和纹理变化,框架始终提供的模型不仅视觉上令人惊叹,而且细节丰富且忠实于源。观察到伪影减少、运动捕捉更准确以及整体真实感增加,纹理和光照表示的改进显著提升了模型质量。在合成和现实世界场景中严格测试了模型,如下例所示。
合成场景
在合成动态场景上,比较BLIRF(我们的方法)、地面真实(GT)和几种NeRF实现。
现实世界场景
在运动猫的现实世界图像上,比较BLIRF(我们的方法)和几种NeRF实现。
在合成三维场景新视图的任务上,比较BLIRF(我们的方法)、地面真实(GT)和四种NeRF实现。值得注意的是,BLIRF在顶部场景中处理猫的运动优于其前辈。
在涉及基本几何形状运动的合成场景上,比较BLIRF(我们的方法)、地面真实(GT)和几种NeRF实现。
随着继续完善方法并探索其应用,对革命化与数字世界交互的潜力感到兴奋,使其更加沉浸、逼真和可访问。