动态场景神经辐射场自适应技术解析

本文介绍了一种改进神经辐射场处理动态场景的新方法,通过将光场和密度场表示为基函数的加权和,并随时间调整权重,有效提升了运动捕捉、纹理和光照建模的精度,在合成和真实场景测试中均表现出优越性能。

适应动态场景的神经辐射场技术

计算机视觉中最引人入胜的挑战之一是通过单个移动相机的快照来理解动态场景。想象一下,从视频或不同角度拍摄的一系列快照中,数字重建一个繁华街道场景的三维模型,或舞者流畅动作的细微变化。这将使模型能够从未见过的相机角度生成视图,放大和缩小视图,并在不同时间实例创建三维模型的快照,从而解锁对我们周围世界更深入的三维理解。

神经辐射场(NeRFs)利用机器学习将三维场景映射到三维颜色和密度场,已成为从二维图像生成三维模型的核心技术。然而,即使是NeRFs也难以建模动态场景,因为这个问题高度欠约束:对于一组给定的快照,多个动态场景在数学上可能是合理的,尽管其中一些可能不现实。

在人工智能促进协会(AAAI)年会上展示的一项最新突破中,我们引入了一种新方法,显著提升了我们捕捉和建模具有复杂动态场景的能力。我们的工作不仅解决了先前的局限性,还为从虚拟现实到数字保存的新应用打开了大门。

我们的方法展示了在动态场景中分解时间和空间的卓越能力,使我们能够更有效地建模具有变化光照和纹理条件的三维场景。本质上,我们将动态三维场景视为高维时变信号,并对它们施加数学约束以产生现实解。在测试中,我们看到了运动定位以及光场和密度场分离的改进,相对于现有技术,提升了我们能够生成的三维模型的整体质量和保真度。

带限辐射场

三维场景的辐射场可以分解为两种低维场:光场和密度场。光场描述了视场中每个点的光线方向、强度和能量。密度场描述了在相关点反射或发射光的任何物体的体积密度。这类似于为场景的每个三维位置分配颜色值和物体放置的概率。然后,可以使用经典渲染技术轻松地从这种表示创建三维模型。

本质上,我们的方法将三维场景的光场和密度场建模为带限的高维信号,其中“带限”意味着特定带宽之外的信号能量被过滤掉。带限信号可以表示为基函数的加权和,或描述规范波形的函数;傅里叶分解的频带是最熟悉的基函数。

想象一下,由于场景内物体的动态,三维场景的状态随时间变化。每个状态都可以重建为特定基函数集的唯一加权和。通过将权重视为时间的函数,我们可以获得时变加权和,用于重建三维场景的状态。

在我们的案例中,我们端到端地学习权重和基函数。我们方法的另一个关键方面是,与通常建模整个辐射场的NeRFs不同,我们分别建模光场和密度场。这使我们能够独立建模物体形状或运动以及光或纹理的变化。

在我们的论文中,我们还展示了传统的NeRF技术虽然为静态场景提供了卓越的结果,但在处理动态时常常失败,混淆了信号的各个方面,如光照和运动。我们的解决方案从非刚性运动结构(NRSFM)这一成熟领域汲取灵感,该领域几十年来一直在完善我们对运动场景的理解。

具体来说,我们集成了来自NRSFM的强大数学先验,例如运动的时间聚类,将其限制在低维子空间中。本质上,这确保了三维场景的状态随时间平滑变化,沿着非常低维的流形,而不是发生不太可能在现实世界场景中出现的 erratic 变化。

在我们的实验中,跨越各种具有复杂、长程运动、光照变化和纹理变化的动态场景,我们的框架 consistently 交付的模型不仅视觉上令人惊叹,而且细节丰富且忠于其来源。我们观察到伪影减少、运动捕捉更准确、整体真实感增加,纹理和光照表示的改进显著提升了模型质量。我们在合成和真实世界场景中严格测试了我们的模型,如下例所示。

随着我们继续完善我们的方法并探索其应用,我们对革新我们与数字世界交互方式的潜力感到兴奋,使它们更加沉浸、逼真和易于访问。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计