重建动态场景一直是计算机视觉中的一个棘手问题。不同于静态场景只需处理空间维度,动态场景还需同时考虑时间维度的变化。这就像要同时拍摄和还原一个魔术表演的每个细节,不仅要看清魔术师的手法,还要捕捉物体在不同时刻的状态变化。 传统的动态场景重建方法通常采用分步策略,先重建几何结构,再学习运动表示,接着进行纹理映射和光照估计。这种"流水线"式的处理方式虽然直观,但各环节的错误会逐步累积。就像搭积木一样,如果底层积木放歪了,上面搭建的整个结构都会不稳定。 2020年,一项被称为神经辐射场(NeRF)的技术引起了广泛关注。NeRF使用多层感知器网络学习场景的几何和外观特征,通过对射线上采样点的体积渲染实现逼真的新视角合成。这一技术在静态场景重建领域带来了革命性进展,一时间成为研究热点。 NeRF使用的关键技术是体积渲染。它沿着从相机发出的每条射线采样多个点,预测每个点的颜色和密度,然后将这些信息累积起来确定最终的像素颜色。这种渲染技术使得网络可以通过最小化渲染图像与真实图像之间的差异来学习场景的隐式表示。 然而,NeRF及其变种在处理动态场景时面临严峻挑战。密度表示虽然灵活,但自由度过高,容易导致"漂浮物"和模糊边界等伪影。更关键的是,动态场景重建是一个高度不适定的问题,尤其是从单目RGB视频重建4D场景时,需要同时重建几何和场景动态,难度倍增。 符号距离函数(SDF)作为一种几何表示方法,近年来在高保真3D表面重建中得到广泛应用。与密度表示相比,SDF明确定义了表面位置,更适合精确的几何重建。SDF的值表示空间中任意点到最近表面的带符号距离,符号指示点是在表面内部(负)还是外部(正)。 SDF学习的关键组成部分是Eikonal损失,它确保SDF的梯度范数为1,这不仅对表面有效,而且对整个空间都施加了强有力的正则化约束。这种正则化特性使得SDF在几何建模方面表现出色,特别是在处理表面细节时。 在动态场景中应用SDF面临的主要困难是如何处理随时间变化的表面。一种流行的策略是将4D空间分解为静态几何/纹理(规范模型)和变形,以将物理约束嵌入到4D表示中。但这种分解本身是个不适定问题,容易受到拓扑变化和光照变化的影响,需要特殊设计的能量最小化项来保持训练稳定性。 表面时空正则化 针对动态场景重建中的各种问题,4DRegSDF方法提出了一种创新的空间时间表面正则化算法。该方法的核心思想是在可变形的符号距离函数上施加局部刚性约束,以实现时间一致性。 4DRegSDF的关键创新在于其三步骤的正则化过程:首先,沿着SDF最陡峭的方向采样表面点;其次,提取每个采样点处的微分表面几何特性,如切平面或曲率;最后,调整不同时间戳上的局部刚性。这种方法使动态表面正则化能够通过3D规范空间更准确地对齐4D时空几何。 与许多需要额外信息(如流场或深度预测)的方法不同,4DRegSDF只需要视频中的姿态图像帧作为输入,大大简化了系统设计并提高了效率。系统的核心是一个可变形的符号距离函数,它接受变形空间中的点p和时间t作为输入,预测颜色c、SDF值s和变形增量Δp。 在技术实现上,4DRegSDF采用了与NeuS相同的体积渲染方程,但在表示方式和正则化策略上有显著创新。该方法使用SDF值s推导出不透明度α,然后进行体积渲染计算每条射线的颜色。系统通过最小化渲染图像与真实图像之间的光度损失来训练网络。 空间时间表面正则化是4DRegSDF的核心创新。该方法采用三种正则化策略来增强视频中可变形符号距离函数的学习:曲率的总变分、时空中的绝对曲率以及Eikonal损失。前两种正则化旨在限制由运动引起的曲率变化量并平滑4D重建,消除不必要的扭结;第三种正则化确保SDF梯度的有效性。 在实现空间时间正则化时,采样策略尤为关键。与沿射线采样点的常规方法不同,4DRegSDF需要在物体表面采样点进行表面约束。为此,它利用SDF的定义进行表面采样,通过梯度步骤向最近的表面移动随机初始化的点。 时间增强是另一个关键步骤。给定来自表面采样的点[p;t],4DRegSDF通过时间增强来强制表面样本的局部刚性,实现时间一致性。具体来说,它将时间分量t增强为随机选择的t',然后使用反向变形网络计算增强时间t'处的点p'。 通过这种时间增强,4DRegSDF获得了两个相互对应的表面样本([p;t], [p';t']),用于评估时空约束。曲率的总变分测量不同时间步长下曲率的变化,通过最小化这种变化,假设表面在满足视频观察的同时应尽可能少地变形。 4DRegSDF还采用了绝对曲率正则化,它通过最小化变形网络引起的扭曲来平滑表面。这两种正则化共同作用,确保了重建表面的几何简洁性和时间连贯性,同时通过神经渲染和最小化光度损失匹配视频观察。
重建动态场景一直是计算机视觉中的一个棘手问题。不同于静态场景只需处理空间维度,动
酸酸甜甜小苏
2025-06-06 00:30:16
0
阅读:1