这项由德国图宾根大学和Stability AI联合完成的突破性研究发表于2026年ICLR会议,有兴趣深入了解的读者可以通过论文编号arXiv:2603.19753查询完整论文。研究团队开发了名为ReLi3D的创新系统,这是首个能够同时重建3D几何体、材质和环境光照的端到端流水线。

想象一下,如果你有几张不同角度拍摄的物体照片,能否瞬间获得一个完整的3D模型,不仅有精确的形状,还能准确重现物体的材质特性——比如金属的光泽、木头的粗糙纹理,甚至还能完美复原拍摄时的光线环境?传统方法需要分别处理几何重建、材质估算和光照恢复,每个步骤都有各自的局限性和计算开销。而这项研究就像是给计算机装上了"超级眼睛",能够在不到一秒的时间内,从稀疏的多视角图像中同时解析出物体的完整三维信息。

这就好比一个技艺高超的雕塑家,仅仅通过观察几张照片,就能精确复原出原物体的形状、材质和当时的光线条件。研究团队的核心洞察是:多视角约束能够显著改善材质与光照的分离效果,而这个问题对于单张图像的方法来说本质上是无解的。当多个观察角度看到同一个表面点时,跨视角的一致性约束大大缩小了可能的解决方案空间,将本来无法确定的单视角问题转化为约束充分的多视角问题。

研究团队设计了一种巧妙的双路径架构。第一条路径专门预测物体的结构和外观,第二条路径则从图像背景或物体反射中推测环境光照。这种设计配合可微分的蒙特卡洛多重要性采样渲染器,创建了最优的光照分离训练流水线。更令人印象深刻的是,他们采用混合域训练协议,将合成PBR数据集与真实世界RGB捕获相结合,在几何、材质精度和光照质量方面都建立了可推广的结果。

一、破解材质与光照分离的千年难题

在计算机视觉领域,从图像重建3D物体一直面临着一个根本性挑战:如何将物体本身的材质属性从光照效果中分离出来。这个问题可以用一个简单的例子来理解:当你看到一个红色的苹果时,这种红色究竟是苹果本身的颜色,还是因为红色灯光照射的结果?或者是两者的结合?

对于人类来说,这种分离似乎是直觉性的,但对计算机而言却极其困难。同样的2D外观可能源于无数种表面反射率和光照的组合。传统方法尝试通过正则化或学习先验知识来帮助解决这个问题,但歧义性依然存在,特别是在未观察到的区域,导致空间变化材质预测不完整、法线不可靠,因此重光照保真度有限。

研究团队意识到,几何一致性跨多个视角提供了解决这个难题的关键约束。当多个观察角度在共同光照下看到同一表面点时,跨视角一致性大大缩小了可行解空间,将本质上病态的单视角问题转化为约束更好的多视角问题。这种认识成为了整个ReLi3D系统设计的核心哲学。

为了实现这一目标,研究团队开发了一个统一的前馈系统,能够将可变数量的已定位图像转换为带有空间变化PBR材质的纹理网格和连贯的HDR环境,整个过程不到一秒钟。这种速度和质量的结合在此前是不可想象的,它将以前分离的重建任务统一到单个前馈过程中,实现了完整、可重光照3D资产的近瞬时生成。

二、跨视角融合:让计算机拥有"立体视觉"

ReLi3D的核心创新在于其跨视角特征融合机制,这就像是给计算机配备了双眼甚至多眼的立体视觉能力。传统的单视角方法就像是用一只眼睛看世界,虽然能获得基本信息,但缺乏深度感知和完整的空间理解。

系统的输入是一组N个带掩码的图像和相应的相机参数。研究团队首先使用DINOv2为每个视角形成令牌,并进行相机调制处理。这个过程就像是为每个视角的图像添加了一个"身份标签",告诉系统这张图片是从什么角度、用什么参数拍摄的。

在众多输入视角中,系统会指定一个作为"英雄视角",它的令牌与学习到的三平面令牌库连接,驱动变换器的查询流。英雄视角就像是乐队中的主唱,负责协调整个处理过程。为了确保系统的鲁棒性,英雄视角在训练和评估期间都是随机选择的,这保证了无论从哪个角度作为主视角,系统都能保持稳定的性能。

为了让跨视角上下文既紧凑又富有表现力,研究团队采用了潜在混合技术。一组可学习的潜在令牌与投影的跨视角令牌混合,形成一个记忆库,供查询流关注。这种设计就像是建立了一个"视觉记忆中心",能够整合来自不同角度的信息,形成对物体的全方位理解。

主变换器采用双流交错结构,交替执行两种操作:一是用交叉注意力更新查询流,二是通过自注意力和交叉注意力优化记忆库。这种交错设计确保了不同视角的信息能够充分融合,最终产生在任意数量输入视角间保持一致的三平面条件特征。

三、双路径预测:几何外观与环境光照的完美协作

ReLi3D采用了一种创新的双路径预测策略,就像是两个专业团队并行工作,一个专门负责物体本身,另一个专门负责周围环境。这种分工协作的方式确保了系统能够同时准确预测物体的几何外观和环境光照条件。

几何外观路径在统一的三平面表示上运行,用于预测空间变化的材质属性和网格结构。变换器输出的令牌直接解释为三平面像素,形成统一的3D表示。对于任何3D点,系统通过三平面投影提取特征,然后使用特定任务的MLP头部预测所有材质和几何属性。这种统一方法消除了对单独材质令牌的需求,支持复杂的多材质物体。

具体来说,系统能够预测密度、反照率、粗糙度、金属度和法线扰动等参数。这些参数就像是物体的"DNA信息",完整描述了物体表面的物理特性。几何体使用Flexicubes技术提取,以获得优异的网格质量,生成的网格通过快速UV展开进行空间变化PBR参数纹理化。

环境光照路径则采用了一种全新的多视角光照推理方法,这是首个利用自适应背景掩蔽进行鲁棒环境估计的多视角推理方法。与现有方法通常使用简单MLP从三平面特征或单视角观察预测环境图不同,研究团队设计了一个能够从直接背景观察或跨多个视点的间接材质反射线索中推理的双模式系统。

系统使用一个可训练的DINOv2-small编码器处理掩码-图像对,该编码器有两个额外的输入通道来获得掩码感知令牌。这些令牌与物体变换器输出连接,形成环境上下文。专用的1D变换器通过交叉注意力将学习到的环境令牌映射到RENI++潜在编码和全局旋转,最终的HDR环境按照既定公式解码。

训练过程采用随机背景掩蔽策略,在训练期间随机遮挡视角子集中的背景像素。这迫使网络解决两个互补任务:当背景像素可见时,直接从环境读取光照;当背景被掩蔽时,必须从物体反射和阴影中的间接线索推断光照。这种双模式训练使得系统能够在现实世界场景中鲁棒地进行光照推理,即使背景经常被部分裁剪、饱和或噪声污染。

四、物理精确的蒙特卡洛渲染训练

ReLi3D的成功很大程度上归功于其创新的训练策略,特别是采用了可微分的基于物理的蒙特卡洛渲染器配合多重要性采样技术。这种训练方法就像是为人工智能配备了一个"物理学教授",确保它学到的不仅仅是表面现象,而是深层的物理原理。

研究团队发现,利用VNDF采样配合球面帽和对偶采样技术能够显著稳定训练过程。这种蒙特卡洛多重要性采样方法实现了几个关键能力:首先是物理分离,渲染器强制预测的材质和光照必须通过基于物理的光传输共同解释观察到的图像;其次是混合监督,当存在PBR真值时,系统还使用直接材质监督,否则渲染器仅通过图像重建确保材质和光照一致性;最后是域桥接,这允许在合成PBR数据、合成仅RGB渲染和最重要的真实世界捕获间无缝训练,大大提高了泛化性和鲁棒性。

这种训练方法的革命性在于它首次实现了能够从混合域数据学习空间变化材质重建而不出现监督崩塌的系统。传统方法往往在面对不同类型的训练数据时会出现性能退化,但ReLi3D通过物理约束确保了在真实世界输入上的鲁棒性能,同时保持了从合成监督中学到的物理合理性。

损失函数的设计体现了研究团队对物理准确性的追求。图像重建损失结合了MSE和LPIPS损失,确保像素级准确性和感知质量。几何和掩码监督在体积训练阶段采用掩码二元交叉熵损失进行前景分割,几何损失遵循Flexicubes实现和加权方案以实现鲁棒网格提取。材质属性监督根据训练数据的混合性质适应真值可用性,基色、粗糙度和金属度参数在可用时使用MSE监督,表面法线采用余弦相似度损失,凸起图被正则化朝向平坦度。环境监督提供直接的RENI++潜在监督以获得光照指导,当RENI++真值不可用时,去调制正则化将环境偏向中性白光。

五、跨域训练:从虚拟到现实的完美过渡

ReLi3D的另一个重要创新是其混合域训练协议,这种方法就像是让人工智能同时在"虚拟学校"和"现实世界"中学习,确保它既能掌握理论知识,又能应对实际挑战。研究团队巧妙地将合成PBR数据集与真实世界RGB捕获相结合,实现了在几何、材质精度和光照质量方面的可推广结果。

训练数据组成体现了研究团队的精心设计。他们使用了174,000个物体的数据,其中包括42,000个合成PBR物体(具有完整材质监督)、70,000个合成仅RGB物体,以及62,000个来自UCO3D的真实世界捕获。相比其他大规模方法使用的数据量少了10-50倍,但关键洞察是多视角约束提供了比大量单视角数据集更强的监督信号,实现了材质-光照分离的高效学习。

合成数据的制作遵循了既定的协议,同时扩展了覆盖范围。研究团队结合多个合成数据集以最大化训练多样性,包括Amazon Berkeley Objects和ARIA数据集。每个物体在三个不同的光照环境下渲染,并在垂直轴周围随机旋转以防止光照偏差。相机焦距从缩放正态分布中采样,范围在22°到37°之间,以匹配真实世界捕获条件。

对于具有PBR真值的物体,系统渲染了更多视角(100张图像),而仅RGB物体则渲染较少视角(30张图像),这种非对称采样策略在可获得材质信息的地方最大化学习效率,同时适应不同的监督水平。光照环境采用了1,000个来自iHDRI和Polyhaven数据集的HDRI环境,这些环境经过预处理提取RENI++潜在代码,在训练期间实现直接光照监督。

真实世界数据的处理更加复杂。UCO3D数据集提供了真实世界训练数据,但需要大量预处理才能实现与合成数据流水线的训练兼容性。数据集包含许多具有挑战性的样本,包括运动模糊、不准确的掩码和较差的相机估计。研究团队应用了基于数据集高斯分层优化提供的重建和相机估计分数的严格质量过滤,仅保留分数≥1.0的物体。

预处理流水线应用了几个关键变换:方形裁剪和居中确保物体一致地裁剪为方形宽高比并在帧内居中;内参校准过程仔细调整相机内参以考虑裁剪变换;由于方形裁剪,系统维护有效视图区域和前景物体的掩码;单目法线估计提供额外的几何监督;尺度归一化将场景边界重新缩放以与合成示例尺度对齐。这种全面的预处理确保了与合成训练数据的无缝集成,同时保持了驱动域泛化的具有挑战性的真实世界特征。

六、实验验证:超越现有方法的全面表现

研究团队通过广泛的实验验证了ReLi3D在三个核心维度上的优越性:多视角约束确实能够实现优越的材质和光照分离,从而快速创建生产就绪的3D资产。实验设计针对验证核心论断,即在交互速度下实现竞争性几何重建的同时,主要贡献在于光照分离,提供空间变化PBR材质和连贯HDR环境以实现高保真重光照。

材质和光照分离实验展现了令人印象深刻的结果。在空间变化材质预测方面,ReLi3D在所有材质指标上排名第一:反照率重建达到25.00 dB PSNR(相比SF3D的18.42 dB),粗糙度达到22.69 dB PSNR,金属度预测达到32.73 dB。多视角输入进一步增强了这些结果,证明跨视角约束成功解决了材质-光照歧义性。

重光照性能测试是材质-光照分离的终极考验。在定量重光照评估中,研究团队在新颖的分布外HDR环境中渲染每个重建。即使竞争方法接收真值环境图作为输入,ReLi3D在所有重光照指标上仍排名第一。视觉上,重光照重建非常接近真值,确认材质分解能够很好地泛化到新颖光照条件。

环境估计实验显示,即使单个视角也足以恢复正确的天空颜色和太阳方向。研究展示了背景信息如何帮助恢复正确光源,利用多个视角帮助恢复正确光线方向,即使在黑暗环境中也是如此。相比之下,SPAR3D经常预测过度平滑、低对比度的图谱,没有清晰的光源。

整体重建质量方面,虽然几何重建不是主要焦点,但ReLi3D在前所未有的速度下实现了竞争性结果。模型在分布外合成和真实世界数据上都实现了定量和定性的最先进单视角重建结果。在多视角设置中,ReLi3D在几何和所有图像指标上表现良好,同时平均运行时间为0.31秒。仅提供四个视角就将CD改善了27%,将F-score@0.5推至0.993,展现了多视角交叉条件的有效性,成本几乎不变。

性能饱和现象值得注意。超过4-8个视角的性能饱和源于覆盖饱和:一旦表面覆盖充分,额外的随机视角通常提供冗余信息而非新约束,导致边际收益递减。端到端比较显示竞争技术经常失败或输出平面伪影,而多视角融合重建完整资产,包括隐藏背面,具有更好的真值光照和阴影。对于真实世界捕获,ReLi3D保持鲁棒,方法随多视角输入改善,而其他方法则没有改善。

研究团队诚实地承认,专门的高分辨率扩散方法可能通过更长优化实现优越的几何细节。然而,他们的贡献在于材质感知重建的速度-质量权衡:在不到一秒的时间内提供完整、可重光照的资产,同时比Hunyuan3D等生成方法运行速度快100倍。

七、技术细节与创新突破

ReLi3D的技术实现体现了研究团队对细节的精益求精。系统采用了512×512的输入分辨率,每个训练迭代随机采样1-4个条件视角。整个流水线端到端训练,学习率为5×10^-5。批量大小适应计算需求:体积渲染期间64个,球面高斯阶段192个,蒙特卡洛积分期间32个。

多阶段渲染流水线的设计展现了渐进式训练的智慧。研究团队执行三个不同的训练阶段:首先是使用NeRFAcc进行隐式场的体积渲染以进行初始形状学习;然后是使用球面高斯近似的网格渲染,逐步增加图像分辨率(128→256→512)以进行高效光照近似;最后是采用VNDF采样、球面帽和对偶采样的完整蒙特卡洛积分,以实现物理准确的着色。每个阶段跨越60,000训练步骤,这种渐进方法确保稳定收敛,同时逐步增加渲染保真度。

英雄视角选择的设计体现了系统的鲁棒性考虑。英雄视角作为交叉条件变换器的查询流,为几何和外观对齐提供稳定参考。在报告的指标中,英雄视角均匀随机选择,确保结果反映独立于视点选择的鲁棒性能,不像依赖规范正面视角的方法。敏感性测试比较了随机选择与固定正面视角选择,结果显示仅边际差异,随机视角的轻微感知收益可能源于侧视角的视差信息。

光照先验和替代表示的选择经过深思熟虑。框架兼容替代光照表示,研究团队在中间训练阶段使用球面高斯近似,然后切换到使用RENI++环境图的蒙特卡洛渲染。在那些阶段,他们用低频高斯表示训练,观察到它无法捕捉尖锐高光和定向太阳,导致重光照指标变差。RENI++提供紧凑但高频的表示,对于逼真重光照和准确材质光照分离至关重要。虽然架构中没有阻止使用球面谐波或高斯的设计,但研究团队发现RENI++是表达性和效率之间的最佳权衡。

说到底,ReLi3D代表了3D重建领域的一次重大飞跃。这项研究首次实现了从稀疏图像输入到完整可重光照3D资产的端到端快速重建,将传统上需要分别处理的几何重建、材质估算和光照恢复统一到一个流水线中。通过巧妙利用多视角约束,研究团队解决了单视角方法中材质与光照分离这一根本性难题。

更重要的是,这项工作为未来研究和应用开辟了激动人心的道路。快速生成物理准确3D资产的能力可能会改变内容创作工作流程,实现实时资产数字化。从更广泛的角度来看,这种分离框架可能扩展到重建之外,实现野外材质理解——想象一下在不同真实世界光照下捕获的物体上训练,学习跨光照条件泛化的材质先验。研究团队承诺发布所有代码、预训练权重和数据集生成脚本,这将加速社区采用并为下一代3D感知视觉系统奠定基础。

Q&A

Q1:ReLi3D相比传统3D重建方法有什么优势?

A:ReLi3D是首个能同时重建3D几何、材质和光照的统一系统,速度极快(0.3秒完成),而传统方法需要分别处理这三个任务。最重要的是,它能准确分离物体材质和环境光照,生成的3D模型可以在不同光照条件下重新渲染,这是以前方法无法实现的。

Q2:为什么多视角比单视角重建效果更好?

A:单视角重建就像用一只眼睛看世界,同样的表面外观可能来自无数种材质和光照组合,计算机无法准确判断。而多视角就像双眼立体视觉,当多个角度观察同一表面时,这种跨视角的一致性约束大大缩小了可能的解决方案,让材质与光照的分离变得可能。

Q3:ReLi3D的双路径架构是如何工作的?

A:系统采用两个并行的专业"团队":几何外观路径专门负责预测物体的形状和材质属性(如金属度、粗糙度等),环境光照路径则专门分析图像背景或物体反射来推测当时的光照环境。两个路径通过物理渲染器协同工作,确保最终结果既符合物理规律又保持一致性。