网站首页 > 人工智能AI > 人工智能技术 CVPR`22 | OPPO提出PlaneMVS:打破传统假设,开启三维平面重建新思路 正文

CVPR`22 | OPPO提出PlaneMVS:打破传统假设,开启三维平面重建新思路

admin 2022/06/14 人工智能技术 69℃

[db:标签][db:标签]于增强现实、虚拟现实及自动驾驶等领域的蓬勃发展,从视图中重建物体的三维模型成为计算机视觉研究热点


利用多幅图像、多视角立体匹配的多视图(MVS,multi-view-stereo)三维重建是该领域的重要方,且具有成本低廉和方法灵活等优点。然而,大多数传统算法无法“扩展”视图中所包含的深度信息及空间信息,因此存在效率和准确度难题。


近日,宾夕法尼亚州立大学和OPPO研究院的研究员们针对多视图三维重建所面临的技术难点,提出了一种基于深度学习的多视图平面三维重建技术:PlAneMVS,能够生成平滑的深度图,准确解析平面结构,捕获物体全局信息。实验表明,该方法不仅优于目前主流的单视图重建架构,而且在众多基于学习的MVS方法中脱颖而出。目前,该论文已被CVPR 2022收录。


1 超越传统假设,


创新融合「检测」与「重建」两个分支


在实际的应用场景中,我们周围的环境通常具有明显的平面结构,比如地面,建筑物表面等等。因此,用平面结构来解析三维场景,既可以节省数据存储空间,也方便于计算机对三维模型的处理。


传统方法往往有较强的假设依赖,例如曼哈顿世界假设,不符合现实情况。同时,单张图像进行平面三维重建会出现不适定问题(ill-POSed problem)。原因是:它仅依赖单视图回归确定平面参数,无法处理深度尺度恢复中的歧义挑战。


图注:PlaneMVS框架


为了解决上述难题,研究员尝试在端到端框架中从多个视图重建三维平面。


1.本文的任务


根据若干幅真实物体的图像求解出真实物体真实的三维结构


2.本文的创新


1.采用倾斜平面假设(Slanted Plane Hypothesis)扫描图像构建cost volume,减轻传统前向平行假设(Frontal Plane Hypothesis)对匹配结果的影响。


2.将学习到的不确定性应用于不同的损失函数。


3.将框架设计为平面检测与平面MVS两个分支,并设计软池化进行有机融合。


2 学习像素级参数,


三维平面重建更具通用性


1.模型之平面检测网络


基于Plane RCNN架构设计语义平面检测网络,去掉了所有的几何估计模块,包括平面法线预测模块和单目深度估计模块。为了节省内存,去掉了Plane RCNN中的平面细化模块以及多视图重投影模块,并通过增添语义标签使模型获得场景理解。


2.模型之平面MVS


图注:平面MVS头体系结构示意图


平面MVS头(plane MVS head)是本文的关键创新,如上图所示,共分为特征提取、可微平面单应性、生成斜面假设、cost volume 、像素级平面参数推断和微调。


特征提取和平面检测头共享,具体而言,从FPN特征主干中获得多尺度2D特征映射;可微平面单应性的目标是学习每个像素的平面参数,其中,斜面假设进行平面扫描的方法区别于传统方法的深度假设,但这两个假设在单应性表示中相似,因此,两个视图之间的单应性可以表示为:


~意味着某种程度上相等;K表示内参矩阵;R表示两个视图之间的相机旋转和平移矩阵。所以,在不考虑遮挡和物体运动的情况下,两个视点之间的像素i处的单应性仅由已知相机姿态的平面确定,即 。其中,单应性可以用斜面假设进行平面扫描学习,这与用MVS学习三维平面参数的目标完全吻合。


寻找斜面假设非常困难,因为通过一个3D点的候选平面的数量是无限的,需要为每个维度的假设范围。研究员随机抽出10000张训练图像,并绘制出真实平面参数在每个轴的分布,这在某种程度上反映了各种场景中平面参数的一般分布。然后,为每个轴选择上界和下界,确保大多数真实值位于选定的范围内,最后在每个轴的界限之间均匀地对假设进行采样。


斜面假设确定后,通过单应性公式将源特征映射到目标视图。对于每个斜面假设,将变换后的源特征和目标特征连接起来,与应用距离度量相比,这可以更好地保持原始单视图特征表示。然后,沿着假设的维度堆叠特征,从而构建特征cost volume。


为了使整个系统可微,应用 soft-argmax 来获得初始像素级平面参数。因此,给定平面假设,像素i处的 3D 平面参数 可以推断为:


此外,研究员发现,直接采用双线性上采样会导致过度平滑问题,所以利用光流估计RAFT模型中的上采样方法避免问题。


推断之后,研究员设计了一个微调模块,目的是学习初始平面参数的残差。具体而言,先将上采样的初始平面参数与归一化后的原始图像拼接以保留图像细节,然后将其传递到多个2D CNN层以预测其残差,随后得到微调的像素级平面参数。


3.平面重建


为了将两个分支连接,使用软池化操作以及在深度图上提出了损失监督。对于检测到的平面,输出软掩码 ,元素 在软掩码的每个像素中代表的并不是二进制值,而是预测的前景概率(foreground probability)。所以,实例平面参数 可以通过带有加权平均的软池化操作进行计算:


重建平面深度图,下式中 的是前景像素的指示符变量; 内在矩阵的逆矩阵; 是像素的齐次坐标:


然后,基于L1损失监督函数,根据重建的深度图和真实深度图设计损失函数,定义为软池化损失 ,目的是使2D平面分割和3D参数预测之间的交互成为可能。


同时,为了确保监督不确定的损失项,综合平面检测损失 ,平面MVS损失 以及 ,设计出最终的损失函数:


3 实验结果


采用ScanNet数据集进行模型训练和评估,在7-Scenes 和TUMRGBD 这RGB-D室内数据集上进行模型泛化能力证明。评价指标采用广泛使用的深度指标(AbsRel等)、AP(average precision)、mAP(mean average precision)等等。


4 定量实验


注:不同方法在ScanNet数据集上的评估结果。


先将PlaneMVS与PlaneRCNN方法进行比较,结果如上表所示,在平面几何学和三维平面检测方面都“胜”过了PlaneRCNN。然后对比MVSNet、DPSNet、NAS等几个先进的多视图方法,PlaneMVS在各项指标上也都获得了最优。


注:不同方法在7-Scenes数据集上的表现


同样,在7-Scenes数据集中,与PlaneRCNN、MVSNet等方法对比也获得了排名更高的表现。这表明,PlaneMVS的性能能够泛化到从未见过的数据集上,因此具有更高的通用性。


5 定性实验


图注:ScanNet 数据集上重建深度图的定性结果。PlaneMVS与其他方法之间的差异用红框和蓝框突出


定性实验如上图所示,PlaneRCNN在重建具有几何平滑性质的平面深度图方面具有优势,但正如第2行和第4行所展示那样平面参数并不准确;且有深度尺度模糊问题,例如第1行和第3行展示。而PlaneMVS无论是在尺度还是参数层面,都有优于PlaneRCNN的表现;与传统MVS方法相比,PlaneMVS-pixel有着更高的精度,在斜面假说的加持下,即使无纹理的区域中,也有更好的表现,例如上图第一行所展示。结合平面检测和像素级参数预测得到PlaneMVS-final后,重建深度会在平面区域更加平滑,且更好保持平面边界。


图注:在ScanNet 数据集上平面检测的定性结果


同时,PlaneMVS能更好地感知平面边界,如上图,分割结果与3D平面几何相一致。因此,考虑平面语义精度,PlaneMVS也更优。


6 结论


利用平面结构解析三维场景是一个非常有意义的研究课题,是实现虚拟现实,增强现实技术的基础。


由于手机智能设备的广泛普及,使得获取图像变得非常方便。在本文,OPPO研究员聚焦于通过深度学习技术,利用多视图几何性质来解决平面三维重建问题,并取得了较好的效果。


在未来,OPPO会将该技术应用到众多领域,在自动驾驶领域,通过地图的三维重建,去帮助无人车理解周边环境;在医学图像处理领域,利用三维重建技术帮助医生对病变部位进行直观而全面的观察,践行“科技为人,以善天下”的品牌信仰。


网站地图