文献综述(或调研报告)
在深度学习的飞速发展之下,计算机对图像的语义处理能力逐步增强。利用基于深度学习的图像语义分割技术[1]可以快速地对图像进行语义化分割,即把图像中不同位置具有相同语义的像素点聚类成一个分类,并利用不同的标签进行分类。这种技术有着很高的分割准确率和效率逐年提高,因此可以快速得到图像中的前景、背景等语义信息,为三维重建做了很好的前期准备。
David 等在2014年基于多尺度深度网络,对单幅图像进行了深度图的预测[2]。他们综合来自图像的全局和局部信息,寻找到了单个图像中的深度关系,这为基于深度学习的三维重建奠定了基础。之后几年里,各类用于三维重建的新型神经网络被提出。
体素是最直观且利用广泛的三维模型表现形式,基于深度学习的三维重建大多也都输出体素模式。Wu等建立的网络结构3D ShapeNet[3]是较早提出的基于体素表示的三维重建网络, 其利用深度卷积置信网络(CDBN)将三维几何外形表示为三维体素上二值变量的概率分布。而在之后Choy等提出了一种基于标准LSTM的扩展网络结构3D-R2N2[4], 该网络能以端到端的形式获取一个或多个对象实例的图像, 建立了二维图像到体素模型的映射。多视图的输入会被当作一个序列输入LSTM,完成了单幅以及多幅图像的三维重建。体素表示的模型有一个固有限制,随着分辨率提高会指数级地增大计算量。因此有些研究探讨如何在较小分辨率下完善模型细节,比如Wang等与传统几何投影方式相结合[5],有效地实现了网络深度的增加以细化模型。而有些研究探讨对输出空间进行分层划分以提高计算和存储效率,比如Tatarchenko等提出的Octree网络[6],学习预测八叉树的结构和单个单元的占用值。他们提出了一种深度卷积解码器架构,该体系结构不具有立方复杂度,能够允许在有限的内存预算下表示更高分辨率的输出。早期的工作主要基于监督学习, 但获得大规模监督数据的成本过于巨大, 因此目前研究方向主要倾向于基于生成模型的弱监督学习甚至于无监督学习的方法。
除了体素,三维模型通常还可用点云和网格表示,近些年基于这两种格式的图像三维重建研究也开始逐步发展。Fan等提出了一个点集生成网络[7], 这是第一个用深度学习研究点云表示点集所产生的网络结构。研究中多个平行的预测分支是重点, 包含了卷积模块、反卷积模块和全连接模块。且其训练时进行了合适的损失函数设计,解决了相同几何形状可能在相同近似程度上表现为不同点云的问题。 而Chen等通过融合三维深度和二维纹理信息[8],提高了点云的重建精度。用网格表示的三维模型形状丰富且相邻点有连接关系,Wang等就基于图形的卷积神经网络来表示三维网格[9],并通过逐步变形椭球体,利用从输入图像中提取的感知特征生成正确的几何图形。而Mescheder提出了一种新的占有网络[10],隐式地将三维曲面表示为深度神经网络分类器的连续决策边界,以无限分辨率编码三维输出而不需要过多的内存占用。
总体来说,现有的三种常见表示方法的三维模型重建在近些年都在飞速发展,不停地对输出细节进行着完善并同时改进算法以减少计算机的计算负担。许多学者都正在致力于将各种表示方法的优势相结合,甚至更多融合传统几何三维重建算法以提高模型重建的准确性。
参考文献
[1] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 3431-3440.
[2] Eigen D, Puhrsch C, Fergus R. Depth map prediction from a single image using a multi-scale deep network[C]//Advances in neural information processing systems. 2014: 2366-2374.
