选自arXiv。
作者:Shangzhe Wu等
机器之心编译
编辑:陈、杜伟
在2020最佳论文中,牛津大学团队博士生吴尚哲等人提出了一种基于原始单目图像学习3D的方法。
无外部监督的可变形对象类方法。最近,该团队提出了通过单目视频的时间对应来学习可变形的3D对象,该方法可用于野外环境。
从2D图像中学习3D。
可变形物体是一个极其困难的问题。传统的方法依赖于明确的监督,例如关键点和模板。然而,当这些对象不在受控环境(如实验室)中时,传统方法将限制它们的适用性。
有什么可以改进的吗?最近,牛津大学VGG团队的研究人员提出了一种新的方法。
视频),这种方法可以有效地学习可变形的三维对象,而无需显式的关键点或模板形状。特别是DOVE,
该方法基于自然提供跨时间对应的单目视频,可应用于“野外”环境。
在没有明确监督的情况下,从视频中学习可变形的3D对象'/
*论文地址:https://arxiv.org/pdf/2107.10844.pdf.
*论文主页:https://dove3d.github.io/.
DOVE方法只能利用鸟类的2D图像进行三维预测。
标准的形状、变形、视点和纹理使制作鸟类运动动画或操纵它们的透视图变得更加容易。研究人员提供了一些交互式动画:
在没有明确监督的情况下,从视频中学习可变形的3D对象'/
在没有明确监督的情况下,从视频中学习可变形的3D对象'/
在没有明确监督的情况下,从视频中学习可变形的3D对象'/
长期以来,物体的动态三维重建一直是科学家和工程师追求的目标。现在,DOVE。
方法通过摄像机在其他视频中不同角度拍摄的不同视图之间的对应关系,从视频片段中自动重建物体的形状。想象一下,如果几分钟的镜头显示两只鸟停在一棵树上,所有的摄像机都静止不动。此时,信息作为输入数据输入到模型中,模型将具有足够的预测性,无需任何额外的训练或指令就可以逐帧模拟接下来会发生什么。
不同于现有的方法,DOVE 方法不需要关键点、视点或模板形状等显式监督,仅依赖视频中固有的时态信息即可学习更多关于对象的几何形状.
DOVE方法还可以高效地创建和绘制物体的三维表示动画。DOVE算法甚至可以在没有关键点和模板形状的情况下从YouTube上下载。
视频学习。给定正确的目标检测数据和光流预处理模型,系统可以比以前训练得更快。
方法介绍
本研究的目标是从视频剪辑中学习可变形对象类的3D。
形状。具体而言,给出由固定摄像机捕获的对象的短视频剪辑数据集,以训练重建模型,该模型以对象的单个图像作为输入,并预测其3D形状、纹理和形状。
关节式3D姿势。图2显示了训练管道。
在没有明确监督的情况下,从视频中学习可变形的3D对象'/
图片 - 几何自动编码
重建模型输入来自视频序列的单帧 I ∈ R ^3×H×W,使用三个网络(分别为 f_S、f_T 和 f_P)预测对象的 articulated 3D形状、纹理和刚性姿态。然后重新组合这些信息以生成(渲染)对象的图像,可以将其与输入视频帧进行比较以进行监督。
形状由具有固定连接性和可变顶点位置 V ∈ R^3×K 的三角网格给出。该研究分两步获取 V ,来区分特定于实例的形状变化和特定于帧的关节。
_Articulated 形状模型_
第一步是在规范的「静止姿态」中重建一个特定视频对象实例的形状 V_ins。这解释了不同的对象实例(例如不同的鸟)具有相似但不同形状的事实。形状由下式给出:
其中,V_cat 是可学习的特定类模板, V_ins 为特定于实例的形状变化。
从视频中学习
该研究的目标是从视频序列集合
中学习重建模型,其中每个序列 S_i 包含帧
,其中,i 为序列索引,t 为帧索引(时间)。这些序列是通过使用实例分割技术 Mask R-CNN 对视频进行预处理获得的。
实验结果
数据集包括大量的鸟类短视频片段,这些视频片段来自 YouTube。Mask R-CNN
用来检测和分割鸟类实例,之后视频被自动分割成片段,每个片段包含一只鸟,图片大小调整为 128 × 128 用于训练。
下图 3 为单帧重建结果,注意在推理过程中不在需要视频。该研究不需要显示 3D、视点或者关键点信息进行监督,仅从单目训练视频中重建准确的 3D 形状。
该研究还与 SOTA 模型进行了比较,模型包括 CMR、U-CMR、UMR、VMR,结果如表 2
所示,由结果可得,该研究提出的模型实现了更好的形状重建和时间一致性。
下图 4 展示了不同方法之间的定性比较。在以往的方法中,CMR
方法生成了最具鲁棒的重建结果,这得益于它依赖关键点监督,但对于一些挑战性的姿态依然表现不佳,如主视图等。DOVE
在没有使用关键点或模板监督的情况下重建了准确的形状和姿态。并且与其他方法相比,该方法获得的重建结果具有更高的时序一致性。需要注意,研究者的模型是在 128
× 128 图像上训练的,其他方法在 256 × 256 图像上训练(除了 U-CMR),并且从输入图像中采样纹理,因此纹理质量存在差异。