以服务于中国广大创业者为己任,立志于做最好的创业网站。

标签云创业博客联系我们

导航菜单

视频链接提取在线工具 快手解析视频在线使用

  

  机器心脏报告。   

  

  机器之心编辑部   

  

  深度是实现三维场景理解的重要信息。a auto quipper Y-tech利用自主研发的单目深度估计技术获得高质量的深度信息,并将模型部署到移动终端。   

  

  已经开发了许多现有技术。   

  

  3DPhoto,混合现实和许多其他新的游戏方式。这些黑科技游戏不限于任何模式,可以让用户在手机上无门槛实时体验,给用户带来全新的视觉体验和互动方式,帮助用户更好地进行创作。   

  

  本研究主要探索如何更好地利用三维空间中的结构信息来提高单目深度估计的准确性,并构建了一个新的复杂场景深度数据集HC。   

  

  深度包含六个具有挑战性的场景,旨在提高模型的准确性和泛化能力。本文已收录于《ECCV 2020》,论文代码和模型即将在GitHub发布。   

  

  开源,作者也将在8月23-28日的ECCV在线会议上展示他们的作品。   

  

     

  

  混合现实,自动更快Y-tech有黑科技'/   

  

  论文链接:https://arxiv.org/abs/2007.11256.   

  

  代码链接:https://github.com/ansj11/SANet.   

  

  单目深度估计的挑战   

  

  从2D图像恢复3D。   

  

  信息是计算机视觉的一个基本问题,可用于视觉定位、场景理解和增强现实等领域。当无法通过深度传感器或多视角获得有效的深度测量时,单目深度估计算法尤为重要。传统方法通常利用先验信息来恢复图像的深度信息,如纹理线索、物体大小和位置、遮挡和透视关系等。近年来,深度卷积神经网络(DHNN)通过学习大规模数据集,可以隐式捕获这些先验信息,取得了很大突破。   

  

  然而,在估计自然场景的深度信息时存在许多挑战,例如光照不足或过度曝光,包括运动人像和天空区域、虚假边缘、相机抖动和倾斜等。(见图。   

  

  1)。现有算法将单目深度估计转化为像素深度值的分类或回归问题,但缺乏对全局像素间结构的考虑,导致空间布局错误、边缘不清晰、平面估计错误等问题。针对这一缺陷,本文从深度信息的结构角度出发,从网络结构、损失函数、训练方法、数据扩展等方面入手。以提高深度估计的质量。   

  

     

  

  混合现实,自动更快Y-tech有黑科技'/   

  

  图1:现有深度估计方法的困难场景。   

  

  应用   

  

     

  

  混合现实,自动更快Y-tech有黑科技'/   

  

  图2:网络模型结构.   

  

  该文基于编解码结构的U型网络设计,在多级特征映射中加入了从编码器到解码器的跳转。   

  

  连接层。编码器主要提取语义特征,而解码器更注重空间结构信息。包含全局上下文信息的GCB。   

  

  在编码阶段,模块被网络模型结构到每个残差模块,以重新校准信道特性。校准特征与高级特征相结合,作为空间注意机制SAB模块的输入。   

  

  SAB是本文提出的一种新型空间注意机制模块。从空间角度来看,GCB。   

  

  该模块用于全局强调语义信息,而空间注意模块侧重于图像局部区域模块的权重调整。   

  

  GCB和SAB注意模块可以构建三维注意机制来指导特征选择。如图3所示,低分辨率sab特征图用于指导全局空间布局信息的选择,而高分辨率SAB特征图。   

  

  SAB特征图用于强调详细信息。融合选定的多尺度特征图后,通过上采样层输出最终的深度图。   

  

     

  

  混合现实,自动更快Y-tech有黑科技'/   

  

  图3:空间注意机制模块的可视化。   

  

  应用   

ong>

  

论文的 SAB 模块专为单目深度估计而设计,旨在优化像素级回归任务中的几何空间布局。SAB 模块通过 1×1

  

卷积层对串联特征进行挤压操作,以在其通道尺寸上聚合空间上下文。然后,激活局部特征以获取注意力特征图,该图对所有空间位置上的像素深度信息进行编码。低层特征与该特征图进行逐像素相乘,以进行后续融合,获取高层传递的空间上下文信息。因此,SAB

  

能生成具有空间信息的权重图,以重新校准 GCB 的语义特征。

  

混合现实,快手Y-tech有黑科技' />

  

SAB 的表达式如上,其中 f 是融合函数(例如按元素求和,按元素点积或串联),表示 1×1 或 3×3

  

卷积,⊙表示按元素点积。由于深度图的元素值呈长拖尾的正值分布,因此将 ReLU 用作激活函数σ(x)。如图 3 所示,使用 SAB

  

获得的注意力特征图有助于网络选择跨不同尺度的特定空间信息。其中,S4 能够描述语义层级关系,帮助网络捕获 3D 空间整体的远近结构。空间注意力特征图越接近

  

S1,能够使网络关注更加局部空间的信息,如物体边界。

  

网络训练

  

这篇论文的损失函数由四种损失函数构成,包含已开源的 Berhu 损失,尺度不变性梯度损失,法向损失和这篇文章提出的 GFRL

  

相对损失,我们参考相关文献将这些 loss 进行合理的组合,从而使网络更好的收敛。

  

GFRL 损失(global focal relative loss)

  

为了更好地约束全局像素间的相对关系,这篇文章在相对损失函数(Relative Loss,RL)的基础上引入了焦点损失概念(focal

  

loss),可以通过减少易判断空间远近点对的权重,使得模型在训练时更专注于难以区分远近的点对。为了确保点对的均匀选择,将图像细分为相同大小的 16×16

  

块,并从每个块中随机采样一个点,训练网络时,会将每个点与同一图像中的所有其他点进行比较,从而使网络表现出更好的全局结构约束性能。第 k

  

对点的相对损失函数如下式所示:

  

混合现实,快手Y-tech有黑科技' />

  

其中 rk 是真值的点对相对关系,如果第一个点的深度值比第二个点小时,rk 设置为 - 1,反之为 1。深度差值比率小于阈值 0.02 时,rk 设置为

  

0。与传统的相对损失不同,GFRL 引入一个调控因子来衡量点对的相对损失权重。当一对像素在预测中具有不正确的序数关系时,调控因子权重接近于

  

1,相当于传统的相对损失函数。当深度序数关系正确且深度差足够大时,则对该点对的调控因子将变为 0。因此 GFRL

  

能是网络在训练时专注于错误的像素对。参数γ调整点对的权重调节幅度。当γ= 0 时,GFRL

  

相当于传统相对损失函数。随着γ的增加,调制因子的影响变大,这篇论文在实验中将γ设置为 2。实验证明,在各种评估指标下,GFRL 都优于 RL。

  

边缘感知策略(Edge-aware consistency)

  

现有的大多数单目深度估计方法都无法准确地估计边缘区域,生成的深度边界有一定扭曲和模糊。为了使网络更好的区分前后景且保持平面的平滑,这篇论文在训练的过程中引入了边缘感知策略,从而在深度预测结果中保留前后景深度的断层。首先使用

  

Canny

  

边缘检测算子提取深度图的边缘,然后对这些边缘进行扩张以得到边界区域。在这些边界区域调大训练权重以显着增加边界区域中预测误差的损失。边缘感知一致性方案作为一种难例挖掘方法,在边界区域提升效果显著,如图

  

4 所示:

  

混合现实,快手Y-tech有黑科技' />

  

图 4:边缘感知模块的实验结果

  

训练数据集

  

HC depth

  

这篇论文在现有深度估计的方法上总结了六种挑战性场景,并尽可能在开源数据集上搜集这些场景。然而现有开源的深度数据集场景非常单一,难以提供足够的 hard

  

case 数据。这篇论文针对这一现状,设计了数据采集方案,并整理了 HC Depth 数据集。论文作者使用 Microsoft Kinect 收集了

  

24660 张挑战场景图像,由于 Kinect 的有效距离范围有限,这些图像主要是包含移动人像的室内场景。为了扩充数据集的深度分布范围,论文作者同时使用了

  

Intel RealSense 收集了 95400

  

张室内和室外场景的图像,对于室外场景,使用天空分割模型分割出天空区域并赋予最大深度值。此外还对所有深度图进行了空洞补全及平滑处理,提升数据质量。HC

  

depth 数据集示例如图 5 所示:

  

混合现实,快手Y-tech有黑科技' />

  

混合现实,快手Y-tech有黑科技' />

  

图 5:HC depth 数据集示例

  

多数据集训练策略

  

为了训练通用的单目深度估计模型,这篇论文在多个不同的数据集上进行训练。在非凸函数的全局优化中,深度数据在各种场景中的分布不同,导致训练时难以收敛。这篇论文受到课程学习的启发,提出了一种增量式数据集混合策略,以加速网络训练收敛并提高训练模型的泛化性能。首先,在具有相似分布的数据集上训练模型,直到收敛为止。然后逐一添加更难学习的不同深度分布的数据集,并为每个

  

batch 构建一个新的采样器,以确保从这些不平衡的数据集中进行均衡的采样。训练收敛过程如图 6 所示:

  

混合现实,快手Y-tech有黑科技' />

  

图 6:多数据集训练策略的 BerHu loss 收敛曲线

  

结果对比

  

作者对比了当前最优的深度估计算法,在 NYUv2 开源数据集上的指标对比结果和视觉对比结果见下图,可以看出该论文方法在深度图整体及细节上均好于 SOTA。

  

混合现实,快手Y-tech有黑科技' />

  

图 7:在 NYUv2 上的量化实验对比

  

混合现实,快手Y-tech有黑科技' />

  

图 8:在 NYUv2 数据集上的可视化实验对比

  

混合现实,快手Y-tech有黑科技' />

  

图 9:在 NYUv2 数据集上的点云可视化实验对比

  

为了进一步验证模型的泛化性能,作者在 TUM 数据集上进行了方法对比测试如下图,在未见过的场景下,该论文方法预测效果也优于 SOTA。

  

混合现实,快手Y-tech有黑科技' />

  

图 10:在 TUM 数据集上的泛化性测试实验

  

混合现实,快手Y-tech有黑科技' />

  

图 11:在 TUM 数据集上的可视化测试实验

  

最后,为了说明该论文方法在各种具有挑战性场景下的有效性,作者在自采的 HC Depth 上进行了对比测试如下图,可以看出该论文的方法远好于 SOTA。

  

混合现实,快手Y-tech有黑科技' />

  

图 12:在 HC Depth 数据集上的 hard case 性能测试实验

  

混合现实,快手Y-tech有黑科技' />

  

图 13:在 HC Depth 数据集上的可视化测试实验

  

应用

  

基于深度信息业界已经有了很多相关的落地应用,快手利用深度信息也支持了很多应用的上线落地,如混合现实3DPhoto景深虚化等。

  

混合现实

  

传统的增强现实 (AR)

  

技术一般只有空间定位功能,缺少环境感知、深度测量、实时光照等高级能力,虚拟和现实难以真正的融合和交互。快手利用单目深度估计技术实时感知和理解场景的几何信息,并将其与传统的

  

SLAM/VIO 技术相结合,同时完成了空间计算和场景重建,结合自研的 3D 渲染引擎,打造了移动端的 MR

  

混合现实系统,给用户带来更逼真、沉浸、新奇的虚实交互新体验。该技术方向大大减少了对特殊硬件 (如深度传感器)

  

的依赖,可以只利用现有手机硬件实现,技术的普适性可帮助几乎所有用户无门槛使用 MR 技术。用户通过快手的 MR

  

混合现实系统可以实时体验虚实遮挡、体表运动、虚拟打光、物理碰撞等虚实交互特性。快手最近半年已上线了 “新春灯牌”、“辞旧迎新”、“蹦迪滤镜” 等多款 MR

  

魔表,是国内首家上线该技术的公司,激发了用户的创造力,提升了用户拍摄生产欲望。

  

3DPhoto

  

3D 照片是近两年比较热的研究方向,通过对单张图片进行重建,可以让这张图片动起来,产生伪 3D

  

的交互效果。其产生的玩法是沉浸式的,可交互的,可以给用户带来新颖的体验。快手通过单目深度估计网络对静态图片进行稠密重建,结合人像分割、人脸三维重建、图像背景修复等技术,可产生生动逼真的

  

3D 立体照片效果。利用快手 Y-tech 自研的 YCNN

  

推理引擎,所有的模型都是在用户的移动设备上运行,没有设备机型和数据传输能力的限制,可让每位快手用户都能体验到这一新奇玩法。目前这项功能已在快手主

  

APP、一甜相机等多款 APP 上线。

  

景深虚化

  

用户在使用单反设备进行拍照时,可以拍出具有浅景深的大光圈照片,它突出了拍摄主体,让画面变得更富层次感,并将背景转化为柔美的光斑。这样的景深虚化功能能明确主次,增强画面美感,提升用户的拍摄质量。在手机上实现大光圈的效果需要有场景的深度信息,快手利用深度估计网络获取到的深度图后,结合人像分割实现了逼真的虚化效果。目前该功能已经在一甜相机完成上线,支持多种光斑形态的景深虚化以及动感和旋集等新效果。用户对该功能满意度很高,进入虚化功能到保存的渗透率高达

  

70%。

  

快手 Y-tech 介绍

  

Y-tech 团队是快手公司在人工智能领域的探索者和先行者,致力于计算机视觉、计算机图形学、机器学习、AR/VR

  

等领域的技术创新和业务落地,不断探索新技术与新用户体验的最佳结合点。目前 Y-tech 在北京、深圳、杭州、Seattle、Palo Alto

  

有研发团队,大部分成员来自于国际知名公司和大学。