北京儿童插座价格联盟

FAIR联合INRIA提出「DensePose-RCNN」,更好地实现人体姿态估计

只看楼主 收藏 回复
  • - -
楼主

图:pixabay


原文来源:arXiv

作者:Rıza Alp Guler、Natalia Neverova、Iasonas Kokkinos 

「雷克世界」编译:嗯~阿童木呀


在这项研究中,我们在RGB图像和人体表面表示之间建立了密集对应,我们将该任务称为密集人体姿态估计(dense human pose estimation)。首先,我们通过引入一个有效的注释管道(annotation pipeline),以收集COCO数据集中出现的50000个人的密集对应关系。然后,我们使用我们的数据集对基于CNN的系统进行训练,以交付自然环境中(即存在背景、遮挡和尺度的变化)的密集对应关系。我们通过训练“修补”网络(inpainting network)来提高训练集的有效性。其中,该修补网络能够填充缺失的对照标准值(ground truth values),并对过去可以达到的最佳结果的明显改进做出报告。我们使用完全卷积网络和基于区域的模型进行实验,并观察后者的优越性。通过级联,我们进一步地提高了精确度,获得一个实时交付高精度结果的系统。相关补充材料和视频可点击项目页面获取。

 

密集姿态估计旨在将RGB图像中的所有人类像素映射到人体的三维表面。我们引入了DensePose-COCO,这是一个大型的对照标准数据集,通过图像到表面的对应关系,对50000 COCO图像进行了手动标注,并训练DensePose-RCNN,以每秒多帧的速度在每个人类区域内密集回归特定部分的UV坐标。左图:由DensePose-RCNN处理的图像和回归对应,中间:密集的COCO数据集注释,右图:身体表面的分区和UV参数化。


实际上,这项研究旨在通过建立一个从二维图像到三维,人体表面表示的密集对应,从而进一步推动人类对图像理解的进展。我们可以把这个任务理解为涉及若干诸如目标检测、姿态估计、局部和实例分割的问题,或者将其视为特殊情况或先决条件。而想要解决这个问题不仅仅需要诸如图形、增强现实或人机交互等普通的特征点定位方法,它也可能是通用基于三维目标理解的奠基石。


其实,从一个图像到基于表面的模型之间密集对应关系的建立,主要是在深度传感器可用的环境中完成的。如《维特鲁威流形(vitruvian manifold):独热人体姿态估计的密集对应关系的推测》中的度量回归森林(metric regression forests),或者最近的《使用卷积神经网络建立密集人体对应关系》中的密集点云对应(dense point cloud correspondence)。相比之下,在我们的示例情况下,我们考虑使用一个单一的RGB图像作为输入,基于此我们建立表面点和图像像素之间的对应关系。

 

我们通过要求注释者将图像分割成语义区域,然后在每个呈现的部分图像中对每个采样点的对应表面点进行定位,从而对图像和三维表面模型之间的密集对应进行注释。红十字表示当前注释的点。所呈现视图的表面坐标对在三维模型上收集的二维点进行定位。


最近,其他几个研究工作的目标是在无人监督的环境中复原RGB图像对或图像集之间的密集对应关系。最近,J. Thewlis、H. Bilen和A. Vedaldi在《从密集的等变换图像标签中进行无监督目标学习》中使用等方差原理(equivariance principle)以将图像集对齐到一个公共坐标系中,同时遵循groupwise图像对齐的通用思想。


虽然这些研究针对的是一般类别,但我们的研究聚焦在可以说是最为重要的视觉类别——人类。对于人类来说,可以通过利用参数可变形表面模型(parametric deformable surface models)对任务进行简化,如人皮肤的多线性模型(Skinned Multi-Person Linear(SMPL)model)或最近通过仔细控制三维表面获取获得的Adam模型。在文献《保持它的SMPL:从单个图像中自动估计三维人体姿态和形状》中,作者提出了一个两阶段的方法,首先,通过CNN检测人类特征点,然后通过迭代最小化将参数可变形表面模型拟合到图像上。与我们的研究同时进行的是,《人体形状和姿态的端到端复原》中开发了一种方法,以端到端方式从单个图像中自动估计三维人体姿态和形状,将迭代重投影误差最小化为深度网络的模块,其能够复原三维相机姿态和低维的身体参数化。

 

注释可视化:图像(左)、U(中)和V(右)所收集点的值


我们的方法与所有这些研究都有所不同,因为我们采取全面的监督式学习方法,收集图像和详细、精确的人体参数化表面模型之间的标准对照对应关系:而不是在测试中使用SMPL模型,我们只将其用作定义训练期间定义问题的一种手段。在Fashionista、PASCAL-Parts和Look-Into-People(LIP)数据集中,已经提供了人体部分分割掩模,这些可以被理解为为图像—表面对应提供了一个粗糙版本,而不是一个可以预测离散部分标签的连续坐标。在这项研究中,我们引入了一种新的注释管道,使得我们能够收集COCO数据集的50000张图像的对照标准值对应关系,而不是损害我们训练集的范围和真实性,从而产生我们新的DensePose-COCO数据集。


从理论上来说,我们的研究与最近的DenseReg框架最为接近,在这个框架中,CNN经过训练能够成功地在三维模型和自然环境图像之间建立密集对应关系。这项研究主要集中在人脸上,并在具有适度姿势变化的数据集上对其结果进行评估。然而在我们的这个研究中,由于人体的复杂性和灵活性较高,姿势变化较大,我们面临着新的挑战。我们通过设计适当的体系结构来解决这些挑战。通过将我们的方法与最近的Mask-RCNN系统相结合,我们展示了一个有经过鉴别式训练的模型,它可以为包括数十人在内的复杂场景以实时速度复原高精度对应域:在GTX 1080 GPU上,对于一张240×320的图像,我们的系统能以每秒20-26帧运行,或对于一张800×1100的图像,以每秒4-5帧运行。

 

平均人类注释误差作为表面位置的函数


我们的贡献可以总结为三点。首先,我们通过收集SMPL模型和出现在COCO数据集中的人之间的密集对应关系,引入了第一个用于任务的手动收集的对照标准数据集。这是通过一个全新的注释管道,在注释过程中利用三维表面信息来实现的。


其次,我们使用结果数据集对基于CNN的系统进行训练,通过在任何图像像素处对身体表面的坐标进行回归操作,以交付自然环境中的密集对应关系。我们使用两个依赖于Deeplab 的完全卷积架构,以及依赖于MaskRCNN的基于区域的系统进行了实验,观察了基于区域的模型在完全卷积网络上的优越性。我们也考虑了我们方法的级联变体,对现有体系结构有了进一步的提升改进。

 

DensePose-RCNN架构


第三,探索了多种利用我们构建的对照标准信息的不同方式。我们的监督信号在每个训练样本中随机选择的图像像素子集上得以定义。我们使用这些稀疏的对应关系对“teacher”网络进行训练,从而在图像域的其余部分“修复”监督信号。与其他稀疏点或任何其他现有数据集相比,使用此修复后的信号可以显著获得较好的性能表现。


我们的实验结果表明,密集的人体姿态估计在很大程度上是可行的,但仍存在很大的改进空间。我们通过一些定性的结果和研究方向对我们的论文进行总结,展示了该方法的潜力。相关代码和数据可以点击链接进行查看。


在这项研究中,我们已经解决了使用鉴别式训练模型进行密集人体姿态估计的任务。我们引入了COCO-DensePose,一个大规模的对照标准图像—表面对应关系的数据集,并开发了一种新的架构,使得我们能够以每秒多帧的速度复原图像和身体表面之间高度精确的密集对应关系。我们预计这将为增强现实或图形的接下来的任务铺平道路,同时也帮助我们解决将图像与语义三维目标表示相关联的一般性问题。


原文链接:https://arxiv.org/pdf/1802.00434.pdf


欢迎个人分享,媒体转载请后台回复「转载」获得授权,微信搜索「raicworld」关注公众号


中国人工智能产业创新联盟于2017年6月21日成立,超260家成员共推AI发展,相关动态:

中新网:中国人工智能产业创新联盟成立

ChinaDaily:China forms 1st AI alliance

工信部网站:中国人工智能产业创新联盟与贵阳市政府、英特尔签署战略合作备忘录

工信部网站:“2018数博会人工智能全球大赛启动暨开放创新平台上线”新闻发布会在京召开


点击下图加入联盟


下载中国人工智能产业创新联盟入盟申请表


关注“雷克世界”后不要忘记置顶

我们还在搜狐新闻、雷克世界官网、腾讯新闻、网易新闻、一点资讯、天天快报、今日头条、雪球财经……

↓↓↓点击阅读原文查看中国人工智能产业创新联盟手册


举报 | 1楼 回复

友情链接