搜索

分享

QQ空间 QQ好友新浪微博微信

【原】最新综述｜深度学习的单目人体姿态估计

我爱计算机视觉 2020-12-23

展开全文

向大家推荐一篇今天新出的人体姿态估计综述文章 Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods ，对2014年到如今的单目人体姿态估计的深度学习方法进行了详细总结，值得做相关方向的同学参考。

该文作者信息：

作者来自西北工业大学和纽约城市大学。

这篇综述的特点是它本身也列出了其他的近年来出现的人体姿态估计的综述，并尽量总结2014年到现在其他综述中没有出现过的基于深度学习的方法。

人体姿态估计有很多用处，比如电影动画、虚拟现实、自动驾驶、视频监控、运动分析等。（CV君的一位朋友在传统的舞蹈培训行业，之前就曾想基于人体姿态估计的结果做舞姿的评估，感觉也是蛮有意思的应用。）

但该任务也面临着很多困难，比如：

人体本身很灵活，存在自我遮挡和复杂的姿态（也许训练数据根本不会出现）；

人体穿着各异也带来了困难；

复杂的环境比如前景遮挡、视角改变、个体之间的遮挡等使得该问题充满了挑战。

作者列出了该方向历年的综述，如下：

大部分时间比较久远了，而一篇2018年的主要关注RGB-D相机下的姿态估计。所以本文主要关注单目深度学习人体姿态估计，正好作为近年工作的总结，成为以上工作的重要补充。

按照2D/3D，单人/多人和技术特点，作者对现有技术进行了分类，如下图：

尤其值得一提的是，在技术分类一栏：

1）2D姿态估计中基于回归的方法，直接回归得到人体关键点，而基于检测的方法则把人体关键点作为检测的目标；

2）2D多人姿态估计分为自顶而下和自底而上的方法，取决于先检测到人再检测人体关键点还是先找人体关键点；

3）3D单人姿态估计则分为是否使用了Model。

常用的人体Model如下：

文献显示，（a）（c）是近年来使用比较多的。

接下来，作者总结了该领域近年的算法。

2D单人姿态估计算法总结，包含在MPII数据集上的结果：

作者列出来精度最高的是CVPR 2019 的论文 Does learning specific features for related parts help human pose estimation?

2D多人姿态估计的结果，包含在COCO数据集上的结果：

作者列出来精度最高的是CVPR 2019 的论文 Deep high-resolution representation learning for human pose estimation（即HRNet）。

3D单人姿态估计算法总结，包含在Human3.6M数据集上的结果：

作者列出来的错误率最低的是ECCV 2018 的论文Integral human pose regression。

3D多人姿态估计算法总结（比较少）：

2D数据集总结：

可见最大的图像数据集为AIC-HKD，有21万幅图像。

2D姿态估计数据集示例：

2D姿态估计常用的结果评价标准：

3D姿态估计常用数据集：

可见，Human3.6M是目前个体最多，数量最大的数据集。

3D姿态估计图像示例：

该综述对于了解单目姿态估计研究现状有帮助，欢迎查看原文了解详情。

论文：

https:///pdf/2006.01423.pdf

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：我爱计算机视觉 > 《待分类》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

我爱计算机视觉

关注对话

TA的最新馆藏

综述 | 基于 Transformer 网络的多模态学习
超200+篇文献！一文知晓"伪装场景理解"领域近况
当AIGC遇见灌篮高手，一秒钟让动漫/艺术人物在虚拟世界中重现
全景鱼眼相机+俯视+深度学习：封闭场景视频监控的好选择
SAM 模型真的是强悍到可以“分割一切”了吗？
我在Github上建了一个项目快1.2K stars了，你应该也需要！

喜欢该文的人也喜欢更多

热门阅读换一换