CVPR2020 最全整理：全部论文下载GitHub 源码汇总

精诚至_金石开 2022-01-07

展开全文

作为计算机视觉领域的顶级学术会议，CVPR 今年共收到了 5165 篇有效提交论文，并公布了接收论文1294篇！不久之前，CVPR 2019 官网放出所有接收论文的下载链接：

https://github.com/extreme-assistant/cvpr2020/blob/master/cvpr_2019_githublinks.csv

1.加州理工大学Devi Parikh：多任务视觉和语言表示学习

论文链接：https:///abs/1912.02315

许多视觉和语言的研究集中在一组小而多样的独立任务和支持的数据集上，这些数据集通常是单独研究的;然而，成功完成这些任务所需的视觉语言理解技能有很大的重叠。在这项工作中，我们通过开发一个大规模的、多任务的训练机制来研究视觉和语言任务之间的关系。

2.华为GhostNet，超越谷歌MobileNet，已开源

论文链接：https:///abs/1911.11907
该论文提供了一个全新的Ghost模块，旨在通过廉价操作生成更多的特征图。基于一组原始的特征图，作者应用一系列线性变换，以很小的代价生成许多能从原始特征发掘所需信息的“幻影”特征图（Ghost feature maps）。该Ghost模块即插即用，通过堆叠Ghost模块得出Ghost bottleneck，进而搭建轻量级神经网络——GhostNet。在ImageNet分类任务，GhostNet在相似计算量情况下Top-1正确率达75.7%，高于MobileNetV3的75.2%。

3.PolarMask: 一阶段实例分割新思路

论文链接：https:///abs/1909.13226
PolarMask基于FCOS，把实例分割统一到了FCN的框架下。FCOS本质上是一种FCN的dense prediction的检测框架，可以在性能上不输anchor based的目标检测方法，让行业看到了anchor free方法的潜力。接下来要解决的问题是实例分割。本工作最大的贡献在于把更复杂的实例分割问题，转化成在网络设计和计算量复杂度上和物体检测一样复杂的任务，把对实例分割的建模变得简单和高效。

4.让合成图像更真实，上交大提出基于域验证的图像和谐化

论文链接：https:///abs/1911.13239
在合成图中，前景和背景是在不同的拍摄条件 (比如时刻、季节、光照、天气) 下拍摄的，所以在亮度色泽等方面存在明显的不匹配问题。图像和谐化 (image harmonization) 旨在调整合成图中的前景，使其与背景和谐。传统的图像和谐化方法一般是从背景或者其他图片转移颜色信息到前景上，但这样无法保证调整之后的前景看起来真实并且与背景和谐。近年来，已经有少量的工作尝试用深度学习做图像和谐化，但成对的合成图和真实图极难获得。如果没有成对的合成图和真实图，深度学习的训练过程缺乏足够强的监督信息，合成图和谐化之后的结果也没有 ground-truth 用于评测。截至目前还没有公开的大规模图像和谐化数据库，我们构建并公布了由四个子数据库组成的图像和谐化数据库。并且，我们提出了域验证 (domain verification) 的概念，尝试了基于域验证的图像和谐化算法。

5.UDP：人体姿态估计中的无偏数据处理方法

论文链接：https:///abs/1911.07524
UDP，解决了现有的SOTA人体姿态估计算法中标准编解码方法存在较大统计误差的问题。同时解决了由于翻转测试而导致的结果不对齐问题。且该算法即用即插，在基本不增加模型复杂度的情况下，有效提升了算法性能。

6.微软亚洲研究院：给Deepfake 假脸做 X-Ray，新模型把换脸图打回原形

论文链接：论文地址：https:///pdf/1912.13458.pdf
微软亚洲研究院提出了一个方法，它既不需要了解换脸后的图像数据，也不需要知道换脸算法，就能对图像做『X-Ray』，鉴别出是否换脸，以及指出换脸的边界。
新模型 Face X-Ray 具有两大属性：能泛化到未知换脸算法、能提供可解释的换脸边界。要获得这样的优良属性，诀窍就藏在换脸算法的一般过程中。如下所示，大多数换脸算法可以分为检测、修改以及融合三部分。与之前的研究不同，Face X-Ray 希望检测第三阶段产生的误差。

7.字节跳动：基于解剖学感知的视频3D人体姿态估计

论文链接：https:///pdf/2002.10322.pdf
在这项工作中，我们提出了一种新的视频中3D人体姿态估计的解决方案。我们不是直接回归3D关节位置，而是从人体骨骼解剖中汲取灵感，将任务分解为骨骼方向预测和骨骼长度预测，从这两个预测中完全可以得到三维关节位置。我们的研究动机是人类骨骼的长度随着时间的推移保持一致。这推动了我们开发有效的技术来利用视频中所有帧的全局信息来进行高精度的骨骼长度预测。此外，对于骨骼方向预测网络，我们提出了一种具有长跳跃连接的全卷积传播结构。本质上，它分层地预测不同骨骼的方向，而不使用任何耗时的存储单元(例如LSTM)。进一步引入了一种新的关节位移损失来连接骨骼长度和骨骼方向预测网络的训练。最后，我们采用一种隐含的注意机制将2D关键点可见性分数作为额外的指导反馈到模型中，这显著地缓解了许多具有挑战性的姿势中的深度歧义。我们的完整模型在Human3.6M和MPI-INF-3dHP数据集上的表现优于之前的最好结果，在这些数据集上的综合评估验证了我们模型的有效性。

8.化繁为简，弱监督目标定位领域的新SOTA - 伪监督目标定位方法(PSOL)

论文链接：https:///abs/2002.11359
论文提出伪监督目标定位方法(PSOL)来解决目前弱监督目标定位方法的问题，该方法将定位与分类分开成两个独立的网络，然后在训练集上使用Deep descriptor transformation(DDT)生成伪GT进行训练，整体效果达到SOTA。该论文主要有三点贡献：一、弱监督目标定位应该分为类不可知目标定位和目标分类两个独立的部分，提出PSOL算法；二、尽管生成的bbox有偏差，论文仍然认为应该直接优化他们而不需要类标签，最终达到SOTA；三、在不同的数据集上，PSOL算法不需要fine-tuning也能有很好的定位迁移能力

9.CARS: 华为提出基于进化算法和权值共享的神经网络结构搜索，CIFAR-10上仅需单卡半天

论文链接：https:///abs/1909.04977
为了优化进化算法在神经网络结构搜索时候选网络训练过长的问题，参考ENAS和NSGA-III，论文提出连续进化结构搜索方法(continuous evolution architecture search, CARS)，最大化利用学习到的知识，如上一轮进化的结构和参数。首先构造用于参数共享的超网，从超网中产生子网，然后使用None-dominated排序策略来选择不同大小的优秀网络，整体耗时仅需要0.5 GPU day。

10.GhostNet: More Features from Cheap Operations（超越Mobilenet v3的架构）

论文链接：https:///pdf/1911.11907

模型（在ARM CPU上的表现惊人）：https://github.com/iamhankai/ghostnetgithub.com

We beat other SOTA lightweight CNNs such as MobileNetV3 and FBNet.

11. AdderNet: Do We Really Need Multiplications in Deep Learning? （加法神经网络）

在大规模神经网络和数据集上取得了非常好的表现

论文链接：https:///pdf/1912.13200

12. Frequency Domain Compact 3D Convolutional Neural Networks （3dCNN压缩）

论文链接：https:///pdf/1909.04977

开源代码：https://github.com/huawei-noah/CARSgithub.com

13. A Semi-Supervised Assessor of Neural Architectures （神经网络精度预测器 NAS）

14. Hit-Detector: Hierarchical Trinity Architecture Search for Object Detection（NAS 检测）