搜索

分享

QQ空间 QQ好友新浪微博微信

目标检测基础-RCNN系列模型

冒险的K 2021-11-27

展开全文

简介开头先感谢可爱的小姐姐的细心讲解，视频网址如下：目标检测基础——RCNN系列模型（理论和代码复现）_哔哩哔哩_bilibili目录：目录RCNN过程非极大值抑制（NMS）Bounding-box regressionRCNN对语义分割的尝试：语义分割的简史：SPPnet简介Fast-RCNNFast-RCNN 训练过程Fast-RCNN的优缺点：Faster-RCNN目标候选框得实现：区域提案方法 Extract region propo...

开头先感谢可爱的小姐姐的细心讲解，视频网址如下：

目标检测基础——RCNN系列模型（理论和代码复现）_哔哩哔哩_bilibili

目录

非极大值抑制（NMS）

Bounding-box regression

RCNN对语义分割的尝试：

语义分割的简史：

Fast-RCNN 训练过程

Fast-RCNN的优缺点：

Faster RCNN网络结构

Anchor（锚）：

Faster 训练过程由两个部分循环操作组成的：

目标候选框得实现：

区域提案方法 Extract region proposals：

使用选择性搜索 selective search 提取2000个候选区域

经过得到得（x'，y’，w'，h’）与现实标注（x，y，w，h）以欧氏距离损失做回归

对候选框 bounding box 进行评分和整合。

选取备用的候选框工作的方法有很多种，下面来介绍一下 selective search 和 EdgeBoxes 。

视频的小姐姐说聚合到 2000张候选框就停下来了，实际操作待检验。还有必要提的一点是这种selective search 是一种类似于聚类的方法，也就是是需要在CPU上进行的。

边缘框的方法是根据图像里面色差比较大的物体的边缘来确定框的位置的，实际效果来说速度很快，准确度也还可以。

RCNN过程

非极大值抑制（NMS）

Bounding-box regression

对候选框经过了中间过程（权重学习）后得到的微调参数，最后作用与候选框让它能变成与实际标注框差不多相近的效果。

RCNN对语义分割的尝试：

RCNN的优缺点：

这里我们可以先讨论一下语义分割是什么：

图像分割是物体检测后的另一个任务，我们要对图像在像素级别上对前景和后景的划分。然后在前景的基础上对图像进行一个分类。

语义分割的简史：

一般以2015年为分界点：

FCN 就是将图片不断卷积池化，卷积池化。随着层数的增加，语义程度越来越高。一直卷积到（类别+1，理解为检测物品类别+背景）的通道数作为输出到一个和原图一样的（大小，长宽，通道数）特征图上。在这个特征图上包含了前面的语义类别，一类的物体往往只有一种颜色。-------这相当于用深度学习去做了一个语义分割

有意思的是，我们可以发现语义比较高，卷积的图比较小的时候，整个特征图就糊成一块了。在比较靠前，较接近原图的卷积层取出来的图就显得精细一些。（比较ground truth 和第五层）

所以在后面他把后面的语义较高的层和前面语义较低的层做了一个结合，我理解是使得原始图像信息得到了保存。

SPPnet简介

真正对图片大小有要求的是全连接层，因为在模型里面全连接层的节点数目是需要一定大小的。

Fast-RCNN

改进的方面：

结构分散

解决了 2K张候选图都过CNN拉低速度的问题

把样本图片之间放到模型中，然后拿得到的特征图。在特征图里按照对应关系把每一个候选框区域里那一小块的特征图取出来备用。

为什么是备用呢？因为在把这些小的特征图放到全连接层里进行分类之前需要满足全连接层的数目要求。这里满足要求的时候用到了“ROI Pooling”。

1.经过全连接层的分类得到分类出来的标签，拿得到的标签和真实的标签去计算loss

2.定位框和真实框之间的差距来计算另一个loss。

Fast-RCNN 训练过程

Fast-RCNN的优缺点：

Faster-RCNN

改进方面：

非端到端

解决selective search拉低速度的问题（CPU上运行的聚类算法）

Faster RCNN网络结构

RPN部分

1.设锚----->抛网------->判断网子里是否有东西

在上图做完3×3的卷积后得到了 512*H*W（512是指的通道数，H*W是特征图大小），经过 1×1的小卷积后特征图大小不变，通道数变成2K（等于Anchor出去的框的数量）。然后通过数据处理后进行二分类的概率计算（也就是候选框中有无目标的分类，有则为正标签，反之为负标签）。

2.另外一条路中，经过1×1卷积，通道数变成了4K。为什么变成4K了呢？可以解释为一个锚（Anchor）扔出去了九张网（候选框），每个候选框给它返回一个包含四个数的值（x，y，w，h），这个值就是定位框。在这个路径上输入是候选框，输出的是经过训练得到参数拿来调整过后的候选框。

3.im_info,就是可以从已经训练好的模型中读取参数，前面两步就不需要了。（这里进行的RPN的应用阶段，所以才保留了前300。在训练阶段则是正常的保留256个候选框）

总而言之就是。在 Proposal 之前，判断候选框里有没有东西（识别过程），判断到如果有东西，它应该把这个候选框怎样调整更加合适（定位过程）。这两个过程都是需要训练的。

Anchor（锚）：

2K意思是，2为正标签和负标签。K是每一个锚点会撒出去的k张网。

4K的意思是，4为定位的微调信息（x，y，w，h），K是每一个锚点会撒出去的K张网。

RPN 在 Faster-RCNN的最主要工作是选取候选框。主要是遍历取中心锚点，相当于一个优化穷举的方法。

Faster 训练过程由两个部分循环操作组成的：

1.第一个过程为RPN的训练，RPN训练过程中，别的权重不变。RPN训练过程就会比较高效。

2.当训练其他部分的权值的时候，RPN里面的权值的就固化。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：冒险的K > 《应用文》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

冒险的K

关注对话

TA的最新馆藏

衙官屈宋的历史典故
有何面目标历史典故
孝行的历史典故
深夜钟的历史典故
文园的历史典故
竹帛的历史典故

喜欢该文的人也喜欢更多

热门阅读换一换