44物体检测算法：R-CNN，SSD，YOLO【动手学深度学习v2】

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

44物体检测算法R-CNNSSDYOLO【动手学深度学习v2】

深度学习学习笔记
学习视频https://www.bilibili.com/video/BV1if4y147hS/?spm_id_from=333.337.search-card.all.click&vd_source=75dce036dc8244310435eaf03de4e330

目标检测中的常用算法首先是区域卷积神经网络最早的模型是R-CNN居于区域的CNN。

R-CNN

启发式搜索算法来选择锚框选出很多锚框之后对每个锚框当做一张图片使用训练好的模型来抽feature训练一个SVM来对类别进行分类。使用线性回归来预测锚框与真实框的偏移。
在这里插入图片描述
锚框选择后怎么保证锚框能变成一个batch使用办法为兴趣区域池化RoI 池化: 将一个锚框均匀切分成 nm 块输出每块中的最大值做 RoI Pooling输出nm个值这样不同的锚框会输出同样大小的batch。

之后出现的模型是 Fast RCNN

Fast RCNN

改进一张图片抽1000个锚框的话要用1000次CNN抽取feature那么计算量就太大了Fast RCNN 首先对图片抽feature对整张图片抽而不是对一个锚框然后再在图片上搜锚框将锚框映射到CNN上面再得到更小的锚框之后用RoI pooling上对每个锚框抽取特征最后到全连接层在上面对每个锚框做预测和与真实边缘框的偏移。

主要地方是不是对每个锚框做抽取而是对整个图片做抽取。再在抽取的特征上面再找锚框抽feature之后就做预测了。
在这里插入图片描述

Faster RCNN

用神经网络替代之前的选择性抽取算法。

图片输入进CNN把CNN的输出再做一次卷积然后生成很多的锚框进行一次二分类训练来预测这个锚框到底有没有框住物体和计算真实边界框之间的差别输出一些好的锚框送到RoI pooling 最后对锚框中的物体预测和真实边框差别计算。做了两次预测一次糙一点的一次精确一点的预测。
在这里插入图片描述
Faster RCNN 精度很高主要应用在对精度关注特别高时。工业界大多数更关心速度。

Mask RCNN

跟fast RCNN 没有太大区别新变化为如果有像素级标号对每个像素做预测。对RoI出来的东西进行FCN和Mask预测。
RoI align
在这里插入图片描述

单发多框检测SSD

核心思想RCNN主要是做了两个预测SSD就只做一次预测。
SSD现在用的不多。

主要思想对每个像素以每个像素为中心生成多个锚框与锚框那节生成方式一样。
在这里插入图片描述
SSD模型对给定的那些锚框直接做预测。输入图片先CNN抽取特征每个像素生成多个锚框每个锚框变成一个样本进行预测类判断是圈出了背景还是类并且计算与真实锚框之间的差别。SSD通过在多个分辨率下抽取特征下层拿到比较大的输出越到上层越小在底层检测一些小的物体在上面就检测到大的物体。

在这里插入图片描述
SSD 相对来说速度比较快但精度不太高。

YOLO 你只看一次

YOLO 追求的是快也是一个单神经网络的算法。
尽量让锚框不重叠将一张图片均匀成多块每一块就是一个锚框。
在这里插入图片描述
如绿色部分一个块就是一个锚框。
每个锚框会去b个边缘框也就是b个物体都和这个锚框很近最原始的做法后面v2 v3 等等有些改进。

Yolo v3 使用很多别的trick性能会提高比faster RCNN 要快很多。