深度学习之目标检测

Dec 01, 2017

远在古希腊时期，发明家就梦想着创造能自主思考的机器。神话人物皮格马利翁、代达罗斯和赫淮斯托斯可以被看作传说中的发明家,而加拉蒂亚、塔洛斯和潘多拉则可以被视为人造生命。

当人类第一次构思可编程计算机时，就已经在思考计算机能否变得智能。如今,人工智能(artificialintelligence, AI)已经成为一个具有众多实际应用和活跃研究课题的领域,并且正在蓬勃发展。我们期望通过智能软件自动地处理常规劳动、理解语音或图像、帮助医学诊断和支持基础科学研究。

人工智能经过无数的坎坷，经过无数数学的积累，才慢慢的又进入人们的视线中。自从Alex和他的导师Hinton（深度学习鼻祖）在2012年的ImageNet大规模图像识别竞赛（ILSVRC2012）中以超过第二名10个百分点的成绩(83.6%的Top5精度)碾压第二名（74.2%，使用传统的计算机视觉方法）后，深度学习NN）开始成为家喻户晓的名字，深度学习之所以火起来因为人们不需要像之前那样手工去设计算法去提取特征，当我们想识别图片是猫还是狗时，我们可以不需要告诉算法猫狗的不同特征是什么，我们只需要把大量的图片扔进我们设计的网络结构，算法会一遍一遍学习它认为的猫狗的特征。深度学习比机器学习有优势在于，当我们的样本数量足够多时，深度学习的准确率将会明显提高。

（图为：深度学习算法自己学习到图片的特征）

深度学习，是AI中的一种技术或思想，曾被MIT技术评论列为2013年十大突破性技术（Deep Learning居首）。深度学习在计算机视觉领域发展迅速且方向繁多。它从图像分类为基础，慢慢延伸到图像检测，图像分割，自然语言处理等各个方向。下面讲两个深度学习在图片分类和图片检测方向的应用

图像分类

2012年，Alex和他的到时在ImageNet比赛上一战成名后，人们开始意识到卷积神经网络的厉害之处，图像分类的准确率极速提高。从12年的AlexNet（83.6%），到2013年ImageNet 大规模图像识别竞赛冠军的88.8%，再到2014年VGG的92.7%和同年的GoogLeNet的93.3%，终于，到了2015年，在1000类的图像识别中，微软提出的残差网（ResNet）以96.43%的Top5正确率，达到了超过人类的水平（人类的正确率也只有94.9%）. （Top5精度是指在给出一张图片，模型给出5个最有可能的标签，只要在预测的5个结果中包含正确标签，即为正确）

图为：2010-2015年ILSVRC竞赛图像识别错误率演进趋势

目标检测

伴随着图像分类任务，还有另外一个更加有挑战的任务–图像检测，图像检测是指在分类图像的同时把物体用矩形框给圈起来。从14年到16年，先后涌现出R-CNN,Fast R-CNN, Faster R-CNN, YOLO, SSD等知名框架，其检测平均精度（mAP），在计算机视觉一个知名数据集上PASCAL VOC上的检测平均精度（mAP），也从R-CNN的53.3%，到Fast RCNN的68.4%，再到Faster R-CNN的75.9%，最新实验显示，Faster RCNN结合残差网（Resnet-101），其检测精度可以达到83.8%。深度学习检测速度也越来越快，从最初的RCNN模型，处理一张图片要用2秒多，到Faster RCNN的198毫秒/张，再到YOLO的155帧/秒（其缺陷是精度较低，只有52.7%），最后出来了精度和速度都较高的SSD，精度75.1%，速度23帧/秒

图为：图像检测示例

目标检测的原理

目标检测的算法经过大神们的一次次改善，目前公认的最经典的算法就是Faster R-CNN算法，这个算法是RBG大神（Ross B.Girshick）在2015年在RCNN,Fast-RCNN上改善的，它最大的特点就是提高检测速度，也提高了准确率。Faster R-CNN最大的创新就是加PRN网络，把生成候选框和提取特征分类一起融合在一个网络。如下图，它就是在feature map 上面生成能把我们要识别的物体的候选框，然后进行不断拟合，使它的框能最准确的框住物体，然后对框里的物体进行识别。