深度学习之目标检测

远在古希腊时期,发明家就梦想着创造能自主思考的机器。神话人物皮格马利翁、代达罗斯和赫淮斯托斯可以被看作传说中的发明家,而加拉蒂亚、塔洛斯和潘多拉则可以被视为人造生命。

当人类第一次构思可编程计算机时,就已经在思考计算机能否变得智能。如今,人工智能(artificialintelligence, AI)已经成为一个具有众多实际应用和活跃研究课题的领域,并且正在蓬勃发展。我们期望通过智能软件自动地处理常规劳动、理解语音或图像、帮助医学诊断和支持基础科学研究。

人工智能经过无数的坎坷,经过无数数学的积累,才慢慢的又进入人们的视线中。自从Alex和他的导师Hinton(深度学习鼻祖)在2012年的ImageNet大规模图像识别竞赛(ILSVRC2012)中以超过第二名10个百分点的成绩(83.6%的Top5精度)碾压第二名(74.2%,使用传统的计算机视觉方法)后,深度学习NN)开始成为家喻户晓的名字,深度学习之所以火起来因为人们不需要像之前那样手工去设计算法去提取特征,当我们想识别图片是猫还是狗时,我们可以不需要告诉算法猫狗的不同特征是什么,我们只需要把大量的图片扔进我们设计的网络结构,算法会一遍一遍学习它认为的猫狗的特征。深度学习比机器学习有优势在于,当我们的样本数量足够多时,深度学习的准确率将会明显提高。

(图为:深度学习算法自己学习到图片的特征)

深度学习,是AI中的一种技术或思想,曾被MIT技术评论列为2013年十大突破性技术(Deep Learning居首)。深度学习在计算机视觉领域发展迅速且方向繁多。它从图像分类为基础,慢慢延伸到图像检测,图像分割,自然语言处理等各个方向。下面讲两个深度学习在图片分类和图片检测方向的应用

图像分类

2012年,Alex和他的到时在ImageNet比赛上一战成名后,人们开始意识到卷积神经网络的厉害之处,图像分类的准确率极速提高。从12年的AlexNet(83.6%),到2013年ImageNet 大规模图像识别竞赛冠军的88.8%,再到2014年VGG的92.7%和同年的GoogLeNet的93.3%,终于,到了2015年,在1000类的图像识别中,微软提出的残差网(ResNet)以96.43%的Top5正确率,达到了超过人类的水平(人类的正确率也只有94.9%). (Top5精度是指在给出一张图片,模型给出5个最有可能的标签,只要在预测的5个结果中包含正确标签,即为正确)

图为:2010-2015年ILSVRC竞赛图像识别错误率演进趋势

目标检测

伴随着图像分类任务,还有另外一个更加有挑战的任务–图像检测,图像检测是指在分类图像的同时把物体用矩形框给圈起来。从14年到16年,先后涌现出R-CNN,Fast R-CNN, Faster R-CNN, YOLO, SSD等知名框架,其检测平均精度(mAP),在计算机视觉一个知名数据集上PASCAL VOC上的检测平均精度(mAP),也从R-CNN的53.3%,到Fast RCNN的68.4%,再到Faster R-CNN的75.9%,最新实验显示,Faster RCNN结合残差网(Resnet-101),其检测精度可以达到83.8%。深度学习检测速度也越来越快,从最初的RCNN模型,处理一张图片要用2秒多,到Faster RCNN的198毫秒/张,再到YOLO的155帧/秒(其缺陷是精度较低,只有52.7%),最后出来了精度和速度都较高的SSD,精度75.1%,速度23帧/秒

图为:图像检测示例

目标检测的原理

目标检测的算法经过大神们的一次次改善,目前公认的最经典的算法就是Faster R-CNN算法,这个算法是RBG大神(Ross B.Girshick)在2015年在RCNN,Fast-RCNN上改善的,它最大的特点就是提高检测速度,也提高了准确率。Faster R-CNN最大的创新就是加PRN网络,把生成候选框和提取特征分类一起融合在一个网络。如下图,它就是在feature map 上面生成能把我们要识别的物体的候选框,然后进行不断拟合,使它的框能最准确的框住物体,然后对框里的物体进行识别。

目标检测的运用

1.在辅助驾驶上的运用:

人们可以基于目标检测实现道路检测,行人车辆检测,还可以进行红绿灯检测,告诉驾驶员前面多远有行人或者车辆,车辆有哪些种类,多久有红绿灯。使人们的驾驶更安全
  

2.在地理信息系统的运用

我们可以基于谷歌影像进行训练,生成我们想要检测的物体在地图上的坐标点,然后我们就可以在地图上可视化显示出物体的位置

(如图显示出飞机在谷歌影像上的位置)


(如图显示出汽车在无人机航拍上的位置)


 (如图显示出飞机场在谷歌影像上的位置)

3.在人脸识别上应用

在图片上先进行一次目标检测可以去除图片上非人脸部分的影响,提高人脸的识别的准确率。也可以在图片上找到人脸进行美颜等功能

4.在视频上的应用

目标检测可以运用在视频上,实现实时追踪某个人,或者某个物体的行踪,就像实现速度与激情8中的天眼的炫酷

下面展示一个好玩的demo

(demo中可以精确的框出人和瓶子,并进行分类)