文 献 综 述
1、研究背景和意义
随着计算机技术的发展,机器学习在现代社会的各个方面都表现出强大的功能。其中,深度学习被广泛用于图像识别和目标检测。深度学习是一种特征学习方法。把原始数据通过一些简单的可是非线性的模型转变成为更高层次的,更加抽象的表达。通过足够多的转换的组合,很复杂的函数也可以被学习。卷积神经网络用于处理高维数据,在图像处理方面发挥着重要作用。本文重点论述深度学习在低空物体检测方面的应用。
机场是交通中不可分割的一部分,飞机的安全对于空中运输起了至关重要的保障作用。其中一个安全隐患,便是飞机起飞或着陆时,机场上方的低空物体有可能与飞机相撞,造成严重的安全事故。为了解决这个问题,需要提出一种有效的小目标检测技术,对危险进行判别,并采取有效措施。本文通过分析大量国内外期刊和会议文献,综述了计算机视觉和低空物体检测的发展。重点分析了经典目标检测算法和目标检测算法在无人机检测方面的改进与应用。
2、研究现状
在深度学习兴起之前,常用的目标检测方法是方向梯度直方图[1]和可变形部件模型[2]等。这类模型有一个共同的缺点,计算冗余太大,鲁棒性差。深度学习为目标检测提供了新的思路,在文献[3]中,作者提出了AlexNet网络,在ImageNet LSVRC-2010竞赛中获得了17%的错误率,这也远超当时的工艺水平。类似的,在文献[4]中,作者提出了VGG16。AlexNet和VGG16等常作为特征提取网络。
目标检测主要分为两阶段检测和单阶段检测。文献[5]提出的RCNN是一种经典的基于候选区域的两阶段目标检测方法。首先通过selective search的方法选出候选区域,再将所有候选区域输入CNN网络(如AlexNet),最后用支持向量机(SVM)进行分类和Bounding box回归。由于生成候选区域的速度较慢,所以该算法的计算速度缓慢,并且训练步骤繁琐。为了解决这些问题,在2015年,Ross Girshick提出了Fast R-CNN[6]。Fast R-CNN使用VGG16作为特征提取网络,卷积不再是对每个候选区域进行,而是直接对整个图像进行操作,这样减少了重复计算,但由于还是会使用selective search的方法,检测速度仍然很慢,为了解决这个问题,Faster-RCNN[7]被研究出来。相比起Fast-RCNN,Faster-RCNN使用了RPN网络(Region Proposal Network)代替了原来的selective search产生候选区域,提高了网络检测的速度。
SSD[8]是一种单阶段检测算法,它使用单个深度神经网络进行检测,类似于RPN,不过RPN只能在最后的特征图上预测检测结果,对于小物体的特征不能很好地表征。而SSD实现了多尺度特征图,允许从CNN网络的各个层的特征图预测检测结果,这样就很好地适应了不同尺度的物体。SSD算法主要分为4步:输入图片;使用VGG16进行特征提取,将最后的全连接层改为卷积层,目的是进行多尺度检测;对于不同的卷积层输出分别用两个不同的3X3卷积进行卷积;通过NMS算法得到最终的检测结果。传统的SSD存在两个问题,首先,不同层的特征层都独立作为分类网络的输入,容易出现同一个物体被不同的大小的框同时检测出来;对小尺寸物体检测效果比较差。文献[9]提出了SSD的改进版,成为Rainbow-SSD。主要改进点为:利用分类网络增加不同层之间的特征层联系,减少重复框的出现;增加特征层数量,使其可以检测出更多小尺寸物体。
与SSD同为经典单阶段检测算法的是YOLO[10]。YOLO的全称是You Only Look Once,它由Joseph Redmon等人提出。最早的YOLOV1的核心思想是,将一幅448X448的图像分为7X7,每一个框负责一类物体的预测。具体实现方法是将图片输入神经网络,得到一个7X7X30的特征图。每一个区域有30个输出,这些输出包括两个bounding box和20类物体的预测,每个bounding box包含了bounding box的中心坐标和长宽以及置信度。YOLOV1算法将定位和分类看成了纯回归问题,将问题简化。但也存在许多问题,比如一个框内如果出现多个物体时检测不准,对于小物体的检测也不够准确。YOLOV2[11]在YOLOV1的基础上进行了如下改进:输入图片的分辨率更高,添加Batch Normalization层以及引入了Anchor Box的机制。这样的改进降低了模型收敛的难度,同时也使定位变得更加准确,但对于小型物体的检测依然不够理想。在之后的YOLOV3[12]中,采用了多尺度预测,生成三种大小的特征图。解决了小型目标识别不准的问题。
对检测算法的研究,也包括了轻量型深层神经网络。MobileNet是Google针对手机等嵌入式设备提出的一种轻量级的深层神经网络,其使用的核心思想便是深度可分离卷积。文献[13]提出了MobileNetV2神经网络结构,它具有结构简洁、运算快等优点。
除了上面的检测算法,近年来研究者对低空目标的识别也进行了各种各样的改进。文献[14]基于最大似然概率多假设跟踪框架,在多传感器信息利用和多径信息利用两个方面提出了增强算法。文献[15]针对无人机的特殊性,提出了一个新的低空无人机目标数据库,并在设计的多隐含层深度神经网络测试,在悬停和移动的无人机的情况下均取得准确的定位效果,具有较好的变尺度检测能力和抗干扰效果。文献[16]基于YOLOV3,考虑到darknet53网络的计算速度慢,不适用于嵌入式设备,提出了使用MobileNet-V3-small作为检测网络的backbone,以此替换darknet53。此外,在原有的三个特征层的基础上,增加了一个特征层,使其对物体的大小变化更能适应。相应的,anchor box的个数也由9个变为12个。特征层的增加,弥补了由于网络简化而造成的精度缺失,并且加快了运算速度。文献[17]提出了Dual-YOLOV3的双通道结构,分别对应可见光图像和红外图像,然后此结构又可分为三种类型:浅层融合,中层融合和深层融合,充分利用了可见光和红外光的图像信息。但也存在缺陷,如在夜间或光线昏暗的条件下的性能不够好。对低空目标的识别也会受自然条件的影响,文献[18]提出了基于单帧图像的复原去雾方法,可以很好地解决由于图片不清晰引起的识别不准确。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。