书签分享收藏举报版权申诉 / 76

立即下载加入VIP,免费下载

当前位置：首页 > 党团工作 > 入党转正申请 > 基于深度学习的目标检测算法研究及应用.pdf

基于深度学习的目标检测算法研究及应用.pdf

文档编号：3434578
上传时间：2023-05-05
格式：PDF
页数：76
大小：5.02MB

《基于深度学习的目标检测算法研究及应用.pdf》由会员分享，可在线阅读，更多相关《基于深度学习的目标检测算法研究及应用.pdf（76页珍藏版）》请在冰点文库上搜索。

基于深度学习的目标检测算法研究及应用.pdf

电子科技大学UNIVERSITYOFELECTRONICSCIENCEANDTECHNOLOGYOFCHINA硕士学位论文MASTERTHESIS论文题目基于深度学习的目标检测算法研究及应用学科专业计算机软件与理论学号201221060338作者姓名万维指导教师匡平副教授分类号密级UDC注1学位论文基于深度学习的目标检测算法研究及应用（题名和副题名）万维（作者姓名）指导教师匡平副教授电子科技大学成都（姓名、职称、单位名称）申请学位级别硕士学科专业计算机软件与理论提交论文日期2015.3.15论文答辩日期2015.7.10学位授予单位和日期电子科技大学2015年12月答辩委员会主席评阅人注1：

注明国际十进分类法UDC的类号。

TheObjectDetectionAlgorithmResearchAndApplicationBasedOnDeepLearningAMasterThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChinaMajor:

ComputerSoftwareandTheoryAuthor:

WeiWanSupervisor:

A.P.PingKuangSchool:

SchoolofInformationandSoftwareEngineering独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。

据我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。

与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。

签名，日期，年月日关于论文使用授权的说明本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定，有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。

本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。

（保密的学位论文在解密后应遵守此规定）签名，导师签名，日期，年月日摘要I摘要目标检测是计算机视觉领域中一个富有挑战性的课题，其主要目的是从静态图片或视频中检测并定位特定的目标。

它综合运用了图像处理、模式识别、人工智能和自动控制等技术，在道路交通事故预防、工厂可疑危险品警告、军事禁区监控、高级人机交互等方面有着广泛的应用。

由于目标所处环境复杂多变，目前还没有一种比较通用成熟的检测方法，在实际应用中目标检测算法研究的机遇与挑战并存。

本论文首先分析了国内外目标检测算法的研究现状，着重介绍了当前应用较为广泛的方法，使用目标特征训练分类器进行目标分类检测。

针对使用现有特征训练的分类器进行目标分类检测时存在误检率较高的缺点，本文在深度学习的基础上提出了一种基于卷积神经网络的行人目标检测算法。

为了解决直接使用卷积神经网络进行滑动窗口检测效率较低的问题，本文将算法分为两大步骤：

（1）疑似存在行人窗口确认;

（2）行人检测。

在疑似存在行人窗口确认中，本文使用融合特征作为行人的描述特征训练分类器，采用了邻近尺度特征值相似的思想构建分类器金字塔，在待检图像上利用不同尺度的滑动窗口进行滑动遍历确定疑是存在行人窗口；在行人检测中，使用大量正负样本训练了一个卷积神经网络，为了更好的适应行人检测，将该卷积神经网络的拓扑结构进行改进。

将疑似存在行人的窗口输入改进后的卷积神经网络进行行人检测，在保持原有的检测率的基础下降低了误检率。

为了验证本文所提出算法的准确性，在INRIA行人数据库进行行人检测实验。

分别以每个窗口和每幅图像为检测单位，统计本文算法的检测率和误检率，在平均每幅图像存在一个误检窗口的标准下，达到了93%的检测率。

检测率比使用ACF特征训练的检测器高三个百分点，检测速度比单独使用卷积神经网络检测提升四倍以上。

实验结果证明了本文算法的有效性。

关键字关键字：

目标检测；行人检测；深度学习；卷积神经网络ABSTRACTIIABSTRACTObjectdetectionisachallengingprobleminthefieldofcomputervisionandwhichmainpurposeistodetectandlocatespecificgoalsfromstaticimagesorvideo.Itisbasedonthetechnologyoftechnologyofimageprocessing,patternrecognition,artificialintelligenceandautomaticcontrolandwidelyusedintrafficaccidentprevention,suspiciouswarnedofdangerousgoodsinfactory,militaryrestrictedzonemonitoringandseniorhuman-computerinteraction.Thecurrentlackofamatureandgeneralmethodtodetectobjectbecauseoftheenvironmentiscomplicated.Objectdetectionresearchexistopportunitiesandchallengesinpracticalapplication.Thisthesisfirstanalyzesthedomesticandforeignresearchstatusofobjectdetectionalgorithm,emphaticallyintroducestheapplicationmethodwhicharewidelyusedisbasedontheobjectfeaturetrainedclassifiertoclassifyobject.Becauseoftheexistingfeatureofthetrainedclassifiertoclassifyobjecthashighfalsepositivesrate,thisthesispresentapedestrianobjectdetectionalgorithmbasedonconvolutionneuralnetworkonthebasisofdeeplearning.Thealgorithmconsistsoftwostepsinordertosolvethelowefficiencyofslidingwindowwithconvolutionneuralnetwork,

（1）thesuspectedpedestrianwindowconfirmation;

（2）thepedestriandetection.Insuspectedexistingpedestrianwindowconfirmation,thisthesisusethefusionfeatureasthedescriptionofthepedestriantrainingclassifierandtheidealofnearbyscalefeaturesimilartobuildclassifierpyramid.Ontheinspectedimages,thisthesisusedifferentscalesofslidingwindowtoslidetraversaltoconfirmsuspectedexistpedestrianwindow.Inthepedestriandetection,thisthesisrelyalargenumberofpositiveandnegativesamplestotrainandgetaconvolutionneuralnetwork.Inordertobetteradeptthepedestriandetection,thisthesisimprovethetopologyoftraditionalconvolutionnetwork.Inputsuspectedexistenceofpedestrianswindowintotheimprovedconvolutionneuralnetworktodetectthepedestrian.Inordertoverifytheaccuracyoftheproposedalgorithm,thisthesistestpedestriandetectionexperimentsintheINRIApedestriandatabase.Separatelytreateachwindowandeachimageasdetectionunit,thisthesisstatisticsthedetectionrateanderrordetectionrateofthealgorithm.Onthestandardoftheexistenceofanerrorineveryimagedetectionwindow,thisthesisgets93%detectionrate.ComparedtheABSTRACTIIIexperimentalresultswithtraindetectorusingACFfeature,underthesamefalsepositiverate,thealgorithminthisthesishas3%detectionratehigherthanthedetectortrainedfromACFfeatureanddetectiontimelessfourfoldsthansingleuseconvolutionalneuralnetworks.Theexperimentalresultscertifytheeffectivenessofthealgorithminthisthesis.Keywords:

ObjectDetection,PedestrianDetaction,DeepLearning,ConvolutionalNeuralNetwork目录IV目录第一章绪论.11.1研究背景及意义.11.2国内外研究现状.21.3本文主要内容及结构安排.4第二章相关基础知识.62.1行人目标检测算法原理.62.1.1基于模板匹配的检测算法.62.1.2基于分类的行人检测算法.72.2典型的人体特征.92.2.1HAAR-LIKE特征.92.2.2HOG特征.102.2.3SIFT特征.122.3典型分类器.152.3.1支持向量机算法.152.3.2ADABOOST算法.182.4深度学习.202.4.1深度学习概述.202.4.2典型的深度学习结构.212.5本章小结.27第三章基于融合特征的疑是行人窗口确认.283.1提取融合特征.283.2分类器训练.343.2.1训练标准尺度级联分类器.343.2.2快速构建邻近尺度分类器.38目录V3.3滑动窗口检测.383.4本章小结.42第四章基于卷积神经网络的行人检测.434.1本文所使用的卷积神经网络拓扑结构.434.2训练卷积神经网络.444.3卷积神经网络的参数调节.494.4行人目标检测过程.514.5本章小结.52第五章实验结果及性能分析.535.1实验结果说明及对比.535.1.1行人检测评价标准.535.1.2实验过程.545.1.3实验结果与分析.545.1.4性能比较.585.2本章小结.59第六章总结与展望.606.1论文总结.606.2进一步研究工作.60致谢.61参考文献.62攻读硕士学位期间取得的成果.66第一章绪论1第一章绪论1.1研究背景及意义人类所接触的外界信息大约有80%属于视觉信息。

对人类来说，图像以及视频是对客观事物形象与逼真的描述，是人类最主要的信息来源。

目标检测与跟踪是计算机视觉研究领域的热门课题，它融合了图像处理、模式识别、人工智能、自动控制等许多领域的前沿技术,在智能化交通系统、智能监控系统、工业检测、航天航空等诸多领域得到了广泛的应用1。

自然界的一切图像都是连续变化的模拟图像，日常生活中，图像里某些特定的目标才是我们比较关心的，例如在军事禁区、工厂中的危险场所里面可疑的行人。

因此，目标检测也就成为了近年来理论和应用的研究热点，是图像处理和计算机视觉学科的重要分支。

它的目的就是快速、准确的检测出视频中的特定目标，在连续变化的模拟图像中将目标提取出来。

其典型的应用主要包括：

（1）智能交通监管系统，自动监测车辆和行人在交通中出现的违规及不文明现象，大大减少交通管理的麻烦。

（2）安全场合智能监控，主要是来自那些对安全要求敏感的场合，如银行、商店、停车场等。

自动完成对复杂环境中人和车辆进行实时观测及对感兴趣目标的行为进行分析和描述。

（3）军事应用中，在雷达跟踪、制导、遥感定位等领域，目标检测都占有极其重要的地位。

由于现实世界中的物体（尤其是行人）、场景存在多变性，使其很难用一个同意的方法进行研究。

目前目标检测所遇到的主要问题有：

如何准确快速分割目标、尽量减小复杂背景对目标检测的影响以及如何降低因目标尺度、大小和形状发生变化引起的目标检测精确度下降的问题。

此外，在目标检测系统中，系统的鲁棒性与实时性这两方面的性能存在矛盾。

鲁棒性对目标检测系统，特别是行人检测系统十分重要，因为行人检测系统通常需要自动、连续的工作，对噪声、光照、天气等因素的影响不能太敏感；实时性是系统必须满足的要求，这也就说明系统采用的图像处理算法不能太复杂。

鉴于传统的目标检测算法在不同场景下进行准确检测比较困难，结合现有的研究现状和技术水平，本文通过结合传统的行人特征与深度学习的方法，对目标检测技术具有重要的理论和实际意义。

电子科技大学硕士学位论文21.2国内外研究现状目标检测是图像处理和计算机视觉的一个重要分支，在理论和实践上都有重大意义。

近年来，随着物联网的高速发展与智能终端的广泛普及，目标检测技术成了机器视觉领域的研究热点，被国内外学者广泛关注。

目标检测的研究主要包括了基于视频图像的目标检测和基于静态图片的目标检测。

本文主要讨论基于静态图片的目标检测算法，即在静态图片中检测并定位所设定种类的目标。

基于静态图片的目标检测的难点主要在于图片中的目标会因光照、视角以及目标内部等变化而产生变化2。

针对以上的难点，国内外学者进行了很多尝试。

目前提出的方法主要分为基于形状轮廓的目标检测算法和基于目标特征的检测方法。

基于形状的目标检测方法一般是通过对目标外部轮廓进行提取来完成检测任务。

在行人目标检测中，形状是人体明显的一个特征，例如头肩部呈“”形，躯干部分呈竖直型等。

Gavril等人3构建人体轮廓模板库，计算待检窗口与人体的相似度，提出了基于轮廓的分层匹配算法；Farhadi等人4在对改算法进行进一步改进，其将行人的形状特征同边缘信息结合，该方法表示行人有更好的效果。

在FelzenszwalbP.F.等人5从大量正样本中学习到行人的轮廓模板，通过Hausdorff距离测量待检窗口的边缘信息和模板判定该窗口是否为行人。

上述三种方法优点是实现简单，不需要对图像进行预处理，可以保留图像的全部信息。

但是由于行人姿态各异，基于模板匹配的行人检测算法需要构建大量的形状模板才能取得较好的匹配效果，并且对行人目标存在遮挡的情况下分类效果不好。

基于特征及机器学习的方法是通过对目标进行特征提取、特征学习和检测等过程实现目标检测。

人体特征一般通过统计图像的局部亮度变化，用该变化近似表达人体。

常见的人体特征有Haar小波特征6、HOG特征7、Edlgelet8特征和混合特征9-11。

Haar小波特征6由Papageorgiou和Poggio等人提出，该特征使用检测窗口中指定位置的相邻矩形，计算每一个矩形的像素和并取其差值，然后用这些差值对图像的子区域进行分类。

Haar特征最初用于人脸目标检测；然后Viola使用积分图计算Haar特征12，积分图是一个与原始图像一样尺寸的二维矩形的查找表，每一个元素是原始图像在对应位置左上角所有像素和，可以使用查表的方法快速找出指定区域的Haar特征。

Viola将该方法用于行人检测，取得了较好的检测效果，为行人检测技术的发展奠定了基础。

研究人员提出了大量基于Haar小波特征的改进算法进行行人检测13。

Dalal等人7首先提出了使用梯度方向直方图进行行人检测，梯度方向直方图第一章绪论3将图像分成小的连通区域，采集连通区域中各像素点的梯度的边缘或边缘的方向直方图，最后将这些直方图组合起来构成特征描述。

HOG描述器对图像几何和光学的变化都能保持较好的不变性，而且在粗空间采样、精细方向抽样和较强的光学归一化等条件下，行人保持站立的姿态做一些轻微的肢体动作，这些肢体动作可以忽略而不影响检测效果。

综上所述，HOG特别适合于做图像的行人检测，其在MIT行人数据库14获得了接近100%的检测成功率；在INRIA行人数据库11上，也获得了约90%的检测成功率。

随后HOG成为了使用最广泛的行人特征描述子。

Zhu等人15使用积分直方图计算HOG特征，加速了HOG特征的提取速度，然后训练了多个不同尺度的分类器，构成了一个级联分类器用于检测行人；Qu等人16在检测视频中的行人时，将行人与背景分离出来后提取行人的HOG特征，减少了背景对目标HOG的影响，又加快了HOG特征的提取速度。

B.Wu17等人首先提出了Edgelet特征，使用该特征检测在复杂场景中的单幅图像行人，获得了较好的检测效果。

文献18将Edgelet特征用于对已知类别的物体进行检测和分割，取得了较好的效果。

Edgelet特征对光照变化的鲁棒性强；只存储位置和方向信息用来计算，匹配计算简单快速；对行人的遮挡、视角和姿态的变化不敏感。

但是Edgelet特征是依靠人工进行标定，工作量比较大，且标定完全符合人体曲线的Edgelet特征十分困难。

Tuzel9等人使用各种不同特征的协方差矩阵描述行人的局部区域，将协方差矩阵视为联通的黎曼流，在黎曼几何空间中对行人分类。

Watanabe10等人提出了共生梯度方向直方图特征（Co-occurrenceHistogramsofOrientedGradients），该特征类似灰度共生矩阵，能更好的描述梯度空间的分布，但是向量维数太高。

Dollar等人11使用积分图的技术对图像各特征通道（线性或非线性变换后的图像）进行快速计算，提出了积分通道特征。

该特征不仅可以将多种特征有机的结合起来，且解决了融合计算较慢的缺点。

GeoffreyHinton等人19在Science上首次提出了深度学习的概念，其主要思想是通过深度神经网络模拟人脑学习认识目标的过程，依靠该神经网络从低到高逐层传递目标的特征，层次越高特征越抽象，输出结果为该目标最准确的特征表达20。

深度学习提出后，在诸多领域均取得了巨大成功，受到广泛关注。

在2012年，Hinton等人21采用深度学习赢得了ImageNet22图像分类比赛的冠军，他们在原始的RGB像素空间训练了深度卷积神经网络模型，该模型包含6000万个像素，65万个神经元构成的5层卷积网络，准确率超过使用传统手工设计特征的亚军10十个百分点。

Ji等人23提出多层的3D卷积神经网络来学习视频块的时空特征，并通过卷积操作来实现对整个视频的特征学习，从而替代之前的时空兴趣点检测和电子科技大学硕士学位论文4特征描述符提取。

Taylor等人24提出使用卷积限制波兹曼来学习视频中相邻两帧的时空特征，在KTH和Hollywoods2视频数据库中的对比试验结果表明，利用深度学习得到的特征与手工设计的HOG等特征具有类似效果。

而Y.Sun25,26等人通过卷积神经网络学习人的脸部特征，将该特征用来训练贝叶斯分类器进行人脸识别，获得了99.47%的识别率，而非深度学习算法中，最好的识别率只能达到96.33%。

深度学习在学术界受到了广泛关注，同时在工业界也产生了巨大影响。

百度和谷歌在Hinton等人赢得ImageNet比赛之后6个月都更新了自己的图像内容搜索引擎。

他们使用Hinton在比赛中的深度学习模型，应用在各自的数据上，图像搜索的准确率都得到了大幅度提高。

鉴于深度学习在学术界和工业界的巨大影响力，2013年被MITTechnologyReview列为世界十大技术突破之首。

1.3本文主要内容及结构安排本文首先介绍了目标检测算法的发展现状，讲解了目标检测的基本步骤以及一些常用的行人目标特征，接着介绍了深度学习的原理和几个深度学习模型，然后使用卷积神经网络加上积分通道特征训练一个能精确判断静态图像中行人的行人检测器。

本文结合传统的行人特征与卷积神经网络学习的行人特征进行行人检测，检测的具体步骤如图1-1所示。

本文的章节安排如下：

第一章简单讲解目标检测的研究背景意义，以及目标检测和深度学习在当前的研究状况。

第二章简述了行人目标检测的基础知识，阐述了基于模板匹配和基于分类这两种行人目标检测算法的基本流程；详细讲解了三种常用的行人特征：

Haar-like特征、HOG特征和SIFT特征，并比较了这三种特征的优缺点；介绍了支持向量机和AdaBoost这两种分类算法，并详细讲解了他们的训练过程。

简述了深度学习的背景原理，并详细讲解了稀疏自编码器、深度信念网和卷积神经网络这三种常用的深度学习模型。

第三章详细给出了疑是行人窗口确认的过程，首先对样本图像做各种线性和非线性变换求出其图像通道，使用积分图快速求出其通道的矩形特征，随机选取一组特征进行分类器训练；利用邻近尺度相似性的原理，使用公式计算出于标准尺度分类器邻近的分类器参数；使用不同尺度的分类器对待捡图像进行滑动窗口处理，找出疑是存在行人的窗口并输出至卷积神经网络。

第四章给出了本文所使用卷积神经网络的拓扑结构图，根据实际情况对原有的神经网络进行了改进，使其适合于做行人检测；详细说明了该卷积神经网络的第一章绪论5训练过程；使用不同参数的网络进行行人检测实验，证明本文使用的网络效果最佳。

第五章给出了使用本文算法的实验结果，并与使用ACF训练的检测器进行对比试验，证明了本文算法的有效性。

第六章对本文研究工作进行总结并提出了一些需要继续深入研究的问题。

待检图片提取融合特征多尺度分类器滑动窗口检测确认疑是行人窗口疑是存在行人窗口确认基于卷积神经网络的行人检测卷积神经网络提取特征单层神经网络分类根据分类结果确定窗口是否存在行人检测结果图1-1本文检测行人步骤电子科技大学硕士学位论文6第二章相关基础知识要设计出具有良好环境适应能力的检测方法，首先需要充分分析了解现有的行人检测技术，了解现有技术在特征选择和分类器设计的优势与不足，才能做出针对性的改进。

本章将重点分析介绍行人检测技术的相关知识，典型的行人特征和典型的分类器两个