人脸识别方法综述.docx
- 文档编号:18215590
- 上传时间:2023-08-13
- 格式:DOCX
- 页数:15
- 大小:236.28KB
人脸识别方法综述.docx
《人脸识别方法综述.docx》由会员分享,可在线阅读,更多相关《人脸识别方法综述.docx(15页珍藏版)》请在冰点文库上搜索。
人脸识别方法综述
人脸识别方法报告
人脸识别(FaceRecognition)是指给定一个静止或动态图像,利用已有的人脸数据库来确认图像中的一个或多个人。
人脸自动识别系统包括人脸检测与定位和特征提取与人脸识别两个主要技术环节,如图所示:
1.人脸检测与定位部分
检测图像中是否有人脸图像,若有,将其从背景中分割出来,并确定其在图像中的位置。
在某些控制拍摄条件的场合,如证件照等,背景相对简单,定位比较容易。
而在复杂背景下获得的图像,由于人脸在图像中的位置是未知的,此时人脸的检测与定位将受到以下诸因素的影响:
(1)人脸在图像中的位置、旋转角度和尺度的变化;
(2)发型和化妆会遮盖某些特征;(3)图像中的噪声。
2.特征提取与人脸识别
这部分主要分为三个部分,分别是图像预处理、特征提取、人脸识别。
图像预处理:
为了更精确地获得图像的有效特征信息,在特征提取前一般需要对图像做几何归一化和灰度归一化的处理。
前者是指根据人脸定位结果将图像中的人脸位置、尺度调整到同一位置和同样大小;后者主要是采用光照补偿等处理方法解决光照变化对检测的影响。
特征提取:
进行特征提取时根据所采取识别方法的不同,具体提取的特征形式也不相同。
如在基于几何特征的识别方法中,需要提取特征点,然后构造特征矢量;在基于统计的特征脸方法中则是提取图像相关矩阵的特征矢量来构造特征脸;在模板匹配法中提取相关系数做为特征;而在基于神经网络的识别中一般不需要专门的特征提取过程。
人脸识别:
特征提取结束后,下一步就是人脸识别。
在数据库中预先存放了已知的人脸图像或有关的特征值,识别的目的就是将待识别的图像或特征与数据库中数据进行匹配。
识别任务分为两类:
人脸辨认,确定输入图像为库中哪一个;人脸证实,验证某人的身份是否属实。
常用的人脸识别方法有:
1.基于几何特征的人脸识别方法
基于几何特征的人脸识别方法,是在抽取人脸图像上显著特征的相对位置及其参数的基础上进行识别。
早期的人脸识别是用手工确定人脸特征点的位置并将其输人计算机中,其工作的流程:
检测出面部特征点,通过测量这些关键点之间的相对距离(欧式距离),得到描述每个脸的特征矢量,如眼睛、鼻子和嘴的位置和宽度,眉毛的厚度和弯曲程度等,以及这些特征之间的关系。
用这些特征来表示人脸,未知脸和库中已知脸中的特征矢量比较,寻找最佳匹配。
Yuille提出基于弹性模板的人脸检测方法。
弹性模板是由一个根据被测物体形状而设定的参数可调模板和与之对应的能量函数构成,能量函数可依据图像的灰度信息、被测物体轮廓等先验知识来设计。
用弹性模板进行人脸检测时,将可调模板在待测图像中移动,并动态地调整其参数,计算能量函数,当能量函数到达最小值时,根据其位置和参数所决定的可调模板形状即是与人脸形状的最佳拟合,这样就检测到了一幅人脸.这种方法的优点是由于所使用的弹性模板可调,所以能够检测不同大小、不同偏转角度的人脸物体,其缺点是检测前必须根据待测人脸的形状来设计弹性模板的轮廓,否则会影响收敛的结果;当对图像进行全局搜索时,由于要动态地调整参数和计算能量函数,计算时间过长。
基于几何特征的识别算法具有存储量小、对光照不敏感的特点,但该方法对获得图像的质量要求很高,对特征点的定位要求非常准确,倘若人脸有一定的侧向或有装饰物则会影响识别率。
所以这种方法做为早期的识别方法,现在常是作为其它识别方法的辅助手段。
2.基于统计特征的人脸识别方法
基于统计特征的人脸识别方法,不只针对人脸的某一特征,它是从整个人脸的角度出发,利用统计原理,从多张人脸图像中提取出人脸共有的一些规律,利用这些规律来进行人脸的识别。
由于人脸图像的复杂性,人脸特征的显式描述具有很大困难,因此基于统计的方法越来越受到重视。
典型的方法是特征脸(Eigenface)方法、Fisher脸方法和隐马尔可夫模型(HMM)方法。
(1)本征脸(Eigenface)方法
本征脸方法是由Turk和Pentland等人首先提出的,是从主成分分析(PCA)导出的一种人脸识别和描述技术。
PCA由K-L展开的网络递推实现,K-L变换(最优正交变换)首先应用于图像的压缩,其生成矩阵由训练样本的总体散度矩阵构成。
其中,xk为第k个训练样本的图像向量,mk为训练样本集的平均图向量,N为训练样本总数。
本征脸方法是将包含人脸的图像区域看作随机向量,采用K-L变换获得其正交K-L基,对应其中较大特征值的基具有与人脸相似的形状,因此又称之为特征脸,如图所示:
利用这些基的线性组合可以描述、表达和逼近人脸图像,因此可以进行人脸识别与合成。
其识别过程是将人脸图像映射到由本征脸张成的子空间上,通过比较待测人脸与已知人脸在本征脸空间中的位置差别来识别。
本征脸方法产生的最大特征向量(本征脸)考虑了图像之间所有的差异,但是它不能区分这些差异是由人脸本身带来的还是外在因素带来的,所以该方法有一定的局限性。
研究者在此基础上提出了许多改进的方法,如双子空间法、相形歧义分析方法、Fisher脸方法等。
(2)Fisher脸方法
Fisher脸方法是Belhumeur提出的,该方法又称为线形判别分析(LDA)方法。
用LDA方法可找出使类内数据尽量集中,类间数据尽量分散的线性变换关系。
它是本征脸方法的一种最优改进,所以可以得到较好的识别结果。
其变换公式如下:
由于LDA方法需要使用PCA降维,而PCA方法在降维的同时丢失了很多帮助判别的有用信息,因此很多人开始寻找直接使用LDA降维的方法。
Yu和Yang提出的DLDA方法,大量实测结果表明:
Fisher脸方法优于本征脸方法,即FLDA的降维效果要优于PCA的降维效果;而基于直接进行LDA降维的人脸识别方法优于Fisher脸方法。
两者的区别就在于不使用PCA降维,使判别信息得到了最大程度的保留。
(3)LBP特征脸方法
使用LBP手段描述人脸,具体表现为运用纹理描述符对人脸局部展开详细的绘制处理,然后将其组合成一体。
其中
是窗口中心像素,p是相邻像素个数,ic是窗口中心像素的灰度值,in是相邻像素的灰度值,s是一个符号函数,定义如下:
人脸图像被分割成几个局部区域,从这些不同的区域提取纹理描述符,并共同构成人脸的整体视图。
把脸部区域分成确定的m份R0、R1、R2、…、Rm-1,直方图将依序计算每个区域,M的直方图计算结果整合在一起形成空间,空间增加M×N大小的直方图,其中的n表示一个直方图的大小。
空间增强的直方图可以有效地描述3个不同层次的脸部,具体的3个层次分别为:
直方图LBP标识包含一个像素级别的信息;地域级是由小的区域上的标志集结构成的;这些区域的直方图连接起来,最终形成完整的人脸。
(4)隐马尔可夫模型(HMM)方法
一种人脸识别方法的效果取决于图像的原始信息的利用程度。
所以一些研究者尝试用一组数值特征来描述人脸的各个器官,并且利用这组数值特征对人脸进行识别。
仅简单地利用一组数值特征并不能使人脸识别问题得到满意地解决,而应当把人脸作为一个整体来描述,不仅包括各个器官的数值特征,还应当包括各个器官的不同表象和相互关联。
隐马尔可夫模型已成功应用于语音识别,在该模型中,观测到的特征可看作是一组不可观测“状态”产生的一系列实现,可用不同的HMM参数来表征不同的人脸,同一个人由于姿态和表情变化产生的多个观测序列可以通过同一个HMM模型来表征,所以在理论上获得了很大的进步。
下图为人脸图像的一个典型HMM模型:
多数研究者在利用HMM进行人脸识别时,都采用矩形窗口进行某种变换的方法来提取特征,常见的变换有2D-DCT、KLT、小波变换、奇异值分解等。
得到观察向量,构建HMM人脸模型,然后用EM算法训练。
利用该模型就可以算出每个待识别人脸观察向量的概率,从而完成识别。
为解决一维HMM识别率不高的问题,可以采用二维HMM方法。
二维HMM方法在AT&T人脸库测试的结果获得了较高的识别率。
(5)Harr特征脸方法
Haar-like特征最早是由Papageorgiou等应用于人脸表示,Viola和Jones在此基础上,使用3种类型4种形式的特征。
Haar特征分为三类:
边缘特征、线性特征、中心特征和对角线特征,组合成特征模板。
特征模板内有白色和黑色两种矩形,并定义该模板的特征值为白色矩形像素和减去黑色矩形像素和。
Haar特征值反映了图像的灰度变化情况。
例如:
脸部的一些特征能由矩形特征简单的描述,如:
眼睛要比脸颊颜色要深,鼻梁两侧比鼻梁颜色要深,嘴巴比周围颜色要深等。
但矩形特征只对一些简单的图形结构,如边缘、线段较敏感,所以只能描述特定走向(水平、垂直、对角)的结构。
对于图中的A,B和D这类特征,特征数值计算公式为:
v=Sum白-Sum黑,而对于C来说,计算公式如下:
v=Sum白-2*Sum黑;之所以将黑色区域像素和乘以2,是为了使两种矩形区域中像素数目一致。
通过改变特征模板的大小和位置,可在图像子窗口中穷举出大量的特征。
上图的特征模板称为“特征原型”;特征原型在图像子窗口中扩展(平移伸缩)得到的特征称为“矩形特征”;矩形特征的值称为“特征值”。
利用积分图可以快速求出所有矩形特征;然后通过AdaBoost算法来训练和分类。
公式如下:
3.基于连接机制的人脸识别方法
(1)弹性图匹配(DLA)方法
弹性图匹配是基于动态链接结构(DLA)的方法,用格状的稀疏图表示人脸,图中的节点由图像位置的Gabor小波分解得到的特征向量标记
图的边用连接节点的距离向量标记,如下图所示:
匹配时,首先寻找与输入图像最相似的模型图,再对图中的每个节点位置进行最佳匹配,这样产生一个变形图,由节点位置逼近输入图像模型图的对应点的位置进行识别。
Wiscott使用弹性图匹配方法,用FERET图像库数据实测,识别准确率达到97.3%。
弹性图匹配方法对光照、位移、旋转及尺度变化都不敏感,是一种优于本征脸的人脸识别方法。
此方法的主要缺点是需要对每个存储的人脸计算其模型图,计算量和存储量都较大。
Wiskott在原有方法的基础上提出聚束图匹配,在聚束图中,所有节点都已经定位在相应目标上。
对于数据量很大的库,可以大大减少识别时间。
利用聚束图还能够匹配不同人的最相似特征,因此可以获得关于未知人的性别、胡须和眼镜等相关信息。
(2)神经网络方法
Kohonen自联想映射网络是早期用于人脸识别的一种神经网络,主要用于人脸的“回忆”,当输入图像上的人脸受噪声污染严重或部分缺损时,Kohonen网络可恢复原来完整的人脸,Cottrell使用级联BP神经网络进行人脸识别,该方法对部分受损人脸、光照有所变化人脸的识别效果较好。
BP神经网络的公式为:
E.Osuna提出的基于支持向量机网络(SVM)结合BP神经网络的人脸识别方法,可以避免BP网络结构设计上的盲目性,学习目标函数的凸性,使网络训练过程从根本上避免了局部最优等非线性优化问题。
示意图如下所示:
其公式如下:
等价于:
转换为对偶问题:
神经网络方法用于人脸识别上比其它类型的方法有其独到的优势,避免了复杂的特征提取工作,可以通过学习获得其它方法难以实现的人脸识别规律和规则的隐性表达。
另外,神经网络以并行方式处理信息,用硬件实现,可以显著提高识别速度。
由于神经网络方法也存在神经元数目多,网络训练耗时、收敛缓慢、容易陷入局部最小等缺点。
(3)深度学习方法
深度学习算法种类繁多,人脸识别方面应用较广的主要是卷积神经网络。
卷积神经网络是一种非全连接的神经网络结构,包含2种特殊的结构层:
卷积层和次抽样层(也称特征提取层和特征映射层)。
卷积层由多个特征平面构成,完成抽取特征的任务,每个特征平面由神经元构成,每个神经元接受同一个特征平面的神经元,并且该神经元具有相同的大小。
这一做法的理论基础在于,一般认为,人对外界的认知是从局部到全局的,图像的空间联系也是局部的。
像素联系较为紧密,距离较远的像素相关性则较弱。
因而,每个神经元没有必要对全局图像进行感知,只需要对局部进行感知,然后在更高层将局部的信息综合起来就可以得到全局信息。
同时,同一特征平面上的神经元具有相同的权值,这其中隐含的原理则是:
图像的一部分统计特性与其他部分是一样的。
这也意味着我们在这一部分学习的特征也能用在另一部分上,所以对于这个图像上的所有位置,我们都能使用同样的学习特征。
目前,激活函数一般采用线性校正单元(Relu),该函数不仅加快了训练速度,
并且使网络结构更加稀疏,可以学到更优的图像特征。
每个卷积层都会紧跟1个次抽样层,输入数据经过卷积后进入高维空间,即卷积层进行了升维映射,如果不断进行升维,显然会导致维数灾难,因此需要进行池化操作,但池化操作会损失部分图像信息,网络中不能频繁采取池化操作。
卷积层的每一个平面抽取了前一层某一个方面的特征,每个卷积层上的每个结点作为特征探测器,共同抽取输入图像的某个特征,图像经过一层卷积就由原始空间被映射到特征空间,在特征空间中进行图像的重构,卷积层的输出,为图像在特征空间中重构的坐标,作为下一层也就是次抽样层的输入,如图所示:
其中,C代表卷积,P代表池化,F代表全连接。
在实际应用中往往使用多层卷积,然后再使用全连接层进行训练,多层卷积的目的是一层卷积学到的特征往往是局部的,层数越高学到的特征就越抽象越全局化相较于其他深度学习方法,卷积神经网络具有很多优势:
CNN允许多维向量的图像直接输入网络,避免了特征提取和分类过程中数据重建的复杂度;卷积层与计算层相间的独特结构减小了特征分辨率;权值共享不仅可以实现并行学习,同时还减少了网络自由参数的个数,大大降低了网络的复杂性。
这些特点使得卷积神经网络在图像处理方面有很强的优越性。
4.其他人脸识别方法
(1)图像重建的人脸识别方法
光照问题和姿态估计与匹配问题在人脸识别领域是所面临的关键问题。
而为了避免光照和姿态大幅度变化对研究的影响,研究学者提出了基于图像重建和图像融合的人脸识别方法。
对于多CCD摄像机系统,可以得到多视点人脸图像,从而可以获得人脸的立体模型。
含有三维信息的特征能有效解决人脸在光照、伪装或年龄变化等情况下的识别问题。
具体来说,可分两种情况:
<1>根据对人脸的多角度拍摄生成人脸的三维模型,然后进行与数据库中的三维模型的对比。
<2>根据二维人脸图计算出姿态偏转角度,将数据库中三维图按同样角度偏转后投影得二维图,两者进行匹配对比。
(2)红外人脸方法
除此以外,还有一些方法如:
深度人脸图像识别和红外人脸图像识别方法。
深度图像包含了人脸的深度信息,Gordon针对深度图像提出了一种基于模板的用图像数据的曲率作描述子的识别方法。
红外人脸图像(也叫温谱图)对每个人来说都是惟一的,所以可以利用温谱图识别人脸。
另外在黑暗中也能捕捉红外光,因此用红外人脸图像在黑暗中也能进行识别。
Selinger提出的基于长波红外图像和可见图像结合的识别算法也获得良好的识别效果。
嵌入式系统人脸识别
1.常用嵌入式芯片
嵌入式芯片处理器种类繁多,从8位、16位、32位到64位都有,常用的包括有ARM、MIPS、PowerPC、X86、DSP、MC68000、FPGA等,其中ARM与DSP的用量最大。
ARM公司自成立以来,一直以IP(IntelligenceProperty)提供者的身份向各大半导体制造商出售知识产权,而自己从不介入芯片的生产销售,加上其设计的芯核具有功耗低、成本低等显著优点,因此获得众多的半导体厂家和整机厂商的大力支持,在32位嵌入式应用领域获得了巨大的成功,已经占有75%以上的32位RISC嵌入式产品市场。
在低功耗、低成本的嵌入式应用领域确立了市场领导地位。
ARM微处理器目前包括ARM7、ARM9、ARM9E、ARM10E、SecURCore、Intel的StrongARM和Intel的Xscale系列,以及其他厂家基于ARM体系机构的处理器。
非常流行的ARM芯片有ARM7TDMI,StrongARM,ARM720T,ARM9TDMI,ARM922T,ARM940T,RM946T,ARM966T,ARM10TDM1等。
ARM嵌入式系统的硬件组成如下图所示:
DSP内部采用程序和数据分开的哈佛结构,具有专门的硬件乘法器,广泛采用流水线操作,提供特殊的DSP指令,可以用来快速的实现各种数字信号处理算法。
DSP嵌入式系统的硬件组成如下图所示:
DSP一般具有如下的一些主要特点:
(1)在一个指令周期内可完成一次乘法和一次加法。
(2)程序和数据空间分开,可以同时访问指令和数据。
(3)片内具有快速RAM,通常可通过独立的数据总线在两块中同时访问。
(4)具有低开销或无开销循环及跳转的硬件支持。
(5)快速的中断处理和硬件I/O支持。
(6)具有在单周期内操作的多个硬件地址产生器。
(7)可以并行执行多个操作。
(8)支持流水线操作,使取指、译码和执行等操作可以重叠执行。
与通用微处理器相比,如:
ARM,DSP的其他通用功能相对较弱些。
按照DSP的用途来分,可分为通用型DSP和专用型DSP。
通用型DSP适合普通的DSP应用,如TI公司的一系列DSP属于通用型DSP。
专用DSP是为特定的DSP运算而设计的,更适合特殊的运算,如数字滤波、卷积和FFT,如Motorola公司的DSP56200,Zoran公司的ZR34881,Inmos公司的IMSA100等就属于专用型DSP。
2.嵌入式系统
嵌入式系统(EmbeddedSystem)是针对通用计算机而言的,国际电气与电子工程师协会(IEEE)对嵌入式系统的定义为:
“嵌入式系统是用来控制或监视机器、装置或工厂等大规模系统的设备”。
目前国际上流行的嵌入式操作系统有40多种,主要有Linux、WinCE、VxWorks、ECOS、QNX等。
采用嵌入式Linux系统的优势有:
(1)广泛的硬件支持
(2)源码开放(3)内核性能高效,工作稳定(4)完善的网络通讯,文件管理机制(5)大量外围硬件设备支持(6)良好开发工具包
3.搭建硬件开发环境
对于嵌入式Linux系统,有以下5个部分构成:
BootLoader、Linux内核、根文件系统、硬件设备驱动程序、应用程序。
其应用程序开发有两种模式:
(1)源代码先在宿主机上调试通过后,再移植到目标机上。
基于这种模式的应用程序开发实际上变成了Linux下的程序开发,移植工作要考虑宿主机与目标机编译器的差异,以及使用的库函数的不同。
Linux宿主机操作系统有很多,如:
Ubuntu、CentOS、RedHat等。
Linux宿主机与目标板的连接有:
<1>串口方式,目标板的COM0连接到Linux主机的COM0,主要通过串口传送一些命令到开发板来完成指定功能。
<2>网络方式,TFTP和NFS服务主要是通过网络实现的。
需知Linux主机的IP、目标板的IP。
(2)直接在目标机上进行开发,将宿主机和目标板通过串口相连,在宿主机上运行minicom作为目标机的显示终端mount宿主机上的硬盘,直接在目标机上编写和调试系统应用程序。
其硬件环境连接图如下所示:
4.初步设计思路
首先通过摄像头采集对人脸图像进行采集,然后将其传输到硬件系统中,通过主控芯片对人脸图像进行预处理并提取出关键识别特征,特征一般包括纹理、颜色、边缘特征等,并这些特征保存到系统存储器中,最后通过一定的人脸识别算法对人脸进行识别,将识别结果通过通信接口输出到接收端。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 识别 方法 综述