说话人识别研究 生物特征认证技术论文Word下载.docx
- 文档编号:3263355
- 上传时间:2023-05-01
- 格式:DOCX
- 页数:12
- 大小:124.71KB
说话人识别研究 生物特征认证技术论文Word下载.docx
《说话人识别研究 生物特征认证技术论文Word下载.docx》由会员分享,可在线阅读,更多相关《说话人识别研究 生物特征认证技术论文Word下载.docx(12页珍藏版)》请在冰点文库上搜索。
说话人识别作为生物认证技术的一种,是根据语音波形中反映说话人生理和行为特征的语音参数,自动鉴别说话人身份的一项技术。
为此,需要从各个说话人的发音中找出人之间的个性差异,它涉及到说话人发音器官上的个性差异、发音通道之间的个性差异、发音习惯之间的个性差异等不同级别上的差异。
说话人识别是交叉运用心理学、生理学、语音信号处理、模式识别、统计学习理论和人工智能的综合性研究课题。
说话人识别根据实现的任务不同,可分为说话人辨认(SpeakerIdentification
和说人确认(SpeakerVerification)两种类型。
说话人识别根据系统对待识别语音内容的不同,又分为与文本有关(text-dependent)和与文本无关(text-independent)两种方式。
2.说话人识别的基本理论与前期处理
2.1语音产生模型
语音信号可以看成是激励信号
经过一个线性系统
而产生的输出。
其中,声道模型
为离散时域的声道传输函数,通常可以用全极点函数来近似。
不同的说话人其声道形状是不同的,因此具有不同的声道模型。
的表达式为:
式中p为全极点滤波器的阶数,
为滤波器的系数。
P值越大,则模型的传输函数和实际声道的传输函数的吻合程度就越高。
当然p也不能取得太大,一般情况下p取8到12。
2.2说话人识别基本原理
图1给出了说话人识别系统框图,和语音识别系统一样,建立和应用这一系统可以分为两个阶段,即训练阶段和识别阶段。
在训练阶段,系统的每个使用者说出若干训练语句,系统据此建立每个使用者的模板或模型参量参考集。
而在识别阶段,待识别说话人语音中导出的参量要与训练中的参考参量或模板加以比较,并且根据一定的相似性准则形成判断。
2.3预处理
通常,输入的语音信号都要进行预处理,其过程的好坏也在一定程度上对系统的识别效果产生影响。
一般的预处理过程为:
(1)采样量化:
语音信号通常以8kHz或更高的采样速率数字化,每个采样至少用8比特表示;
(2)预加重:
由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,在高频端大约在800Hz以上按6dB/倍频程跌落,为此要进行预加重。
预加重的目的是将更为有用的高频部分频谱进行提升,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求取频谱,以便于进行频谱分析或声道参数分析。
声音经过8kHz或更高的采样速率的采样后转成数字语音信号,接着通过一个一阶高通滤波器来做预加重处理以突显高频部分。
其传递函数为:
,一般
的值取0.95左右;
(3)端点检测:
端点检测就是对输入语音信号进行判断,从背景噪音中准确找出语音的起始点和终止点。
有效的端点检测不能消除无声段的噪音。
但可以使处理语音信号的时间减到最小。
目前的端点检测技术大都是基于语音信号的时域特征来进行的,一般常采用两种时域特征:
短时能量和短时过零率,通过设定它们的门限值进行检测;
(4)分帧:
由于语音信号的准平稳特性,使得其只有在短时段上才可被视为是一个平稳过程,所以绝大部分的说话人识别系统都是建立在短时频谱分析的基础之上,把一定长度的语音分为许多帧来分析。
这样做之后语音信号可以被认为是平稳的。
系统也就可以使用对平稳过程的分析方法对语音信号进行分析。
由此可见语音信号需要被划分为一个一个的短时段。
每一个时段称为一帧,每一帧的长度大概为10-30ms。
现在所使用的分帧方法为了使帧与帧轮之间平滑过渡并保持其的连贯性,一般采用交叠分段的方法,即每一帧的帧尾与下一帧的帧头是重叠的。
(5)加窗:
针对每一个音框乘上汉明窗以消除音框两端的不连续性,避免分析时受到前后音框的影响;
(6)最后,将音框通过低通滤波器,可去除异常高起的噪声。
3.特征提取
经过预处理后,几秒钟的语音就会产生很大的数据量。
提取说话人特征的过程,实际上就是去除原来语音中的冗余信息,减小数据量的过程。
从语音信号中提取的说话人特征参数应满足以下准则:
对局外变量(例如说话人的健康状况和情绪,系统的传输特性等)不敏感;
能够长期地保持稳定;
可以经常表现出来;
易于对之进行测量;
与其它特征不相关。
根据参数的稳定性,可把说话人特征参数大致分为两类:
一类是反映说话人生理结构的固有特征(例如声道结构等),这类特征主要表现在语音的频谱结构上,包含了反映声道共振的频谱包络特征信息和反映声带震动等音源特性的频谱细节构造特征信息,具有代表性的特征参数有基音和共振锋。
这类特征不易被模仿,但容易受健康状况的影响。
另一类是反映声道运动的动态特征,即发音方式、发音习惯等。
主要表现在语音频谱结构随时间的变化上,包含了特征参数的动态特性,这类特征相对稳定却比较容易模仿,代表性的特征参数是倒谱系数。
说话人识别研究中多采用的特征参数主要有:
基音周期、明亮度、过零率、线性预测系数(LinearPredictiveCoefficients,简称LPC)、线性预测倒谱系数(LinearPredictiveCepstralCoefficients,简称LPCC)、Mel频率倒谱系数(Mel-frequencyCepstrumCoefficients,简称MFCC)、倒谱特征,等等。
3.1线性预测倒谱系数(LPCC)
线性预测倒谱系数是一种比较重要的特征参数,它比较彻底地去除了语音产生过程中的激励信息,能较好地描述语音信号的共振峰特性。
在实际计算中,LPCC不是由信号直接得到的,而是由LPC求得。
LPCC倒谱系数与
线性预测系数
的关系为:
3.2Mel频率倒谱系数(MFCC)
Mel频率倒谱系数(MFCC)的分析与传统的线性倒谱系数(LPCC)不同,它的分析是着眼于人耳的听觉机理,因为人类在对1000Hz以下的声音频率范围的感知遵循近似的线性关系;
对1000Hz以上的声音频率范围的感知不遵循线性关系,而是遵循在对数频率坐标上的近似线性关系,所以Mel倒谱系数获得了较高的识别率和较好的鲁棒性。
在实现上,Mel倒谱系数是将语音频率划分成一系列三角形的滤波器序列,这组滤波器在频率的Mel坐标上是等待宽的。
Mel频率表达了一种常用的从语音频率到“感知频率”的对应关系,更符合人耳的听觉特性。
其表达式如下:
求取MFCC的具体过程如下:
(1)对已经经过预处理的语音向量分别进行离散傅立叶变换(DFT)。
(2)将得到的离散频谱用序列三角滤波器进行滤波处理,得到一组系数
。
(3)利用离散余弦变换(DCT)将滤波器输出变换到倒谱域。
离散余弦变换的公式如下:
3.3其他一些特征
3.3.1基音周期
在人的发音模型中,产生浊音的周期激励脉冲的周期称为基音周期(Pitch)。
只有浊音才有基音周期,清音没有基音周期。
基音周期检测方法大体上可以分为三大类:
时域方法、频域方法和综合利用信号的时域、频域特性的方法。
时域方法直接利用语音信号的采样点,计算信号的波峰、波谷和过零率等。
其特点是原理简单,计算量小。
典型的方法是Gold和Rabiner提出的并行处理(PPROC)方法。
频域的方法主要是计算信号的自相关函数、功率谱和最大似然函数等,其精度要高于时域的方法。
典型的方法有中央消波自相关法(AUTOC)、平均幅度差分函数(AMDF)法和倒谱法(CEP)等。
自相关法的原理是语音的短时自相关函数在基音周期的整数倍点上有很大的峰值,只要找到最大峰值点的位置,便能估计出基音周期。
3.3.2倒谱特征
图2倒谱的计算过程
语音信号是激励信号源与声道响应相卷积的结果,而“倒谱特征”则是利用了对语音信号作适当的同态滤波可以将激励信号与声道信号加以分离的原理。
一帧语音信号
的倒谱c(n)的计算过程如图2所示。
倒谱中维数较低的分量对应于语音信号的声道分量,倒谱中维数较高的分量对应于语音信号的音源激励分量。
因此,利用语音信号倒谱可以将它们分离,彼此基本上互不干扰,并可以避免声道分量受到有随机变化的音源激励分量的干扰。
3.3.3短时能量与短时平均幅度
信号{x(n)}的短时能量定义为:
w(n)是窗函数,一般用矩形窗或汉明窗。
短时能量代表的是一个音框的语音信号的能量,可以反映语音信号随时间的幅度变化。
语音信号的短时平均幅度定义为:
用信号绝对值来代替平方和。
3.3.4短时平均过零率
信号{x(n)}的短时平均过零率定义为:
它反映了一个音框语音信号中的过零情况,是信号频率量的一个简单量度。
4.说话人模型
对于说话人识别系统,特征被提取出来以后,需要用识别模型为说话人建模,并对特征进行分类,以确定属于哪一个说话人。
所谓的识别模型,是指用什么模型来描述说话人的语音特征在特征空间的分布。
目前常用的模型大体上可以分为参数模型,非参数模型,人工神经网络模型(ArtificialNeuralNetwork,简称ANN)以及支撑向量机(SupportVectorMachine,简称SVM)。
参数模型是指采用某种特定的概率密度函数来描述说话人的语音特征在特征空间的分布情况,并以该概率密度函数的一组参数来作为说话人的模型。
典型的参数模型包括高斯混合模型(GaussianMixtureModel,简称GMM)和隐马尔可夫模型(HiddenMarkovModel,简称HMM)。
而非参数模型是指说话人模型是由语音特征经过某种运算直接得来。
典型的非参数模型是模板匹配方法和矢量量化模型(VectorQuantizationModel,简称VQ)。
下面分别简要介绍这几种分类模型。
4.1高斯混合模型(GMM)
GMM是M个成员的高斯概率密度的加权和,可以用下式表示:
这里
是D维随机向量;
是每个成员的高斯概率密度函数;
是混合权值。
完整的GMM可表示为:
每个成员密度函数是一个D维变量的高斯分布函数,形式如下:
对于一个长度为T的测试语音时间序列
,它的GMM似然概率可以写作:
识别时运用贝叶斯定理,在N个未知话者的模型中,得到的似然概率最大的模型对应的话者即为识别结果:
4.2隐含马尔可夫模型(HMM)
该类方法给定随机模型
,然后通过计算产生一个观察
(来自某说话人的矢量集中的一个矢量)的似然概率
随机模型为从说话人训练话音得到的特征矢量估计出的概率密度函数。
每个说话人训练出一个随机模型。
给定随机模型
后,各说话人产生观察
的概率即被确定。
当获得由某测试人产生的观察集
时,则可计算出各个随机模型产生
的概率值
,表示该测试语音属于各已知说话人的概率值,从而做出判决。
HMM应用到说话人识别系统时经常会遇到的三大基本问题:
(1)若有一个HMM系统,对于给定的观察序列O,如何调整模型λ=(π,A,B)中的各要素,使概率
取最大值;
(2)已知一个HMM系统的三项特征参数,给定观察序列O,如何计算概率
(3)已知一个HMM系统的三项特征参数,若得到了该系统产生的观察序列O,如何确定一个合理的状态序列S,使之能最佳地产生观察序列O。
上面三个问题的解决方案即为著名的HMM三大基本算法:
前向-后向算法、Viterbi算法和Baum-Welch算法。
4.3模板匹配法
模板匹配方法利用语音信号某些特征的长时间均值来辨认说话人,这一均值也称为统计平均。
使用模板匹配方法就是对待识别语音计算平均值,并与已经储存的每一说话人的训练平均值进行比较。
对文本无关的说话人辨认,理想的情况是应用数秒或数分钟的训练语音,以保证说话人的模型是由各种语音的平均特征产生,而不是由某一特殊语音的平均特征产生,待识别的语音则与训练模板所使用的平均特征间的距离进行比较。
在模板匹配方法中可使用多种距离尺度,欧式距离和马式距离是经常使用的两种。
使用特征统计平均的识别结果通常是次优的,这种方法对信号或背景噪声的变化特别敏感。
上述两种变化可改变说话人的特征,导致均值的漂移。
4.4矢量量化模型(VQ)
4.4.1k-means分群法
k-means分群法属于分割式分群法的一种,给定预分的丛聚数或称为码本向量数后反复修正,尽量减小每个丛聚中,每一点与丛聚中心的距离平方差。
假设每位说话人的特征参数向量预用k个码本向量代表,则k-means算法可概述如下:
(1)初始值:
任意产生k个值当作码本向量;
(2)搜寻最近邻居:
对每一个特征向量点x,来找寻与之最接近的群中心,并将x加入该丛聚;
(3)重新计算各群的码本向量,更新码本向量;
(4)继续重复
(2)和(3)直到每一资料点和码本向量的平均距离小于一个门限值,则最后所得的一组码本向量
即代表一位说话人的参考码本。
4.4.2学习向量量化法(LVQ)
学习向量量化法的训练目的主要是微调码本中的码本向量,来减少一些分错的向量。
其最简单学习向量量化方法,称之为LVQ1算法,训练步骤如下:
(1)先使用分群法来找出每位语者的码本向量,当作初始值;
(2)任意地挑选一个训练向量x,并知其为语者p所属,则将x标为xp;
接着找出距离向量x最近的码本向量c,并知其为语者q所属,将c标为cq;
(3)若p和q属于同一位语者,则将码本向量cq向的方向拉近,否则,将码本向量cq向cq的反方向推远;
(4)若已达到要求,则LVQ1训练过程结束,否则,回到
(2)继续进行微调码本向量。
4.5K-近邻分类法(K-NN)
假设,目前有一测试语句,想要在已知的多个说话人中找出究竟是哪一位说话人所发出的声音,可以采用最简单的k-NN分类法,就是令k为1的NN分类法。
其主要步骤如下:
(1)模型训练:
首先收集N位说话人的训练语句,接着经过特征参数提取后,得到许多维度为D的特征参数向量,再为每个特征向量标上所属的说话人的代号标签,此时每个训练特征向量均有D+1维,最后将同样卷标的特征向量视为同一群,此即为一位说话人模型的参考数据;
(2)分类识别:
将一段测试语句,同样经由特征参数提取得到一连串维度为D的测试特征向量
,接着任取一个测试的特征向量当作输入向量,来计算它和所有说话人的训练特征向量之间的距离,然后找出两者之间最小的距离(即最近的邻居)是属于哪一个说话人模型的参考数据。
4.6神经网络模型
人工神经网络可在一定程度上模仿人脑的功能,它为说话人识别提供了一个新的途径,说话人识别使用过的神经网络类型较多,前向神经网络以其结构简单、分类性能较好在说话人识别中获得了广泛的使用。
多层前向神经网络是映射型神经网络,可完成从说话人特征空间向说话人集合的映射。
说话人识别使用的前向神经网络多为BP网络和RBF网络,而基于逐级判决思想,将单个神经网络进行组合而成的级联神经网络也己应用于说话人识别。
目前,使用神经网络进行说话人识别所面临的问题是,如果使用一个网络作为分类器,当待识别的人群(N)改变时,网络的结构(至少输出神经元个数)将随之改变,需要重新对网络进行训练。
再者,当N增大时,神经网络的训练时间以指数增大,理论上当N无限增大时,将无法完成神经网络的训练。
解决这一问题的方法是将单个大网络化成许多完成部分功能的子网络,再将各个子网络进行组合来完成大网络的功能。
RudasiL等人和KevinRF等人已用BP网络分别尝试了说话人识别的两分网络方法和神经树网络方法。
4.7支撑向量机(SVM)
支撑向量机是一种较新的机器学习方法,深入的研究近些年才开始。
在手写体识别、文本分类、人脸检测等模式识别问题中,SVM技术已经得到应用,并取得了较好的效果。
对于传统的基于贝叶斯判决的分类器(如GMM)或神经网络分类器,其缺点是需要用交叉验证来估计参数的数目以防止出现有限样本的学习。
而支撑向量机是在统计学习理论的基础上发展起来的一种新的通用学习方法。
与传统统计学相比,统计学习理论是一种研究有限样本情况下机器学习规律的理论。
VapnikV等人从20世纪六七十年代开始致力于此方面研究,到九十年代中期,随着其理论的不断发展和成熟,也由于神经网络等学习方法在理论上缺乏实质性进展,统计学习理论开始受到越来越广泛的重视。
统计学习理论是建立在一套较坚实的理论基础之上的,为解决有限样本学习问题提供了一个统一的框架。
它能将很多现有方法纳入其中,有望帮助解决许多原来难以解决的问题(比如神经网络结构选择、局部极小点和过学习等问题)。
SVM已初步表现出很多优于已有方法的性能,在解决有限样本、非线性及高维模式识别问题中表现出许多特有的性能。
SVM正在成为继神经网络研究之后新的研究热点,并将有力地推动机器学习理论和技术的发展。
5.难点和热点
虽然说话人识别已进入实用阶段,但仍然存在以下诸多难点:
(1)目前还没有很好的方法把说话人的特征从说话人的语音特征中分离出来;
(2)说话人的特征具有长时变动特性,会随着时间、年龄、健康状况的变化而变化;
(3)声音容易被录音模仿;
(4)语音信号在电话线路上传输时会产生较大的失真。
由此可见,说话人识别的难点问题主要集中在特征提取部分,能否使用相对简单的方法提取到一种最能体现说话人个性信息的特征将是今后研究的热点。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 说话人识别研究 生物特征认证技术论文 说话 识别 研究 生物 特征 认证 技术 论文