换一换

冰点文库 > 资源分类 > PDF文档下载

预览

深度学习理论及其在语音识别领域的应用.pdf

资源ID：14653888 资源大小：934.59KB 全文页数：5页
资源格式： PDF 下载积分：1金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要1金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

深度学习理论及其在语音识别领域的应用.pdf

1、第 3 期在经历了几十年的长足发展之后，语音信号处理技术已经迈向实用并逐渐形成了三个主要分支：语音合成、语音编码和语音识别 1。对于电子对抗领域的研究人员来说，语音识别无疑是其中最令人感兴趣的方面。语音识别就是让机器识别和理解语音信号，进而转化为相应的文本或命令1。在电子对抗中，语音识别技术有着非常广阔的应用前景，可以广泛应用于通信侦察、电话监听等领域，彻底改变现有的利用人工监听方式导致的效率低下、错误率高等问题。然而现有的语音识别技术在应用过程中仍然存在着鲁棒性差、识别率低等突出问题 2，这主要是因为传深度学习理论及其在语音识别领域的应用杨俊安1，2，王一1，2，刘辉1，2，李晋徽1，2，陆

2、俊1，2（1.解放军电子工程学院，安徽合肥 230037；2.安徽省电子制约技术重点实验室，安徽合肥 230037）摘要：深度学习是模式识别和机器学习领域最新的研究成果，它以强大的建模和表征能力在图像和语音处理等领域取得了很好的应用。将深度学习引入到电子对抗领域的语音识别中，首先简单介绍了深度学习的基本理论，随后阐述了目前语音识别领域中语种识别、说话人识别和关键词检出存在的问题，并利用深度学习方法对这些突出的问题加以解决。关键词：深度学习；深度信念网络；语音识别；特征提取；声学建模中图分类号:TN912.34文献标志码:ADeep Learning Theory and Its Applica

3、tionin Speech RecognitionYANG Jun-an1，2，WANG Yi1，2，LIU Hui1，2，LI Jin-hui1，2，LU Jun1，2(1.Electronic Engineering Institute of PLA,Hefei Anhui 230037,China;2.Key Laboratory of Electronic Restriction,Hefei Anhui 230037,China)Abstract:Deep Learning is an emerging area of pattern recognition and machine l

4、earning.It has been success-fully used in image and speech processing by its more powerful modeling and representational abilities.In thispaper,as an attempt to share this expertise with the researchers in the area of electronic warfare,we firstly dis-cuss the basic principles of deep learning,and t

5、hen we provide a survey on the existing language recognition,speaker identification and keywords spotting technologies.Finally,in order to overcome the inherent flaws inthese technologies,we use deep belief network as examples to improve their performances,experimental resultsshow that with the help

6、 of deep learning,we can achieve better speech recognition results than ever before.Keywords:deep learning;deep belief network;speech recognition;feature extraction;acoustic modeling收稿日期：2013-02-211引言COMMUNICATION COUNTERMEASURES通信对抗第 33 卷第 3 期2014 年 9 月Vol.33 No.3Sep.2014第 33 卷通信对抗统的语音建模工具无法准确地描述语音

7、内部复杂的结构，且表征和建模能力不强。针对这一问题，神经网络大师 Hinton 3-4于 2006 年首先提出深度学习（Deep Learn-ing）理论，并在图像处理、语音信号处理等领域得到了很好的应用，现已成为国际研究的热点。本文在简要介绍深度学习理论之后，对其在电子对抗语音处理领域的应用作了初步研究。2深度学习理论简介在提出之后的短短数年里，深度学习就以其强大的对数据内部结构的表征能力赢得了国际学术界的广泛重视，美国国防高级研究计划局（Defense Advanced Re-search Project Agency，DARPA）也于 2009 年成立了深度学习项目组。而更值得一提的是，

8、深度学习已经开始在工程实践领域得到了应用。美国微软公司已经成功地将深度学习方法应用于自己的语音识别系统当中，它能够将单词错误率相较之前的最优方法降低约 30%。因此，深度学习被认为是继 1997 年的隐马尔科夫(HiddenMarkov Model,HMM)模型之后，语音识别领域的又一次重大突破5。在国内，科大讯飞公司已经将深度学习应用于“讯飞语音输入法”中，并取得了识别正确率较原有方法提高约 14%的效果。因此，无论是理论研究还是工程应用，深度学习方法都不失为一个值得深入研究的新领域。2.1深度学习的神经学启示深度学习的提出源于神经学研究的不断深入。神经学领域的研究人员发现，尽管人们每时每刻

9、都面临着大量的感知数据，却总能以一种灵巧的方式获取值得注意的重要信息。解剖发现哺乳类动物的大脑皮质其实并未对得到的视觉或听觉数据直接进行特征提取，而是让接收到的刺激信号通过一个复杂的多层网络模型，从而捕获观测数据所展现的规则，进而识别物体；也就是说人脑是根据经过多次聚集和分解过程处理后的信息来识别物体6-8。受到此研究成果的启发，Hinton 等人提出了深度学习的概念。深度学习本质上是对拥有深层结构的模型进行训练的一类方法的统称，因此首先来明确深层结构的概念。深层结构是相对于浅层结构而言的，它们的区别就在于拥有的非线性运算单元的层数9。一般认为，深层结构是指非线性转换单元的层数大于或等于两层的

10、模型；而浅层结构则专指只包含单层非线性转换单元的模型，我们日常经常使用的 HMM 模型、条件随机场(Con-ditional Random Fields，CRFs)、最大熵模型(Maximum En-tropy，MaxEnt)、支持向量机（Support Vector Machine，SVM）等都属于浅层结构。相关研究已经证明，浅层结构对于内部结构不复杂、约束不强的数据具有较好的效果，但是当要处理真实世界中内部结构复杂的数据（如语音、自然声音、自然图像、视频等）时，这些模型就会出现表征能力不足的问题。而深度学习方法能够有效捕获隐藏的数据内部结构，利用更为强大的建模能力对数据进行表征。2.2深度

11、信念网络：一种典型的深度学习模型10-11然而，通向深度学习的道路并非一帆风顺，如何对拥有多层非线性转换单元的模型进行有效训练成为摆在众多研究人员面前的难题。例如多层神经网络就是拥有多层非线性转换单元的深度结构模型，但是在对其进行训练的过程中，研究人员很快发现传统的神经网络BP 训练算法很容易陷入局部最优，并且这种情况会随着神经网络层数的增加越发严重。理论和实验均表明传统的 BP 训练算法不适用于训练多层神经网络。为了解决训练多层神经网络的问题，Hinton 基于深度学习理论，率先提出了深度信念网络（Deep Belief Networks,DBN）这种特殊的多层神经网络。DBN 与传统的多层

12、神经网络既有共同点又有区别性。共同点是 DBN 本质上仍然是一种多层神经网络，在网络初始值确定后仍然使用 BP 算法进行微调；不同的是相比于传统神经网络判决型模型的本质，DBN 是一种生成型和判决型相结合的混合模型，它可获取观测数据和标签的联合概率分布，这就方便了先验概率和后验概率的估计，而判决型模型仅能对后验概率进行估计。另外 DBN 在训练阶段需要使用非监督的方法进行预训练后确定初始值，这就降低了对输入数据的要求。下面通过简单介绍 DBN 的构成以及训练方法来具体阐述如何构建一个深度结构模型。DBN 由一系列受限波尔兹曼机（Restricted Boltz-mann Machine，RBM

13、）组成。RBM 的结构如图 1 所示，它的可视层和隐层彼此相互连接（而层内无连接），隐层单元 hj主要用于获取可视单元 vi中的高阶相关性。相比传统的深度 sigmoid 置信网络，RBM 中权值的学习相对容易。为获取权值，预训练采用无监督贪心逐层方式来实现，这种方式也被 Hinton 称作对比散度（Contrastivedivergence，CD）。在训练过程中，首先将可视单元 vi映射到隐层单元 hj；然后可视单元以随机方式由产生的隐层单元重建；这些新可视单元再次向隐层单元映射，这样2第 3 期就获取了隐层单元进一步重建。执行这种反复步骤叫做吉布斯采样（Gibbs Sample）。隐层激活

14、单元和可视输入单元的关联差异形成了权值更新的基础。用数学公式来表示，在一个 RBM，可视单元 vi和隐单元 hj在给定模型条件下的联合概率分布可用能量函数来表示：p(v，h；)=exp(-E(v，h；)Z（1）这里 Z=vhexp(-E(v，h；)是一个归一化因子或称作配分函数。模型赋予一个可视向量的边际概率是：p(v，h；)=hexp(-E(v，h；)Z（2）对一个伯努利（可视）-伯努利（隐藏）RBM，能量函数定义为：E(v，h；)=-Ii=1Jj=1wijvihj-Ii=1bivi-Jj=1ajhj（3）这里 wij是可视单元和隐单元的对称作用权值，bi和 aj是偏置量，I 和 J 是可视

15、单元和隐藏单元的数目。条件概率可以如下式计算：p(hj=1|v；)=Ii=1wijvi+aj（4）p(vj=1|h；)=Jj=1wijhi+bi（5）这里的激励函数(x)=1/(1+exp(x)，理论上，任意指数函数都可以用来作为激励函数。而对于一个高斯（可视）-伯努利（隐藏）RBM，其能量函数是：E(v，h；)=-Ii=1Jj=1wijvihj-12Ii=1(vi-bi)2-Jj=1ajhj（6）相应的条件概率为：p(vi=1|h；)=NJj=1wijhi+bi，1（7）这里 vi是满足均值为Jj=1wijhi+bi方差为 1 的高斯分布的实数值。高斯-伯努利 RBMs 可用于将实值随机变量

16、转换到二进制随机变量，然后再进一步利用伯努利-伯努利 RBMs 处理。利用对数似然概率 log p(v，h；)的梯度，可以推导出 RBM 的权值更新准则：wij=Edata(vihj)-Emodel(vihj)（8）这里表示期望。Edata(vihj)是数据集的期望，Edata(vihj)是模型中定义的期望。由于Emodel(vihj)难于计算，一般利用与梯度相类似的对比散度算法，Emodel(vihj)被替换为从数据开始运行的一次全吉布斯采样。精心训练 RBM 对成功应用深度学习是一个关键。通过组合大量逐层学习自底向上的 RBM 可以构建一个DBN（如图 2 所示），这个逐层的学习策略理论证

17、明可参见相关文献。它证明了上述逐层学习程序提高了训练数据基于混合模型的似然概率的变化下界。也就是说，这种贪婪的算法近似于最大似然学习。注意这种学习是非监督的并不需要无标签样本。上述 RBM 的训练过程在整个 DBN 训练中被称为预训练，采用的是非监督学习方法；而在架构起整个 DBN之后，就可以采用类似传统 BP 神经网络的监督式学习方式，对整个网络进行由后至前的回调，最终建立 DBN。DBN 之所以有效的原因就是因为采用了非监督学习的方式得到整个网络的初始值，相对于随机选取初始值的神经网络它能够有效避免陷入局部最优的问题。3语音识别领域研究现状语音识别包括语种识别、说话人识别、关键词检出三个部

18、分。虽然近年来的语音识别新技术层出不穷，但是语音识别技术总体上还是可以用一个统一的框架来表示，其结构如图 31所示。虽然语音识别技术在近些年来取得了巨大进步，但是仍然应该看到距离语音识别技术模仿和赶超的对象人的语音识别能力还是有很大的差距。研究表图 1RBM 子模块模型图 2DBN 模型输出层隐层 3隐层 2隐层 1输入层h1h2h3v2v1v3v4v5输入层隐层 1图 3语音识别过程的总体结构输入语言训练识别结果识别杨俊安，等：深度学习理论及其在语音识别领域的应用3第 33 卷通信对抗明，当处于海量的语音环境中，而且这些语音中包含大量来源不同的噪声、信道干扰和口音时，人类辨别特定语音(特定的

19、说话人、特定的语言以及特定的文字等)的能力要远远好于现有最优的语音识别技术，因此语音识别技术的未来既充满着挑战又饱含着机遇。根据对现有语音识别技术的理解，可以从以下几个方面进行突破2：1）更加鲁棒、更具有表征语音本质能力的语音特征。特征对于模式识别领域具有特别重要的意义，一个好的特征提取算法能够有效地提高后续的识别正确率，对于语音识别领域也是如此。现有的语音特征提取方法如梅尔倒谱系数（Mel-Frequency Cepstral Coefficient,MFCC）、差分倒谱参数(Shifted Delta Cepstra,SDC)等大多存在着无法对包含更多语音特征的多帧语音进行处理、对外部环境

20、敏感、参数选择复杂等问题，因此研究新的语音特征提取方法成为语音识别领域突破的重点方向。2）以 HMM 为主的声学模型与其他模型的结合。现有的研究已经证明了 HMM 是一个有效的声学模型，但是仍然可以使用如神经网络、SVM 与 HMM 相结合的方法提高声学模型对声学特征的建模表征能力。这两个方面问题都可以通过深度学习加以解决。4深度学习理论在语音识别领域的应用目前深度学习理论已成功应用于音素识别、大词汇量连续语音识别（LVCSR）中12-16，其应用主要集中在利用深度学习方法提取更具表征能力的特征以及对现有基于 HMM 的声学模型进行加强上。下面结合笔者前期针对海事卫星话音信号识别所做的工作，对

21、这两方面的应用进行简单介绍。4.1利用瓶颈深度信念网络进行语种特征提取利用传统语音特征提取算法 MFCC 提取的特征，由于只对单帧信号作用，因此不能很好地涵盖有效的语种信息，且容易受到噪声污染。而常用的 SDC 特征的计算受控于其 4 个参数：N-d-P-k（N：倒谱参数的个数；d：计算差分倒谱的帧间间隔；P：计算差分倒谱的相邻块的帧移；k：差分倒谱块的个数），通常，N-d-P-k 需要利用实验的结果来人工确定最优组合，过程繁琐且耗费系统资源大。因此，采用一种瓶颈深度信念网络（Bottle-NeckDeep Belief Networks,BN-DBN）来提取更加适合。瓶颈的概念最早由 Grz

22、l 等人17于 2007 年提出并应用于连续语音识别当中，而 BN-DBN 则是瓶颈的概念与DBN相结合的产物。它通常被设定为一个奇数层的多层ANN，并将其中最中间的一层命名为瓶颈层。顾名思义，瓶颈的意思就是指该层神经元个数相对于其他层要少得多。以一个 5 层网络为例，基于 BN-DBN的语音特征提取方法可以分为两个步骤实施：第一个步骤是建立神经网络，这个过程与普通的 DBN 架构方式无异，即通过 2.2 节所述的预训练与微调，建立一个 DBN；第二个步骤则是将瓶颈层之后的网络去除(以 5 层网络为例，即去除第 4 和第 5 层)，而将原来的瓶颈层作为输出层。图 4 是一个 5层的基于 BN-

23、DBN 的语音特征提取方法实施示意图。而在实际应用中，可充分利用神经网络对多帧信号的处理能力，将多帧特征拼接后送入网络(在实验中选取连续 10 帧语音信号送入神经网络)，因此输入层神经元个数等同于帧数每帧特征的维数；在设定隐层 1 的神经元个数时，通常将其神经元个数设得尽量大，使其能够提供强大的建模能力，保证其能够获取数据的内部结构，隐层 3 的神经元个数等同于隐层 1；而对于瓶颈层，通常将其神经元个数设定为等同于单帧的维数。利用 BN-DBN 在 NIST LRE 2007 语音库和实际采集语音中进行了实验，结果证明了 BN-DBN 的特征表现要好于现有的其他特征。4.2利用深度信念网络增强

24、 HMM 模型的建模能力15GMM 是目前主流的对 HMM 输出概率进行建模的方法，基于 GMM-HMM 的声学模型被广泛应用于现有的连续语音识别系统当中；但是当面对更加复杂的语音识别环境时，GMM 逐渐显示出建模能力不足的问题，因此可尝试采用 DBN 代替 GMM。相对于 GMM，DBN 拥有以下优点：1)能够对包含多帧数据的特征进行处理，可以表征更丰富的语音变化特征；2)相对于 GMM,DBN 对 HMM 中后验概率的估计不需要很苛刻的数据分布假设，条件更宽泛；3)GMM 本质上仍属于浅层结构，属于深层结构的图 4基于 BN-DBN 的语音特征提取方法4第 3 期DBN 拥有更强的表征能力

25、，能够对复杂的语音变化情况进行建模。一个完整的基于 DBN-HMM 的声学模型如图 5 所示。在随后的实验中，利用该模型替代原有的 GMM-HMM声学模型，并进行了连续语音关键词检测，结果表明能够有效提高关键词检出率。5结束语本文简要介绍了深度学习发展历史以及目前应用最多的深度学习模型深度信念神经网络的概念，并将深度学习引入到语音识别领域，用语种识别和关键词检出领域的两个应用阐明了深度学习方法在电子对抗语音处理领域的应用前景。作为模式识别与机器学习领域目前最前沿、最热门的研究方向，深度学习的研究方兴未艾，还有许多值得深入研究的理论热点、难点，而如何更好地将其应用于电子对抗领域其他研究方向也是一

26、个值得重点关注的问题。参考文献 1 韩纪庆,张磊,郑铁然.语音信号处理M.北京:清华大学出版社,2004.2 Picheny M,Nahamoo D,Goel V,et al.Trends and Ad-vances in Speech RecognitionJ.IBM Journal of Researchand Development,2011,55(5):2-2.3 Hinton G E,Salakhutdinov R.Reducing the Dimension-ality of Data with Neural Networks J.Science,2006,313(5786):50

27、4-507.4 Hinton G E,Osindero S,Teh Y.A Fast Learning Algo-rithm for Deep Belief Nets J.Neural Computation,2006,18(7):1527-1554.5 Rashid R.“跨越语言，沟通无碍”微软语音机器翻译实时演示的惊人突破EB/OL.2012-11-12/2012-11-13.http:/ Lee T S,Mumford D.Hierarchical Bayesian Inference inthe Visual Cortex J/J Opt Soc Am A Opt Image Sci

28、 Vis,2003,20(7):1434-1448.7 Serre H.Robust Object Recognition with Cortex-likeMechanisms J.IEEE Transactions on Pattern Analysis andMachine Intelligence,2007,29(3):411-426.8 Lee T,Mumford D,Romero R,et al.The Role of thePrimary Visual Cortex in Higher Level VisionJ.VisionRes,1998,38(15-16):2429-2454

29、.9 Deng L.An Overview of Deep-structured Learning forInformation Processing C/Proceedings of Asian-pacificSignal and Information Annual Summit and Conference2011,Xian,October 18-21,2011.10Hinton G E.A Practical Guide to Training RestrictedBoltzmann Machines M.Montavon G,Orr G B,MullerK R.Neural Netw

30、orks:Tricks of the Trade.2nd Edition.Berlin:Springer-Verlag,2012:599-619.11Bengio Y.Learning Deep Architectures for AI J.Founda-tions and Trends in Machine Learning,2009,2(1):1-127.12Mohamed A,Dahl G,Hinton G.Deep Belief Networks forPhone RecognitionC/NIPS Workshop on DeepLearning for Speech Recogni

31、tion and Related Applica-tions,Whistler,BC,Canada,December 2009.13Mohamed A,Yu D,Deng L.Investigation of Full-se-quence Training of Deep Belief Networks for SpeechRecognition C/Interspeech,2010:2846-2849.14Dahl G E,Yu D,Deng L,et al.Large Vocabulary Contin-uousSpeechRecognitionwithContext-DependentD

32、BN-HMMs C/ICASSP,2011.15Mohamed A,Dahl G.Acoustic Modeling Using Deep Be-lief NetworksJ.IEEE Transactions on Audio,Speech,and Language Processing,2012,20(1):14-22.16Sivaram G,Hermansky H.Sparse Multilayer Perceptron forPhoneme RecognitionJ.IEEE Transactions on Audio,Speech,and Language Processing,20

33、12,20(1):23-29.17Grzl F,Karafiat M,Kontar S,et al.Probabilistic and Bot-tle-neck Features for LVCSR of MeetingsC/Proceed-ings of IEEE International Conference on Acoustics,Speech,and Signal Processing,Honolulu,HI,USA,Apr2007:757-760.作者简介杨俊安(1965-)，男，安徽巢湖人，教授，博士生导师，研究方向为语音信号处理、智能计算等。图 5基于 DBN-HMM 的声学模型杨俊安，等：深度学习理论及其在语音识别领域的应用5

注意事项

本文（深度学习理论及其在语音识别领域的应用.pdf）为本站会员主动上传，冰点文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰点文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。