基于HTK的命令字识别系统.docx
- 文档编号:9187591
- 上传时间:2023-05-17
- 格式:DOCX
- 页数:51
- 大小:310.29KB
基于HTK的命令字识别系统.docx
《基于HTK的命令字识别系统.docx》由会员分享,可在线阅读,更多相关《基于HTK的命令字识别系统.docx(51页珍藏版)》请在冰点文库上搜索。
基于HTK的命令字识别系统
编号:
毕业设计说明书
题目:
基于HTK的命令
字识别系统
学院:
专业:
学生姓名:
学号:
指导教师:
职称:
讲师
题目类型:
理论研究实验研究工程设计工程技术研究软件开发
年月日
摘要
语音识别技术经过半个世纪的发展,目前已日趋成熟,其在语音拨号系统、数字遥控、工业控制等领域都有了广泛的应用。
语音识别技术就是让机器听懂人类的语音并执行相关的动作,是一个研究的热点。
数字语音识别是语音识别一个极其重要的分支,其在现实生活中的应用愈加广泛。
由于目前常用的声学模型和语言模型的局限性,计算机只能识别一些词汇或一些句子。
语音识别系统在语种改变时,往往会出现错误的识别结果。
针对上述问题,结合隐马尔可夫模型原理,在HTK语音处理工具箱的基础上构建了中英文特定词语音识别系统。
该系统通过代码控制整个构建过程,使其在更换新的训练数据和词典后能快速生成对应的识别模型。
HTK是英国剑桥大学开发的一套基于C语言的语音处理工具箱,广泛应用于语音识别、语音合成、字符识别和DNA排序等领域。
从HTK的基本原理和软件结构出发,设计了一个基于HTK的数字语音识别系统,并验证了其识别效率。
本文基于隐马尔可夫模型(HMM)的连续语音训练和识别算法理论,结合梅尔频率倒谱系数(MFCC)提取技术,单音素HMM建模技术,基于上下文相关的三音素HMM建模技术以及基于维特比算法的识别技术等一系列技术,利用隐马尔可夫模型工具箱(HTK)构建了基于HTK的连续语音识别实验平台。
随后,通过更换识别单元,更改特征参数的维数和增加高斯混合分量的个数来考虑不同因素对系统性能的影响。
最后,通过比较试验,验证了识别单元、高斯混合分量的数目以及MFCC维数的适当组合可提高系统的正确识别率。
实验结果表明,随着HMM从单音素建模到三音素建模的转换,测试语句在语句级和字词级的识别率都呈增加的趋势,捆绑三音素后识别率达到稳定状态。
关键词:
语音识别;隐马尔可夫模型;隐马尔科夫工具箱;梅尔频率倒谱系数;识别单元
Abstract
Havingdevelopedabout50years,thespeechrecognition(SR)techniquehasawiderangeofapplicationsinmanyfields,suchasvoicedialingsystem,digitalremotecontrolandindustrialcontrol.Speechisanimportanttoolforpeopletocommunicatewithmachines.Digitalspeechrecognitionisanextremelyimportantbranchofspeechrecognition.Itsapplicationinreallifeisusedmoreandmorewidely.
Butthelimitationofacousticandlanguagemodelisthatthecomputercanonlyrecognizesomewordsorsentences.Whenthespeechlanguagechanges,thesystemoftengetswrongresults.Toaddresstheproblemabove,thespeechrecognitionsystemhasbeenbuiltonthebasisofHTKaswellashiddenmarkovmodeltheory.Controllingthebuildingprocessbycode,thesystemcanquicklygenerateanewrecognitionmodelwhenthetrainingdataanddictionaryhaschanged.
HTKisaClanguage-basedtoolkitdevelopedbyCUEDmainlyusedforspeechsignalreorganization,speechsynthesis,characterreorganization,DNAcompositorandsoon.FromHTK’sgeneralprinciplesandsoftwarearchitecture,thispaperdesignsadigitalspeechrecognitionsystembasedonHTK,andverifiesitsrecognitionefficiency.AcontinuousspeechrecognitionexperimentalplatformwasbuiltbasedonHTK(HMMToolkid)usingHMM(HiddenMarkovModel)theoryandaseriesoftechnologiessuchasMFCC(Mel-FrequencyCepstralCoefficients),mono-phonemodel,tri-phonemodelandViterbialgorithm.ThenbychangingtheidentificationunitandMFCCdimension,andbyincreasingthenumberofgaussianmixturecomponents,itconsiderseffectsofdifferentfactorsontheperformanceofthesystem.Finally,throughthecomparingtest,itverifiestherightcombinationoftheidentificationunitandthenumberofgaussianmixturecomponents,andalsoprovesthatMFCCdimensioncanenhancethesystem’scorrectrate.ExperientialresultsshowedthatastheHMMchangedfrommono-phonemodeltotri-phonemode,therecognitionaccuracyofstatement-levelandword-levelwerebothincreased,andreachedahigherlevelafterTied-StateTri-phonemodelwasemployed.
Keywords:
speechrecognition;HMM;HTK;MFCC;identificationunit
目录
引言·············································································
1语音识别介绍·······························································5
1.1语音识别系统概···························································5
1.2语音识别研究的现实意义················································5
1.3语音识别技术的研究现状···············································
2HTK简介···························································5
2.1HTK原理·······················································6
2.2HTK的应用·····················································6
2.3HTKLib和HTKTools···································6
2.4HTK安装·························································6
3设计内容与设计指标·················································
3.1系统设计内容··················································7
3.2系统整体构造框图·························································7
4系统搭建思路和具体步骤··················································7
4.1搭建前的准备工作··········································8
4.1.1录音文件··············································7
4.1.2手动生成文件··············································7
4.1.3自动生成文件··············································7
4.2数据准备······················································8
4.2.1建立任务语法grammar···································8
4.2.2建立字典文件······················································9
4.3创建单音素HMM模型··················································10
4.3.1创建音素水平副本文件··········································11
4.3.2创建flatstart的单音素·············································11
4.4创建主文件和主宏文件················································12
4.4.1建立无“SP”的发音文件···········································12
4.4.2创建HMM定义和宏文件···········································13
4.4.3重复训练数据···········································14
4.5固定静止模型·······················································14
4.5.1在现有基础上加入“SP”···············································14
4.5.2合并SP、SIL模型状态················································14
4.5.3对训练结果加入SP模型并训练·······································15
4.5.4对训练结果进行高斯扩展·····································16
4.6识别和结果分析·········································16
4.6.1Hvite、HResults功能介绍······································14
4.6.2用未高斯扩展模型识别··············································14
4.6.3用已高斯扩展的模型识别············································14
4.6.4分析识别结············································14
6、附录·········································································19
引言:
随着计算机与信息技术的继续发展,语音交互技术必将成为人机交互的必要手段。
语音识别技术就是让机器听懂人类的语音并执行相关的动作,是一个研究的热点。
语音识别系统根据不同的准则可以分为孤立词、连接词和连续词识别;小词汇量、大词汇量
识别;特定人、非特定人的语音识别系统。
连续数字语音识别是语音识别的一个重要分支,数字语音识别,尤其是连续数字识别无论在大词表的语音识别系统还是小词表语音识别系统中都具有重要的意义,因此,它在现实中具有广泛的应用前景,在互联网,通信,军事,国防,人机交互等方面都有重要的应用价值。
虽然这方面的研究有很多,但目前仍有许多问题有待进一步探索。
本文结合隐马尔可夫模型原理,利用HTK(HMMToolKit)语音处理工具箱,实现了数字语音识别系统的设计。
并且从识别单元(音节和声韵母)、更改特征参数的维数和增加高斯混合分量的个数来考虑选取不同因素的情况下对本系统性能的影响。
最终,通过实验证明了识别单元、高斯混合分量的数目以及MFCC维数的适当组合可提高系统的正确识别率。
隐马尔可夫模型是一种用参数表示的,用于描述随机过程统计特性的概率模型,它是由马尔可夫链演变而来的。
如果在分析的区间内信号是非时变或平稳的,那么用线性模型就可描述它;但如果在分析的区间内信号是时变的,则线性模型的参数也是时变的。
所以,最简单的方法是在极短的时间内用线性模型参数来表示,然后,再将许多线性模型在时间上串接起来,这就是马尔可夫链。
由于不能准确地确定信号的时长,所以用马尔可夫链描述时变信号不是最佳和最有效的。
而隐马尔可夫模型既解决了短时模型描述平稳段的信号,又解决了每一个短时平稳段是如何转变到下一短时平稳段的问题。
它利用概率及统计学理论成功地解决了如何辨识具有不同参数的短时平稳的信号段以及如何跟踪它们之间的转化等问题。
由于语言的结构信息是多层次的,除了语音特性外,还牵涉到音长、音调、能量等超音段信息以及语法、句法等高层次语言结构的信息。
而隐马尔可夫模型既可描述瞬变的随机过程,又可描述动态的随机过程的转移特性,所以它能够利用这些超音段和语言结果的信息。
1 语音识别介绍
1.1语音识别系统概述
语音识别是解决机器“听懂”人类语言的一项技术。
作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。
广泛意义上的语音识别按照任务的不同可以分为4个方向:
说话人识别、关键词检出、语言辨识和语音识别。
说话人识别技术是以话音对说话人进行区别,从而进行身份鉴别和认证的技术。
关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子,例如对一些特殊人名、地名的电话监听等。
语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。
语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向。
语音识别本质上是一种模式识别的过程,未知语音的模式与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果。
图1是基于模式匹配原理的自动语音识别系统原理框图。
1.2语音识别研究的现实意义
如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。
目前代表连续语音识别技术最高水平的是非特定人无限词汇的连续语音识别系统。
汉语数字语音识别,尤其是连续数字识别无论在大词表的语音识别系统还是小词表语音识别系统中都具有重要的意义,因此,对它的研究具有很强的应用价值。
以语音识别技术开发出的产品应用领域非常广泛,如在汉语小词表语音识别工作任务方面声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。
同时,在大词汇量语音识别中,数字语音识别也有重要的意义,这是因为汉语数字语音具有高度的混淆性,采用普通的识别方法很难达到很好的识别性能,而语音中的数字往往具有重要的意义,其识别错误的代价可能会高于其他语音识别的错误,这就需要专门对数字语音的识别采用特殊的方法以提高其识别率。
另外,对汉语连续数字语音识别的研究也具有重要的理论意义:
一方面,完成对汉语连续数字语音识别可以促进其他词表的连续语音识别的研究,其声学模型,搜索算法等都可以照搬到其他系统中去;另一方面,研究如何消除汉语数字语音的混淆性也可以对其他易混语音识别任务起到借鉴作用。
1.3语音识别技术的研究现状
语音识别在未来具有巨大的发展前景,国外公司如IBM,Microsoft在90年代就开始进军中国市场。
如1997年,IBM公司抢先在中国大陆市场推出了语音识别产品IBM
Viavoice,一年时间内占领了大陆近90%的市场份额,获取了上亿元的利润。
我国语音识别研究工作起步于五十年代,但近年来发展很快。
研究水平也从实验室逐步走向实用。
从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。
我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。
其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。
语音识别在实验室环境下已经取得了良好的效果,因此,90年代至今,语音识别技术开始向实用化发展,主要研究方向就是修改原有的理论来解决“新三难”问题比如,在噪音语音分离方面,寻找新的更加具有鲁棒性的声学特征来更好地去除噪声的影响,使用麦克风阵列技术区分不同方位的声源达到分离语音噪音的目的,和人脸识别相结合来识别语音。
在隐马尔可夫模型(HMM)方面,提出了各种新的HMM,如线性预测HMM,时间驻留状态HMM,基于最大互信息准则(MMI)的HMM等等。
针对汉语的特点,运用语言学的知识来改进识别效果,如对声、母韵母采取不同的处理,或者将各个音素进行聚类分析,再分别处理等等。
语音作为当前通信系统中最自然的通信媒介,语音识别技术是非常重要的人机交互技术。
随着计算机和语音处理技术的发展,语音识别系统的实用性将进一步提高。
应用语音的自动理解和翻译,可消除人类相互交往的语言障碍。
国外已有多种基于语音识别产品(如声控拨号电话、语音记事本等)的应用,基于特定任务和环境的听写机也已经进入应用阶段。
这预示着语音识别技术有着非常广泛的应用领域和市场前景。
随着语音技术的进步和通信技术的飞速发展,语音识别技术将为网上会议、商业管理、医药卫生、教育培训等各个领域带来极大的便利,其应用和经济、社会效益前景非常可观。
2HTK简介
HTK(HiddenMarkovModelToolkit)是一个工具箱,用于搭建HiddenMarkov模型(HMM)。
2.1HTK原理
HTK(HiddenMorkovModelToolkit)是英国剑桥大学工程系开发的一套构建隐马尔可夫模型(HMMs)的工具集。
HTK工具箱是使用HMM模型作为语音识别核心的。
当HMM应用于孤立词语音识别时,它用不同的隐含状态转移描述不同的语音发音。
对于连续语音识别系统,多个孤立词HMM子模型按一定的语言模型组成的复合HMM模型序列来刻画连续的语音信号,在序列中的每个模型直接对应于相关的发音。
在孤立词识别中,对于训练数据,需要为每一个发音单元提供边界信息,常使用手工标注的方法实现。
一般情况下,在连续语音识别的模型训练中,发音单元的边界信息是不需要的,只需要包含相应的发音序列的描述文件。
在HTK中使用MLF格式的文件来描述发音序列。
其广泛应用于语音识别、语音合成、字符识别和DNA排序等领域。
但工具集设计的目的主要是建立语音识别系统。
语音识别技术主要有特征提取、模型训练以及模式匹配准则三个方面,此外,还涉及到语音识别单元的选取。
语音识别系统主要包括语音特征参数的数据准备工具、模型训练工具、语音识别工具和模型分析工具。
目前,HTK的稳定发行版本是3.4版本,所有代码使用c语言编写,可以在Windows和Linux上编译使用。
HTK的特点是开放源代码,用户可以在分析其代码的基础上,对某些算法和模块进行修改。
HTK工具包的结构如图2所示:
图2HTK工具包结构图
2.2HTK的应用
隐马尔可夫模型(HMM)是20世纪70年代引入了语音识别领域,它的出现使得自然语言识别系统取得了实质性的突破。
HMM已经成为语音识别的主流技术,目前大多数的语音识别系统都是基于它的。
HTK(HMMtoolskit)是剑桥大学开发的一个专门用于建立和处理HMM的实验工具包,主要应用于语音识别领域,也可以应用于语音合成、字符识别和DNA排序等领域。
HTK经过剑桥大学、Entropic公司以及Microsoft公司的不断增加和改进,使其在语音识别领域处于世界领先水平。
另外,HTK还是一套源代码开放的工具箱,其基于ANSIC的模块化设计方式可以方便地嵌入到用户系统中。
2.3HTKLib和HTKTools
对于HTK,语言层模型基本不会用到。
而比较重要的两个文件夹是HTKLib和HTKTools。
HTKLib里面包含了语音信号处理所用到的资源文件,如内存的分配(HMem),信号处理(HSigP),参数产生(HParm),数学计((HMath)等。
这些模块构成了HTK的主体结构。
HTKTools则是利用上面文件夹里面的库文件,链接生成一些可以执行的程序。
例如,在HTKLib里面,HSigp.c完成了预加重,信号加窗,FFT等方面的算法,从语音信号处理方面来讲,他提供了LPCC,MFCC,PLP的计算细节。
但是,HTKLib提供的只是上述计算的一些子程序,具体把上述子程序串起来,生成所提到的参数则是HParm的内容。
还有其他一些库文件:
HRec实现识别功能,HAdapt实现说话人自适应,HWave提供跟不同语音格式文件的接口等。
而上面提到的HSigp和HParm只是库文件,如果没有其他文件调用,它们永远不可能自己运行。
HTKTools就是一些入口程序,通过这些程序对源文件的调用,从而
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 HTK 命令 识别 系统
![提示](https://static.bingdoc.com/images/bang_tan.gif)