基于ARM的嵌入式语音识别系统研究图文.docx
- 文档编号:18620000
- 上传时间:2023-08-20
- 格式:DOCX
- 页数:61
- 大小:52.34KB
基于ARM的嵌入式语音识别系统研究图文.docx
《基于ARM的嵌入式语音识别系统研究图文.docx》由会员分享,可在线阅读,更多相关《基于ARM的嵌入式语音识别系统研究图文.docx(61页珍藏版)》请在冰点文库上搜索。
基于ARM的嵌入式语音识别系统研究图文
基于ARM的嵌入式语音识别系统研究
TheResearchofEmbeddedSpeech
RecognitionSystemBasedonARM
硕士学位论文
学科专业:
机械电子工程
研究生:
王文慧
指导教师:
王刚教授
天津大学机械工程学院二零零八年五月
摘要
语音识别是通过识别和理解过程把人类的语音信号转变为文本或命令的技术。
近年来语音识别技术由于其重要性和研究难度成为研究的热点。
随着嵌入式的发展,嵌入式语音识别技术成为语音识别领域发展的新的重要方向。
在此背景下,本课题进行基于ARM的嵌入式语音识别系统的研究。
论文分别从理论分析、系统硬件平台的总体设计、系统软件的分析定制等方面,对语音识别在ARM上的应用做了研究。
1、在理论上,详细介绍了语音识别的发展历史与研究现状;具体阐述语音识别技术的基本原理和主要研究方法,并推导了语音识别技术中最常用到的两种算法DTW和HMM的数学模型,为进一步的语音识别研究打下基础。
2、在硬件平台方面,本文分析设计了语音识别系统的总体方案,主要包括以下三部分:
语音识别系统的控制部分、语音的输入输出部分以及语音程序的存储部分;文中详细介绍了各部分的作用以及它们之间的连接方式,此外根据实际需要,选择确定了语音芯片等外围电路芯片的型号并扩展了外围电路。
3、在系统软件选择定制方面,不仅要求各部分自身功能完善,能够满足本课题的需求,而且要求各部分相互之间满足一定的兼容性,即定制的系统具有稳定性,可以有效的工作。
考虑到以上的因素,本课题针对特定的语音识别系统的需求,对交叉编译环境、U.boot、内核、根文件系统等均进行了量身定制。
最终选用Crosstooi来制作专门编译Linux.2.6.22.6的交叉编译工具;选用比较稳定的支持tftp下载的u.boot.1.2.0作为引导程序;选用Linux.2.6.22.6作为嵌入式操作系统内核,并对其进行剪裁定制,特别是增加了UDAl341TS音频驱动和网卡驱动部分;选用了带有mdev功能的busybox.1.9.1来制作根文件系统。
在以上三方面的基础上,本课题对语音识别程序系统进行了实验研究。
实验包括音频驱动、语音录制、语音训练、语音识别程序的编译以及语音识别等程序在ARM上的移植。
最后,本论文采用DTW模型,完成了语音模板的训练和语音识别的任务。
经过实验测试,该系统有效完成了预期的语音识别任务。
关键词:
语音识别,嵌入式系统,ARM,UDAl341TS
ABSTRACT
TheSpeechRecognitionisaTechnology,whichhelpstotransferthespeechsignalsintohomologoustextorcommandduringtheprocessofrecognitionandcomprehending.RecentlySpeechRecognitionTechnologyisonthehotspotsforitsimportanceanddifficultyinresearch.Withthedevelopmentofembeddedsystems,speechrecognitiontechnologybasedonembeddedsystemshasbecomeanewandimportantdirectionofdevelopmentinthisfield.
Underthisbackground,thedissertationdoestheresearchontheembeddedspeechrecognitionbasedonARM,whichhasbeenresearchedintheoreticalanalysis,speechrecognitionsystem’Shardwareplatformdesign,system’Ssoftwareanalysisandcustom,respectively.
1、Intheory,thedissertationintroducesthedevelopmenthistoryandresearchstatusofspeechrecognitionindetails;andgivesthespecificintroductionaboutthebasicprinciplesandthemainresearchmethodsofthespeechrecognitiontechnology;twocommonmathematicalmodelsarederived,dynamictimewarpingandhiddenmarkovmodel,asthebasementforthefurtherresearchofspeechrecognition.
2、Inhardwareplatform.itanalysesanddesignsthegeneralarchitectureforthesystem.mainlyincludingthefollowingthreeparts:
system’Scontrolpart,input&outputpart,andstoragepart;italsointroducesthefunctionsofeachpartaswellastheirrelationshipindetails.Inaddition,accordingtoactualneeds,itmakestheselectionfortheaudiochip,andotherexternalcircuitchips’models,andexpandstheexternalcircuit.
3、Theselectionofthesystemsoftwarecustom,notonlyrequiresfortheabilityofself-improving,butalsoneedstomeettherequirementofthesubject.Furthermore,compatibilityamongallpartsshouldberequired.Thatis.customizedsystemshouldbewithstabilityandeffectiveness.
,
Takingabovefactorsintoaccount,thetextmakestheappropriatesystemforthecrosscompilingenvironment,u-boot,kernel,rootfilesystemandSOon.Asthespeechrecognitionsystemrequires,thispaperdecidestochooseCrosstoolasthecrosscompilingtoolforlinux一2.6.22.6andchooseu-boot—1.2.0.whichisrelativelystableandsupportstftpdownload,forthedirectionprocedurewhilechoosinglinux一2.6.22.6¨
asofkerneltheembeddedoperationsystem’skernel.Thetextdiscussesthemethods
thekernel,especiallyaddsthesounddriverportingandconfiguration,andcustoms
forUDA1341TSand
Linuxrootfilesy7stem.netdriver;thenselectsthebusybox-1.9.1forsettingupthe
isresearched,Onthebasisofthethreeabovesides,SpeechRecognitionSystem
andincludingthedriverofaudio,voicerecording,voicetraining,voicerecognition
thecompilingofprocesssuch
transplant.asspeechrecognitionprocedureinARMonthe
Finally,DTWmodelistakenforcompletingaandtrainingofvoicetemplate
thetasksofspeechrecognitiontasks.Astheresultoftesting,thesystemcompletes
speechrecognitionasexpectedeffectively.
KEYWORDS:
speechrecognition,embeddedsystem,ARM,UDA1341TSIII
独创性声明
本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得叁鲞盘堂或其他教育机构的学位或证书而使用过的材料。
与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。
学位论文作者签名:
2又髦、签字日期:
刎矿年G月莎日
学位论文版权使用授权书
本学位论文作者完全了解基鲞盘堂有关保留、使用学位论文的规定。
特授权岙鲞太堂可以将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。
同意学校向国家有关部门或机构送交论文的复印件和磁盘。
(保密的学位论文在解密后适用本授权说明)
学位论文作者签名:
王文笔7
签字日期:
加占年G月莎日导师签名:
炒f导师签名:
’嘶州’签字隰缈萨石月阳
第一章绪论
第一章绪论
1.1语音识别系统概述
伴随着科技进步和全球信息交流的日益扩大,嵌入式设备产品的市场规模在迅猛发展。
追求小体积多功能嵌入式设备的必然趋势,使语音合成、语音识别、手写输入技术在嵌入式中的应用成了最具吸引力的功能,因此今后嵌入式产品交互应用的竞争已演化成以此三项关键技术为核心的竞争。
语音识别是通过识别和理解过程把人类的语音信号转变为文本或命令的技术。
其根本目的就是研究出一种具有听觉功能的机器,这种机器能直接接受人的语音,理解人的意图,并做出相应的反应。
从技术看,它属于多维模式识别和智能接口的范畴。
语音识别技术是一项集声学、语音学、计算机、信息处理、人工智能等于一体的综合技术,可广泛应用于信息处理、通信与电子系统、自动控制等领域。
1.1.1语音识别系统技术发展历史
语音识别技术的研究工作始于20世纪50年代,第一个用来识别lO个英文数字的语音识别系统一Audry系统在AT&Bell实验室研制成功【l】。
20世纪60年代,计算机的应用推动了语音识别的发展。
在这个阶段主要是提出了线性预测分析(LP)和动态规划(DP),主要解决了语音信号的产生模型问题。
Bell实验室S.Pruzanskay提出基于模式匹配和概率统计进行语音识别,对语音识别的发展产生了深远影响。
20世纪70年代,语音识别技术得到了快速发展。
具体表现在:
理论上,线性预测分析得到进一步的发展,动态时间规整(DTW)技术基本成熟,特别提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。
实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立词汇识别系统。
20世纪80年代,语音识别技术得到了进一步发展。
其中显著的特征是HMM模型和人工神经网络(ANN)在语音识别中得以应用。
经过AT&Bell实验室Rabiner等科学家的共同研究,把原来HMM的纯数学模型工程化,并得到推广。
经过实验证明,采用HMM和ANN模型建立的语音识别系统,性能很好【2】【3】【4】。
进入20世纪90年代,随着多媒体时代的来临,迫切需要语音识别系统从实验室走向实用。
许多发达国家如美国、日本、韩国及IBM,Apple,AT&T,NTT
等著名的公司都为语音识别系统研究投入大量资金【5】。
而ARM技术发展就比较迟,ARM公司成立于1990年11月,全称为AdvancedRISCMachinesLtd,由英国Acorn公司提供技术支持,美国苹果等公司出资合作的美英公司。
ARM公司本身不直接从事芯片生产,也不销售芯片,靠转让设计许可,由合作伙伴生产出各种特色的芯片。
我国语音识别研究工作始于二十世纪八十年代初,一直紧跟国际水平,国家也很重视,并把大词汇量语音识别的研究列入“863”计划,由中科院声学所、自动化所及北京大学等单位研究开发,取得了高水平的科研成果,如中科院自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统,其字准确率或系统响应率可达90%以上。
鉴于中国未来庞大的市场,国外也非常重视汉语语音识别的研究。
美国、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者,研究成果己达到相当高水平16j。
1.1.2语音识别系统技术研究现状
就技术而言,目前国内外对语音识别理论及各种实用算法的研究是一热点。
人们普遍关心的问题是不断提高语音识别的识别率、识别更多的词汇量、扩大语音识别的应用等研究。
语音识别技术发展到今天,PC机的语音识别系统己经趋于成熟,而且还出现了一些具有实用价值和市场语音识别前景的语音识别芯片。
近几年来,个人消费类电子产品的广泛使用,使大量的识别系统从实验室PC平台转移到嵌入式平台设备中,现在嵌入式对特定人语音识别系统的识别精度己经达到98%以上。
嵌入式语音识别系统和PC机的语音识别系统相比,虽然其运算速度和内存容量有一些限制,但是它也有各自的特点。
嵌入式系统体积小、可靠性高、耗电低、投入小、便于移动等优点,是嵌入式语音识别系统和PC机的语音识别系统相比的最大优势。
而且嵌入式语音识别系统多为实时系统,当用户讲话后,系统能够立即完成词条识别并作出反应。
这些特点决定了嵌入式语音识别系统的应用十分广泛。
可以预测在近几年内,嵌入式语音识别系统的应用将更加广泛。
各种语音识别系统将出现在市场上。
根据美国专家预测,具有语音识别功能的产品可达50亿美元【7l。
在短期内还不可能具有和人相比拟的语音识别系统,要建成这样一个系统仍然是人类面临的一大挑战,我们正一步步朝着改进语音系统的方向迈进【81。
2
1.1.3语音识别系统技术应用前景
语音识别技术是非常重要的人机交互技术【9J,有着非常广泛的应用领域和市场前景。
应用语音的自动理解和翻译,可消除人类相互交往的语言障碍。
通信技术的飞速发展,语音识别技术将为网上会议、商业管理、医药卫生、教育培训等各个领域带来极大的便利。
目前语音识别系统主要应用有以下几方面:
高档智能玩具(比如能和儿童交流的语音娃娃、声控玩具汽车等)、汽车电子语音导航系统(通过语音实现地名和各种命令的输入)、汽车免提电话(语音拨号),家电语音智能控制(比如空调、冰箱、消毒柜、洗衣机、电灯等)、手机(比如语音拨号)、PDA等。
1.2本课题研究背景
嵌入式语音识别技术15J是指应用各种先进的微处理器在板级或芯片级用软件或硬件实现语音识别。
语音识别系统的嵌入式实现,要求算法在保证识别效果的前提下尽可能优化,以适应嵌入式平台存储资源少,实时性要求高的特点。
实验室中高性能的大词汇量连续语音识别系统代表当今语音识别技术的先进水平。
但是由于嵌入式平台资源和速度方面的限制,嵌入式实现尚不成熟。
而中小词汇量的命令词语音识别系统算法相对简单,对资源的需求较小,且系统识别率较高,能满足大多数应用的要求,成为嵌入式应用的主选。
当前,语音识别技术得到了广泛应用。
有些电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。
人们可以通过电话网络用语音识别口语对话系统查询机票、旅游、银行信息,并且取得很好的结果。
但是可随身携带的嵌入式语音识别产品在人们的日常生活中尚不多见,该领域具有广阔的市场前景。
在这种背景下,论文旨在根据现实生活需要,在对语音识别的嵌入式实现进行研究和了解的基础上,进行了基于模板匹配法的特定人、小词汇量语音识别系统研究,应!
用于日常生活中,以方便人们的日常生活、提高人们的生活质量。
从人机接口的角度看,就是使人们甩掉键盘,通过语音命令操作。
r_
●
1.3本课题研究内容
本文在论述语音识别系统的发展历史,研究现状的基础上,指出了本课题的研究背景。
在此背景下,本课题基于ARM的嵌入式语音识别系统的研究。
从理
论分析、硬件平台的设计、系统软件分析等方面说明语音识别在ARM上的实现过程。
在理论上,详细介绍语音识别的基础,原理,研究方法以及使用的数学模型;系统的硬件平台主要包括:
语音识别系统的控制部分、语音的输入输出部分以及语音程序等的存储部分;系统软件方面则是对交叉编译环境、U.boot、内核、根文件系统等的定制,编译和实现做说明。
在软、硬件的基础上,通过简单语音识别系统来说明语音识别在ARM上的应用,包括音频的驱动、语音训练、语音识别等程序在ARM上的移植。
本文采用DTW模型,完成语音模板的训练和语音识别的任务。
通过实验测试,验证系统预期的语音识别效果。
最后总结本论文的工作、取得的成果、并提出课题继续研究的方向。
1.4本章小结
本章主要论述语音识别系统的发展历史,研究现状,以及本课题的研究背景和主要研究内容。
4
第二章语音识别系统技术
第二章语音识别系统技术
2.1语音学知识
2.1.1语音信号的产生
语音信号的产生过程分为如下几个阶段:
首先,说话人在头脑中产生语言表达信息;然后将这些信息转换成语音编码,即将这些信息用其所包含的音素序列、韵律、响度、基音周期的升降等表示出来。
一旦这些信息编码完成后,说话人会用一些神经肌肉命令在适当的时候控制声带振动,并塑造声道的形状以便发出编码中指定的声音序列。
神经肌肉命令必须同时控制调音运动中涉及的各个部位,包括:
唇、腭、舌头以及控制气流进入鼻腔的软腭。
一旦产生语音信号,并将这些信息传递到听者时,语音感知过程就开始了。
听着内耳的基底膜对语音信号进行动态的频谱分析,神经传感器将基底膜输出的频谱信号转换成对听觉神经的触动信号,作用在听觉神经上的活动信号,在大脑更高层的中枢转化成语言编码,并产生具有语义的信息。
2.1.2语音信号的数学模型
语音是由声道激励发生共振而产生的,由于在发声过程中声道是运动的,因此可以用一个时变线性系统来描拟。
当在一个较短的时间间隔内表示语音信号时,可以采用线性时不变模型,可用如图2.1表示语音信号的产生模型。
声道参数
激励模型声道模型
图2.1语音信号产生模型辐射模型
第二章语音识别系统技术
由图2.1可知完整的语音信号模型有三个子模型串联组成的:
激励模型、声道模型和辐射模型。
激励模型可分为清音激励和浊音激励。
对于清音来讲,激励信号相当于白噪声,对于浊音来讲,由于声带不断张开和关闭,将产生间隙性脉冲波。
可用下面的表达式来表达:
l(1/2)11一COS(701/Ⅳ1)】,0≤刀≤Ni
g(n)={cosLx(n一Ⅳ1)/2N2】,NI≤刀≤NI+Ⅳ2
10,其他(2-1)
声道模型:
目前常用到的声道模型是共振峰模型。
一般人的声道长度为17cm,可以计算出在500Hz,1500Hz,2500Hz,3500Hz,4500Hz附近有5个共振峰【m】。
每个共振峰对于系统函数的一个极点。
其系统函数V(z)可用下面的表达式来表达:
一般采用级联级,其中N是极点个数,G是幅值因子,aK是常系数。
V(z)=
X=lG(2-2)1一yarz《J,一・-
辐射模型:
声道的终端为口和唇,从声道输出的是速度波,而语音信号是声压波,二者的比称为辐射阻抗。
即:
R(z)=R(1一l/z)。
由此可以得出语音信号是由激励信号g(n)和传输函数H(z)线性系统而产生输出的。
H(z)是由激励模型、声道模型和辐射模型串连【111而组成的。
2.1.3语音信号的处理
语音信号中含有丰富的信息,从中提取对语音识别有用信息的过程,就是特征提取。
特征提取方法是整个语音识别系统的基础,对语音识别率有极其重要的影响。
它主要分为3类:
①基于LPC的倒谱参数分析;②基于FFT的频谱余弦变换分析;③采用前沿数字信号处理技术的特征分析手段,如小波分析、时一频域分析、人工神经网络等。
语音识别的过程可以看作模式匹配的过程,模式匹配是指根据一定的准则,使未知模式与模型库中的某个模型获得最佳匹配的过程。
模式匹配要用到参考模板,这些模板通过模板训练获得。
模板训练就是指按照一定的准则,从大量己知模式中获取表征该模式本质特征的模型参数。
对于连续大词汇量语音识别系统【l21,用得比较多的是HMM模型和ANN;对于孤立词语音识别系统,用DTW模型。
第二章语音识别系统技术
2.2语音识别基础
2.2.1语音识别概念
语音识别主要有两大类【5】:
语音识别和说话人识别。
对这两类系统的共同要求是对自然会话的识别率高。
目前一些设备对识别对象和说话人都是在某些限制条件下才有较高的识别率。
语音识别的基本任务是准确地识别全部话语,或者是“理解"话语。
说话人识别系统的任务是确认说话人(即证实说话的人是否是所要求的那个人)或者从某已知人群中辨认出那个说话人。
因此,系统又可分为确认说话人与辨认说话人两个方面。
简而言之,语音识别是识别讲话的内容,是对语音共性的识别。
语音识别的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域,是一个多学科综合性研究领埘13J。
语音识别系统的基本过程包括:
采样、确定输入信号的起始点、由数字滤波器直接地或模拟滤波器间接地计算语音谱、音调轮廓图估价、分解输入信号、单词识别和对输入信号做出响应。
2.2.2语音识别原理
语音识别技术发展到今天,人们提出了各种的识别方法,但它们的基本原理都是相同的,即语音信号经过采集送到特征提取模块处理,得到一组反映该段语音特征的参数模型,然后这些特征参数送入模型库模块,声音模式匹配模块根据模型库对该段语音进行识别,最后得出识别结果ll4|。
语音识别属于模式识别,与人的认知过程一样,分为训练和识别两个过程。
在训练阶段,语音识别系统对人类语言进行学习,学习结束,把学习内容组成语音库存储起来;识别阶段就可以把人们当前输入的语音在语音库中查找相应的词义或语义。
从信号处理的角度,任何一个语音识别系统都能以图2—2来表示【I川。
图2.2语音识别基本原理框图如上图所示,语音识别主要包括语音信号的预处理、特征提取、参考模式库、
第二章语音识别系统技术
相似性度量和后处理等几个模块。
各个模块的功能说明如下。
预处理模块,对输入的原始语音信号进行处理,滤除其中的不重要的信息及背景噪音等,进行语音信号的端点检测,即判定语音有效范围的始点和终点位置,并进行语音分帧以及预加重等处理工作。
特征提取模块,负责计算语音的声学参数,进行特征的计算,取出反映信号特征的关键特征参数,以降低维数,便于后续处理。
语音识别系统常用的特征参数有幅度,能量,过零率,线性预测系数(LPC)、LPC倒谱系数(LPCC)、线谱对参数(LSP)、短时频谱、共振峰频率、反映听觉特征的Mel频谱倒谱系数(MFCC)等。
特征选择和提取是构建系统的关键。
在训练阶段,用户输入若干次训练语音,系统经过预处理和特征提取得到特征矢量参数(序列),然后通过特征建模模块建立训练语音的参考模式库。
在识别阶段,将输入语音的特征矢量参数和参考模板库中的模式进行相似性度量比较,将相似度最高的模式所属的类别作为识别中间候选结果输出。
后处理模块,是对上述得到的候选识别结果继续处理,通过更多的识别约束,得到最终结果。
2.3语音识别模型
语音识别基本原理是对语音信号进行特征提取。
目前常用的语音识别算法有基于模式匹配的动态时间规整法(DTW:
DynamicTimeWa叩ing),基于统计模型DSP的隐马尔可夫模型法
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 ARM 嵌入式 语音 识别 系统 研究 图文