书签分享收藏举报版权申诉 / 7

立即下载加入VIP,免费下载

当前位置：首页 > 求职职场 > 职业规划 > 最新语音识别流程分析.docx

最新语音识别流程分析.docx

文档编号：15293681
上传时间：2023-07-03
格式：DOCX
页数：7
大小：80.03KB

最新语音识别流程分析.docx

《最新语音识别流程分析.docx》由会员分享，可在线阅读，更多相关《最新语音识别流程分析.docx（7页珍藏版）》请在冰点文库上搜索。

最新语音识别流程分析.docx

最新语音识别流程分析

语音识别流程分析

摘要：

语言识别是将人类自然语言的声音信号，通过计算机自动转换为与之相对应的文字符号的一门新兴技术，属于模式识别的一个分支。

语音识别的结果可以通过屏幕显示出文字符号，也可以存储在文本文件中。

语音识别技术能够把语音信息直接转换成文字信息，对于中文信息处理来说，无疑是一个最理想、最自然的汉字输入方式。

本文首先分析了语音识别的原理，在此基础上进行语音识别的流程分析，主要内容有：

提取语音、端点检测、特征值提取、训练数据、语音识别。

选用HMM隐马尔科夫模型，基于VC2005编译环境下的的多线程编程，实现算法的并行运算，提升了语音识别的效率。

实验结果表明：

所设计的程序满足语音识别系统的基本要求。

关键词：

语音识别预处理Mel倒谱系数HMM隐马尔科夫模式OpenMP编程

前言

语音识别是解决机器“听懂”人类语言的一项技术。

作为智能计算机研究的主导方向和人机语音通信的关键技术，语音识别技术一直受到各国科学界的广泛关注。

如今，随着语音识别技术研究的突破，其对计算机发展和社会生活的重要性日益凸现出来。

以语音识别技术开发出的产品应用领域非常广泛，如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等，几乎深入到社会的每个行业和每个方面。

广泛意义上的语音识别按照任务的不同可以分为4个方向：

说话人识别、关键词检出、语言辨识和语音识别。

说话人识别技术是以话音对说话人进行区别，从而进行身份鉴别和认证的技术。

关键词检出技术应用于一些具有特定要求的场合，只关注那些包含特定词的句子。

语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术，本质上也是语音识别技术的一个方面。

语音识别就是通常人们所说的以说话的内容作为识别对象的技术，它是4个方面中最重要和研究最广泛的一个方向，也是本文讨论的主要内容。

语音识别技术，也被称为自动语音Automatic Speech Recognition，（ASR），其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列[1]。

与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。

语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用，例如语音到语音的翻译。

语音识别技术所涉及的领域包括：

信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

一、语音识别的原理

语音识别的基本原理是一个模式匹配的过程：

先建立一个标准的模式存放在计算机中，然后把输入的语言信息进行分析处理，采集相关的信息建立目标语音模式，再将目标语音模式与机内标准模式相匹配，找到最近的模式最为识别结果输出。

语音识别本质上是一种模式识别的过程，未知语音的模式与已知语音的参考模式逐一进行比较，最佳匹配的参考模式被作为识别结果[2]。

使用C语言编程，实现基于马尔科夫模型的数据特征提取，在此基础上编程实现特定语音实例的语音识别；将语音识别功能编写成可供其他模块调用的函数，为进一步实现语音识别系统提供基础；并且从中培养、提高查阅文献和综合运用知识的编程开发能力。

图1是基于模式匹配原理的自动语音识别系统原理框图。

训练

识别结果

语音信号输入

参考模式库

预处理

特征处理

模式匹配

判别规则

图1语音识别系统原理框图

（1）预处理模块：

对输入的原始语音信号进行处理，滤除掉其中的不重要的信息以及背景噪声，并进行语音信号的端点检测、语音分帧以及预加重等处理。

（2）特征提取模块：

负责计算语音的声学参数，并进行特征的计算，以便提取出反映信号特征的关键特征参数用于后续处理。

现在较常用的特征参数有线性预测（LPC）参数、线谱对（LSP）参数、LPCC、MFCC、ASCC、感觉加权的线性预测（PLP）参数、动态差分参数和高阶信号谱类特征等。

其中，Mel频率倒谱系数（MFCC）参数因其良好的抗噪性和鲁棒性而应用广泛。

（3）训练阶段：

用户输入若干次训练语音，经过预处理和特征提取后得到特征矢量参数，建立或修改训练语音的参考模式库。

（4）识别阶段：

将输入的语音提取特征矢量参数后与参考模式库中的模式进行相似性度量比较，并结合一定的判别规则和专家知识（如构词规则，语法规则等）得出最终的识别结果。

二、语音识别的流程

（一）样本语音采集

在室内录制标准汉语数字0-9的wav语音做样本语音，录音软件采用MSVisualC++WavRecorder，采样率16KHz，采样位16位，语音数据以wav文件格式存储，其音频格式为WindowsPCM。

（二）语音信号预处理

1、语音信号数字化

通过采样及量化提取语音信号的数据。

其中，数据提取部分，掌握语音文件的存储形式极为重要，有效地提取并清楚各部分数据的含义，对分析数据起到帮助作用，为下一步工作做了良好的起步。

2、预加重处理

提升高频部分，使信号频谱变得平坦，以便于进行声道参数分析或频谱分析。

预加重语音信号的平均功率谱受声门激励和口鼻辐射影响，高频端大约在800Hz以上按6dB/倍频程跌落，即6dB/oct（2倍频）或20dB/dec（10倍频）。

求语音信号频谱时，频率越高，相应的成分越小。

为此，要在预处理中进行预加重处理（Pre—emphasis）。

预加重的目的是使信号的频谱变得平坦，保持从低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析或声道参数分析。

预加重一般是采用一阶的数字滤波器[3]µ：

H（Z）=1-µ

，µ值接近于1，或者采用公式y（n）=x（n）-αx（n-1），其中，x（n）为原始信号序列；y（n）为预加重后序列；α为预加重系数。

3、端点检测及分帧加窗

断点检测主要为实现对数据中有效部分的提取。

阈值采用0.3（最大值-最小值），语音信号是一种典型的非平稳信号，处理中一般使用窗函数截取其中一段来进行分析，截取出来的那部分信号被认为是短时平稳的。

加窗处理的另一个作用就是消除由无限序列截断导致的Gibbs效应。

常见的窗函数有：

①矩形窗（RectangularWindow）

②汉明窗（HammingWindow）

③哈宁窗（HannWindow）

汉明窗和哈宁窗都属于广义升余弦函数，通过分析他们的频率响应幅度特征，可以发现，矩形窗的谱平滑性能好，但是旁瓣太高，容易造成频谱泄露，损失高频成分；哈宁窗衰减太快，低通特性不平滑；而汉明窗由于其平滑的低通特性和最低的旁瓣高度而得到广泛的应用[4]。

（三）Mel倒谱系数特征表示

提取MFCC参数、PLCC参数，即状态转移矩阵A，混合高斯分布的权矩阵C，均值矢量µ和协方差矩阵U这四个参数的训练过程，并进行极大似然值估计[5]。

Hz频率

与Mel频率

之间的转换关系如公式：

=1127×ln（1+

）

Mel倒谱频率系数（MFCC）是上述Mel频率概念基础上提出的，其计算机流程如图2所示

预加重，加窗

DCT求倒谱

Log对数能量

Mel频率滤波器组

FFT

图2MFCC计算流图

MFCC的Hz—Mel尺度对应的曲线和滤波器组分布如图3所示。

050010001500200035004000

2000

1500

1000

500

频率/Hz

频率/Mel

图3MFCC尺度对应曲线

（四）HMM隐马尔科夫模式匹配

HMM是一种用参数表示的，用于描述随机过程统计特性的概率模型，它是由马尔可夫链演变来的一个双重随机过程[6]。

基于HMM模型的孤立词语音识别系统需解决的以下问题：

．

（1）如何确定一个最优的状态转移序列，并计算观察序列对HMM模型的输出概率，根据此概率判断语音命令的识别结果[7]；

（2）如何调整允参数使得输出概率最大。

这是对HMM模型进行参数训练的问题。

在解决上述两个问题的过程中，都需要对输出概率进行计算，因此这是此算法的另外一个关键问题。

（五）OpenMP编程实现多核并行运算

实验平台为SAMSUNGR428系列双核笔记本。

采用IntelPM45+ICH9M芯片组，Intel（R）Core（TM）2DuoCPU，T6600处理器，2.20GHz主频，，高速缓存2MB，前端总线800MHz，内存DDR3，2048M，系统为MicrosoftWindowsXPProfessional（5.1，版本2600），编译器为MicrosoftVisualStudio2010。

在此平台上，用OpenMP改进二维离散快速傅里叶变换，实验数据为程序多次运行的平均值。

1、FFT算法编程实现

FFT程序设计分为两个部分：

倒序排列和蝶形运算。

倒序排列用于时域提取FFT的输入序列，本设计采用按时间抽选（DIT）的基-2蝶形运算，输入导位序，输出自然序。

2、声音识别——提取MFCC特征编程

对每一帧进行离散余弦变换（DiscreteCosineTransform，简称DCT变换）后得到MFCC特征值参数，此算法具有较强的抗干扰能力，将信号的能量集中到少数几个变换系数上，采用量化和熵编码可有效地压缩帧能量数据。

参考文献

[1]段哲民，范世贵《信号与系统》西安工业大学出版社，1997

[2]赵力《基于分段模糊类聚算法的VQ-HMM语音识别模型参数估计》电路与系统学报，2005,1

（2）：

8~11