语音压缩编码的发展和应用Word格式.doc
- 文档编号:8431849
- 上传时间:2023-05-11
- 格式:DOC
- 页数:7
- 大小:48.50KB
语音压缩编码的发展和应用Word格式.doc
《语音压缩编码的发展和应用Word格式.doc》由会员分享,可在线阅读,更多相关《语音压缩编码的发展和应用Word格式.doc(7页珍藏版)》请在冰点文库上搜索。
tospeechcoding,MPLPC,DP—CELP,MPD-USACELP,、Ⅳ1andquantificationofLSF.Thesealgorithms
areanalyzedandcompared.Theircharacteristicsandapplicablescopesaresummarized.Somealgorithms
apphedtoDSParealsointroduced.
Keywords:
Speechcompressioncoding;
LP;
waveforminterpolation;
voicecoding;
waveformcoding;
parametriccoding;
hybridcoding;
CodingStandard
前言:
近30年来,通信技术一直在发生着深刻的变化,编码技术日臻完善,高质量、低速率的语音编码算法纷纷出现,各国相继成立了一些国际通信标准化组织,及时地制定专门的通信编码标准,语音编码技术的发展也体现在这些不断制定的标准中。
由于实现方式的不同,语音压缩编码技术种类很多,一直向着高质低速方向发展,并出现了不少令人振奋的成果。
随着信息技术的发展,信道资源显得更加宝贵,为了在有限的信道内进行更多的信息传输,必须对语音信号进行压缩。
语音信号能够压缩的基本依据是语音信号中存在的冗余和人类的听觉感知机理。
语音信号存在多种多样的冗余,可分别从时间域和频率域描述。
从时间域分析:
幅度的非均匀分布,即语音中的小幅度样本出现的概率高,信息主要集中在低功率上;
采样数据间的相关,相邻的语音信号间有很强的相关性,研究表明,当采样率为8kHz时,相邻样值之间的相关系数大于0.85,如果采样率提高,相关性将更强;
周期间的相关,浊音语音段具有准周期性,反映在波形上出现图形的重复,即信息冗余;
语音间隙,实际语音通信中,存在通话间隙,通话分析表明,全双工话路的典型效率约为通话时间的40%,即静止系数为0.6;
长时自相关,除了本间、同期间的相关外,在较长的时间间隔上,语音信号也存在相关,统计表明,8kHz采样时的平均相关系数高达0.9。
从频率域分析:
非均匀的长时功率谱密度,从相当长的时间内统计平均,语音信号的功率谱呈现强烈的非平坦性,这说明语音信号对给定的频段利用的不充分,存在固定的冗余度;
语音特有的短时功率谱密度,语音信号的短时功率潜在某些频率上出现峰值,而在另一些频率上出现谷值,这些峰值频率是能量较大的频率,称为共振峰(Formant),语音特征主要由前3个共振峰频率决定,随着频率的增高,对整个功率谱的影响会快速递减。
语音压缩的第二个依据是人的听觉生理和心理特性对语音的感知,其影响主要表现在:
第一,人的听觉系统(HumanAuditorySystem,HAS)对声音具有掩蔽效应(MaskEffect),即一个强的声音能够抑制另一个同时存在相对较弱的声音,利用这一性质可以抑制与信号同时存在的量化噪声。
第二,对不同频段的声音的敏感程度不同。
人的听觉对低频端比较敏感,而对高频端不太敏感,这主要是因为浊音的周期和共振峰在这里。
第三,人耳对语音信号的相位变化不敏感。
人耳的听觉不像人的视觉对感知的信号相位那样敏感,一定程度的相位失真对听觉来说是可以容忍的。
人耳听不到或感知极不灵敏的语音信号都可以认为是冗余,可以利用这些特性进行语音数据压缩。
语音压缩编码的目的是用尽可能低的数码率获得尽可能好的合成语音质量,同时又使要编码过程的计算代价尽可能小。
降低数码率的实质就是压缩频带宽度,数码率低意味着算法的复杂度增加,延迟变大。
所以语音压缩编码算法的研究一直在这个矛盾中向前发展。
语音压缩编码的发展及应用近10多年来,语音编码技术取得了突飞猛进的发展,出现了多个国际标准和区域标准,已具备了比较完善的理论和技术体系,随着高速信号处理器的诞生,使多种算法复杂、计算量很大的编码技术的实时化变得容易起来,语音压缩编码进入了实用阶段。
目前语音编码主要分为三类:
波形编码、参数编码和混合编码。
1.波形编码最早的语音编码系统采用波形编码方法,这种方法主要是基于语音信号的波形,力图使合成语音与原始语音的波形误差最小。
由于语音信号的全部信息都蕴含在原始波形里,所以这种方法编码后的合成语音质量非常好,且适应能力强,抗信道干扰性能好。
所采用的压缩方法一般是基于各种有效的数学变换,通过将波形从一个域变换为另一个更易于提取特征参数的域来达到对变换后的参数进行量化编码的目的,在数学上,这实质上是一个曲线拟合或数据近似的问题。
主要的有以下的编码器:
脉冲编码调制(PCM)、自适应增量调制(ADM)、自适应差分编码(ADPCM)、自适应预测编码(APC)、自适应子带编码(ASBC)、自适应变换编码(ATC)。
波形编码的性能和压缩比特率决定于所用的变换方法的性能,由于语音波形的动态范围很大,目前所用的变换算子的作用又有限,因此,波形编码的比特率不能压得很低,一般在16kb/s以上,再往下,性能就下降很快。
新近蓬勃发展的小波变换,尽管具有分层的思想、“显微镜”的功能、与图像的视觉感知相吻合,但用于语音编码效果不理想,因为与人的听觉感知不相吻合。
国际电报电话咨询委员会CCITT(现已并入国际电信联盟ITU)于1972年制定的G.71164kb/s的脉冲编码调制(PCM)和ITU在1984年公布的G.72132kb/s自适应差分脉冲编码调制(ADPCM)编码器标准等都属于这一类编码器。
2.参数编码参数编码始于1939年美国人HomerDudey发明的声码器,它是根据语音信号的特征参数来编码,所以又叫“声码器技术”。
这种编码方法是通过对人的发声生理过程的研究,建立一个模拟其发声的数字模型来达到提取其特征参数进行量化编码的目的,它力图使合成语音具有尽可能的可懂性,保持原语音的语意,而合成语音的波形与原始语音的波形可能有相当大的差别。
由于它是以滤波器为主来构造语音产生模型,发送的只是滤波器的参数和相关的特征值,可以将比特率压得很低,但合成语音质量不是很好。
这种方法在低数率声码器中普遍采用。
主要声码器有通道声码器、共振峰声码器、同态声码器、线性预测(LPC)声码器等。
其中LPC声码器是以线性组合模型均方误差最小意义下逼近原始波形的方法提取参数,较好地解决了编码速率和语音质量的问题,以其成熟的算法和参数的精确估计成为研究的主流,并已走向实用。
美国政府1980年公布的2.4kb/s线性预测编码算法LPC-10就是采用的这种方法。
1986年,美国第三代保密电话装置采用了2.4kb/s的LPC-10e(LPC-10的增强型)作为话音处理方法。
3.混合编码20世纪80年代后期,综合波形编码和参数编码的混合编码算法成为主流,这种算法也假定了一个语音产生模型,但同时又使用与波形编码相匹配的技术将模型参数编码,吸收了两者的优点。
所谓混合编码有两层含义:
激励的混合,达到更精确的表示残差信号;
编码方式的混合,综合波形编码和参数编码的优点,从而获得更高的质量。
根据这种方法进行编码的有1982年BishnuS.Atal和JoelR.Remde提出的多脉冲激励线性预测编码(MPLPC),码率在9.6kb/s~16kb/s范围内,1985年Ed.F.Deprettere和PeterKroon首先提出的规则脉冲激励语音编码(RPE-LPC),1985年ManfredR.Schroeder和BishnuS.Aral提出了用矢量量化技术对激励信号进行编码的码激励线性预测编码(CELP),在4.8kb/s~16kb/s范围内可获得质量相当高的合成语音。
近年来码激励线性预测(CELP)编码作为一种优秀的中、低速率方案得到了很好的重视和研究,在降低复杂度、增强CELP性能、提高语音质量等方面取得了许多新的进展。
1989年,Motorola的8kb/s矢量和激励线性预测编码(VSELP)成为北美第一种数字蜂窝移动通信网的语音编码标准,与美国政府标准4.8kb/sCELP语音编码器基本相同。
美国政府制定了FS-10164.8kb/s的CELP保密电话网的标准之后,提出了制定半速率2.4kb/s声码器的新课题。
CCITT从1988年开始研究符合进入公用网要求的16kb/s语音压缩编码标准,并对该速率的算法提出一些具体要求。
经过一年多的工作,CCITT最终选定了由AT&
T实验室提出的16kb/s低延迟线性预测编码方案,并经过进一步的研究和优化,于1992和1993分别通过了浮点和定点
算法的G.728协议,即低延迟码激励线性预测算法LD-CELP。
LD-CELP算法的特点是语音短时语音谱预测、长时语音谱预测、增益因子预测等参数不是从语音中直接提取,而是采用了后向自适应算法,即从量化后的语音信号中提取LPC参数及增益系数。
传送的信息只是激励矢量,这就压缩了传输比特率。
LD-CELP可应用于可视电话伴音、存储和转发系统、数字移动无线通信、数字语音插空设备、语音信息录音和分组语音等领域。
CCITT在20世纪80年代末就提出要建立一个8kb/s高质量、低延迟的编码方案。
但是由于要求过高,很长时间没有人能够提供满足要求的编码方案。
CCITT不得不在1991年降低了要求,把原来要求5ms延时降为16ms,并综合了日本NTT和加拿大SherbrookeUniversity的科学家们提出的算法,于1995年11月在ITU-TSG15全会上通过了CSACELP算法的8kb/s的建议G.729。
CS-ACELP算法基于CELP编码模型,采用了共扼结构和代数码本技术。
它的主要技术指标是:
在无误码的条件下,语音的质量不得比32kb/s自适应差分脉冲编码调制的质量差;
另外在3%帧删除的情况下,对比无误码的32kb/s自适应差分脉冲编码调制(ADPCM),其平均评价得分(MOS)降低少于0.5。
该算法主要是由编码器和解码器两部分组成。
CS-ACELP语音编码属于低速率语音编码,因而较好地解决了通信过程中带宽不足的问题。
CS-ACELP在略微提高复杂度的同时,大大降低了编码速率,同时保证了语音质量;
CS-ACELP的自适应码本和LSP第一阶段量化参数的比特信息对误码比较敏感,这样,根据信息对误码的敏感程度对不同信息进行分组并采用不同的保护方法可以大大提高系统的抗误码性能,在解码端根据帧的校验位可以判断本帧有无误码,如果有,解码器将基于前面已经解的信息对当前帧进行重建,通过这些措施,使得在误码率较高时,仍可以获得较高的编码质量。
CS-ACELP语音编码可以广泛地应用于个人通信、分组语音通信(如IPPhone)、数字卫星通信、高质量移动无线通信、存储和检索、微波接力通信以及未来的综合业务数字通信网(ISDN)。
CELP编码方案在4.8kb/s~16kb/s速率上取得了很大成功,但是,当速率低于4.8kb/s时,编码器性能会很快下降。
语音编码技术的进展对通信新业务的发展有极为明显的影响,例如IP电话业务、实时长途翻译业务、交换机的人工智能接口等。
因此,国际电信联盟(ITU)第15组提出了许多急需制定的话音编码标准的建议,以推动通信网的发展。
由于VLSI的发展,实现这一技术的代价已从在昂贵的信道中采用,发展到一般信道中都可接受的水平,因此,编码技术日益受到重视。
数字移动通信和个人通信(PCN)是深受人们重视的通信手段,其重要问题之一是压缩语音编码速率,形成面向对象的语音编码技术。
是对标准语音编码器的比较,对几种编码器的比特率、MOS值、复杂性(以G.711为基准)和时延大小及前视时间进行比较。
低码率、低延迟话音编码算法是21世纪通信、计算机网络、视频电话会议和远程教学系统等诸多应用领域的关键性核心技术。
1992年国际电信联盟(ITU)向全世界征集延迟低于5ms、音质与PCM相当、速率低于8kb/s的话音编码方案。
目前这一目标仍未实现,G.728虽然延迟5样点(0.625ms)符合要求,速度却为16kb/s;
G.729虽然速率为8kb/s但延迟是80样点(15ms)。
在现代数字通信中,为提高信道利用率,如何用尽可能少的比特数来对语音信号进行编码已越来越受到重视。
在短短10年中就产生了3个国际标准、2个地区标准和2个国家标准,足见语音压缩编码的研究发展之快,其在国际标准化工作中堪称为最活跃的研究领域。
就语音编码的现状而言,64kb/s,32kb/s,16kb/s和8kb/s的技术已经标准化和产品化,已具备比较完善的理论和技术体系,并进入实用阶段。
在实际的语音通信中,有些信道难以扩宽且质量很差;
有些信道正被广泛使用,短期内难以更新;
有些昂贵的信道,每压缩一个比特都意味着节省开支_l_。
因此,语音压缩编码无疑在语音通信及人类信息交流中占有举足轻重的地位。
根据语音编码速率的不同,可以划分为以下的编码算法:
高速率编码16kb/s~64kb/s、中速率编码4.8kb/s~16kb/s、低速率编码2.4kb/s~4.8kb/s、极低速率编码即小于2.4kb/s。
本文按此分类方法,将文章中涉及到的语音压缩编码方法分为中高速率编码、低速率编码与极低速率编码三类。
对于中高速率的语音压缩编码而言,高速率编码主要以波形编码为主,其适应能力强、语音质量好,但编码速率较高。
中速率编码以混合编码为主,基于语音产生模型的假定并采用了分析合成技术,同时又利用语音的时间波形信息,增强了重建语音的自然度。
低速率及极低速率编码以参数编码为主,通过建立语音信号的产生模型,提取代表语音信号特征的参数来编码。
中高速率编码连续可变斜率增量调制(CVSD)CVSDfConfinuous~VariableSlopeDeltaModulation)针对输入信号振幅的变化率,调节量化步长的增量值。
当输入信号的振幅变化率增大时.增量值也相应地增大;
当输入信号的振幅变化率减小时,增量值也相应地减小。
利用TI公司的TMS320VC5509定点DSP芯片实现多路全双工16kbpsCVSD语音编解码的方案,并基于摩托罗拉公司的MPC800提出了利用嵌入式系统扩展DSP应用的方法。
与其它编码方式相比,CVSD有如下突出特点:
(1)较高的抗误码能力;
(2)算法简单,硬件实现容易;
(3)单路应用时无须采取码元与码组同步措施等。
因此.它是一种在卫星通信、移动通信和军事通信等领域应用非常广泛的波形编码方式。
基于小波分析的语音编码方法小波在时域频域同时具有良好的局部特性,并且它的基具有多样性,使得它优于傅立叶分析,更适合于语音。
它不仅可以单独的处理语音,还可以和其它理论结合用于语音压缩。
小波技术与离散余弦变换(DCT)结合:
离散余弦变换系数能较好地体现语音信号能量在频域中集中分布的特性。
可以重构出高质量的话音.如果采用矢量量化(VQ)的方法直接对离散余弦变换的系数进行编码,运算量较大。
可以利用小波变换的多分辨分析特性.对离散余弦变换系数进行离散进小波变换后.再对其小波系数进行编码。
其优点为:
(1)编码算法简单;
(2)可方便灵活地控制各频率段的位数分配,满足不同编码质量的要求;
(3)在16kbps数据率时。
可实现与原话音质量相同的重构语音。
多脉冲激励线性预测编码(MPLPC)的改进原始的MPLPC方法中,LP滤波器的阶数和激励脉冲的个数都是固定的。
对其改进算法使用了可变阶数滤波器的语音编码方法。
主要思想是:
对于不同的语音帧使用不同阶数的线性预测滤波器,只要低阶滤波器满足要求就不使用高阶滤波器。
由于各语音帧滤波器阶数不同,使用的编码位数也不同。
为了使整个语音传输速率基本恒定,对于滤波器阶数较低的语音帧,可以相应地增加激励脉冲的个数或增加各脉冲的比特数。
用MATLAB对改进MPLPC方法进行模拟,结果表明,此方法可以在6kb/s以下的速率上得到有一定自然度的合成语音,比同速率下的原始多脉冲激励方法有明显改善。
但此方法在有噪声和失真的信道上传输的情况需要进一步实验,每帧激励脉冲个数的最佳值需要进一步研究。
低速率编码散布脉冲码激励线性预测(DP.CELP)码激励线性预测(CELP)算法是最近20年来语音编码中最为成功的一项技术。
但是当速率降至4kb/s以下时,为了提高量化效率,必须增加激励矢量的长度,这时还用很少的符号脉冲来描述激励信号就会导致语音质量的急剧下降,这就是传统的CELP算法在4kb/s速率以下质量难以提高的根本原因。
为了解决传统CELP算法在4kb/s速率以下质量难以提高的问题,文献『5]提出了一种散布脉冲CELP(DP.CELP)语音编码算法。
激励矢量由特殊结构的代数码书与固定形式的散布脉冲的卷积获得,在不增加代数码书搜索复杂度的前提下,较好地解决了传统代数码书中符号脉冲不足带来的缺陷,有效地改善了重建语音质量非正式的主观听力测试表明.这种4kb/sDP。
CELP语音编码算法的合成语音质量非常接近G723.1中6.3kb/s语音编码器。
可产生高质量的合成语音在此算法的基础上,开发了一种基于TMS320vC5410定点DSP的实时低速率语音压缩系统,将低比特率语音编码算法应用于实际的语音处理系统。
为了降低运算复杂度,算法程序使用DSP汇编语言实现。
根据C5410定点DSP的指令集特性。
以及算法自身的特点,对整个算法进行了2次整体优化和若干次的局部优化,达到了实时实现的要求。
由此,产生出了性价比极高的语音编解码系统,在数字存储、多媒体通信等领域有着广泛的应用前景。
多重脉冲散布非均匀代数码本激励线性预测(MPD—USACELP)由于CELP算法在4kb/s速率以下质量难以提高,在编码器和解码器中分别引入了不同的脉冲散布技术.从而达到了利用较少比特提供高质量激励的目的。
根据理想代数码本脉冲在子帧中各位置的概率分布规律,提出了新的非均匀结构代数码本,提高了代数码本的效率,并且引入了基音预加重技术优化了自适应码本搜索。
经主观听音和计算机模拟测试,最后形成的3.35kb/s多重脉冲散布非均匀代数码本激励线性预测(MPD.USACELP)语音编码算法的质量达到了北美IS-54标准8kb/s算法的水平。
极低速率编码波形内插(Ⅵ)算法的改进波形内插语音编码在2kb/s4kb/s的速率上表现出良好性能,并产生了高质量合成语音。
但是这种编码算法的计算复杂度非常高。
很难在实际中应用.因此在保持语音质量的前提下。
降低Ⅵ模型的计算复杂度势在必行。
基本的Ⅵ编码算法需要在编、解码端都要进行复杂的特征波形(CW)对齐,以保证提取的CW和合成的CW在相位上一致,这使得实时实现整个算法变得非常困难。
为了减少这种复杂度,提出一种在编码端去除对齐过程,译码端采用三次B样条的插值模型。
通过对慢渐变波形只量化低频分量。
而快渐变波形用正交多项式拟合,实现了变维矢量到定维矢量的转换,进一步降低了算法的复杂度。
DRT测试结果表明,此2kb/s语音编码方法能获得高可懂度的重建语音。
在Ⅵ模型的原理的基础上,针对模型中占主要计算量的2个模块(特征波形的表示和对齐)进行了相应的改进。
原Ⅵ模型中的特征波形使用了离散傅里叶级数表示,CW对齐也是通过频域傅氏级数实现的,CW的表达和对齐都没有使用快速算法。
在改进算法中,先对时域的CW尾部补0,使它的长度为2的整次幂,然后作快速傅里叶变换得到CW的频域表示。
因为时域补0起到了对原频域做插值的作用,并不改变原频谱形状。
所以再利用三次B样条插值技术,就可以得到相应的傅氏级数;
对于CW对齐则先将它的周期延拓为2的整次幂。
再利用圆周相关定理通过FFT计算出对齐所需要的位移。
改进后的算法相对独立没有影响原编码器其它模块,在保持高质量重建语音的前提下使复杂度大幅下降,更易于在单片DSP芯片上实现。
奇异值分解的波形内插(SVD—wI)算法波形内插算法中,针对奇异值分解(Singu-larValueDecomposition,简称SVD)理论用于特征波形的分解时,算法延时长、计算复杂和高比特量化参数的问题,提出了一种新颖的基于奇异值分解的特征波形的分解与量化模型。
基于降低运算复杂度的考虑,利用语音信号的感知特性,根据所含频率成分的不同,将特征波形的幅度谱分成基本矩阵、过渡矩阵和补充矩阵三个矩阵。
并各自采用不同的量化方法;
由于特征波形谐波数是时变的,将三个矩阵分为三种组合模式表示特征波形幅度谱,提高了特征波形的表示精度。
合成端可以根据不同的精度要求重建语音。
这种方法比传统的Ⅵ语音编码器减少了一帧延时,主观测试表明,SVD一Ⅵ编码器的重建语音质量要好于2.4kb/s混合激励线性预测(MELP)编码器。
线谱对(频率)的量化算法线性预测是许多低速率语音编码方案的核心技术。
为降低编码速率,选用高效的线性预测系数编码方法至关重要。
线谱对(1inespectrumpair,简称LSP)即线谱频率(1inespectrumfrequency,简称LSF)是线性预测系数的等价参数。
因此,研究高效率的LSP参数量化方法对低速率语音编码算法的研究具有极其重要的意义。
在极低速率的声码器算法研究中。
为了实现对LSP参数的高质量低速率量化,提出了一种新的量化算法,称作P-RS—MSMQ(Pattern-basedResidualsplitMulti—StageMatrixQuantization)。
此算法在多帧联合矩阵量化的框架下,提出了以下几点新的策略:
(1)基于超级帧模式的均值去除和基于超级帧模式转移的帧间预测;
(2)将预测余量矩阵分裂成子矩阵,并对各子矩阵分别进行多级矩阵量化;
(3)对多帧联合量化引入新的加权策略等。
通过这些措施,有效的提高了量化性能,能够在极低的编码速率下
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 压缩 编码 发展 应用
![提示](https://static.bingdoc.com/images/bang_tan.gif)