多声道编码现状.docx
- 文档编号:18366967
- 上传时间:2023-08-16
- 格式:DOCX
- 页数:14
- 大小:566.71KB
多声道编码现状.docx
《多声道编码现状.docx》由会员分享,可在线阅读,更多相关《多声道编码现状.docx(14页珍藏版)》请在冰点文库上搜索。
多声道编码现状
当前典型的多声道音频编码方案
一.杜比数字AC-3编码压缩算法
杜比数字音频压缩标准(AC-3)是在1992年为35毫米电影研制出来的,它解决了在一条胶片上数字声和模拟声并存的问题。
后来,AC-3技术被广泛的应用于激光唱片,高清晰度电视系统,有线电视系统,数字卫星广播,DVD影碟,DVD-ROM和互联网中。
杜比数字AC-3环绕声系统是于1991年由美国杜比实验室与日本先锋公司联合开发的。
其目的就是为了改善和提高三维声场的重现能力。
传统的立体声系统仅仅能够提供给听者面前的二维声场,而无法描述三维空间感。
通过增加左、右环绕声及中置声道,以多声道音频重放的方式来重现三维立体空问,就是AC-3环绕声系统要实现的。
杜比数字AC-3环绕声是多声道音频系统,它是由六只独立的声音声道和扬声器来组成的。
AC-3扬声器摆放
其中C(中置音箱)、L(左声道)、R(右声道)主要用于重建二维立体声声场,Ls(左后环绕),Rs(右后环绕)则用以与L、C、R共同营造逼真的三维空间立体声声场,而LFE(超低音)声道则用来弥补声场中低频部分的不足,烘托和渲染整个三维立体声空间声场,由于六个独立声道中前五个声道的频响范围都是音频全频带即20Hz~20kHz,而LFE频响范围则是由15Hz~150Hz,仅占整个频谱的十分之一,因此又称为5.l声道环绕声系统。
由于声场的构造与扬声器的摆放位置有关,按照ITU-RBS.775建议,L,C,R,Ls,Rs五只扬声器如图示摆放,用于构造三维声场,而LFE的摆放则没有太多限制,一般放置在侧面即可。
因此可以看到要想得到最好的环绕声三维声场效果,则必须位于图示的可听范围,否则不会感受到良好的效果。
对于数字音频信号来说,AC-3通过应用数字压缩算法,来减少正确再现原始脉冲编码调制(PCM)样本所需要的数字信息量,得出原始信号经数字压缩后的表达式。
编码过程为:
首先在分析滤波器组中完成把音频表达式从一个PCM时间样本的序列变换为一个频率系数样本块的序列。
每个样本块包含256个频率系数。
这些单独的频率系数用二进制指数记数法表示为一个二进制指数和一个尾数。
这个指数的集合被编码为信号频谱的粗略表达式,称作频谱包络。
核心的比特指派例行程序用这个频谱包络来确定每个单独尾数需要用多少比特进行编码。
将频谱包络和6个音频样本块粗略量化的尾数格式化成一个AC-3数据帧(FRAME)。
AC-3数码流是一个AC-3数据帧的序列。
Ac-3编码原理图
在实际的AC-3编码器中,还包括下述功能:
●附有一个数据帧的信头(header),其中包含与编码的数码流同步及把它解码的信息(比特率、取样率、编码的信道数目等)。
●插入误码检测码字,以便解码器能检验接收的数据帧是否存在误码。
●可以动态的改变分析滤波器组的频谱分辨率,以便同每个音频样本块的时域/频域特性更好的匹配。
●频谱包络可以用可变的时间/频率分辨率进行编码。
●可以实行更复杂的比特指派,并修改核心比特分派例行程序的一些参数,以便产生更加优化的比特指派。
●在高频一些声道可以耦合在一起,以便工作在较低比特率时,仍可得到更高的编码增益。
●在两声道模式中,可以有选择的实施重新设置矩阵的过程,以便提供附加的编码增益,以及当对两信道的信号解码时使用一个矩阵环绕声解码器,同时获得改进的结果。
解码过程基本上是编码的逆过程。
解码器必须同编码数码流同步,检查误码,以及将不同类型的数据(例如编码的频谱包络和量化的尾数)进行解格式化。
运行比特指派例行程序,将其结果用于解数据大包(unpack)和尾数的解量化。
将频谱包络进行解码而产生各个指数。
各个指数和尾数被变换回到时域成为解码的PCM时间样本。
AC-3解码过程框图
在实际的AC-3解码器中,还包括下述功能:
●假若检测出一个数据误码,可以使用误码掩盖或静噪。
●高频内容耦合在一起的那些声道必须去除耦合。
●已被重新设置矩阵处理的声道,必须进行去除矩阵化的处理(在2-声道模式中)。
●必须动态的改变综合滤波器组的分辨率,与编码器分析滤波器组在编码过程中所用的方法相同。
杜比数字AC-3编码数据格式
经过杜比数字AC-3编码器的编码处理,可以将原始的数据PCM信号编码为杜比数字
AC-3音频数据流。
一个AC-3串行编码的音频数据流是由一个同步帧的序列所组成。
AC-3同步帧结构
由上图可见,每个同步帧包含六个编码的音频样本块(AB)其中每个代表256个新的音频样本。
在每个同步帧开始的同步信息(SI)的信头中,包含为了获得同步和维持同步所需要的信息。
接着SI后面的是数码流信息(BSI)的信头,它包含描述编码数据流业务的各种参数。
编码的音频样本块之后接着是一个辅助数据(AUX)字段。
在每个同步帧结尾处是误码检验字段,其中包含一个用于误码检测的CRC字。
一个附加的CRC字位于SI信头中,以供选用。
AB0~AB5的每一块代表一个编码声道,可以分别独立解码,块的大小可以调整,但总数据量不变。
在图中还有两个未标出的CRC,其中第一个位于帧的5/8处,另一个位于帧未。
之所以如此安排,目的就是可以减少解码器的RAM需求量,使得解码器不必完全接收一帧后才解码音频数据,而是分成了两部分进行解码。
杜比数字AC-3的兼容性
由于AC-3比特流中同步结构中的AB0~AB5是独立解码的,因此可以将这些编码信号重新构造为所需的输出信号,即输出的下行兼容性。
AC-3输出的下行兼容性
在许多重放系统中,扬声器的数目不能同编码的音频声道的数目匹配。
为了重现完整的音频节目,需要向下混合。
在帧同步中,AB0~AB5中记录着六个独立声道的音频数据,按照AC-3重放时的安排,我们称之为L、R、C、Ls、Rs、LFE。
一般用于向下混合的过程中,低音增强LFE声道记录的音频信号主要用于渲染烘托气氛,所以向下混合时,只用其中的L、RC、Ls、Rs。
。
从图中可以看到编码后的AC-3数据流可以直接传输后经解码器解码为5.1声道音频信息进行重放,也可以向下混合为两个声道信号,然后经不同的解码器得到不同的重放模式。
就单一环绕声道(n/l模式)而言,把S称为单个环绕声道。
从图中可看出,向下混合提供两种类型:
向下混合为Lt、Rt矩阵环绕编码的立体声对;向下混合为通常的立体声信号L0、R0。
向下混合的立体声信号(L0、R0或Lt、Rt)可进一步向下混合为单声道M,通过两个声道的简单相加即可。
如果将Lt、Rt向下混合为单声道,环绕信息将会丢失。
当希望需要一个单声道信号时,则将Lo、Ro向下混合即可。
用于Lo、Ro立体声信号的一般3/2向下混合方程式为:
Lo=1.0×L+clev×C+slev×Ls;
Ro=1.0×R+clev×C+slev×Rs;
如果接着L,R。
被组合成单声道信号重放,有效的向下混合方程式为:
M=1.0×L+2.0×clev×C+1.0×R+slev×Ls+slev×Rs;
如果只出现单个环绕声道S(3/l模式),则向下混合方程式为:
Lo=1.0×L+clev×C+0.7×slev×S;
Ro=1.0×R+clev×C+0.7×slev×S;
M=1.0×L+2.0×clev×C+1.0×R×1.4×slev×S;
其中clev、SIev分别代表中央声道混合声级系数和环绕声道混合声级系数,在BSI数据中由Cmixlev、Surmixlev比特字段来指出相对应的值。
用于Lt、Rt立体声信号的一般3/2向下混合方程式为:
Lt=1.0×L+0.707×C-0.707×Ls-0.707×Rs;
Rt=1.0×R+0.707×C-0.707×Ls-0.707×Rs;
如果只出现单个环绕声道S(3/1模式),则向下混合方程式为:
Lt=1.0×L+0.707×C-0.707×S;
Rt=1.0×R+0.707×C+0.707×S;
经过对独立声道的音频信号进行不同的分配及矩阵重组,则实现了AC-3数据流的向下兼容性,意即通过不同的解码器、解码矩阵方式,可以得到杜比数字5.1声道环绕声、立体声、杜比逻辑定向、单声道以及杜比的虚拟环绕声方式。
其中Lo、Ro与Lt、Rt的最大区别就是Lt、Rt是记录的全部的L、R及环绕声的信息,经过矩阵重解可得到环绕产信息,而Lo、Ro则是将环绕声信息增加至立体声信号中,无法再现环绕声信号信息。
二.DTS多声道编码
DTS(DigitalTheatreSystem数字化影院系统)是美国另外一家非常有实力的数字音频格式制定公司,总公司位于洛杉矶,公司主要分为两大部分:
一部分是以电影音乐的录音现场及电影院的编、解码为主的专业用“数字影院系统”,另一部分是以家庭用解码器的开发及DVD/LD/CD等套装软件为主的消费电子用“DTS技术”两大部份。
DTS公司推出过很多多声道技术,其中DTSDigitalSurround是最有影响力的一种,属于5.1声道系统,人们通常说的DTS技术,或者DTS环绕,一般就是指DTSDigitalSurround。
DTS采用CAC(CoherentAcousticsCoding,相干声学编码)方式工作,和DolbyDigital一样也属于利用心理声学原理来对声轨进行编码的有损的数字压缩技术。
DTS系统中采用相干声学编码,主要目的就是用于提高音频重放设备重放的音频质量,其音频重放质量可以超越原有的如CD唱片的质量。
相干声学编码器是一种感知、优化、差分子带音频编码器,它使用了多种技术对音频数据进行压缩。
编码过程:
编码过程中的第一步是通过一个多相滤波器组将每个声道的全频带24比特线性PCM源信号进行分割到一定数目的子带中去。
这种滤波方式提供了一种框架,既可以消除频谱滚降较快的音频信号分量,同时又去除了感知上的冗余度。
多相滤波器只要通过低复杂度的计算就可以实现更好的线性、更高的理论编码增益和更理想的阻带衰减。
每一个子带信号都包含了相应的、严格限制带宽的线性PCM音频数据。
子带的个数及相应的带宽是由输入源的带宽来决定的,一般情况下分为32个独立的子带。
相干声学编码器流程图
在每个子带中进行差分编码(子带ADPCM),这一步可以去除信号中的客观冗余量,如周期很短的信号。
通过对信号的对比分析、心理声学及信号瞬态的分析可以判断信号中的感知冗余信息。
通过子带范围比特率的选择和上述分析的结果,来调整对每个信号的差分编码程序的执行。
差分编码与心理声学模型(如噪声掩蔽门限)的结合可以得到较高的编码效率,甚至可以在不影响主观听觉的基础上进一步降低比特率。
如果使用较高的比特率,那么对于心理声学模型的依赖性则相对较弱但可以肯定随着比特率的增加编码信号的保真度也会提高。
比特指派程序管理着所有音频声道中子带信息的编码指派和分配。
在时间和频率上的自适应可以优化音频质量。
作为音频编码系统设计的基础,比特指派程序通过对音频信号比特的分配和使用的比特率来决定音频质量。
通过在编码策略中独立的执行这些程序使得运算的复杂程度大大提高,但是这样做却可以使得解码器相对的简单。
相反,随着比特率的增加,比特指派程序的灵活性也将大大降低,但是可以确保音频质量的透明性。
编码过程中最后一步就是将来自每个子带ADPCM处理后的音频数据进行数据复用(或称打包)。
数据复用器将所有声道中子带数据加上附加的辅助信息进行打包,形成特殊数据语法格式的编码数据流。
在数据流中加入的同步信息将用于解码器对编码数据流的同步。
三.MPEG多声道编码
1、MPEG-2BC
ITU-R工作组在关于多声道声音系统的建议方面进行了工作。
该项工作的主要成果就是说明一个适当的多声道声音配置应包含五个声道,分别代表左、中央、右、左环绕、右环绕声道。
如果使用了一个作为选项的低频增强声道(LFE),则该配置被称为“5.1”。
五声道配置也可表示为‘3/2’,即三个前置声道及两个环绕(后置)声道。
MPEG也认识到应根据ITU-R的建议来增加音频标准的多声道能力的必要性,由此产生了MPEG-2BC音频标准。
在多声道声音方面的扩展支持在一路码流中传输五个输入声道、低频增强声道以及7个边声道。
该扩展与MPEG-1保持前向及后向兼容。
前向兼容性意味着多声道解码器可正确地对立体声码流进行解码。
后向兼容性则意味着一个标准的立体声解码器在对多声道码流进行解码时可输出兼容的立体声信号。
它是通过一种真正的可分级方式实现的。
在编码器端,五个输入声道被向下混合为一路兼容立体声信号。
该兼容立体声信号按照MPEG-1标准进行编码。
所有用于在解码器端恢复原来的五个声道的信息都被置于MPEG-1的附加数据区内,该数据区被MPEG-1解码器忽略。
这些附加的信息在信息声道T2、T3及T4以及LFE声道中传输,这几个信息声道通常包含中央、左环绕和右环绕声道。
MPEG-2多声道解码器不但对码流中的MPEG-1部分进行解码,还对附加信息声道T2、T3、T4及LFE解码。
根据这些信息,它可以恢复原来的5.1声道声音。
当相同码流馈送至MPEG-1解码器时,解码器将只对码流的MPEG-1部分进行解码,而忽略所有附加的多声道信息。
由此它将输出在MPEG-2编码器中经向下混合产生的两个声道。
这种方式实现了与现有的双声道解码器的兼容性。
也许更为重要的是,这种可分级的方式使得即使在多声道业务中仍可使用低成本的双声道解码器。
考虑到所使用的其它所有编码策略,多声道业务中的双声道解码器本质上就是一个对所有声道进行解码并在解码器中产生双声道向下混合信号的多声道解码器。
如图所示。
就其包含了不同的可由编码器使用以进一步提高音频质量的技术而言,该标准是具有很大灵活性的。
2、MPEG-2AAC
AAC可以支持1到48路之间任意数目的音频声道组合、包括15路低频效果声道、配音/多语声声道,以及15路数据。
它可同时传送16套节目,每套节目的音频及数据结构可任意规定。
在码率为64kbps/声道的条件下,AAC可以提供很高的声音质量。
为提高音频编码效率,AAC采用了许多先进技术,如霍夫曼编码、相关立体声、声道耦合、反向自适应预测、时域噪声整形、修正离散余弦变换(MDCT)、及混合滤波器组等。
其中,滤波器组与MPEG层III所采用的滤波器组相比,由于层III算法在对滤波器进行选择时考虑了兼容性问题,因而具有固有的结构上的不足;而AAC则直接采用了MDCT变换滤波。
同时,AAC增加了窗口长度,由1152点增至2048,使MDCT的性能优于原来的滤波器组。
时域噪声整形(TNS)技术是时域/频域编码中一项新颖的技术。
它利用频域的自适应预测的结果来对时域中量化噪声的分布进行整形处理。
通过采用TNS技术,可以使特殊环境下的话音信号质量得到显著的提高。
后向自适应预测是一项在语音信号编码系统领域建立起来的技术。
它主要利用了某一特定形式的音频信号易于预测的特点。
在量化过程中,通过对量化精度更为精细的控制,可以使给定的码率得到更加有效的利用。
在码流复接时,通过对必须传输的信息进行熵编码使冗余度降至最低。
通过以上各种编码技术的运用以及采用一种可变的码流结构,使AAC编码算法在得到大大优化的同时,也为将来进一步提高编码效率提供了可能性。
AC可以在低数据率的情况下提供较高质量的音频信息,如每个声道仅64kb/s时就会有比较好的性能。
AAC当前的应用主要用于日本的数字音频广播及美国的IBOC(带内同频技术)。
3、MPEGSurround
MPEGSurround把多声道音频信号下混为正常的双声道数字音频信号并提取表达声像信息的参数,这些参数在解码端与双声道信号一起使用,以恢复出高质量的多声道信号。
以下是它的整体框架图:
图1MPEGSurround整体框图
环绕MPEG编码过程可通过三个步骤来描述:
对每一个音频通道分解其环绕信息的参量描述(提取环绕信息);把各个通道混合成为单声道或者立体声的音频(下混);混合后的音频通过核心音频编解码器进行编码并嵌入之前分解得到的环绕参量。
如下是示意图。
在解码端,混合后的音频通过核心编解码器解码,并根据内嵌的环绕信息参量重建完整的多通道信号。
环绕MPEG数据是嵌入在比特流的额外数据部分,因此只会被环绕MPEG解码系统所辨认。
对应于内嵌在环绕MPEG编码系统内部的核心编码器,其传统版本的立体声解码器会简单地忽略掉环绕MPEG数据去解码混合后的音频信号。
下图分别为仅支持立体声的解码端和支持环绕MPEG的解码端的示意图:
与BCC直接下混到一个声道的方式不同,MPEGSurround实现的是逐级下混的方法,采用2至1(OnetoTwo,OTT)和3至2(TwotoThree,TTT)两种基本下混模块(图2),最终下混到一个或两个声道。
(a)分析(b)合成
图25.1声道树状结构图
这种树状分析和提取的下混结构使得MPEGSurround具有较强的声道可扩展性,可以方便地进行5.1、7.1甚至更多声道的编码,并且其双下混声道还可与当前立体声回放设备自然融和。
此外,MPEGSurround在低码率下对合成的空间参数采用参数平滑的后处理技术,避免了低码率下重建声中声源位置的跳跃。
为适应多声道应用,MPEGSurround采用了基于混响滤波器的去相关技术首先下混声道经混响滤波器生成统计独立的信号,然后对它们进行加权求和求出各个输出声道,使它们有给定的相关度值。
该方法在数学上模拟了物理上的混响效应,使合成信号在声象的稳定性、分布范围的准确度和饱满度方面等方面较BCC有了很大的提高。
此外混响去相关技术与时频域的包络整形技术结合,降低了合成失真,进一步改善了音质
四.OggVorbis多声道音频编码算法
1、OggVorbis编码特点
OggVorbis是近年来由美国公司Xiph.OrgFoundatinn开发的通用感觉音频编码器,其特点是:
源码完全开放、无专利限制,具有较大编码灵活性。
在高质量(高比特率)级别CD或DAT立体声,16/24bit量化时,与现在的MPEG-2和MPEG-4等音频算法相当;OggVorbis编码器在没有重新采样到低采样率时,可将CD高质量立体声信号压缩到低于48KPs比特率。
输出码率可设置为(平均比特率)ABR或(可变比特率)VBR,范围为16-128Kbps/ch,输入音频信号支持:
采样率8-192kHz;量化分辨率16-24bit量化;声道数:
单声道、立体声、4声道、5.1声道,最高可支持255独立声道。
OggVorbis,设计成一个具有心理声学模型的复杂编码器,但解码运算复杂度低于MP3。
没有提供帧格式、同步及错误保护等,仅仅是接收输入的音频数据块,并压缩成数据包方式。
解码器按顺序接收元数据包,解码并把音频帧合成,然后把音频帧合成原始音频流。
因此Vorbis数据包可用于任何能够提供帧格式、同步、定位及错误保护的一个传输机制,如Ogg(文件传输)或RTP(网络传输)。
2、OggVorbis编码原理
Vothis编码过程的基本过程如下图所示,首先对音频PCM信号进行稳态/瞬态分析,决定MDCT(ModifiedDiscreteCosineTransform,改进的离散余弦变换)的长度:
同时原始音频信号要进行FFT分析。
2种变换的的频谱系数输入给心理声学模型单元,MDCT系数用于噪声掩蔽计算,FFT结果用于音调掩蔽特性计算,共同构造总的掩蔽曲线,然后根据MDCT系数及掩蔽曲线,对频谱系数进行线性预测分析,用LPC线性预测系数表示频谱包络即基底曲线(filoor);或者通过线性分段逼近方式获得基底曲线。
从MDCT系数中去掉频谱包络则得到白化的残差(residue)频谱,由于残差频谱动态范围明显变小,从而降低量化误差。
之后要采用声道耦合技术(stereochannelcoupling)122]进一步降低冗余度,耦合主要是将左右声道数据从直角坐标映射到平方极坐标;然后对白化的残差信号以矢量量化VQ的形式表示。
最后将要传输的各种信息数据按vothis定义的包格式组成,形成vorbis压缩码流。
OggVorbis编码原理框图
解码过程与编码过程正好相反,但没有模型分析、基底曲线计算和信号特性分析等模因此解码复杂度大大下降,有利于硬件实时实现。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多声道 编码 现状