常用音頻協(xié)議介紹
收藏
會議電視常用音頻協(xié)議介紹及對比白皮書 一、數(shù)字化音頻原理:聲音其實是一種能量波,,因此也有頻率和振幅的特征,,頻率對應(yīng)于
時間軸線,振幅對應(yīng)于電平軸線,。通常人耳可以聽到的頻率在20Hz到20KHz的聲波稱為為可聽聲,,低于20Hz的成為次聲,高于20KHz的為超聲,,多
媒體技術(shù)中只研究可聽聲部分,。 可聽聲中,話音信號的頻段在80Hz到3400Hz之間,,音樂信號的頻段在20Hz-20kHz之間,,語音(話音)和音樂是多媒體技術(shù)重點處理的對象。 由于模擬聲音在時間上是連續(xù)的,,麥克風(fēng)采集的聲音信號還需要經(jīng)過數(shù)字化處理后才能由計算機(jī)處理,。通常我們采用PCM編碼(脈沖代碼調(diào)制編碼),即通過采樣,、量化,、編碼三個步驟將連續(xù)變化的模擬信號轉(zhuǎn)換為數(shù)字編碼。 1,、采樣 采樣,,就是每隔一段時間間隔讀一次聲音的幅度。單位時間內(nèi)采樣的次數(shù)稱為采樣頻率,。顯然采樣頻率越高,,所得到的離散幅值的數(shù)據(jù)點就越逼近于連續(xù)的模擬音頻信號曲線,同時采樣的數(shù)據(jù)量也越大,。 為了保證數(shù)字化的音頻能夠準(zhǔn)確(可逆)地還原成模擬音頻進(jìn)行輸出,,采樣定理要求:采樣頻率必須大于等于模擬信號頻譜中的最高頻率的2倍。 常用的音頻采樣率有:8kHz,、11.025kHz,、22.05kHz、16kHz,、37.8kHz,、44.1kHz、48kHz,。 例如:話音信號頻率在0.3~3.4kHz范圍內(nèi),,用8kHz的抽樣頻率(fs),就可獲得能取代原來連續(xù)話音信號的抽樣信號,而一般CD采集采樣頻率為44.1kHz,。
2,、量化 量化,就是把采樣得到的聲音信號幅度轉(zhuǎn)換成數(shù)字值,,用于表示信號強(qiáng)度,。 量化精度:用多少個二進(jìn)位來表示每一個采樣值,也稱為量化位數(shù),。聲音信號的量化位數(shù)一般是 4,6,8,12或16 bits ,。
由采樣頻率和量化精度可以知道,,相對自然界的信號,,音頻編碼最多只能做到無限接近,在計算機(jī)應(yīng)用中,,能夠達(dá)到最高保真水平的就是PCM編碼,,通常PCM約定俗成了無損編碼。
3,、編碼 一
個采樣率為44.1kHz,,量化精度為16bit,雙聲道的PCM編碼輸出,,它的數(shù)據(jù)速率則為 44.1K×16×2 =1411.2
Kbps,,存儲一秒鐘需要176.4KB的空間,1分鐘則約為10.34M,,因此,,為了降低傳輸或存儲的費(fèi)用,就必須對數(shù)字音頻信號進(jìn)行編碼壓縮,。
到目前為止,,音頻信號經(jīng)壓縮后的數(shù)碼率降低到32至256kbit/s,語音可以低至8kbit/s以下,。 對數(shù)字音頻信息的編碼進(jìn)行壓縮的目的是在不影響人們使用的情況下使數(shù)字音頻信息的數(shù)據(jù)量最少,。通常用如下6個屬性來衡量: —比特率; —信號的帶寬,。 —主觀/客觀的語音質(zhì)量,; —延遲;
—計算復(fù)雜度和對存儲器的要求,;
—對于通道誤碼的靈敏度,;
為使編碼后的音頻信息可以被廣泛地使用,在進(jìn)行音頻信息編碼時需要采用標(biāo)準(zhǔn)的算法,。傳統(tǒng)會議電視設(shè)備主要采用ITU-T推薦的G.711,、G.722、G.728和AAC_LD等音頻標(biāo)準(zhǔn)。 二,、常用音頻協(xié)議簡介:1,、 ITU-T G.728
1992年ITU-T發(fā)布的電話聲音信號編碼方式推薦標(biāo)準(zhǔn)。采用LD-CELP編碼方式,,采樣率為8KHz,,以16kb/秒的速度傳送聲音信號,傳送延遲時間極短,,僅有0.625 ms 的算法編碼延遲,。 2、 ITU-T G.711 標(biāo)
準(zhǔn)公布于1972年,,其語音信號編碼是非均勻量化PCM,。語音的采樣率為8KHz,每個樣值采用8bit量化,,輸出的數(shù)據(jù)率為64kbps,。這種窄帶編碼
支持對300到 3,400赫茲的音頻進(jìn)行壓縮。但雖然壓縮質(zhì)量不錯,,但是消耗的帶寬相對較大,,主要用于數(shù)字PBX/ISDN上的數(shù)字式電話。 3,、 ITU-T G.722 ITU-T
G.722標(biāo)準(zhǔn)是第一個用于 16 KHZ 采樣率的標(biāo)準(zhǔn)化寬帶語音編碼算法,,1984年被CCITT定義為標(biāo)準(zhǔn),而且現(xiàn)今還在使用,。.G.722
編解碼器在 16 kHz 頻率上接收 16 位數(shù)據(jù)(帶寬從 50 Hz 至 7 kHz),,并將其壓縮為 64、56 與 48
Kbit/s,,其總延遲約 3 ms,,能夠提供更好的通話質(zhì)量。 G.722的優(yōu)點是延時和傳輸位誤差率非常低,,且沒有任何的專利技術(shù),費(fèi)用低廉,。因此G.722在無線通信系統(tǒng),VoIP生產(chǎn)商,,個人通信服務(wù),,視頻會議應(yīng)用等廣泛應(yīng)用。 4,、 G.722.1 G.722.1
基于 Polycom 的第三代 Siren 7 壓縮技術(shù),,1999年被ITU-T批準(zhǔn)為G.722.1標(biāo)準(zhǔn)。G.722.1采用16 KHZ
采樣頻率,,16 位數(shù)據(jù)量化,,支持從 50 Hz 至 7 kHz頻率范圍的音頻采樣,,并將其壓縮為 32 與 24 Kbit/s。它采用20
ms封幀,,提供40ms的算法延遲,。 G722.1可實現(xiàn)比 G.722 編解碼器更低的比特率以及更大的壓縮。目標(biāo)是以大約一半的比特率實現(xiàn)與 G.722 大致相當(dāng)?shù)馁|(zhì)量,。這種編碼使用許可需要獲得Polycom公司的授權(quán),。 5、 G722.1 Annex C G722.1 Annex C基于 Polycom 的Siren 14 壓縮技術(shù), 采用32kHz采樣頻率,,支持從 50 Hz 至 14 kHz頻率范圍的音頻采樣,,并將其壓縮為 24、32或48 kbps,。采用20ms封幀,,提供40毫秒演算延遲。 2005年中,,國際電信聯(lián)盟(ITU)批準(zhǔn)Polycom Siren 14™ 技術(shù)為14 kHz超寬帶音頻編碼新標(biāo)準(zhǔn),。同時進(jìn)入作為ITU-T建議的G.722.1 Annex C。 G722.1 Annex C具有低運(yùn)算能力,,低帶寬的優(yōu)點。適于處理語音,、音樂與自然界聲音,。 6、 AAC-LD AAC(Advanced
Audio
Coding,,高級音頻編碼)是由Fraunhofer研究院(MP3格式的創(chuàng)造者),、杜比(DOLBY)試驗室和AT&T(美國電話電報公司)
共同研發(fā)出的一種音頻壓縮格式,是MPEG-2規(guī)范的一部分,,并在1997年3月成為國際標(biāo)準(zhǔn),。隨著MPEG-4標(biāo)準(zhǔn)在2000年成型后,MPEG2
AAC也被作為核心編碼技術(shù),,并增加了一些新的編碼特性,,又叫MPEG-4 AAC。 MPEG-4 AAC家族目前共有九種編碼規(guī)格,,AAC-LD(Low Delay,,低延遲規(guī)格)是用在低碼率下編碼。它支持8K~48K采樣率的,,可以64Kbps的碼率輸出接近 CD 音質(zhì)的音頻,,并支持多聲音通道,AAC-LD 算法延遲僅為 20ms,。 AAC因為其模塊化設(shè)計,,功能更為強(qiáng)大,。本身的框架結(jié)構(gòu)能夠被不斷的新的東西填充,這就使得不同發(fā)展方面的內(nèi)核相互融合,,彼此吸收精華成為可能,。
7、 各種音頻協(xié)議的主要參數(shù)對比:
采樣頻率 支持音頻帶寬 輸出碼率 最低算法延遲
G711 8KHz 300 Hz ~ 3,400 Hz 64 Kbps <1ms
G722 16kHz 50 Hz ~ 7 kHz 64 Kbps 3ms
G722.1 16kHz 50 Hz ~7 kHz 24,、32 Kbps 40ms
G722.1 C 32kHz 50 Hz~14 kHz 24,、32、48Kbps 40ms
AAC-LD 48kHz 20 Hz-20kHz 48~64 Kbps 20ms
三,、AAC_LD與G722. Annex C優(yōu)缺點對比:
G722.1 C AAC_LD
采樣音頻頻率范圍支持50 Hz~14 kHz,,接近CD音質(zhì),但丟失了高頻部分,。 支持20 Hz-20kHz全頻段的采樣,,音頻更加接近CD音質(zhì)。
輸出碼率24,、32,、48Kbps,帶寬低于AAC-LD,,但是以犧牲高頻為代價的,。 48~64 Kbps,并支持大于64Kbps的輸出,為更好的音頻質(zhì)量提供了可能,。
算法復(fù)雜性算法復(fù)雜度低,,CPU占用率略好于AAC-LD 模塊化設(shè)計,功能更為強(qiáng)大,有TI等專用芯片支持
最低延遲采用20ms封幀,,40ms算法延遲 20ms算法延遲,,好于G722.1 C
多聲道可以支持雙聲道 AAC支持多達(dá)48個音軌、15個低頻音軌
標(biāo)準(zhǔn)通用性G722.1-C 由Polycom制定開發(fā),,使用需要Polycom授權(quán),,目前只有Polycom和極少數(shù)會議電視廠商使用。 作為MPEG4核心標(biāo)準(zhǔn),,受到Apple,、諾基亞、松下等支持,,并被泰德等眾多會議電視廠商所采用,,應(yīng)用前景更廣闊。
由
Fraunhofer研究院的調(diào)查對比圖可以知道,,在相同的采樣頻率下,,AAC-LD可以提供比G722.1
C、MP3等更好的音質(zhì),。AAC-LD實現(xiàn)了超寬頻音頻編碼中最短的延時,,并保證接近CD的音質(zhì),,達(dá)到音質(zhì)、比特率和延時三者的最佳組合,,是會議電視領(lǐng)域
的最優(yōu)選擇,。 此文章來自:中國視訊論壇 http://www./,原文地址:http://www./viewthread.php?tid=3913
|