詳解音頻編解碼的原理、演進(jìn)和應(yīng)用選型等

螞蟻家園 2019-01-19

展開(kāi)全文

1,、引言

大家好,，我是劉華平，從畢業(yè)到現(xiàn)在我一直在從事音視頻領(lǐng)域相關(guān)工作,，也有一些自己的創(chuàng)業(yè)項(xiàng)目,，曾為早期Google Android SDK多媒體架構(gòu)的構(gòu)建作出貢獻(xiàn)。

就音頻而言,，無(wú)論是算法多樣性,，Codec種類(lèi)還是音頻編解碼復(fù)雜程度都遠(yuǎn)遠(yuǎn)比視頻要高。視頻的Codec目前還主要是以宏塊為處理單元,，預(yù)測(cè)加變換的混合編碼框架,，例如H.264和H.265都是在這一框架下。而音頻則相當(dāng)復(fù)雜,，且不同的場(chǎng)景必須要選擇不同的音頻編解碼器,。以下就是本次為大家分享的主要內(nèi)容，希望通過(guò)此次分享可以使大家對(duì)音頻編解碼有一個(gè)整體的認(rèn)識(shí),，并在實(shí)際應(yīng)用中有參考的依據(jù),。

本次分享的內(nèi)容提綱：

1）語(yǔ)音／音頻編碼總表；
2）數(shù)字語(yǔ)音基本要素,；
3）為什么要壓縮,；
4）編碼器考慮的因素；
5）語(yǔ)音經(jīng)典編碼模型；
6）ISO,；
7）編碼模型,；
8）USAC；
9）編碼,；
10）使用選型考慮的因素,。

* 本次演講PPT文稿，請(qǐng)從文末附件下載,！

（本文同步發(fā)布于：http://www./thread-2230-1-1.html）

2、分享者

詳解音頻編解碼的原理,、演進(jìn)和應(yīng)用選型等

劉華平：

- 現(xiàn)為網(wǎng)易云音樂(lè)音視頻實(shí)驗(yàn)室負(fù)責(zé)人,，上海大學(xué)通信學(xué)院在職博士；

- 曾任掌門(mén)集團(tuán)（WIFI萬(wàn)能鑰匙）音視頻技術(shù)研發(fā)總監(jiān),，資深研究員,；

- 行者悟空聲學(xué)技術(shù)有限公司首席技術(shù)官(聯(lián)合創(chuàng)始人)；

- 阿里巴巴前高級(jí)技術(shù)專(zhuān)家(P8),，阿里音樂(lè)音視頻部門(mén)總監(jiān),；

- Visualon音頻部門(mén)經(jīng)理、盛大創(chuàng)新院研究員,、Freescale 上海研發(fā)中心多媒體部門(mén),；

- 早期 Google Android SDK多媒體架構(gòu)的貢獻(xiàn)者，開(kāi)源 AMR_WB 編碼器工程開(kāi)發(fā)者,。

劉華平擁有5項(xiàng)技術(shù)發(fā)明專(zhuān)利,、二十余篇專(zhuān)業(yè)論文和多項(xiàng)軟件著作權(quán)，參與過(guò)浙江省杭州重大專(zhuān)項(xiàng)項(xiàng)目,，浙江省金華科委項(xiàng)目,，上海市科委項(xiàng)目(球諧域全景音頻關(guān)鍵技術(shù)研究)。

3,、系列文章

本文是系列文章中的第18篇,，本系列文章的大綱如下：

《即時(shí)通訊音視頻開(kāi)發(fā)（一）：視頻編解碼之理論概述》
《即時(shí)通訊音視頻開(kāi)發(fā)（二）：視頻編解碼之?dāng)?shù)字視頻介紹》
《即時(shí)通訊音視頻開(kāi)發(fā)（三）：視頻編解碼之編碼基礎(chǔ)》
《即時(shí)通訊音視頻開(kāi)發(fā)（四）：視頻編解碼之預(yù)測(cè)技術(shù)介紹》
《即時(shí)通訊音視頻開(kāi)發(fā)（五）：認(rèn)識(shí)主流視頻編碼技術(shù)H.264》
《即時(shí)通訊音視頻開(kāi)發(fā)（六）：如何開(kāi)始音頻編解碼技術(shù)的學(xué)習(xí)》
《即時(shí)通訊音視頻開(kāi)發(fā)（七）：音頻基礎(chǔ)及編碼原理入門(mén)》
《即時(shí)通訊音視頻開(kāi)發(fā)（八）：常見(jiàn)的實(shí)時(shí)語(yǔ)音通訊編碼標(biāo)準(zhǔn)》
《即時(shí)通訊音視頻開(kāi)發(fā)（九）：實(shí)時(shí)語(yǔ)音通訊的回音及回音消除概述》
《即時(shí)通訊音視頻開(kāi)發(fā)（十）：實(shí)時(shí)語(yǔ)音通訊的回音消除技術(shù)詳解》
《即時(shí)通訊音視頻開(kāi)發(fā)（十一）：實(shí)時(shí)語(yǔ)音通訊丟包補(bǔ)償技術(shù)詳解》
《即時(shí)通訊音視頻開(kāi)發(fā)（十二）：多人實(shí)時(shí)音視頻聊天架構(gòu)探討》
《即時(shí)通訊音視頻開(kāi)發(fā)（十三）：實(shí)時(shí)視頻編碼H.264的特點(diǎn)與優(yōu)勢(shì)》
《即時(shí)通訊音視頻開(kāi)發(fā)（十四）：實(shí)時(shí)音視頻數(shù)據(jù)傳輸協(xié)議介紹》
《即時(shí)通訊音視頻開(kāi)發(fā)（十五）：聊聊P2P與實(shí)時(shí)音視頻的應(yīng)用情況》
《即時(shí)通訊音視頻開(kāi)發(fā)（十六）：移動(dòng)端實(shí)時(shí)音視頻開(kāi)發(fā)的幾個(gè)建議》
《即時(shí)通訊音視頻開(kāi)發(fā)（十七）：視頻編碼H.264、V8的前世今生》
《即時(shí)通訊音視頻開(kāi)發(fā)（十八）：詳解音頻編解碼的原理,、演進(jìn)和應(yīng)用選型》（本文）

4,、語(yǔ)言/音頻編碼總表

詳解音頻編解碼的原理、演進(jìn)和應(yīng)用選型等

▲ 語(yǔ)言/音頻編碼總表

上圖展示的是語(yǔ)言/音頻編碼總表,，可以看到其比視頻編碼要復(fù)雜得多,，單純的算法也遠(yuǎn)遠(yuǎn)比視頻要更加復(fù)雜。

5,、數(shù)字語(yǔ)言基本要素

數(shù)字聲音具有三個(gè)要素：

1）采樣率,；
2）通道數(shù)；
3）量化位數(shù)。

詳解音頻編解碼的原理,、演進(jìn)和應(yīng)用選型等

▲ 聲音數(shù)字化的過(guò)程

如上圖所示,，聲音數(shù)字化的過(guò)程為：

1）采樣：在時(shí)間軸上對(duì)信號(hào)數(shù)字化；
2）量化：在幅度軸上對(duì)信號(hào)數(shù)字化,；
3）編碼：按一定格式記錄采樣和量化后的數(shù)字?jǐn)?shù)據(jù),。

6、為什么要壓縮

壓縮音頻,，主要是為了在降低帶寬負(fù)擔(dān)的同時(shí)為視頻騰出更多帶寬空間,。存儲(chǔ)和帶寬二大因素決定了語(yǔ)音壓縮的必要性。

我們看看下面的例子,。

長(zhǎng)度為4分鐘,，采樣頻率為44100Hz,采樣深度為16bits,雙聲音Wav文件大小：

44100Hz*16bits*4minutes*2=(44100/1second)*16bits*(4minutes*(60seconds/1minutes)*2=705600bits/second*240seconds=169344000bits=169344000/(8bits/1byte)*2=42336000bytes=42336000/(1048576/1M)bytes=40.37MB

MP3,，128kbps壓縮后文件大?。?/strong>

128kbps*4minutes=(128kbits/1second)*(4minutes*(60seconds/1minutes))=(128kbits/1second)*240seconds=30720kbits=30720kbits/(8bits/1byte)=3840kbytes=3840k/(1024k/1M)bytes=3.75Mbytes=3.75MB

正如上面的例子，聲音壓縮后,，存儲(chǔ)大小為原大小的十分之一,，壓縮率十分可觀！

7,、編碼器考慮因素

7.1 基本概念

編碼器考慮的因素：

1）最佳壓縮比,；
2）算法的復(fù)雜度；
3）算法延時(shí),；
4）針對(duì)特殊場(chǎng)景下的特定設(shè)計(jì),；
5）兼容性。

通過(guò)一些特定的壓縮算法,，可以壓縮音頻文件至原來(lái)的1/10,，同時(shí)人耳也無(wú)法分辨壓縮前后的聲音質(zhì)量差異，需要滿(mǎn)足多種條件才能實(shí)現(xiàn)這種效果,；而對(duì)于編碼器,，無(wú)論是設(shè)計(jì)階段還是使用階段，我們都需要考慮最佳壓縮效果,、算法的復(fù)雜度與算法的延時(shí),，結(jié)合特殊場(chǎng)景進(jìn)行特定的設(shè)計(jì)；而兼容性也是我們不能不考慮的重點(diǎn),。

7.2 語(yǔ)音經(jīng)典編碼模型：發(fā)音模型

▲ 發(fā)音模型（原圖點(diǎn)擊查看）

我們的很多編解碼器都是基于綜合人的發(fā)音模型與一些和聽(tīng)覺(jué)相關(guān)的理論支持研究提出的特定編解碼算法。初期我們通過(guò)研究人的發(fā)音原理來(lái)設(shè)計(jì)音頻編解碼的算法,，包括端到端的濾波或輕濁音等,，只有充分理解人的發(fā)聲原理我們才能在編解碼端做出有價(jià)值的優(yōu)化,。

【7.2.1】語(yǔ)音編碼模型——LPC：

▲ 經(jīng)典語(yǔ)音編碼模型：LPC（原圖點(diǎn)擊查看）

▲ LPC 數(shù)學(xué)表達(dá)

LPC作為經(jīng)典語(yǔ)音編碼模式,，其本質(zhì)是一個(gè)線性預(yù)測(cè)的過(guò)程。早期的G.7系列編碼模型便是通過(guò)此模型對(duì)整個(gè)語(yǔ)音進(jìn)行編碼,，上圖展示的過(guò)程可與之前的人發(fā)聲過(guò)程進(jìn)行匹配,，每個(gè)環(huán)節(jié)都有一個(gè)相應(yīng)的模塊用來(lái)支撐人發(fā)聲的過(guò)程。其中使用了AR數(shù)學(xué)模型進(jìn)行線性預(yù)測(cè),，此算法也是現(xiàn)在很多語(yǔ)音編碼的重要組成模塊,。

【7.2.2】語(yǔ)音編碼模型——G.729：

▲經(jīng)典語(yǔ)音編碼模型: G.729(CELP)

G.729同樣是經(jīng)典的語(yǔ)音編碼模型之一,，也是我們學(xué)習(xí)語(yǔ)音編碼的一個(gè)入門(mén)級(jí)Codec,。G.729的文檔十分完善，包括每個(gè)模塊的源代碼在內(nèi)都可直接下載,。G.729可以說(shuō)是在早期發(fā)聲模型基礎(chǔ)上的改進(jìn)，需要關(guān)注的性能指標(biāo)是幀長(zhǎng)與算法上的延時(shí),，包括語(yǔ)音質(zhì)量的MOS分,。G.729也有很多變種，由于語(yǔ)音需要考慮系統(tǒng)兼容性,，不同的系統(tǒng)指定攜帶的Codec也不同,，音頻編碼的復(fù)雜程度要遠(yuǎn)高于視頻編碼。

G.729 建議了共軛結(jié)構(gòu)的算術(shù)碼本激勵(lì)線性預(yù)測(cè)(CS-ACELP)編碼方案,。G.729算法的幀長(zhǎng)為10ms, 編碼器含5ms 前瞻,，算法時(shí)延15ms，語(yǔ)音質(zhì)量MOS分可達(dá)4.0,。

7.3 語(yǔ)音經(jīng)典編碼模型——聽(tīng)覺(jué)模型

▲ ISO編碼模型：心理聲學(xué)模型

除了研究人發(fā)聲的原理，我們還需要研究人聽(tīng)聲的原理,，從而更好實(shí)現(xiàn)聲音的收集與處理,。一個(gè)聲音信號(hào)是否能被人耳聽(tīng)見(jiàn)主要取決于聲音信號(hào)的頻率、強(qiáng)度與其他音的干擾,。心理聲學(xué)模型便是用來(lái)找出音頻信號(hào)中存在的冗余信息從而實(shí)現(xiàn)在壓縮聲音信號(hào)的同時(shí)不影響聽(tīng)覺(jué)的目的,。心理聲學(xué)理論的成熟為感知編碼系統(tǒng)奠定了理論基礎(chǔ)，這里的感知編碼主要是ISO編碼模型,，主要覆蓋的聲學(xué)原理有臨界頻帶,、絕對(duì)聽(tīng)覺(jué)閾值、頻域掩蔽,、時(shí)域掩蔽等,。

▲ 聽(tīng)覺(jué)模型

無(wú)論是MP3還是AAC以至于到后面的杜比音效都是基于聽(tīng)覺(jué)模型進(jìn)行的探索與創(chuàng)新。

【7.3.1】臨界頻帶：

由于聲音頻率與掩蔽曲線不是線性關(guān)系,，為從感知上來(lái)統(tǒng)一度量聲音頻率,，引入了“臨界頻帶”的概念。通常認(rèn)為,，在20Hz到16kHz范圍內(nèi)有24個(gè)監(jiān)界頻帶,。臨界頻帶的單位叫Bark(巴克)。

▲ 臨界頻帶

臨界頻帶主要用于心理聲學(xué)模型,。由于聲音頻率與掩蔽曲線并非線性關(guān)系，為從感知上來(lái)統(tǒng)一度量聲音頻率,，我們引入了“臨界頻帶”的概念,。人耳對(duì)每段的某個(gè)頻率的靈敏度不同，二者關(guān)系是非線性的,。通常我們會(huì)將人可以聽(tīng)到的整個(gè)頻率也就是從20Hz到16KHz分為24個(gè)頻帶,，可在其中進(jìn)行時(shí)域或頻域類(lèi)的掩蔽，將一些冗余信息從編碼中去除從而有效提升壓縮率,。

【7.3.2】絕對(duì)聽(tīng)覺(jué)閾值：

▲ 絕對(duì)聽(tīng)覺(jué)閾值

絕對(duì)聽(tīng)覺(jué)閾值也可有效提升壓縮率，基于心理聲學(xué)模型,，可去除編碼中的冗余部分,。

7.4 經(jīng)典音頻編碼：ISO

▲ 經(jīng)典音頻編碼：ISO

我們可將最早的MP3 Layer1理解為第一代的ISO感知編碼,，隨后的一些純量化內(nèi)容更多的是在壓縮上進(jìn)行改進(jìn)而核心一直未改變,。從MP3 Layer1到Layer2與Layer3，主要的改變是心理聲學(xué)模型的迭代,。

▲ MPEG1 LayerI Codec

▲ MPEG1 LayerIII Codec

上圖展示的是Encode與Decode的回路,。輸入的PCM首先會(huì)經(jīng)過(guò)多子帶分析與頻域中的心理聲學(xué)模型冗余處理,，而后進(jìn)行量化編碼；Layer III中的是我們現(xiàn)在常說(shuō)的MP3的Codec：Encode與Decode之間的整體回路,，相比于Layer1多了幾個(gè)處理環(huán)節(jié)以及霍夫曼編碼,。

7.5 AAC協(xié)議族

▲ AAC家族

AAC與G.719一樣包括很多系列,，但AAC的巧妙之處在于向下兼容的特性,。開(kāi)始時(shí)我們就強(qiáng)調(diào)，所有Codec在設(shè)計(jì)時(shí)都需要考慮兼容性,，瑞典的Coding Technology公司曾提出在兼容性上特別優(yōu)化的方案,。AAC Plus V1包括AAC與SBR,，AAC Plus V2包括AAC+SBR+PS，現(xiàn)在常見(jiàn)的很多音樂(lè)類(lèi)或直播音頻編碼都是基于AAC Plus協(xié)議族進(jìn)行的,。

德國(guó)的霍朗浦學(xué)院曾在AAC低延時(shí)協(xié)議擴(kuò)展方面做出一些探索并得到了AAC LD協(xié)議族,，其原理仍基于傳統(tǒng)的AAC模塊，但在后端會(huì)對(duì)處理長(zhǎng)度進(jìn)行調(diào)整,，例如之前是以1024bit為一個(gè)處理單位,，那改進(jìn)后則以960bit為一個(gè)處理單位。除此之外AAC LD加入了LD-SBR與LD-MPS等,，從而形成一個(gè)規(guī)模較大的AAC-ELD V2模塊,，可以說(shuō)是十分巧妙。

【7.5.1】AACPlus核心模塊——SBR（Spectral Band Replication）：

▲ SBR(Spectral Band Replication)

我們可以看到,，AAC可以說(shuō)充分利用了頻域擴(kuò)展，用很小的代價(jià)實(shí)現(xiàn)諸多功能優(yōu)化,。AAC的核心之一是SBR,，這是一種使用極少位數(shù)就可描述高頻部分并在解碼時(shí)進(jìn)行特殊優(yōu)化從而實(shí)現(xiàn)頻域擴(kuò)展的模塊。上圖展示的是不同壓縮率模塊所覆蓋的頻率取值范圍,，而使用AAC時(shí)需要注意一個(gè)被稱(chēng)為“甜點(diǎn)碼率”的指標(biāo),。無(wú)論是采樣率還是碼率都是變化的，在應(yīng)用時(shí)選擇何種碼率十分關(guān)鍵,。例如直播時(shí)采用64Kbps即可在覆蓋整個(gè)頻段的同時(shí)保持良好音質(zhì)。

【7.5.2】AACPlus核心模塊——PS（Parametric Stereo）：

▲ ：PS(Parametric Stereo)

PS 描述參數(shù)：IID(Inter-channel Intensity Difference),,，ICC(Inter-channel Cross-Correlation)，IPD(Inter-channel Phase Difference),。

▲ AACPlus v2編碼框圖

▲ AACPlus v2解碼框圖

PS模塊也是AAC的核心模塊之一,，主要用于分析左右聲道屬性并使用非常少的位數(shù)表示左右聲道相關(guān)性,，而后在解碼端將左右聲道分離。這里比較巧妙的是PS的向下兼容特性,，整體數(shù)據(jù)打包是分開(kāi)進(jìn)行的,。如果獲取到AAC、SBR,、PS三者的基本數(shù)據(jù)包后,，在解碼階段我們就只需AAC—LC。上圖展示的就是AAC的解碼框架,，如果大家讀過(guò)3GPP的代碼就可發(fā)現(xiàn)其每一個(gè)模塊都相當(dāng)清楚,。我們可根據(jù)文檔讀取代碼并對(duì)應(yīng)到每一個(gè)環(huán)節(jié),。

【7.5.3】甜點(diǎn)碼率：

▲ AAC 甜點(diǎn)碼率

甜點(diǎn)碼率是一項(xiàng)很關(guān)鍵的指標(biāo),。例如在手機(jī)直播應(yīng)用場(chǎng)景中,，一般的視頻分辨率為640×360，音頻碼率大約在800K左右,。如果音頻碼率過(guò)大則會(huì)直接影響視頻質(zhì)量,，因而我們需要控制音頻碼率在一個(gè)較為合適的范圍內(nèi)從而實(shí)現(xiàn)最佳的音畫(huà)效果。在很多應(yīng)用場(chǎng)景中可能需要系統(tǒng)根據(jù)不同的網(wǎng)絡(luò)環(huán)境下載不同音質(zhì)的文件,，例如在2G環(huán)境中下載較小的文件,，這樣做主要是為了節(jié)省帶寬并提高音頻文件的播放流暢程度。

7.6 AAC-ELD家族

AAC-ELD家族產(chǎn)生背景：aacplus v2 已經(jīng)在壓縮和音質(zhì)方面做到了近似于極致,，但由于算法實(shí)現(xiàn)上的長(zhǎng)達(dá)100ms左右的延時(shí)極大的阻礙aacplus v2在實(shí)時(shí)通訊領(lǐng)域的應(yīng)用,。Fraunhofer IIS 為了解決這個(gè)問(wèn)題，對(duì)AAC進(jìn)行相關(guān)改進(jìn),，形成了AAC-ELD協(xié)議族,。

▲ AAC-ELD家族

AAC-ELD家族帶來(lái)的主要改進(jìn)是低延遲,。如果Codec的延遲太長(zhǎng)便無(wú)法在一些特定場(chǎng)景中被使用,。例如早期AAC Plus V2的整體延遲可達(dá)100ms，如此高的延遲肯定無(wú)法被應(yīng)用于語(yǔ)音通話等對(duì)實(shí)時(shí)性要求極高的應(yīng)用場(chǎng)景,?；衾势諏W(xué)院推出的AAC-ELD可在保持音質(zhì)的前提下將延遲降低至15ms，相對(duì)于MP3最高長(zhǎng)達(dá)200ms的延遲而言提升巨大,。

7.7 應(yīng)用中端到端的延遲

▲ 端到端的延時(shí)

編解碼過(guò)程也存在延時(shí)問(wèn)題，這也是我們選擇編解碼器時(shí)需要考慮的最主要因素之一,，編解碼的延時(shí)主要由處理延時(shí)與算法延時(shí)組成,，例如G.729的算法延時(shí)為15ms，而AAC-LC可達(dá)到一百毫秒以上,。另外,，播放端或采集端的長(zhǎng)幀數(shù)量太多，播放時(shí)緩存太多等也會(huì)直接影響延時(shí),，我們?cè)谶x擇編解碼器時(shí)需要考慮延時(shí)帶來(lái)的影響,。

編解碼器已經(jīng)歷了兩個(gè)發(fā)展方向：

1）一個(gè)是以G.7（G.729）為例，根據(jù)發(fā)聲模型設(shè)計(jì)的一套主要集中于語(yǔ)音方面的編解碼算法,；

2）另一個(gè)是以ISO的MP3和AAC為例,，根據(jù)心理聲學(xué)模型設(shè)計(jì)的一套感知編碼。

最近的趨勢(shì)是編碼的統(tǒng)一：原來(lái)在語(yǔ)音場(chǎng)景下我們使用8K或16K進(jìn)行采樣,，音樂(lè)場(chǎng)景下則需使用覆蓋到全頻帶的44.1K進(jìn)行采樣,，每個(gè)Codec都有一個(gè)頻域覆蓋的范圍,。在之前的開(kāi)發(fā)中，如果應(yīng)用場(chǎng)景僅針對(duì)壓縮語(yǔ)音那么需要選擇語(yǔ)音編碼方案,，如果應(yīng)用場(chǎng)景針對(duì)壓縮音樂(lè)則需要選擇音樂(lè)編碼方案,，而現(xiàn)在的發(fā)展方向是通過(guò)一套編碼從容應(yīng)對(duì)語(yǔ)音與音樂(lè)兩個(gè)應(yīng)用場(chǎng)景，這就是接下來(lái)將要被提到的USAC,。

這里介紹兩個(gè)比較典型的Codec：

1）一個(gè)是Opus,，通過(guò)其中集成的模塊可實(shí)現(xiàn)根據(jù)傳入音頻文件的采樣率等屬性自動(dòng)選擇語(yǔ)音編碼或音樂(lè)編碼；

2）另一個(gè)是EVS這也是霍朗普等組織推行的方案,，已經(jīng)嘗試用于4G或5G之中,。

EVS (Enhanced Voice Services)：主要是VoiceAge, Dolby, Fraunhofer, 華為聯(lián)合開(kāi)發(fā)的USAC編碼器，低速率音樂(lè)編碼質(zhì)量很好,。

▲ USAC

由框圖我們可以了解到USAC向下兼容的特性。

編解碼器可總結(jié)為經(jīng)歷了三個(gè)時(shí)代：

1）發(fā)聲模型,；
2）聽(tīng)覺(jué)感知,；
3）融合方案。

接下來(lái)我將展示目前所有的Codec情況并整理為表格以方便大家檢索查閱,。

8,、解碼器（Codec）總結(jié)

8.1 IETF系列

IETF作為標(biāo)準(zhǔn)協(xié)議聯(lián)盟組織之一推出了以上Codec：Opus包括采樣率為8kHz,、甜點(diǎn)碼率為11kbps的窄帶單聲語(yǔ)音（SILK）,，采樣率為16kHz、甜點(diǎn)碼率為20kbps的寬帶單聲語(yǔ)音與采樣率為48kHz,、甜點(diǎn)碼率為32kbps的全帶單聲語(yǔ)音（CELT）,，采用甜點(diǎn)碼率意味著將壓縮率和音質(zhì)保持在一個(gè)良好的平衡狀態(tài)。在一些窄帶單聲語(yǔ)音應(yīng)用場(chǎng)景例如常見(jiàn)的微信語(yǔ)音聊天,，其壓縮率可達(dá)到原來(lái)的8.5%。Opus沒(méi)有技術(shù)專(zhuān)利和源代碼的門(mén)檻,，使得其受到現(xiàn)在很多流媒體廠商的歡迎,，Opus支持更廣的碼率范圍，具備豐富采樣率選擇,，可實(shí)現(xiàn)極低延遲與可變幀大小,，也具備以往一些Codec的許多特性如CBR、VBR,、動(dòng)態(tài)調(diào)整等,，支持的通道數(shù)量也更多。除此之外,，Opus同樣具備許多從SILK移植而來(lái)的特性或功能,。如在VUIB傳輸上集成了扛丟包模式等,。

iLBC早在SILK未出現(xiàn)時(shí)就被提出同樣具備抗丟包。的特性,，高達(dá)15.2kbps的甜點(diǎn)碼率與4.14的Mos使其音質(zhì)較為良好,，超過(guò)G.729的相關(guān)指標(biāo)；GSM就是最早手機(jī)網(wǎng)絡(luò)仍停留在2G時(shí)代時(shí)流行的編碼形式,，主要用于蜂窩電話的編碼任務(wù),。

8.2 AMR系列

AMR早在3G時(shí)期就被廣泛應(yīng)用,，AMR-NB是最流行的語(yǔ)音編碼器,，具有壓縮效果好，支持多種碼率形式的特點(diǎn),；與此同時(shí),，這也是GSM與3G時(shí)期Android平臺(tái)最早支持的窄帶語(yǔ)音編碼方案。AMR-WB作為AMR-NB向?qū)拵У臄U(kuò)展版,，主要用于3G和4G通話標(biāo)準(zhǔn)協(xié)議中,，其甜點(diǎn)碼率為12.65kbps。在實(shí)踐中我們將碼率參數(shù)調(diào)整為此值即可實(shí)現(xiàn)壓縮率與質(zhì)量的平衡,。AMR-WB+則是上述兩者的融合,，三者共同構(gòu)成AMR系列。

8.3 ITU-T G系列

ITU-T G系列包括最早的波形編碼G711到現(xiàn)在大家熟悉的G.729這里我想強(qiáng)調(diào)的是G722.1 Siren7,、G722.1c Siren14與G719 Siren22，例如G.719可覆蓋整個(gè)前頻帶且支持立體聲,。即使都屬于老協(xié)議,，但由于其優(yōu)秀的兼容性，不應(yīng)被我們忽略,。

將Opus與其他一些Codec進(jìn)行對(duì)比我們可以看到，無(wú)論是質(zhì)量還是延時(shí)控制,，Opus的優(yōu)勢(shì)十分明顯,；加之Opus作為開(kāi)源的免費(fèi)方案，不存在專(zhuān)利限制,，受到業(yè)界追捧也不足為奇,。

8.4 ISO系列

ISO里我想強(qiáng)調(diào)的是MP3與AAC,，二者同樣支持很多碼率,。MP3的甜點(diǎn)碼率為128kbps，MP3 Pro的碼率可達(dá)到MP3的一半；AAC支持8～96khz的采樣率,，AAC-LC的甜點(diǎn)碼率為96kbps,，HE-AAC的甜點(diǎn)碼率為32kbps，AAC-LD與ELD做到了AAC的低延時(shí),，實(shí)現(xiàn)了延時(shí)與壓縮比的最佳平衡,。

8.5 3GPP系列：EVRC

EVRC 是CDMA 中使用的語(yǔ)音編解碼器，由高通公司1995年提出目標(biāo)是取代QCELP,。

高通公司主推的3GPP是CDMA中使用的語(yǔ)音編解碼器，在未來(lái)選擇編解碼器類(lèi)型時(shí)我們需要特別考慮延時(shí)與幀長(zhǎng),。由于語(yǔ)音編碼種類(lèi)很多,，幀長(zhǎng)也是復(fù)雜多變的，其背后的算法復(fù)雜程度,，RAM,、ROM占用等都是在實(shí)踐當(dāng)中需要著重考慮的。

8.6 極低碼率

極低碼率主要的應(yīng)用場(chǎng)景是對(duì)講機(jī),、衛(wèi)星通訊、軍工等,。

上圖圖表中的MELP最早由美國(guó)軍方開(kāi)發(fā),，現(xiàn)在絕大多數(shù)的對(duì)講機(jī)都基于此模型進(jìn)行擴(kuò)展開(kāi)發(fā)，壓縮后的碼率可達(dá)到2.4kbps而目前最極端的極低碼率可實(shí)現(xiàn)300bps,，相當(dāng)于壓縮為原數(shù)據(jù)的0.2%,，此時(shí)的音頻文件僅能被用于傳達(dá)語(yǔ)音內(nèi)容而丟失了很多聲色。

8.7 全頻帶

全頻帶中的組合也是多種多樣,。

9、編解碼使用注意

9.1 License

▲ 開(kāi)源項(xiàng)目常用的Lisence

國(guó)內(nèi)大部分企業(yè)在開(kāi)發(fā)時(shí)容易忽視包括專(zhuān)利安全性在內(nèi)的與License相關(guān)的內(nèi)容,。如果企業(yè)計(jì)劃得比較長(zhǎng)遠(yuǎn)，需要長(zhǎng)期使用某項(xiàng)技術(shù)或企業(yè)規(guī)模不斷擴(kuò)大時(shí)則不能不考慮專(zhuān)利問(wèn)題,。專(zhuān)利費(fèi)用包括Open Source與算法專(zhuān)利,，二者完全獨(dú)立互不干涉，如果我們從某家專(zhuān)利公司購(gòu)買(mǎi)了AAC的專(zhuān)利算法,，并不能獲得此AAC專(zhuān)利的源代碼，僅能獲得與此技術(shù)相關(guān)的專(zhuān)利使用授權(quán),。專(zhuān)利公司會(huì)給予需要下載的文件列表,，通過(guò)這種方式實(shí)現(xiàn)技術(shù)的授權(quán)使用。

▲ 一張圖看懂Lisence（來(lái)自：阮一峰的博客）

上面的二叉樹(shù)圖比較清晰地展示了代碼授權(quán)的具體流程,，隨著企業(yè)的規(guī)?；l(fā)展日趨成熟，企業(yè)應(yīng)當(dāng)規(guī)范自身的技術(shù)使用行為,，盡可能避免專(zhuān)利糾紛帶來(lái)的不利影響,。

9.2 專(zhuān)利

▲ 2個(gè)著名的多媒體技術(shù)專(zhuān)利池

主流語(yǔ)音編解碼技術(shù)擁有兩個(gè)專(zhuān)利池：

1）MPEG-LA,；
2）Via Licensing,。

很多非常復(fù)雜的Codec涉及高達(dá)上千個(gè)專(zhuān)利，與之相關(guān)的企業(yè)或組織多達(dá)幾十個(gè),，為專(zhuān)利授權(quán)而與每一個(gè)企業(yè)或組織進(jìn)行洽談顯然是不現(xiàn)實(shí)的,，因而專(zhuān)利池的出現(xiàn)使得技術(shù)授權(quán)更加規(guī)范清晰，方便企業(yè)統(tǒng)一處理技術(shù)授權(quán)問(wèn)題,。

9.3 常見(jiàn)Codec Patent License

希望大家在使用技術(shù)的同時(shí)尊重知識(shí)產(chǎn)權(quán),，助力技術(shù)創(chuàng)新可持續(xù)發(fā)展。

10,、講稿PPT下載

（因無(wú)法上傳附件,，請(qǐng)從原文附件下載：http://www./thread-2230-1-1.html）

附錄：更多音視頻技術(shù)資料

[1] 實(shí)時(shí)音視頻開(kāi)發(fā)的其它精華資料：
《實(shí)時(shí)語(yǔ)音聊天中的音頻處理與編碼壓縮技術(shù)簡(jiǎn)述》
《網(wǎng)易視頻云技術(shù)分享：音頻處理與壓縮技術(shù)快速入門(mén)》
《學(xué)習(xí)RFC3550：RTP/RTCP實(shí)時(shí)傳輸協(xié)議基礎(chǔ)知識(shí)》
《基于RTMP數(shù)據(jù)傳輸協(xié)議的實(shí)時(shí)流媒體技術(shù)研究（論文全文）》
《聲網(wǎng)架構(gòu)師談實(shí)時(shí)音視頻云的實(shí)現(xiàn)難點(diǎn)(視頻采訪)》
《淺談開(kāi)發(fā)實(shí)時(shí)視頻直播平臺(tái)的技術(shù)要點(diǎn)》
《還在靠“喂喂喂”測(cè)試實(shí)時(shí)語(yǔ)音通話質(zhì)量？本文教你科學(xué)的評(píng)測(cè)方法,！》
《實(shí)現(xiàn)延遲低于500毫秒的1080P實(shí)時(shí)音視頻直播的實(shí)踐分享》
《移動(dòng)端實(shí)時(shí)視頻直播技術(shù)實(shí)踐：如何做到實(shí)時(shí)秒開(kāi),、流暢不卡》
《如何用最簡(jiǎn)單的方法測(cè)試你的實(shí)時(shí)音視頻方案》
《技術(shù)揭秘：支持百萬(wàn)級(jí)粉絲互動(dòng)的Facebook實(shí)時(shí)視頻直播》
《簡(jiǎn)述實(shí)時(shí)音視頻聊天中端到端加密（E2EE）的工作原理》
《移動(dòng)端實(shí)時(shí)音視頻直播技術(shù)詳解（一）：開(kāi)篇》
《移動(dòng)端實(shí)時(shí)音視頻直播技術(shù)詳解（二）：采集》
《移動(dòng)端實(shí)時(shí)音視頻直播技術(shù)詳解（三）：處理》
《移動(dòng)端實(shí)時(shí)音視頻直播技術(shù)詳解（四）：編碼和封裝》
《移動(dòng)端實(shí)時(shí)音視頻直播技術(shù)詳解（五）：推流和傳輸》
《移動(dòng)端實(shí)時(shí)音視頻直播技術(shù)詳解（六）：延遲優(yōu)化》
《理論聯(lián)系實(shí)際：實(shí)現(xiàn)一個(gè)簡(jiǎn)單地基于HTML5的實(shí)時(shí)視頻直播》
《IM實(shí)時(shí)音視頻聊天時(shí)的回聲消除技術(shù)詳解》
《淺談實(shí)時(shí)音視頻直播中直接影響用戶(hù)體驗(yàn)的幾項(xiàng)關(guān)鍵技術(shù)指標(biāo)》
《如何優(yōu)化傳輸機(jī)制來(lái)實(shí)現(xiàn)實(shí)時(shí)音視頻的超低延遲？》
《首次披露：快手是如何做到百萬(wàn)觀眾同場(chǎng)看直播仍能秒開(kāi)且不卡頓的,？》
《Android直播入門(mén)實(shí)踐：動(dòng)手搭建一套簡(jiǎn)單的直播系統(tǒng)》
《網(wǎng)易云信實(shí)時(shí)視頻直播在TCP數(shù)據(jù)傳輸層的一些優(yōu)化思路》
《實(shí)時(shí)音視頻聊天技術(shù)分享：面向不可靠網(wǎng)絡(luò)的抗丟包編解碼器》
《P2P技術(shù)如何將實(shí)時(shí)視頻直播帶寬降低75%,？》
《專(zhuān)訪微信視頻技術(shù)負(fù)責(zé)人：微信實(shí)時(shí)視頻聊天技術(shù)的演進(jìn)》
《騰訊音視頻實(shí)驗(yàn)室：使用AI黑科技實(shí)現(xiàn)超低碼率的高清實(shí)時(shí)視頻聊天》
《微信團(tuán)隊(duì)分享：微信每日億次實(shí)時(shí)音視頻聊天背后的技術(shù)解密》
《近期大熱的實(shí)時(shí)直播答題系統(tǒng)的實(shí)現(xiàn)思路與技術(shù)難點(diǎn)分享》
《福利貼：最全實(shí)時(shí)音視頻開(kāi)發(fā)要用到的開(kāi)源工程匯總》
《七牛云技術(shù)分享：使用QUIC協(xié)議實(shí)現(xiàn)實(shí)時(shí)視頻直播0卡頓！》
《實(shí)時(shí)音視頻聊天中超低延遲架構(gòu)的思考與技術(shù)實(shí)踐》
《理解實(shí)時(shí)音視頻聊天中的延時(shí)問(wèn)題一篇就夠》
《實(shí)時(shí)視頻直播客戶(hù)端技術(shù)盤(pán)點(diǎn)：Native,、HTML5,、WebRTC、微信小程序》
《寫(xiě)給小白的實(shí)時(shí)音視頻技術(shù)入門(mén)提綱》
《微信多媒體團(tuán)隊(duì)訪談：音視頻開(kāi)發(fā)的學(xué)習(xí),、微信的音視頻技術(shù)和挑戰(zhàn)等》
《騰訊技術(shù)分享：微信小程序音視頻技術(shù)背后的故事》
《微信多媒體團(tuán)隊(duì)梁俊斌訪談：聊一聊我所了解的音視頻技術(shù)》
《新浪微博技術(shù)分享：微博短視頻服務(wù)的優(yōu)化實(shí)踐之路》
《實(shí)時(shí)音頻的混音在視頻直播應(yīng)用中的技術(shù)原理和實(shí)踐總結(jié)》
《以網(wǎng)游服務(wù)端的網(wǎng)絡(luò)接入層設(shè)計(jì)為例,，理解實(shí)時(shí)通信的技術(shù)挑戰(zhàn)》
《騰訊技術(shù)分享：微信小程序音視頻與WebRTC互通的技術(shù)思路和實(shí)踐》
《新浪微博技術(shù)分享：微博實(shí)時(shí)直播答題的百萬(wàn)高并發(fā)架構(gòu)實(shí)踐》
《技術(shù)干貨：實(shí)時(shí)視頻直播首屏耗時(shí)400ms內(nèi)的優(yōu)化實(shí)踐》
>> 更多同類(lèi)文章 ……
[2] 開(kāi)源實(shí)時(shí)音視頻技術(shù)WebRTC的文章：
《開(kāi)源實(shí)時(shí)音視頻技術(shù)WebRTC的現(xiàn)狀》
《簡(jiǎn)述開(kāi)源實(shí)時(shí)音視頻技術(shù)WebRTC的優(yōu)缺點(diǎn)》
《訪談WebRTC標(biāo)準(zhǔn)之父：WebRTC的過(guò)去、現(xiàn)在和未來(lái)》
《良心分享：WebRTC 零基礎(chǔ)開(kāi)發(fā)者教程（中文）[附件下載]》
《WebRTC實(shí)時(shí)音視頻技術(shù)的整體架構(gòu)介紹》
《新手入門(mén)：到底什么是WebRTC服務(wù)器,，以及它是如何聯(lián)接通話的,？》
《WebRTC實(shí)時(shí)音視頻技術(shù)基礎(chǔ)：基本架構(gòu)和協(xié)議棧》
《淺談開(kāi)發(fā)實(shí)時(shí)視頻直播平臺(tái)的技術(shù)要點(diǎn)》
《[觀點(diǎn)] WebRTC應(yīng)該選擇H.264視頻編碼的四大理由》
《基于開(kāi)源WebRTC開(kāi)發(fā)實(shí)時(shí)音視頻靠譜嗎,？第3方SDK有哪些,？》
《開(kāi)源實(shí)時(shí)音視頻技術(shù)WebRTC中RTP/RTCP數(shù)據(jù)傳輸協(xié)議的應(yīng)用》
《簡(jiǎn)述實(shí)時(shí)音視頻聊天中端到端加密（E2EE）的工作原理》
《實(shí)時(shí)通信RTC技術(shù)棧之：視頻編解碼》
《開(kāi)源實(shí)時(shí)音視頻技術(shù)WebRTC在Windows下的簡(jiǎn)明編譯教程》
《網(wǎng)頁(yè)端實(shí)時(shí)音視頻技術(shù)WebRTC：看起來(lái)很美，但離生產(chǎn)應(yīng)用還有多少坑要填？》
《了不起的WebRTC：生態(tài)日趨完善,，或?qū)?shí)時(shí)音視頻技術(shù)白菜化》
《騰訊技術(shù)分享：微信小程序音視頻與WebRTC互通的技術(shù)思路和實(shí)踐》
>> 更多同類(lèi)文章 ……

（本文同步發(fā)布于：http://www./thread-2230-1-1.html）

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：螞蟻家園 > 《通信技術(shù)》

舉報(bào)/認(rèn)領(lǐng)