久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

詳解音頻編解碼的原理、演進(jìn)和應(yīng)用選型等

 螞蟻家園 2019-01-19

1,、引言

大家好,,我是劉華平,從畢業(yè)到現(xiàn)在我一直在從事音視頻領(lǐng)域相關(guān)工作,,也有一些自己的創(chuàng)業(yè)項(xiàng)目,,曾為早期Google Android SDK多媒體架構(gòu)的構(gòu)建作出貢獻(xiàn)。

就音頻而言,,無(wú)論是算法多樣性,,Codec種類(lèi)還是音頻編解碼復(fù)雜程度都遠(yuǎn)遠(yuǎn)比視頻要高。視頻的Codec目前還主要是以宏塊為處理單元,,預(yù)測(cè)加變換的混合編碼框架,,例如H.264和H.265都是在這一框架下。而音頻則相當(dāng)復(fù)雜,,且不同的場(chǎng)景必須要選擇不同的音頻編解碼器,。以下就是本次為大家分享的主要內(nèi)容,希望通過(guò)此次分享可以使大家對(duì)音頻編解碼有一個(gè)整體的認(rèn)識(shí),,并在實(shí)際應(yīng)用中有參考的依據(jù),。

本次分享的內(nèi)容提綱:

1)語(yǔ)音/音頻編碼總表;

2)數(shù)字語(yǔ)音基本要素,;

3)為什么要壓縮,;

4)編碼器考慮的因素;

5)語(yǔ)音經(jīng)典編碼模型;

6)ISO,;

7)編碼模型,;

8)USAC;

9)編碼,;

10)使用選型考慮的因素,。

* 本次演講PPT文稿,請(qǐng)從文末附件下載,!

(本文同步發(fā)布于:http://www./thread-2230-1-1.html)

2、分享者


詳解音頻編解碼的原理,、演進(jìn)和應(yīng)用選型等


劉華平:

- 現(xiàn)為網(wǎng)易云音樂(lè)音視頻實(shí)驗(yàn)室負(fù)責(zé)人,,上海大學(xué)通信學(xué)院在職博士;

- 曾任掌門(mén)集團(tuán)(WIFI萬(wàn)能鑰匙)音視頻技術(shù)研發(fā)總監(jiān),,資深研究員,;

- 行者悟空聲學(xué)技術(shù)有限公司首席技術(shù)官(聯(lián)合創(chuàng)始人);

- 阿里巴巴前高級(jí)技術(shù)專(zhuān)家(P8),, 阿里音樂(lè)音視頻部門(mén)總監(jiān),;

- Visualon音頻部門(mén)經(jīng)理、盛大創(chuàng)新院研究員,、Freescale 上海研發(fā)中心多媒體部門(mén),;

- 早期 Google Android SDK多媒體架構(gòu)的貢獻(xiàn)者,開(kāi)源 AMR_WB 編碼器工程開(kāi)發(fā)者,。

劉華平擁有5項(xiàng)技術(shù)發(fā)明專(zhuān)利,、二十余篇專(zhuān)業(yè)論文和多項(xiàng)軟件著作權(quán),參與過(guò)浙江省杭州重大專(zhuān)項(xiàng)項(xiàng)目,,浙江省金華科委項(xiàng)目,,上海市科委項(xiàng)目(球諧域全景音頻關(guān)鍵技術(shù)研究)。

3,、系列文章

本文是系列文章中的第18篇,,本系列文章的大綱如下:

《即時(shí)通訊音視頻開(kāi)發(fā)(一):視頻編解碼之理論概述》

《即時(shí)通訊音視頻開(kāi)發(fā)(二):視頻編解碼之?dāng)?shù)字視頻介紹》

《即時(shí)通訊音視頻開(kāi)發(fā)(三):視頻編解碼之編碼基礎(chǔ)》

《即時(shí)通訊音視頻開(kāi)發(fā)(四):視頻編解碼之預(yù)測(cè)技術(shù)介紹》

《即時(shí)通訊音視頻開(kāi)發(fā)(五):認(rèn)識(shí)主流視頻編碼技術(shù)H.264》

《即時(shí)通訊音視頻開(kāi)發(fā)(六):如何開(kāi)始音頻編解碼技術(shù)的學(xué)習(xí)》

《即時(shí)通訊音視頻開(kāi)發(fā)(七):音頻基礎(chǔ)及編碼原理入門(mén)》

《即時(shí)通訊音視頻開(kāi)發(fā)(八):常見(jiàn)的實(shí)時(shí)語(yǔ)音通訊編碼標(biāo)準(zhǔn)》

《即時(shí)通訊音視頻開(kāi)發(fā)(九):實(shí)時(shí)語(yǔ)音通訊的回音及回音消除概述》

《即時(shí)通訊音視頻開(kāi)發(fā)(十):實(shí)時(shí)語(yǔ)音通訊的回音消除技術(shù)詳解》

《即時(shí)通訊音視頻開(kāi)發(fā)(十一):實(shí)時(shí)語(yǔ)音通訊丟包補(bǔ)償技術(shù)詳解》

《即時(shí)通訊音視頻開(kāi)發(fā)(十二):多人實(shí)時(shí)音視頻聊天架構(gòu)探討》

《即時(shí)通訊音視頻開(kāi)發(fā)(十三):實(shí)時(shí)視頻編碼H.264的特點(diǎn)與優(yōu)勢(shì)》

《即時(shí)通訊音視頻開(kāi)發(fā)(十四):實(shí)時(shí)音視頻數(shù)據(jù)傳輸協(xié)議介紹》

《即時(shí)通訊音視頻開(kāi)發(fā)(十五):聊聊P2P與實(shí)時(shí)音視頻的應(yīng)用情況》

《即時(shí)通訊音視頻開(kāi)發(fā)(十六):移動(dòng)端實(shí)時(shí)音視頻開(kāi)發(fā)的幾個(gè)建議》

《即時(shí)通訊音視頻開(kāi)發(fā)(十七):視頻編碼H.264、V8的前世今生》

《即時(shí)通訊音視頻開(kāi)發(fā)(十八):詳解音頻編解碼的原理,、演進(jìn)和應(yīng)用選型》(本文)

4,、語(yǔ)言/音頻編碼總表


詳解音頻編解碼的原理、演進(jìn)和應(yīng)用選型等


▲ 語(yǔ)言/音頻編碼總表

上圖展示的是語(yǔ)言/音頻編碼總表,,可以看到其比視頻編碼要復(fù)雜得多,,單純的算法也遠(yuǎn)遠(yuǎn)比視頻要更加復(fù)雜。

5,、數(shù)字語(yǔ)言基本要素

數(shù)字聲音具有三個(gè)要素:

1)采樣率,;

2)通道數(shù);

3)量化位數(shù)。


詳解音頻編解碼的原理,、演進(jìn)和應(yīng)用選型等


▲ 聲音數(shù)字化的過(guò)程

如上圖所示,,聲音數(shù)字化的過(guò)程為:

1)采樣:在時(shí)間軸上對(duì)信號(hào)數(shù)字化;

2)量化:在幅度軸上對(duì)信號(hào)數(shù)字化,;

3)編碼:按一定格式記錄采樣和量化后的數(shù)字?jǐn)?shù)據(jù),。

6、為什么要壓縮

壓縮音頻,,主要是為了在降低帶寬負(fù)擔(dān)的同時(shí)為視頻騰出更多帶寬空間,。存儲(chǔ)和帶寬二大因素決定了語(yǔ)音壓縮的必要性。

我們看看下面的例子,。

長(zhǎng)度為4分鐘,,采樣頻率為44100Hz,采樣深度為16bits,雙聲音Wav文件大小:

44100Hz*16bits*4minutes*2=(44100/1second)*16bits*(4minutes*(60seconds/1minutes)*2=705600bits/second*240seconds=169344000bits=169344000/(8bits/1byte)*2=42336000bytes=42336000/(1048576/1M)bytes=40.37MB

MP3,,128kbps壓縮后文件大?。?/strong>

128kbps*4minutes=(128kbits/1second)*(4minutes*(60seconds/1minutes))=(128kbits/1second)*240seconds=30720kbits=30720kbits/(8bits/1byte)=3840kbytes=3840k/(1024k/1M)bytes=3.75Mbytes=3.75MB

正如上面的例子,聲音壓縮后,,存儲(chǔ)大小為原大小的十分之一,,壓縮率十分可觀!

7,、編碼器考慮因素

7.1 基本概念

編碼器考慮的因素:

1)最佳壓縮比,;

2)算法的復(fù)雜度;

3)算法延時(shí),;

4)針對(duì)特殊場(chǎng)景下的特定設(shè)計(jì),;

5)兼容性。

通過(guò)一些特定的壓縮算法,,可以壓縮音頻文件至原來(lái)的1/10,,同時(shí)人耳也無(wú)法分辨壓縮前后的聲音質(zhì)量差異,需要滿(mǎn)足多種條件才能實(shí)現(xiàn)這種效果,;而對(duì)于編碼器,,無(wú)論是設(shè)計(jì)階段還是使用階段,我們都需要考慮最佳壓縮效果,、算法的復(fù)雜度與算法的延時(shí),,結(jié)合特殊場(chǎng)景進(jìn)行特定的設(shè)計(jì);而兼容性也是我們不能不考慮的重點(diǎn),。

7.2 語(yǔ)音經(jīng)典編碼模型:發(fā)音模型


詳解音頻編解碼的原理,、演進(jìn)和應(yīng)用選型等


▲ 發(fā)音模型(原圖點(diǎn)擊查看)

我們的很多編解碼器都是基于綜合人的發(fā)音模型與一些和聽(tīng)覺(jué)相關(guān)的理論支持研究提出的特定編解碼算法。初期我們通過(guò)研究人的發(fā)音原理來(lái)設(shè)計(jì)音頻編解碼的算法,,包括端到端的濾波或輕濁音等,,只有充分理解人的發(fā)聲原理我們才能在編解碼端做出有價(jià)值的優(yōu)化,。

【7.2.1】語(yǔ)音編碼模型——LPC:


詳解音頻編解碼的原理、演進(jìn)和應(yīng)用選型等


▲ 經(jīng)典語(yǔ)音編碼模型:LPC(原圖點(diǎn)擊查看)


詳解音頻編解碼的原理,、演進(jìn)和應(yīng)用選型等


▲ LPC 數(shù)學(xué)表達(dá)

LPC作為經(jīng)典語(yǔ)音編碼模式,,其本質(zhì)是一個(gè)線性預(yù)測(cè)的過(guò)程。早期的G.7系列編碼模型便是通過(guò)此模型對(duì)整個(gè)語(yǔ)音進(jìn)行編碼,,上圖展示的過(guò)程可與之前的人發(fā)聲過(guò)程進(jìn)行匹配,,每個(gè)環(huán)節(jié)都有一個(gè)相應(yīng)的模塊用來(lái)支撐人發(fā)聲的過(guò)程。其中使用了AR數(shù)學(xué)模型進(jìn)行線性預(yù)測(cè),,此算法也是現(xiàn)在很多語(yǔ)音編碼的重要組成模塊,。

【7.2.2】語(yǔ)音編碼模型——G.729:


詳解音頻編解碼的原理、演進(jìn)和應(yīng)用選型等


▲經(jīng)典語(yǔ)音編碼模型: G.729(CELP)

G.729同樣是經(jīng)典的語(yǔ)音編碼模型之一,,也是我們學(xué)習(xí)語(yǔ)音編碼的一個(gè)入門(mén)級(jí)Codec,。G.729的文檔十分完善,包括每個(gè)模塊的源代碼在內(nèi)都可直接下載,。G.729可以說(shuō)是在早期發(fā)聲模型基礎(chǔ)上的改進(jìn),需要關(guān)注的性能指標(biāo)是幀長(zhǎng)與算法上的延時(shí),,包括語(yǔ)音質(zhì)量的MOS分,。G.729也有很多變種,由于語(yǔ)音需要考慮系統(tǒng)兼容性,,不同的系統(tǒng)指定攜帶的Codec也不同,,音頻編碼的復(fù)雜程度要遠(yuǎn)高于視頻編碼。

G.729 建議了共軛結(jié)構(gòu)的算術(shù)碼本激勵(lì)線性預(yù)測(cè)(CS-ACELP)編碼方案,。G.729算法的幀長(zhǎng)為10ms, 編碼器含5ms 前瞻,,算法時(shí)延15ms,語(yǔ)音質(zhì)量MOS分可達(dá)4.0,。

7.3 語(yǔ)音經(jīng)典編碼模型——聽(tīng)覺(jué)模型


詳解音頻編解碼的原理,、演進(jìn)和應(yīng)用選型等


▲ ISO編碼模型:心理聲學(xué)模型

除了研究人發(fā)聲的原理,我們還需要研究人聽(tīng)聲的原理,,從而更好實(shí)現(xiàn)聲音的收集與處理,。一個(gè)聲音信號(hào)是否能被人耳聽(tīng)見(jiàn)主要取決于聲音信號(hào)的頻率、強(qiáng)度與其他音的干擾,。心理聲學(xué)模型便是用來(lái)找出音頻信號(hào)中存在的冗余信息從而實(shí)現(xiàn)在壓縮聲音信號(hào)的同時(shí)不影響聽(tīng)覺(jué)的目的,。心理聲學(xué)理論的成熟為感知編碼系統(tǒng)奠定了理論基礎(chǔ),這里的感知編碼主要是ISO編碼模型,,主要覆蓋的聲學(xué)原理有臨界頻帶,、絕對(duì)聽(tīng)覺(jué)閾值、頻域掩蔽,、時(shí)域掩蔽等,。


詳解音頻編解碼的原理,、演進(jìn)和應(yīng)用選型等


▲ 聽(tīng)覺(jué)模型

無(wú)論是MP3還是AAC以至于到后面的杜比音效都是基于聽(tīng)覺(jué)模型進(jìn)行的探索與創(chuàng)新。

【7.3.1】臨界頻帶:

由于聲音頻率與掩蔽曲線不是線性關(guān)系,,為從感知上來(lái)統(tǒng)一度量聲音頻率,,引入了“臨界頻帶”的概念。通常認(rèn)為,,在20Hz到16kHz范圍內(nèi)有24個(gè)監(jiān)界頻帶,。臨界頻帶的單位叫Bark(巴克)。


詳解音頻編解碼的原理,、演進(jìn)和應(yīng)用選型等


▲ 臨界頻帶

臨界頻帶主要用于心理聲學(xué)模型,。由于聲音頻率與掩蔽曲線并非線性關(guān)系,為從感知上來(lái)統(tǒng)一度量聲音頻率,,我們引入了“臨界頻帶”的概念,。人耳對(duì)每段的某個(gè)頻率的靈敏度不同,二者關(guān)系是非線性的,。通常我們會(huì)將人可以聽(tīng)到的整個(gè)頻率也就是從20Hz到16KHz分為24個(gè)頻帶,,可在其中進(jìn)行時(shí)域或頻域類(lèi)的掩蔽,將一些冗余信息從編碼中去除從而有效提升壓縮率,。

【7.3.2】絕對(duì)聽(tīng)覺(jué)閾值:


詳解音頻編解碼的原理,、演進(jìn)和應(yīng)用選型等


▲ 絕對(duì)聽(tīng)覺(jué)閾值

絕對(duì)聽(tīng)覺(jué)閾值也可有效提升壓縮率,基于心理聲學(xué)模型,,可去除編碼中的冗余部分,。

7.4 經(jīng)典音頻編碼:ISO


詳解音頻編解碼的原理、演進(jìn)和應(yīng)用選型等


▲ 經(jīng)典音頻編碼:ISO

我們可將最早的MP3 Layer1理解為第一代的ISO感知編碼,,隨后的一些純量化內(nèi)容更多的是在壓縮上進(jìn)行改進(jìn)而核心一直未改變,。從MP3 Layer1到Layer2與Layer3,主要的改變是心理聲學(xué)模型的迭代,。


詳解音頻編解碼的原理,、演進(jìn)和應(yīng)用選型等


▲ MPEG1 LayerI Codec


詳解音頻編解碼的原理、演進(jìn)和應(yīng)用選型等


▲ MPEG1 LayerIII Codec

上圖展示的是Encode與Decode的回路,。輸入的PCM首先會(huì)經(jīng)過(guò)多子帶分析與頻域中的心理聲學(xué)模型冗余處理,,而后進(jìn)行量化編碼;Layer III中的是我們現(xiàn)在常說(shuō)的MP3的Codec:Encode與Decode之間的整體回路,,相比于Layer1多了幾個(gè)處理環(huán)節(jié)以及霍夫曼編碼,。

7.5 AAC協(xié)議族


詳解音頻編解碼的原理、演進(jìn)和應(yīng)用選型等


▲ AAC家族

AAC與G.719一樣包括很多系列,,但AAC的巧妙之處在于向下兼容的特性,。開(kāi)始時(shí)我們就強(qiáng)調(diào),所有Codec在設(shè)計(jì)時(shí)都需要考慮兼容性,,瑞典的Coding Technology公司曾提出在兼容性上特別優(yōu)化的方案,。AAC Plus V1包括AAC與SBR,,AAC Plus V2包括AAC+SBR+PS,現(xiàn)在常見(jiàn)的很多音樂(lè)類(lèi)或直播音頻編碼都是基于AAC Plus協(xié)議族進(jìn)行的,。

德國(guó)的霍朗浦學(xué)院曾在AAC低延時(shí)協(xié)議擴(kuò)展方面做出一些探索并得到了AAC LD協(xié)議族,,其原理仍基于傳統(tǒng)的AAC模塊,但在后端會(huì)對(duì)處理長(zhǎng)度進(jìn)行調(diào)整,,例如之前是以1024bit為一個(gè)處理單位,,那改進(jìn)后則以960bit為一個(gè)處理單位。除此之外AAC LD加入了LD-SBR與LD-MPS等,,從而形成一個(gè)規(guī)模較大的AAC-ELD V2模塊,,可以說(shuō)是十分巧妙。

【7.5.1】AACPlus核心模塊——SBR(Spectral Band Replication):


詳解音頻編解碼的原理,、演進(jìn)和應(yīng)用選型等


▲ SBR(Spectral Band Replication)

我們可以看到,,AAC可以說(shuō)充分利用了頻域擴(kuò)展,用很小的代價(jià)實(shí)現(xiàn)諸多功能優(yōu)化,。AAC的核心之一是SBR,,這是一種使用極少位數(shù)就可描述高頻部分并在解碼時(shí)進(jìn)行特殊優(yōu)化從而實(shí)現(xiàn)頻域擴(kuò)展的模塊。上圖展示的是不同壓縮率模塊所覆蓋的頻率取值范圍,,而使用AAC時(shí)需要注意一個(gè)被稱(chēng)為“甜點(diǎn)碼率”的指標(biāo),。無(wú)論是采樣率還是碼率都是變化的,在應(yīng)用時(shí)選擇何種碼率十分關(guān)鍵,。例如直播時(shí)采用64Kbps即可在覆蓋整個(gè)頻段的同時(shí)保持良好音質(zhì)。

【7.5.2】AACPlus核心模塊——PS(Parametric Stereo):


詳解音頻編解碼的原理,、演進(jìn)和應(yīng)用選型等


▲ :PS(Parametric Stereo)

PS 描述參數(shù):IID(Inter-channel Intensity Difference),,,ICC(Inter-channel Cross-Correlation),IPD(Inter-channel Phase Difference),。


詳解音頻編解碼的原理,、演進(jìn)和應(yīng)用選型等


▲ AACPlus v2編碼框圖


詳解音頻編解碼的原理、演進(jìn)和應(yīng)用選型等


▲ AACPlus v2解碼框圖

PS模塊也是AAC的核心模塊之一,,主要用于分析左右聲道屬性并使用非常少的位數(shù)表示左右聲道相關(guān)性,,而后在解碼端將左右聲道分離。這里比較巧妙的是PS的向下兼容特性,,整體數(shù)據(jù)打包是分開(kāi)進(jìn)行的,。如果獲取到AAC、SBR,、PS三者的基本數(shù)據(jù)包后,,在解碼階段我們就只需AAC—LC。上圖展示的就是AAC的解碼框架,,如果大家讀過(guò)3GPP的代碼就可發(fā)現(xiàn)其每一個(gè)模塊都相當(dāng)清楚,。我們可根據(jù)文檔讀取代碼并對(duì)應(yīng)到每一個(gè)環(huán)節(jié),。

【7.5.3】甜點(diǎn)碼率:


詳解音頻編解碼的原理、演進(jìn)和應(yīng)用選型等


▲ AAC 甜點(diǎn)碼率

甜點(diǎn)碼率是一項(xiàng)很關(guān)鍵的指標(biāo),。例如在手機(jī)直播應(yīng)用場(chǎng)景中,,一般的視頻分辨率為640×360,音頻碼率大約在800K左右,。如果音頻碼率過(guò)大則會(huì)直接影響視頻質(zhì)量,,因而我們需要控制音頻碼率在一個(gè)較為合適的范圍內(nèi)從而實(shí)現(xiàn)最佳的音畫(huà)效果。在很多應(yīng)用場(chǎng)景中可能需要系統(tǒng)根據(jù)不同的網(wǎng)絡(luò)環(huán)境下載不同音質(zhì)的文件,,例如在2G環(huán)境中下載較小的文件,,這樣做主要是為了節(jié)省帶寬并提高音頻文件的播放流暢程度。

7.6 AAC-ELD家族

AAC-ELD家族產(chǎn)生背景:aacplus v2 已經(jīng)在壓縮和音質(zhì)方面做到了近似于極致,,但由于算法實(shí)現(xiàn)上的長(zhǎng)達(dá)100ms左右的延時(shí)極大的阻礙aacplus v2在實(shí)時(shí)通訊領(lǐng)域的應(yīng)用,。Fraunhofer IIS 為了解決這個(gè)問(wèn)題,對(duì)AAC進(jìn)行相關(guān)改進(jìn),,形成了AAC-ELD協(xié)議族,。


詳解音頻編解碼的原理、演進(jìn)和應(yīng)用選型等


▲ AAC-ELD家族

AAC-ELD家族帶來(lái)的主要改進(jìn)是低延遲,。如果Codec的延遲太長(zhǎng)便無(wú)法在一些特定場(chǎng)景中被使用,。例如早期AAC Plus V2的整體延遲可達(dá)100ms,如此高的延遲肯定無(wú)法被應(yīng)用于語(yǔ)音通話等對(duì)實(shí)時(shí)性要求極高的應(yīng)用場(chǎng)景,?;衾势諏W(xué)院推出的AAC-ELD可在保持音質(zhì)的前提下將延遲降低至15ms,相對(duì)于MP3最高長(zhǎng)達(dá)200ms的延遲而言提升巨大,。

7.7 應(yīng)用中端到端的延遲


詳解音頻編解碼的原理,、演進(jìn)和應(yīng)用選型等


▲ 端到端的延時(shí)

編解碼過(guò)程也存在延時(shí)問(wèn)題,這也是我們選擇編解碼器時(shí)需要考慮的最主要因素之一,,編解碼的延時(shí)主要由處理延時(shí)與算法延時(shí)組成,,例如G.729的算法延時(shí)為15ms,而AAC-LC可達(dá)到一百毫秒以上,。另外,,播放端或采集端的長(zhǎng)幀數(shù)量太多,播放時(shí)緩存太多等也會(huì)直接影響延時(shí),,我們?cè)谶x擇編解碼器時(shí)需要考慮延時(shí)帶來(lái)的影響,。

編解碼器已經(jīng)歷了兩個(gè)發(fā)展方向:

1)一個(gè)是以G.7(G.729)為例,根據(jù)發(fā)聲模型設(shè)計(jì)的一套主要集中于語(yǔ)音方面的編解碼算法,;

2)另一個(gè)是以ISO的MP3和AAC為例,,根據(jù)心理聲學(xué)模型設(shè)計(jì)的一套感知編碼。

最近的趨勢(shì)是編碼的統(tǒng)一:原來(lái)在語(yǔ)音場(chǎng)景下我們使用8K或16K進(jìn)行采樣,,音樂(lè)場(chǎng)景下則需使用覆蓋到全頻帶的44.1K進(jìn)行采樣,,每個(gè)Codec都有一個(gè)頻域覆蓋的范圍,。在之前的開(kāi)發(fā)中,如果應(yīng)用場(chǎng)景僅針對(duì)壓縮語(yǔ)音那么需要選擇語(yǔ)音編碼方案,,如果應(yīng)用場(chǎng)景針對(duì)壓縮音樂(lè)則需要選擇音樂(lè)編碼方案,,而現(xiàn)在的發(fā)展方向是通過(guò)一套編碼從容應(yīng)對(duì)語(yǔ)音與音樂(lè)兩個(gè)應(yīng)用場(chǎng)景,這就是接下來(lái)將要被提到的USAC,。

這里介紹兩個(gè)比較典型的Codec:

1)一個(gè)是Opus,,通過(guò)其中集成的模塊可實(shí)現(xiàn)根據(jù)傳入音頻文件的采樣率等屬性自動(dòng)選擇語(yǔ)音編碼或音樂(lè)編碼;

2)另一個(gè)是EVS這也是霍朗普等組織推行的方案,,已經(jīng)嘗試用于4G或5G之中,。

EVS (Enhanced Voice Services):主要是VoiceAge, Dolby, Fraunhofer, 華為聯(lián)合開(kāi)發(fā)的USAC編碼器,低速率音樂(lè)編碼質(zhì)量很好,。


詳解音頻編解碼的原理,、演進(jìn)和應(yīng)用選型等


▲ USAC

由框圖我們可以了解到USAC向下兼容的特性。

編解碼器可總結(jié)為經(jīng)歷了三個(gè)時(shí)代:

1)發(fā)聲模型,;

2)聽(tīng)覺(jué)感知,;

3)融合方案。

接下來(lái)我將展示目前所有的Codec情況并整理為表格以方便大家檢索查閱,。

8,、解碼器(Codec)總結(jié)

8.1 IETF系列


詳解音頻編解碼的原理、演進(jìn)和應(yīng)用選型等


IETF作為標(biāo)準(zhǔn)協(xié)議聯(lián)盟組織之一推出了以上Codec:Opus包括采樣率為8kHz,、甜點(diǎn)碼率為11kbps的窄帶單聲語(yǔ)音(SILK),,采樣率為16kHz、甜點(diǎn)碼率為20kbps的寬帶單聲語(yǔ)音與采樣率為48kHz,、甜點(diǎn)碼率為32kbps的全帶單聲語(yǔ)音(CELT),,采用甜點(diǎn)碼率意味著將壓縮率和音質(zhì)保持在一個(gè)良好的平衡狀態(tài)。在一些窄帶單聲語(yǔ)音應(yīng)用場(chǎng)景例如常見(jiàn)的微信語(yǔ)音聊天,,其壓縮率可達(dá)到原來(lái)的8.5%。Opus沒(méi)有技術(shù)專(zhuān)利和源代碼的門(mén)檻,,使得其受到現(xiàn)在很多流媒體廠商的歡迎,,Opus支持更廣的碼率范圍,具備豐富采樣率選擇,,可實(shí)現(xiàn)極低延遲與可變幀大小,,也具備以往一些Codec的許多特性如CBR、VBR,、動(dòng)態(tài)調(diào)整等,,支持的通道數(shù)量也更多。除此之外,,Opus同樣具備許多從SILK移植而來(lái)的特性或功能,。如在VUIB傳輸上集成了扛丟包模式等,。

iLBC早在SILK未出現(xiàn)時(shí)就被提出同樣具備抗丟包。的特性,,高達(dá)15.2kbps的甜點(diǎn)碼率與4.14的Mos使其音質(zhì)較為良好,,超過(guò)G.729的相關(guān)指標(biāo);GSM就是最早手機(jī)網(wǎng)絡(luò)仍停留在2G時(shí)代時(shí)流行的編碼形式,,主要用于蜂窩電話的編碼任務(wù),。

8.2 AMR系列


詳解音頻編解碼的原理、演進(jìn)和應(yīng)用選型等


AMR早在3G時(shí)期就被廣泛應(yīng)用,,AMR-NB是最流行的語(yǔ)音編碼器,,具有壓縮效果好,支持多種碼率形式的特點(diǎn),;與此同時(shí),,這也是GSM與3G時(shí)期Android平臺(tái)最早支持的窄帶語(yǔ)音編碼方案。AMR-WB作為AMR-NB向?qū)拵У臄U(kuò)展版,,主要用于3G和4G通話標(biāo)準(zhǔn)協(xié)議中,,其甜點(diǎn)碼率為12.65kbps。在實(shí)踐中我們將碼率參數(shù)調(diào)整為此值即可實(shí)現(xiàn)壓縮率與質(zhì)量的平衡,。AMR-WB+則是上述兩者的融合,,三者共同構(gòu)成AMR系列。

8.3 ITU-T G系列


詳解音頻編解碼的原理,、演進(jìn)和應(yīng)用選型等


ITU-T G系列包括最早的波形編碼G711到現(xiàn)在大家熟悉的G.729這里我想強(qiáng)調(diào)的是G722.1 Siren7,、G722.1c Siren14與G719 Siren22,例如G.719可覆蓋整個(gè)前頻帶且支持立體聲,。即使都屬于老協(xié)議,,但由于其優(yōu)秀的兼容性,不應(yīng)被我們忽略,。


詳解音頻編解碼的原理,、演進(jìn)和應(yīng)用選型等


將Opus與其他一些Codec進(jìn)行對(duì)比我們可以看到,無(wú)論是質(zhì)量還是延時(shí)控制,,Opus的優(yōu)勢(shì)十分明顯,;加之Opus作為開(kāi)源的免費(fèi)方案,不存在專(zhuān)利限制,,受到業(yè)界追捧也不足為奇,。

8.4 ISO系列


詳解音頻編解碼的原理、演進(jìn)和應(yīng)用選型等


ISO里我想強(qiáng)調(diào)的是MP3與AAC,,二者同樣支持很多碼率,。MP3的甜點(diǎn)碼率為128kbps,MP3 Pro的碼率可達(dá)到MP3的一半;AAC支持8~96khz的采樣率,,AAC-LC的甜點(diǎn)碼率為96kbps,,HE-AAC的甜點(diǎn)碼率為32kbps,AAC-LD與ELD做到了AAC的低延時(shí),,實(shí)現(xiàn)了延時(shí)與壓縮比的最佳平衡,。

8.5 3GPP系列:EVRC

EVRC 是CDMA 中使用的語(yǔ)音編解碼器,由高通公司1995年提出目標(biāo)是取代QCELP,。


詳解音頻編解碼的原理,、演進(jìn)和應(yīng)用選型等


高通公司主推的3GPP是CDMA中使用的語(yǔ)音編解碼器,在未來(lái)選擇編解碼器類(lèi)型時(shí)我們需要特別考慮延時(shí)與幀長(zhǎng),。由于語(yǔ)音編碼種類(lèi)很多,,幀長(zhǎng)也是復(fù)雜多變的,其背后的算法復(fù)雜程度,,RAM,、ROM占用等都是在實(shí)踐當(dāng)中需要著重考慮的。

8.6 極低碼率


詳解音頻編解碼的原理,、演進(jìn)和應(yīng)用選型等


極低碼率主要的應(yīng)用場(chǎng)景是對(duì)講機(jī),、衛(wèi)星通訊、軍工等,。

上圖圖表中的MELP最早由美國(guó)軍方開(kāi)發(fā),,現(xiàn)在絕大多數(shù)的對(duì)講機(jī)都基于此模型進(jìn)行擴(kuò)展開(kāi)發(fā),壓縮后的碼率可達(dá)到2.4kbps而目前最極端的極低碼率可實(shí)現(xiàn)300bps,,相當(dāng)于壓縮為原數(shù)據(jù)的0.2%,,此時(shí)的音頻文件僅能被用于傳達(dá)語(yǔ)音內(nèi)容而丟失了很多聲色。

8.7 全頻帶


詳解音頻編解碼的原理,、演進(jìn)和應(yīng)用選型等


全頻帶中的組合也是多種多樣,。

9、編解碼使用注意

9.1 License


詳解音頻編解碼的原理,、演進(jìn)和應(yīng)用選型等


▲ 開(kāi)源項(xiàng)目常用的Lisence

國(guó)內(nèi)大部分企業(yè)在開(kāi)發(fā)時(shí)容易忽視包括專(zhuān)利安全性在內(nèi)的與License相關(guān)的內(nèi)容,。如果企業(yè)計(jì)劃得比較長(zhǎng)遠(yuǎn),需要長(zhǎng)期使用某項(xiàng)技術(shù)或企業(yè)規(guī)模不斷擴(kuò)大時(shí)則不能不考慮專(zhuān)利問(wèn)題,。專(zhuān)利費(fèi)用包括Open Source與算法專(zhuān)利,,二者完全獨(dú)立互不干涉,如果我們從某家專(zhuān)利公司購(gòu)買(mǎi)了AAC的專(zhuān)利算法,,并不能獲得此AAC專(zhuān)利的源代碼,僅能獲得與此技術(shù)相關(guān)的專(zhuān)利使用授權(quán),。專(zhuān)利公司會(huì)給予需要下載的文件列表,,通過(guò)這種方式實(shí)現(xiàn)技術(shù)的授權(quán)使用。


詳解音頻編解碼的原理、演進(jìn)和應(yīng)用選型等


▲ 一張圖看懂Lisence(來(lái)自:阮一峰的博客)

上面的二叉樹(shù)圖比較清晰地展示了代碼授權(quán)的具體流程,,隨著企業(yè)的規(guī)?;l(fā)展日趨成熟,企業(yè)應(yīng)當(dāng)規(guī)范自身的技術(shù)使用行為,,盡可能避免專(zhuān)利糾紛帶來(lái)的不利影響,。

9.2 專(zhuān)利


詳解音頻編解碼的原理、演進(jìn)和應(yīng)用選型等


▲ 2個(gè)著名的多媒體技術(shù)專(zhuān)利池

主流語(yǔ)音編解碼技術(shù)擁有兩個(gè)專(zhuān)利池:

1)MPEG-LA,;

2)Via Licensing,。

很多非常復(fù)雜的Codec涉及高達(dá)上千個(gè)專(zhuān)利,與之相關(guān)的企業(yè)或組織多達(dá)幾十個(gè),,為專(zhuān)利授權(quán)而與每一個(gè)企業(yè)或組織進(jìn)行洽談顯然是不現(xiàn)實(shí)的,,因而專(zhuān)利池的出現(xiàn)使得技術(shù)授權(quán)更加規(guī)范清晰,方便企業(yè)統(tǒng)一處理技術(shù)授權(quán)問(wèn)題,。

9.3 常見(jiàn)Codec Patent License


詳解音頻編解碼的原理,、演進(jìn)和應(yīng)用選型等


詳解音頻編解碼的原理、演進(jìn)和應(yīng)用選型等


詳解音頻編解碼的原理,、演進(jìn)和應(yīng)用選型等


希望大家在使用技術(shù)的同時(shí)尊重知識(shí)產(chǎn)權(quán),,助力技術(shù)創(chuàng)新可持續(xù)發(fā)展。

10,、講稿PPT下載

(因無(wú)法上傳附件,,請(qǐng)從原文附件下載:http://www./thread-2230-1-1.html)

附錄:更多音視頻技術(shù)資料

[1] 實(shí)時(shí)音視頻開(kāi)發(fā)的其它精華資料:

《實(shí)時(shí)語(yǔ)音聊天中的音頻處理與編碼壓縮技術(shù)簡(jiǎn)述》

《網(wǎng)易視頻云技術(shù)分享:音頻處理與壓縮技術(shù)快速入門(mén)》

《學(xué)習(xí)RFC3550:RTP/RTCP實(shí)時(shí)傳輸協(xié)議基礎(chǔ)知識(shí)》

《基于RTMP數(shù)據(jù)傳輸協(xié)議的實(shí)時(shí)流媒體技術(shù)研究(論文全文)》

《聲網(wǎng)架構(gòu)師談實(shí)時(shí)音視頻云的實(shí)現(xiàn)難點(diǎn)(視頻采訪)》

《淺談開(kāi)發(fā)實(shí)時(shí)視頻直播平臺(tái)的技術(shù)要點(diǎn)》

《還在靠“喂喂喂”測(cè)試實(shí)時(shí)語(yǔ)音通話質(zhì)量?本文教你科學(xué)的評(píng)測(cè)方法,!》

《實(shí)現(xiàn)延遲低于500毫秒的1080P實(shí)時(shí)音視頻直播的實(shí)踐分享》

《移動(dòng)端實(shí)時(shí)視頻直播技術(shù)實(shí)踐:如何做到實(shí)時(shí)秒開(kāi),、流暢不卡》

《如何用最簡(jiǎn)單的方法測(cè)試你的實(shí)時(shí)音視頻方案》

《技術(shù)揭秘:支持百萬(wàn)級(jí)粉絲互動(dòng)的Facebook實(shí)時(shí)視頻直播》

《簡(jiǎn)述實(shí)時(shí)音視頻聊天中端到端加密(E2EE)的工作原理》

《移動(dòng)端實(shí)時(shí)音視頻直播技術(shù)詳解(一):開(kāi)篇》

《移動(dòng)端實(shí)時(shí)音視頻直播技術(shù)詳解(二):采集》

《移動(dòng)端實(shí)時(shí)音視頻直播技術(shù)詳解(三):處理》

《移動(dòng)端實(shí)時(shí)音視頻直播技術(shù)詳解(四):編碼和封裝》

《移動(dòng)端實(shí)時(shí)音視頻直播技術(shù)詳解(五):推流和傳輸》

《移動(dòng)端實(shí)時(shí)音視頻直播技術(shù)詳解(六):延遲優(yōu)化》

《理論聯(lián)系實(shí)際:實(shí)現(xiàn)一個(gè)簡(jiǎn)單地基于HTML5的實(shí)時(shí)視頻直播》

《IM實(shí)時(shí)音視頻聊天時(shí)的回聲消除技術(shù)詳解》

《淺談實(shí)時(shí)音視頻直播中直接影響用戶(hù)體驗(yàn)的幾項(xiàng)關(guān)鍵技術(shù)指標(biāo)》

《如何優(yōu)化傳輸機(jī)制來(lái)實(shí)現(xiàn)實(shí)時(shí)音視頻的超低延遲?》

《首次披露:快手是如何做到百萬(wàn)觀眾同場(chǎng)看直播仍能秒開(kāi)且不卡頓的,?》

《Android直播入門(mén)實(shí)踐:動(dòng)手搭建一套簡(jiǎn)單的直播系統(tǒng)》

《網(wǎng)易云信實(shí)時(shí)視頻直播在TCP數(shù)據(jù)傳輸層的一些優(yōu)化思路》

《實(shí)時(shí)音視頻聊天技術(shù)分享:面向不可靠網(wǎng)絡(luò)的抗丟包編解碼器》

《P2P技術(shù)如何將實(shí)時(shí)視頻直播帶寬降低75%,?》

《專(zhuān)訪微信視頻技術(shù)負(fù)責(zé)人:微信實(shí)時(shí)視頻聊天技術(shù)的演進(jìn)》

《騰訊音視頻實(shí)驗(yàn)室:使用AI黑科技實(shí)現(xiàn)超低碼率的高清實(shí)時(shí)視頻聊天》

《微信團(tuán)隊(duì)分享:微信每日億次實(shí)時(shí)音視頻聊天背后的技術(shù)解密》

《近期大熱的實(shí)時(shí)直播答題系統(tǒng)的實(shí)現(xiàn)思路與技術(shù)難點(diǎn)分享》

《福利貼:最全實(shí)時(shí)音視頻開(kāi)發(fā)要用到的開(kāi)源工程匯總》

《七牛云技術(shù)分享:使用QUIC協(xié)議實(shí)現(xiàn)實(shí)時(shí)視頻直播0卡頓!》

《實(shí)時(shí)音視頻聊天中超低延遲架構(gòu)的思考與技術(shù)實(shí)踐》

《理解實(shí)時(shí)音視頻聊天中的延時(shí)問(wèn)題一篇就夠》

《實(shí)時(shí)視頻直播客戶(hù)端技術(shù)盤(pán)點(diǎn):Native,、HTML5,、WebRTC、微信小程序》

《寫(xiě)給小白的實(shí)時(shí)音視頻技術(shù)入門(mén)提綱》

《微信多媒體團(tuán)隊(duì)訪談:音視頻開(kāi)發(fā)的學(xué)習(xí),、微信的音視頻技術(shù)和挑戰(zhàn)等》

《騰訊技術(shù)分享:微信小程序音視頻技術(shù)背后的故事》

《微信多媒體團(tuán)隊(duì)梁俊斌訪談:聊一聊我所了解的音視頻技術(shù)》

《新浪微博技術(shù)分享:微博短視頻服務(wù)的優(yōu)化實(shí)踐之路》

《實(shí)時(shí)音頻的混音在視頻直播應(yīng)用中的技術(shù)原理和實(shí)踐總結(jié)》

《以網(wǎng)游服務(wù)端的網(wǎng)絡(luò)接入層設(shè)計(jì)為例,,理解實(shí)時(shí)通信的技術(shù)挑戰(zhàn)》

《騰訊技術(shù)分享:微信小程序音視頻與WebRTC互通的技術(shù)思路和實(shí)踐》

《新浪微博技術(shù)分享:微博實(shí)時(shí)直播答題的百萬(wàn)高并發(fā)架構(gòu)實(shí)踐》

《技術(shù)干貨:實(shí)時(shí)視頻直播首屏耗時(shí)400ms內(nèi)的優(yōu)化實(shí)踐》

>> 更多同類(lèi)文章 ……

[2] 開(kāi)源實(shí)時(shí)音視頻技術(shù)WebRTC的文章:

《開(kāi)源實(shí)時(shí)音視頻技術(shù)WebRTC的現(xiàn)狀》

《簡(jiǎn)述開(kāi)源實(shí)時(shí)音視頻技術(shù)WebRTC的優(yōu)缺點(diǎn)》

《訪談WebRTC標(biāo)準(zhǔn)之父:WebRTC的過(guò)去、現(xiàn)在和未來(lái)》

《良心分享:WebRTC 零基礎(chǔ)開(kāi)發(fā)者教程(中文)[附件下載]》

《WebRTC實(shí)時(shí)音視頻技術(shù)的整體架構(gòu)介紹》

《新手入門(mén):到底什么是WebRTC服務(wù)器,,以及它是如何聯(lián)接通話的,?》

《WebRTC實(shí)時(shí)音視頻技術(shù)基礎(chǔ):基本架構(gòu)和協(xié)議棧》

《淺談開(kāi)發(fā)實(shí)時(shí)視頻直播平臺(tái)的技術(shù)要點(diǎn)》

《[觀點(diǎn)] WebRTC應(yīng)該選擇H.264視頻編碼的四大理由》

《基于開(kāi)源WebRTC開(kāi)發(fā)實(shí)時(shí)音視頻靠譜嗎,?第3方SDK有哪些,?》

《開(kāi)源實(shí)時(shí)音視頻技術(shù)WebRTC中RTP/RTCP數(shù)據(jù)傳輸協(xié)議的應(yīng)用》

《簡(jiǎn)述實(shí)時(shí)音視頻聊天中端到端加密(E2EE)的工作原理》

《實(shí)時(shí)通信RTC技術(shù)棧之:視頻編解碼》

《開(kāi)源實(shí)時(shí)音視頻技術(shù)WebRTC在Windows下的簡(jiǎn)明編譯教程》

《網(wǎng)頁(yè)端實(shí)時(shí)音視頻技術(shù)WebRTC:看起來(lái)很美,但離生產(chǎn)應(yīng)用還有多少坑要填?》

《了不起的WebRTC:生態(tài)日趨完善,,或?qū)?shí)時(shí)音視頻技術(shù)白菜化》

《騰訊技術(shù)分享:微信小程序音視頻與WebRTC互通的技術(shù)思路和實(shí)踐》

>> 更多同類(lèi)文章 ……

(本文同步發(fā)布于:http://www./thread-2230-1-1.html)

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多