音頻編解碼器是現代媒體系統的基礎核心之一。沒有音頻編解碼器,就不會有現在的數字廣播、流媒體服務及音樂發行。首個同時也仍是最主流的MPEG音頻編解碼器是于1998年面市的mp3。此后,Fraunhofer IIS和其他ISO-MPEG成員參與者開發并制定了多個音頻編解碼器。 每個MPEG音頻編解碼器已經或將會改變我們消費媒體的方式。本文介紹了MPEG音頻編解碼器及其應用,并展現現代音頻編碼方案最成功的創建者Fraunhofer IIS。
MPEG L3: mp3
mp3徹底改變了音樂產業,也改變了消費者購買和享受音樂的方式。mp3目前仍然是音樂發行的主要格式,因為mp3文件可以在任何設備上隨時隨地播放。mp3技術于上世紀80年代末開始開發,1995年,隨著以 “.mp3”為后綴的文件的誕生,該技術達到了頂峰。同年,Fraunhofer IIS推出了第一個mp3播放器的硬件原型。該文件后綴mp3很快成為 “MPEG Layer 3”標準名稱的替稱,但是直到三年后,即1998年,第一款mp3播放器才投放市場。
mp3是一種感知型音頻編解碼器,這類編解碼器基于人類聽覺系統的感知模型。這些模型描述了人耳能夠感知以及無法感知的音頻信號元素,無論聽眾的耳朵是否經受過訓練。通過分析音頻信號,mp3和其他感知型音頻編解碼器確認了以上事實,即音質各指標可按人耳的感知優先排序,并在最終音頻文件中精細的表現出來。因此,如果比特率(即至少192 kbps)選擇得當,聽眾則無法辨別mp3文件與源文件之間的差別。
不僅mp3基于感知模型,目前大部分的MPEG系列的音頻編解碼器也能夠明智的利用人類聽覺系統,來降低數據速率和文件大小。AAC系列的音頻編解碼器也不例外。
AAC系列
AAC-LC
在市場大規模采用mp3之前,MPEG就已開發另一款音頻編解碼器。目的是在顯著降低數據速率的同時實現與mp3同樣高品質的音頻質量。自此,開啟了研發序幕,從1994年的AAC ,至2012年的擴展型HE-AAC。整個編解碼器系列序幕。
1994年,根據MPEG-2格式制定了首款新型AAC編解碼器,命名為高級音頻編碼(Advanced Audio Coding,AAC)。根據mp3和其他編解碼器專利的開發經驗,AT&T、Dolby、Fraunhofer IIS以及Sony等主要參與者從頭開始設計一款最先進的新型音頻編解碼器。通過增加感知噪聲建模(Perceptual Noise Shaping,PNS)、頻帶復制(Spectral Band Replication,SBR),以及參數立體聲編碼(Parametric Stereo,PS)等工具,將MPEG-2 AAC編解碼器擴展至MPEG-4標準。
基本的MPEG-4 AAC配置被稱為AAC-LC(低復雜性)的配置。它能提供“水晶般”的音頻質量。在音頻編碼域中,“水晶般”音頻的編碼信號雖然在數學上與源文件有差異,但即便是擁有“金耳朵”的聽力專家也無法辨別其與源文件的區別。因此,AAC-LC可以滿足廣播公司最高的音頻質量要求。立體聲AAC-LC比特率通常為128-192 kbps,5.1多聲道AAC-LC比特率為320 kbps,兩種AAC均以立聲道進行編碼。AAC-LC是目前最靈活的音頻編解碼器之一,采樣率從8 kHz到192 kHz,每聲道的比特率高達256 kbps,并支持48聲道。該配置最著名的應用就是Apple iTunes,并已用于日本ISDB數字電視標準。
圖1: MPEG AAC音頻編解碼器系列概覽
HE-AAC 和 HE-AACv2
MPEG-4“高效配置(High Efficiency Profile, HE-AAC)”結合了MPEG-4 AAC-LC和參量頻譜復制(Spectral Band Replication,SBR)工具,從而可以進一步降低總比特率,同時保持出色的音頻質量。當立體聲信號的比特率低于128 kbps時,HE-AAC與同音頻質量的AAC-LC相比,比特率降低了30%。對于HE-AAC,低音頻頻譜使用AAC-LC進行編碼,高頻譜通過SBR工具編碼。頻譜復制是一種參數方法,可使用該頻譜的高低重新創建該信號的整個音頻頻譜。為了進一步降低比特率,AAC-LC編碼使用總信號50%的采樣進行低頻率編碼。HE-AAC立體聲所用的典型數據速率為48-64kbps,HE-AAC 5.1多聲道的典型數據速率為160 kbps。同AAC-LC一樣,HE-AAC支持8至 192kHz的采樣率、高達48個聲道以及音頻特定的元數據。
“高效AAC v2配置(HE-AACv2)”在HE-AAC基礎上添加了參數聲音(Parametric Sound,PS)工具。HE-AACv2 應用參數進行立體聲信號編碼,并進一步降低了比特率。參數聲音編碼器不是發送兩個聲道,而是從立體聲信號中提取參數,在解碼器側重建立體聲信號,然后生成一個HE-AAC編碼的單聲道混音。參數數據與頻譜數據在AAC比特流的輔助數據字段中傳輸。解碼器解碼單聲道信號,參數解碼器重建立體聲。對于立體聲來說,采用參數數據傳輸HE-AAC編碼的單聲道信號比傳輸雙聲道 、HE-AAC編碼信號的效率更高。對于立體聲信號來說,HE-AACv2典型比特率為24至32 kbps。
圖3: HE-AAC v2編碼器解碼器工作原理
目前,AAC和HE-AAC得到廣泛應用。尤其是在互聯網應用中, AAC和HE-AAC是mp3之外主要的音頻編解碼器。
HE-AACv2廣泛地應用于最先進的電視廣播系統。它是DVB工具箱的組成部分,還是最近推出了第二代地面電視指定的編解碼器,應用在西班牙、英國、法國、愛爾蘭、瑞典、奧地利、意大利、丹麥、芬蘭和挪威等國家。在巴西和南美洲的大多數國家,HE-AAC是地面電視廣播的唯一指定音頻編解碼器。此外,HE-AAC也是智能電視中的一個指定部件。例如,它是歐洲混合廣播寬帶電視(Hybrid Broadcast Broadband TV,HbbTV)數據服務的指定編解碼器。因此,所有高清電視接收器設備,如目前歐洲和南美洲銷售的電視機和機頂盒,都支持HE-AAC。所有主要廣播編碼器廠商很早之前便將HE-AAC部署到他們的設備中。當然,HE-AACv2支持所有相關的廣播元數據。
HE-AAC是主流音頻流媒體編解碼器。所有主要的流媒體平臺都支持HE-AAC,包括Flash、Silverlight、Windows Media Player、Winamp以及iTunes。Mac OS X和Windows等操作系統中都有HE-AAC, iOS、Android、Windows Phone、Symbian及BlackBerry等手機系統也是如此。
目前,蘋果HLS、微軟Smooth Streaming及Adobe Dynamic Streaming等成熟的http適配流媒體系統也基于AAC系列編解碼器。
HE-AACv2還是消費電子領域內流媒體標準的一個重要部分,在Open IPTV Forum、ATIS、HbbTV和DLNA等電子領域發揮著不可或缺的作用。因此,幾乎所有的數字電視、藍光播放器、機頂盒和游戲機都支持該編解碼器。HE-AACv2的廣泛支持使它成為內容提供商選擇的最佳編解碼器。因此,Pandora、Aupeo、Hulu以及BBC iPlayer等大多數網絡廣播都基于HE-AACv2。
MPEG Surround技術可以看作是參數立體聲原理從立體聲到多聲道的擴展。不同于參數立體聲工具,MPEG Surround在比特率和質量方面更具擴展性。MPEG Surround可與AAC系列編解碼器相結合,提供更高的編碼效率。MPEG Surround的另一個優勢是它能夠反向兼容立體聲信號。比特流始終包含AAC編碼核心立體聲信號和MPEG Surround這兩個元素。立體聲解碼器可以提取核心立體聲信號,并對其進行解碼,而支持MPEG Surround的解碼器可重建整個多聲道音頻信號。這樣,就可以通過平價或傳統的立體聲接收器或多聲道接收器在混合信號接收器中使用MPEG Surround,而無需同時播放立體聲和多聲道信號。
圖4: MPEG Surround編解碼組合
低延遲音頻編解碼器: AAC-LD、AAC-ELD和AAC-ELDv2
MPEG編解碼器不僅廣泛應用于廣播、流媒體和音樂發行中,還用于通信應用。AAC系列通信編解碼器在高品質會議和視頻電話系統中尤其受歡迎,因為它們幫助服務提供商和運營商提供全高清的語音服務。全高清語音是通信系統能夠實現的最高音頻質量。傳統的窄帶電話僅能傳輸最高 3.5 kHz的音頻帶寬,而全高清語音系統則能傳輸從14 kHz到人耳能聽到的全部音頻頻譜。通過這種方法,全高清語音通話聽起來像與同一房間的人交談那樣清晰。AAC系列的全高清語音編解碼器包括低延遲 AAC (Low Delay AAC,AAC-LD)、增強型低延遲 AAC (Enhanced Low Delay AAC,AAC-ELD)以及增強型低延遲AACv2 (AAC-ELDv2)。
AAC-LD是高品質視頻會議的行業標準,可提供全帶寬、低延遲的音頻編碼。它具有僅20毫秒的算法延遲,同時為所有類型的音頻信號提供良好的壓縮率和高聲質。
AAC-ELD是AAC-LD的增強型版本,結合了MPEG-4 AAC-LD和頻譜復制。 AAC-ELD也是所有要求在24 kbps低數據速率下擁有全音頻帶寬的延遲敏感型應用的最佳選擇。
AAC-LD和AAC-ELD目前已經用于專業及消費級視頻會議應用,例如,蘋果的FaceTime應用就是基于AAC-ELD。
AAC-ELDv2是卓越的AAC-ELD音頻編解碼器的最新擴展。AAC-ELDv2結合了AAC-ELD優化延遲參數多聲道編碼的優勢這種方法只允許傳輸一個單聲道及其他信息,而不是兩個獨立的聲道。
擴展型HE-AAC
AAC系列的最新成員是擴展型HE-AAC。2012 年年初,MPEG標準化剛剛完成。擴展型HE-AAC顯著提高了音樂和語音的音頻質量,尤其是在8 kbps等極低的比特率下,并與HE-AAC流兼容。新的編解碼器將兩個先前分離的通用音頻編碼和語音編碼結合在一起,具備了現有的語音和音樂編解碼器的優勢。HE-AACv2音頻編解碼器添加了一套新的編碼工具后,擴展型HE-AAC的性能大大超過了專用語音和通用音頻編碼方案,彌補了二者的不足,為所有信號類型提供一致的高品質音頻。
結語
無論是娛樂還是通信應用,MPEG音頻編解碼器用于所有最先進的消費電子、IT和通信設備中。從上世紀90年代末開始出現的mp3起,MPEG音頻編解碼器的發展從未間斷過。mp3及其后續產品AAC在消費領域廣為人知,對于HE-AAC或AAC-ELD等在后臺運行的其他MPEG編解碼器,只有專業人士才有所了解,但大部分人在日常生活中都在使用這些編解碼器,例如,觀看互聯網視頻或使用Apple FaceTime打電話。Fraunhofer IIS在每個音頻編解碼器的開發和市場推廣方面都起到了重要作用。
評論
查看更多