MPEG-4,MPEG-4是什么意思
MPEG-4,MPEG-4是什么意思
MPEG-4于1998年11月公布,原預(yù)計1999年1月投入使用的國際標(biāo)準(zhǔn)MPEG-4不僅是針對一定比特率下的視頻、音頻編碼,更加注重多媒體系統(tǒng)的交互性和靈活性。MPEG專家組的專家們正在為MPEG-4的制定努力工作。MPEG-4標(biāo)準(zhǔn)主要應(yīng)用于視像電話(VideoPhone),視像電子郵件(VideoEmail)和電子新聞(ElectronicNews)等,其傳輸速率要求較低,在4800-64000bits/sec之間,分辨率為176X144。MPEG-4利用很窄的帶寬,通過幀重建技術(shù),壓縮和傳輸數(shù)據(jù),以求以最少的數(shù)據(jù)獲得最佳的圖像質(zhì)量。
與MPEG-1和MPEG-2相比,MPEG-4的特點是其更適于交互AV服務(wù)以及遠(yuǎn)程監(jiān)控。MPEG-4是第一個使你由被動變?yōu)橹鲃?不再只是觀看,允許你加入其中,即有交互性)的動態(tài)圖像標(biāo)準(zhǔn);它的另一個特點是其綜合性;從根源上說,MPEG-4試圖將自然物體與人造物體相溶合(視覺效果意義上的)。MPEG-4的設(shè)計目標(biāo)還有更廣的適應(yīng)性和可擴展性。MPEG-4試圖達(dá)到兩個目標(biāo):
一、低比特率下的多媒體通信;
二、是多工業(yè)的多媒體通信的綜合。據(jù)此目標(biāo),MPEG-4引入AV對象(Audio/VisaulObjects),使得更多的交互操作成為可能。
MPEG-4是為在國際互聯(lián)網(wǎng)絡(luò)上或移動通信設(shè)備(例如移動電話)上實時傳輸音/視頻訊號而制定的最新MPEG標(biāo)準(zhǔn),MPEG-4采用ObjectBased方式解壓縮,壓縮比指標(biāo)遠(yuǎn)遠(yuǎn)優(yōu)于以上幾種,壓縮倍數(shù)為450倍(靜態(tài)圖像可達(dá)800倍),分辨率輸入可從320×240到1280×1024,這是同質(zhì)量的MPEG-1和MJEPG的十倍多。
MPEG-4使用「圖層」(layer)方式,能夠智能化選擇影像的不同之處,是可根據(jù)圖像內(nèi)容,將其中的對象(人物、物體、背景)分離出來分別進行壓縮,使圖文件容量大幅縮減,而加速音/視頻的傳輸,這不僅僅大大提高了壓縮比,也使圖像探測的功能和準(zhǔn)確性更充分的體現(xiàn)出來。
在網(wǎng)絡(luò)傳輸中可以設(shè)定MPEG-4的碼流速率,清晰度也可在一定的范圍內(nèi)作相應(yīng)的變化,這樣便于用戶根據(jù)自己對錄像時間、傳輸路數(shù)和清晰度的不同要求進行不同的設(shè)置,大大提高了系統(tǒng)使用時的適應(yīng)性和靈活性。也可采用動態(tài)幀測技術(shù),動態(tài)時快錄,靜態(tài)時慢錄,從而減少平均數(shù)據(jù)量,節(jié)省存儲空間。而且當(dāng)在傳輸有誤碼或丟包現(xiàn)象時,MPEG-4受到的影響很小,并且能迅速恢復(fù)。
MPEG-4的應(yīng)用前景將是非常廣闊的。它的出現(xiàn)將對以下各方面產(chǎn)生較大的推動作用:數(shù)字電視、動態(tài)圖像、萬維網(wǎng)(WWW)、實時多媒體監(jiān)控、低比特率下的移動多媒體通信、于內(nèi)容存儲和檢索多媒系統(tǒng)、Internet/Intranet上的視頻流與可視游戲、基于面部表情模擬的虛擬會議、DVD上的交互多媒體應(yīng)用、基于計算機網(wǎng)絡(luò)的可視化合作實驗室場景應(yīng)用、演播電視等。
當(dāng)然,除了MPEG-4外,還有更先進的下一個版本MPEG-7,準(zhǔn)確來說,MPEG-7并不是一種壓縮編碼方法,而是一個多媒體內(nèi)容描述接口。繼MPEG-4之后,要解決的矛盾就是對日漸龐大的圖像、聲音信息的管理和迅速搜索。MPEG-7就是針對這個矛盾的解決方案。MPEG-7力求能夠快速且有效地搜索出用戶所需的不同類型的多媒體材料。預(yù)計這個方案于2001年初最終完成并公布。按照以往MPEG-4的經(jīng)驗,MPEG-7起碼要再過兩年才能進入實際應(yīng)用階。
MPEG-4簡介
MPEG4于1998 年11 月公布,原預(yù)計1999 年1月投入使用的國際標(biāo)準(zhǔn)MPEG4不僅是針對一定比特率下的視頻、音頻編碼,更加注重多媒體系統(tǒng)的交互性和靈活性。MPEG專家組的專家們正在為MPEG-4的制定努力工作。MPEG-4標(biāo)準(zhǔn)主要應(yīng)用于視像電話(Video Phone),視像電子郵件(Video Email)和電子新聞(Electronic News)等,其傳輸速率要求較低,在4800-64000bits/sec之間,分辨率為176X144。MPEG-4利用很窄的帶寬,通過幀重建技術(shù),壓縮和傳輸數(shù)據(jù),以求以最少的數(shù)據(jù)獲得最佳的圖像質(zhì)量。
與MPEG-1和MPEG-2相比,MPEG-4的特點是其更適于交互AV服務(wù)以及遠(yuǎn)程監(jiān)控。MPEG-4是第一個使你由被動變?yōu)橹鲃?不再只是觀看,允許你加入其中,即有交互性)的動態(tài)圖像標(biāo)準(zhǔn),它的另一個特點是其綜合性。從根源上說,MPEG-4試圖將自然物體與人造物體相溶合(視覺效果意義上的)。MPEG-4的設(shè)計目標(biāo)還有更廣的適應(yīng)性和更靈活的可擴展性。
MPEG-4目標(biāo)
一、 低比特率下的多媒體通信;
二、 是多工業(yè)的多媒體通信的綜合。
據(jù)此目標(biāo),MPEG4 引入AV 對象(Audio/Visaul Objects), 使得更多的交互操作成為可能。
MPEG-4是為在國際互聯(lián)網(wǎng)絡(luò)上或移動通信設(shè)備(例如移動電話)上實時傳輸音/視頻訊號而制定的最新MPEG標(biāo)準(zhǔn),MPEG4采用Object Based方式解壓縮,壓縮比指標(biāo)遠(yuǎn)遠(yuǎn)優(yōu)于以上幾種,壓縮倍數(shù)為450倍(靜態(tài)圖像可達(dá)800倍),分辨率輸入可從320 ×240到1280 ×1024,這是同質(zhì)量的MPEG1和MJEPG的十倍多。
MPEG4使用「圖層」(layer)方式,能夠智能化選擇影像的不同之處,是可根據(jù)圖像內(nèi)容,將其中的對象(人物、物體、背景)分離出來分別進行壓縮,使圖文件容量大幅縮減,而加速音/視頻的傳輸,這不僅僅大大提高了壓縮比,也使圖像探測的功能和準(zhǔn)確性更充分的體現(xiàn)出來。
在網(wǎng)絡(luò)傳輸中可以設(shè)定MPEG4的碼流速率,清晰度也可在一定的范圍內(nèi)作相應(yīng)的變化,這樣便于用戶根據(jù)自己對錄像時間、傳輸路數(shù)和清晰度的不同要求進行不同的設(shè)置,大大提高了系統(tǒng)使用時的適應(yīng)性和靈活性。也可采用動態(tài)幀測技術(shù),動態(tài)時快錄,靜態(tài)時慢錄,從而減少平均數(shù)據(jù)量,節(jié)省存儲空間。而且當(dāng)在傳輸有誤碼或丟包現(xiàn)象時,MPEG4受到的影響很小,并且能迅速恢復(fù)。
MPEG4的應(yīng)用前景將是非常廣闊的。 它的出現(xiàn)將對以下各方面產(chǎn)生較大的推動作用:數(shù)字電視、動態(tài)圖像、萬維網(wǎng)(WWW)、實時多媒體監(jiān)控、低比特率下的移動多媒體通信、于內(nèi)容存儲和檢索多媒系統(tǒng)、Internet/Intranet上的視頻流與可視游戲、基于面部表情模擬的虛擬會議、DVD上的交互多媒體應(yīng)用、基于計算機網(wǎng)絡(luò)的可視化合作實驗室場景應(yīng)用、演播電視等。
當(dāng)然,除了MPEG 4外,還有更先進的下一個版本MPEG 7 ,準(zhǔn)確來說, MPEG-7并不是一種壓縮編碼方法,而是一個多媒體內(nèi)容描述接口。繼MPEG4之后,要解決的矛盾就是對日漸龐大的圖像、聲音信息的管理和迅速搜索。MPEG 7就是針對這個矛盾的解決方案。MPEG7力求能夠快速且有效地搜索出用戶所需的不同類型的多媒體材料。預(yù)計這個方案于2001年初最終完成并公布。按照以往 MPEG-4的經(jīng)驗,MPEG-7起碼要再過兩年才能進入實際應(yīng)用階段。
多媒體視頻編碼
運動圖像專家組MPEG 于1999年2月正式公布了MPEG-4(ISO/IEC14496)標(biāo)準(zhǔn)第一版本。同年年底MPEG-4第二版亦告底定,MPEG4 多媒體編碼衛(wèi)星電視數(shù)字機頂盒且于2000年年初正式成為國際標(biāo)準(zhǔn)。
MPEG-4與MPEG-1和MPEG-2有很大的不同。MPEG-4不只是具體壓縮算法,它是針對數(shù)字電視、交互式繪圖應(yīng)用(影音合成內(nèi)容)、交互式多媒體(WWW、資料擷取與分散)等整合及壓縮技術(shù)的需求而制定的國際標(biāo)準(zhǔn)。MPEG -4標(biāo)準(zhǔn)將眾多的多媒體應(yīng)用集成于一個完整的框架內(nèi),旨在為多媒體通信及應(yīng)用環(huán)境提供標(biāo)準(zhǔn)的算法及工具,從而建立起一種能被多媒體傳輸、存儲、檢索等應(yīng)用領(lǐng)域普遍采用的統(tǒng)一數(shù)據(jù)格式。
MPEG-4的編碼理念是:MPEG-4標(biāo)準(zhǔn)同以前標(biāo)準(zhǔn)的最顯著的差別在于它是采用基于對象的編碼理念,即在編碼時將一幅景物分成若干在時間和空間上相互聯(lián)系的視頻音頻對象,分別編碼后,再經(jīng)過復(fù)用傳輸?shù)浇邮斩耍缓笤賹Σ煌膶ο蠓謩e解碼,從而組合成所需要的視頻和音頻。這樣既方便我們對不同的對象采用不同的編碼方法和表示方法,又有利于不同數(shù)據(jù)類型間的融合,并且這樣也可以方便的實現(xiàn)對于各種對象的操作及編輯。例如,我們可以將一個卡通人物放在真實的場景中,或者將真人置于一個虛擬的演播室里,還可以在互聯(lián)網(wǎng)上方便的實現(xiàn)交互,根據(jù)自己的需要有選擇的組合各種視頻音頻以及圖形文本對象。
MPEG-4系統(tǒng)的一般框架是:對自然或合成的視聽內(nèi)容的表示;對視聽內(nèi)容數(shù)據(jù)流的管理,如多點、同步、緩沖管理等;對靈活性的支持和對系統(tǒng)不同部分的配置。
MPEG-4的優(yōu)點
(1) 基于內(nèi)容的交互性
MPEG-4提供了基于內(nèi)容的多媒體數(shù)據(jù)訪問工具,如索引、超級鏈接、上傳、下載、刪除等。利用這些工具,用戶可以方便地從多媒體數(shù)據(jù)庫中有選擇地獲取自己所需的與對象有關(guān)的內(nèi)容,并提供了內(nèi)容的操作和位流編輯功能,可應(yīng)用于交互式家庭購物,淡入淡出的數(shù)字化效果等。MPEG-4提供了高效的自然或合成的多媒體數(shù)據(jù)編碼方法。它可以把自然場景或?qū)ο蠼M合起來成為合成的多媒體數(shù)據(jù)。
(2)高效的壓縮性
MPEG-4基于更高的編碼效率。同已有的或即將形成的其它標(biāo)準(zhǔn)相比,在相同的比特率下,它基于更高的視覺聽覺質(zhì)量,這就使得在低帶寬的信道上傳送視頻、音頻成為可能。同時MPEG-4還能對同時發(fā)生的數(shù)據(jù)流進行編碼。一個場景的多視角或多聲道數(shù)據(jù)流可以高效、同步地合成為最終數(shù)據(jù)流。這可用于虛擬三維游戲、三維電影、飛行仿真練習(xí)等。
(3)通用的訪問性
MPEG-4提供了易出錯環(huán)境的魯棒性,來保證其在許多無線和有線網(wǎng)絡(luò)以及存儲介質(zhì)中的應(yīng)用,此外,MPEG-4還支持基于內(nèi)容的的可分級性,即把內(nèi)容、質(zhì)量、復(fù)雜性分成許多小塊來滿足不同用戶的不同需求,支持具有不同帶寬,不同存儲容量的傳輸信道和接收端。
這些特點無疑會加速多媒體應(yīng)用的發(fā)展,從中受益的應(yīng)用領(lǐng)域有:因特網(wǎng)多媒體應(yīng)用;廣播電視;交互式視頻游戲;實時可視通信;交互式存儲媒體應(yīng)用;演播室技術(shù)及電視后期制作;采用面部動畫技術(shù)的虛擬會議;多媒體郵件;移動通信條件下的多媒體應(yīng)用;遠(yuǎn)程視頻監(jiān)控;通過ATM網(wǎng)絡(luò)等進行的遠(yuǎn)程數(shù)據(jù)庫業(yè)務(wù)等。
MPEG-4視頻編碼核心思想及關(guān)鍵技術(shù)
MPEG-4視頻編碼核心思想及技術(shù)研究"
摘要
MPEG-4是新一代基于內(nèi)容的多媒體數(shù)據(jù)壓縮編碼國際標(biāo)準(zhǔn),它與傳統(tǒng)視頻編碼標(biāo)準(zhǔn)的最大不同在于第一次提出了基于對象的視頻編碼新概念。基于內(nèi)容的交互性是MPEG-4標(biāo)準(zhǔn)的核心思想,這對于視頻編碼技術(shù)的發(fā)展方向及廣泛應(yīng)用都具有特別重要的意義。
劉達(dá) 毛加軒 文章來源:中國數(shù)據(jù)通信
關(guān)鍵詞 MPEG-4 數(shù)據(jù)壓縮 視頻編碼 視聽對象 基于內(nèi)容編碼 視頻對象提取 運動估計與補償
1 引言
當(dāng)今時代,信息技術(shù)和計算機互聯(lián)網(wǎng)飛速發(fā)展,在此背景下,多媒體信息已成為人類獲取信息的最主要載體,同時也成為電子信息領(lǐng)域技術(shù)開發(fā)和研究的熱點。多媒體信息經(jīng)數(shù)字化處理后具有易于加密、抗干擾能力強、可再生中繼等優(yōu)點,但同時也伴隨海量數(shù)據(jù)的產(chǎn)生,這對信息存儲設(shè)備及通信網(wǎng)絡(luò)均提出了很高要求,從而成為阻礙人們有效獲取和使用信息的重大瓶頸。
因此研究高效的多媒體數(shù)據(jù)壓縮編碼方法,以壓縮形式存儲和傳輸數(shù)字化的多媒體信息具有重要意義。作為多媒體技術(shù)的核心及關(guān)鍵,多媒體數(shù)據(jù)壓縮編碼近年來在技術(shù)及應(yīng)用方面都取得了長足進展,它的進步和完善正深刻影響著現(xiàn)代社會的方方面面。
2 視頻編碼研究與MPEG標(biāo)準(zhǔn)演進
人類獲取的信息中70%來自于視覺,視頻信息在多媒體信息中占有重要地位;同時視頻數(shù)據(jù)冗余度最大,經(jīng)壓縮處理后的視頻質(zhì)量高低是決定多媒體服務(wù)質(zhì)量的關(guān)鍵因素。因此數(shù)字視頻技術(shù)是多媒體應(yīng)用的核心技術(shù),對視頻編碼的研究已成為信息技術(shù)領(lǐng)域的熱門話題。
視頻編碼的研究課題主要有數(shù)據(jù)壓縮比、壓縮/解壓速度及快速實現(xiàn)算法三方面內(nèi)容。以壓縮/解壓后數(shù)據(jù)與壓縮前原始數(shù)據(jù)是否完全一致作為衡量標(biāo)準(zhǔn),可將數(shù)據(jù)壓縮劃分為無失真壓縮(即可逆壓縮)和有失真壓縮(即不可逆壓縮)兩類。
傳統(tǒng)壓縮編碼建立在仙農(nóng)信息論基礎(chǔ)之上的,以經(jīng)典集合論為工具,用概率統(tǒng)計模型來描述信源,其壓縮思想基于數(shù)據(jù)統(tǒng)計,因此只能去除數(shù)據(jù)冗余,屬于低層壓縮編碼的范疇。
伴隨著視頻編碼相關(guān)學(xué)科及新興學(xué)科的迅速發(fā)展,新一代數(shù)據(jù)壓縮技術(shù)不斷誕生并日益成熟,其編碼思想由基于像素和像素塊轉(zhuǎn)變?yōu)榛趦?nèi)容 (content-based)。它突破了仙農(nóng)信息論框架的束縛,充分考慮了人眼視覺特性及信源特性,通過去除內(nèi)容冗余來實現(xiàn)數(shù)據(jù)壓縮,可分為基于對象(object-based)和基于語義(semantics-based)兩種,前者屬于中層壓縮編碼,后者屬于高層壓縮編碼。
與此同時,視頻編碼相關(guān)標(biāo)準(zhǔn)的制定也日臻完善。視頻編碼標(biāo)準(zhǔn)主要由ITU-T和ISO/IEC開發(fā)。ITU-T發(fā)布的視頻標(biāo)準(zhǔn)有H.261、 H.262、 H.263、 H.263+、H.263++,ISO/IEC公布的MPEG系列標(biāo)準(zhǔn)有MPEG-1、MPEG-2 、MPEG-4 和MPEG-7,并且計劃公布MPEG-21。
MPEG即Moving Picture Expert Group(運動圖像專家組),它是專門從事制定多媒體視音頻壓縮編碼標(biāo)準(zhǔn)的國際組織。MPEG系列標(biāo)準(zhǔn)已成為國際上影響最大的多媒體技術(shù)標(biāo)準(zhǔn),其中MPEG-1和MPEG-2是采用以仙農(nóng)信息論為基礎(chǔ)的預(yù)測編碼、變換編碼、熵編碼及運動補償?shù)鹊谝淮鷶?shù)據(jù)壓縮編碼技術(shù);MPEG-4(ISO/IEC 14496)則是基于第二代壓縮編碼技術(shù)制定的國際標(biāo)準(zhǔn),它以視聽媒體對象為基本單元,采用基于內(nèi)容的壓縮編碼,以實現(xiàn)數(shù)字視音頻、圖形合成應(yīng)用及交互式多媒體的集成。MPEG系列標(biāo)準(zhǔn)對VCD、DVD等視聽消費電子及數(shù)字電視和高清晰度電視(DTV&&HDTV)、多媒體通信等信息產(chǎn)業(yè)的發(fā)展產(chǎn)生了巨大而深遠(yuǎn)的影響。
3 MPEG-4視頻編碼核心思想及關(guān)鍵技術(shù)
3.1 核心思想
在MPEG-4制定之前,MPEG-1、MPEG-2、H.261、H.263都是采用第一代壓縮編碼技術(shù),著眼于圖像信號的統(tǒng)計特性來設(shè)計編碼器,屬于波形編碼的范疇。第一代壓縮編碼方案把視頻序列按時間先后分為一系列幀,每一幀圖像又分成宏塊以進行運動補償和編碼,這種編碼方案存在以下缺陷:
· 將圖像固定地分成相同大小的塊,在高壓縮比的情況下會出現(xiàn)嚴(yán)重的塊效應(yīng),即馬賽克效應(yīng);
· 不能對圖像內(nèi)容進行訪問、編輯和回放等操作;
· 未充分利用人類視覺系統(tǒng)(HVS,Human Visual System)的特性。
MPEG-4則代表了基于模型/對象的第二代壓縮編碼技術(shù),它充分利用了人眼視覺特性,抓住了圖像信息傳輸?shù)谋举|(zhì),從輪廓、紋理思路出發(fā),支持基于視覺內(nèi)容的交互功能,這適應(yīng)了多媒體信息的應(yīng)用由播放型轉(zhuǎn)向基于內(nèi)容的訪問、檢索及操作的發(fā)展趨勢。
AV對象(AVO,Audio Visual Object)是MPEG-4為支持基于內(nèi)容編碼而提出的重要概念。對象是指在一個場景中能夠訪問和操縱的實體,對象的劃分可根據(jù)其獨特的紋理、運動、形狀、模型和高層語義為依據(jù)。在MPEG-4中所見的視音頻已不再是過去MPEG-1、MPEG-2中圖像幀的概念,而是一個個視聽場景(AV場景),這些不同的AV場景由不同的AV對象組成。AV對象是聽覺、視覺、或者視聽內(nèi)容的表示單元,其基本單位是原始AV對象,它可以是自然的或合成的聲音、圖像。原始AV對象具有高效編碼、高效存儲與傳輸以及可交互操作的特性,它又可進一步組成復(fù)合AV對象。因此MPEG-4標(biāo)準(zhǔn)的基本內(nèi)容就是對AV對象進行高效編碼、組織、存儲與傳輸。AV對象的提出,使多媒體通信具有高度交互及高效編碼的能力,AV對象編碼就是MPEG-4的核心編碼技術(shù)。
MPEG-4不僅可提供高壓縮率,同時也可實現(xiàn)更好的多媒體內(nèi)容互動性及全方位的存取性,它采用開放的編碼系統(tǒng),可隨時加入新的編碼算法模塊,同時也可根據(jù)不同應(yīng)用需求現(xiàn)場配置解碼器,以支持多種多媒體應(yīng)用。
MPEG-4 采用了新一代視頻編碼技術(shù),它在視頻編碼發(fā)展史上第一次把編碼對象從圖像幀拓展到具有實際意義的任意形狀視頻對象,從而實現(xiàn)了從基于像素的傳統(tǒng)編碼向基于對象和內(nèi)容的現(xiàn)代編碼的轉(zhuǎn)變,因而引領(lǐng)著新一代智能圖像編碼的發(fā)展潮流。
3.2 關(guān)鍵技術(shù)
MPEG-4除采用第一代視頻編碼的核心技術(shù),如變換編碼、運動估計與運動補償、量化、熵編碼外,還提出了一些新的有創(chuàng)見性的關(guān)鍵技術(shù),并在第一代視頻編碼技術(shù)基礎(chǔ)上進行了卓有成效的完善和改進。下面重點介紹其中的一些關(guān)鍵技術(shù)。
1. 視頻對象提取技術(shù)
MPEG-4實現(xiàn)基于內(nèi)容交互的首要任務(wù)就是把視頻/圖像分割成不同對象或者把運動對象從背景中分離出來,然后針對不同對象采用相應(yīng)編碼方法,以實現(xiàn)高效壓縮。因此視頻對象提取即視頻對象分割,是MPEG-4視頻編碼的關(guān)鍵技術(shù),也是新一代視頻編碼的研究熱點和難點。
視頻對象分割涉及對視頻內(nèi)容的分析和理解,這與人工智能、圖像理解、模式識別和神經(jīng)網(wǎng)絡(luò)等學(xué)科有密切聯(lián)系。目前人工智能的發(fā)展還不夠完善,計算機還不具有觀察、識別、理解圖像的能力;同時關(guān)于計算機視覺的研究也表明要實現(xiàn)正確的圖像分割需要在更高層次上對視頻內(nèi)容進行理解。因此,盡管MPEG-4 框架已經(jīng)制定,但至今仍沒有通用的有效方法去根本解決視頻對象分割問題,視頻對象分割被認(rèn)為是一個具有挑戰(zhàn)性的難題,基于語義的分割則更加困難。
目前進行視頻對象分割的一般步驟是:先對原始視頻/圖像數(shù)據(jù)進行簡化以利于分割,這可通過低通濾波、中值濾波、形態(tài)濾波來完成;然后對視頻/圖像數(shù)據(jù)進行特征提取,可以是顏色、紋理、運動、幀差、位移幀差乃至語義等特征;再基于某種均勻性標(biāo)準(zhǔn)來確定分割決策,根據(jù)所提取特征將視頻數(shù)據(jù)歸類;最后是進行相關(guān)后處理,以實現(xiàn)濾除噪聲及準(zhǔn)確提取邊界。
在視頻分割中基于數(shù)學(xué)形態(tài)理論的分水嶺(watershed)算法被廣泛使用,它又稱水線算法,其基本過程是連續(xù)腐蝕二值圖像,由圖像簡化、標(biāo)記提取、決策、后處理四個階段構(gòu)成。分水嶺算法具有運算簡單、性能優(yōu)良,能夠較好提取運動對象輪廓、準(zhǔn)確得到運動物體邊緣的優(yōu)點。但分割時需要梯度信息,對噪聲較敏感,且未利用幀間信息,通常會產(chǎn)生圖像過度分割。
2. VOP視頻編碼技術(shù)
視頻對象平面(VOP,Video Object Plane)是視頻對象(VO)在某一時刻的采樣,VOP是MPEG-4視頻編碼的核心概念。MPEG-4在編碼過程中針對不同VO采用不同的編碼策略,即對前景VO的壓縮編碼盡可能保留細(xì)節(jié)和平滑;對背景VO則采用高壓縮率的編碼策略,甚至不予傳輸而在解碼端由其他背景拼接而成。這種基于對象的視頻編碼不僅克服了第一代視頻編碼中高壓縮率編碼所產(chǎn)生的方塊效應(yīng),而且使用戶可與場景交互,從而既提高了壓縮比,又實現(xiàn)了基于內(nèi)容的交互,為視頻編碼提供了廣闊的發(fā)展空間。
MPEG-4支持任意形狀圖像與視頻的編解碼。對于任意形狀視頻對象。對于極低比特率實時應(yīng)用,如可視電話、會議電視,MPEG-4則采用VLBV(Very Low Bit-rate Video,極低比特率視頻)核進行編碼。
傳統(tǒng)的矩形圖在MPEG-4中被看作是VO的一種特例,這正體現(xiàn)了傳統(tǒng)編碼與基于內(nèi)容編碼在MPEG-4中的統(tǒng)一。VO概念的引入,更加符合人腦對視覺信息的處理方式,并使視頻信號的處理方式從數(shù)字化進展到智能化,從而提高了視頻信號的交互性和靈活性,使得更廣泛的視頻應(yīng)用及更多的內(nèi)容交互成為可能。因此VOP視頻編碼技術(shù)被譽為視頻信號處理技術(shù)從數(shù)字化進入智能化的初步探索。
3. 視頻編碼可分級性技術(shù)
隨著因特網(wǎng)業(yè)務(wù)的巨大增長,在速率起伏很大的IP(Internet Protocol)網(wǎng)絡(luò)及具有不同傳輸特性的異構(gòu)網(wǎng)絡(luò)上進行視頻傳輸?shù)囊蠛蛻?yīng)用越來越多。在這種背景下,視頻分級編碼的重要性日益突出,其應(yīng)用非常廣泛,且具有很高的理論研究及實際應(yīng)用價值,因此受到人們的極大關(guān)注。
視頻編碼的可分級性(scalability)是指碼率的可調(diào)整性,即視頻數(shù)據(jù)只壓縮一次,卻能以多個幀率、空間分辨率或視頻質(zhì)量進行解碼,從而可支持多種類型用戶的各種不同應(yīng)用要求。
MPEG-4通過視頻對象層(VOL,Video Object Layer)數(shù)據(jù)結(jié)構(gòu)來實現(xiàn)分級編碼。MPEG-4提供了兩種基本分級工具,即時域分級(Temporal Scalability)和空域分級(Spatial Scalability),此外還支持時域和空域的混合分級。每一種分級編碼都至少有兩層VOL,低層稱為基本層,高層稱為增強層。基本層提供了視頻序列的基本信息,增強層提供了視頻序列更高的分辨率和細(xì)節(jié)。
在隨后增補的視頻流應(yīng)用框架中,MPEG-4提出了FGS(Fine Granularity Scalable,精細(xì)可伸縮性)視頻編碼算法以及PFGS(Progressive Fine Granularity Scalable,漸進精細(xì)可伸縮性)視頻編碼算法。
FGS編碼實現(xiàn)簡單,可在編碼速率、顯示分辨率、內(nèi)容、解碼復(fù)雜度等方面提供靈活的自適應(yīng)和可擴展性,且具有很強的帶寬自適應(yīng)能力和抗誤碼性能。但還存在編碼效率低于非可擴展編碼及接收端視頻質(zhì)量非最優(yōu)兩個不足。
PFGS則是為改善FGS編碼效率而提出的視頻編碼算法,其基本思想是在增強層圖像編碼時使用前一幀重建的某個增強層圖像為參考進行運動補償,以使運動補償更加有效,從而提高編碼效率。
4. 運動估計與運動補償技術(shù)
MPEG-4采用I-VOP、P-VOP、B-VOP三種幀格式來表征不同的運動補償類型。它采用了H.263中的半像素搜索(half pixel searching)技術(shù)和重疊運動補償(overlapped motion compensation)技術(shù),同時又引入重復(fù)填充(repetitive padding)技術(shù)和修改的塊(多邊形)匹配(modified block (polygon)matching)技術(shù)以支持任意形狀的VOP區(qū)域。
此外,為提高運動估計算法精度,MPEG-4采用了MVFAST(Motion Vector Field Adaptive Search Technique)和改進的PMVFAST(Predictive MVFAST)方法用于運動估計。對于全局運動估計,則采用了基于特征的快速頑健的FFRGMET(Feature-based Fast and Robust Global Motion Estimation Technique)方法。
在MPEG-4視頻編碼中,運動估計相當(dāng)耗時,對編碼的實時性影響很大。因此這里特別強調(diào)快速算法。運動估計方法主要有像素遞歸法和塊匹配法兩大類,前者復(fù)雜度很高,實際中應(yīng)用較少,后者則在H.263和MPEG中廣泛采用。在塊匹配法中,重點研究塊匹配準(zhǔn)則及搜索方法。目前有三種常用的匹配準(zhǔn)則:
(1)絕對誤差和(SAD, Sum of Absolute Difference)準(zhǔn)則;
(2)均方誤差(MSE, Mean Square Error)準(zhǔn)則;
(3)歸一化互相關(guān)函數(shù)(NCCF, Normalized Cross Correlation Function)準(zhǔn)則。
在上述三種準(zhǔn)則中,SAD準(zhǔn)則具有不需乘法運算、實現(xiàn)簡單方便的優(yōu)點而使用最多,但應(yīng)清楚匹配準(zhǔn)則的選用對匹配結(jié)果影響不大。
在選取匹配準(zhǔn)則后就應(yīng)進行尋找最優(yōu)匹配點的搜索工作。最簡單、最可靠的方法是全搜索法(FS, Full Search),但計算量太大,不便于實時實現(xiàn)。因此快速搜索法應(yīng)運而生,主要有交叉搜索法、二維對數(shù)法和鉆石搜索法,其中鉆石搜索法被MPEG-4校驗?zāi)P停╒M, Verification Model)所采納,下面詳細(xì)介紹。
鉆石搜索(DS, Diamond Search)法以搜索模板形狀而得名,具有簡單、魯棒、高效的特點,是現(xiàn)有性能最優(yōu)的快速搜索算法之一。其基本思想是利用搜索模板的形狀和大小對運動估計算法速度及精度產(chǎn)生重要影響的特性。在搜索最優(yōu)匹配點時,選擇小的搜索模板可能會陷入局部最優(yōu),選擇大的搜索模板則可能無法找到最優(yōu)點。因此DS算法針對視頻圖像中運動矢量的基本規(guī)律,選用了兩種形狀大小的搜索模板。
· 大鉆石搜索模板(LDSP, Large Diamond Search Pattern),包含9個候選位置;
· 小鉆石搜索模板(SDSP, Small Diamond Search Pattern),包含5個候選位置。
DS算法搜索過程如下:開始階段先重復(fù)使用大鉆石搜索模板,直到最佳匹配塊落在大鉆石中心。由于LDSP步長大,因而搜索范圍廣,可實現(xiàn)粗定位,使搜索不會陷于局部最小,當(dāng)粗定位結(jié)束后,可認(rèn)為最優(yōu)點就在LDSP 周圍8 個點所圍菱形區(qū)域中。然后再使用小鉆石搜索模板來實現(xiàn)最佳匹配塊的準(zhǔn)確定位,以不產(chǎn)生較大起伏,從而提高運動估計精度。
此外Sprite視頻編碼技術(shù)也在MPEG-4中應(yīng)用廣泛,作為其核心技術(shù)之一。Sprite又稱鑲嵌圖或背景全景圖,是指一個視頻對象在視頻序列中所有出現(xiàn)部分經(jīng)拼接而成的一幅圖像。利用Sprite可以直接重構(gòu)該視頻對象或?qū)ζ溥M行預(yù)測補償編碼。
Sprite視頻編碼可視為一種更為先進的運動估計和補償技術(shù),它能夠克服基于固定分塊的傳統(tǒng)運動估計和補償技術(shù)的不足,MPEG-4正是采用了將傳統(tǒng)分塊編碼技術(shù)與Sprite編碼技術(shù)相結(jié)合的策略。
4 結(jié)束語
多媒體數(shù)據(jù)壓縮編碼的發(fā)展趨勢是基于內(nèi)容的壓縮,這實際上是信息處理的高級階段,更加向人自身的信息處理方式靠近。人的信息處理并不是基于信號的,而是基于一個比較抽象的、能夠直接進行記憶和處理的方式。
MPEG-4作為新一代多媒體數(shù)據(jù)壓縮編碼的典型代表,它第一次提出了基于內(nèi)容、基于對象的壓縮編碼思想。它要求對自然或合成視聽對象作更多分析甚至是理解,這正是信息處理的高級階段,因而代表了現(xiàn)代數(shù)據(jù)壓縮編碼技術(shù)的發(fā)展方向。
MPEG-4實現(xiàn)了從矩形幀到VOP的轉(zhuǎn)變以及基于像素的傳統(tǒng)編碼向基于對象和內(nèi)容的現(xiàn)代編碼的轉(zhuǎn)變,這正體現(xiàn)了傳統(tǒng)視頻編碼與新一代視頻編碼的有機統(tǒng)一。基于內(nèi)容的交互性是MPEG-4的核心思想,這對于視頻編碼技術(shù)的發(fā)展方向及廣泛應(yīng)用都具有特別重要的意義。
MPEG-4的應(yīng)用
(1)應(yīng)用于因特網(wǎng)視音頻廣播
由于上網(wǎng)人數(shù)與日俱增,傳統(tǒng)電視廣播的觀眾逐漸減少,隨之而來的便是廣告收入的減少,所以現(xiàn)在的固定式電視廣播最終將轉(zhuǎn)向基于TCP/IP的因特網(wǎng)廣播,觀眾的收看方式也由簡單的遙控器選擇頻道轉(zhuǎn)為網(wǎng)上視頻點播。視頻點播的概念不是先把節(jié)目下載到硬盤,然后再播放,而是流媒體視頻(streaming video),點擊即觀看,邊傳輸邊播放。
現(xiàn)在因特網(wǎng)中播放視音頻的有:Real Networks公司的 Real Media,微軟公司的 Windows Media,蘋果公司的 QuickTime,它們定義的視音頻格式互不兼容,有可能導(dǎo)致媒體流中難以控制的混亂,而MPEG-4為因特網(wǎng)視頻應(yīng)用提供了一系列的標(biāo)準(zhǔn)工具,使視音頻碼流具有規(guī)范一致性。因此在因特網(wǎng)播放視音頻采用MPEG-4,應(yīng)該說是一個安全的選擇。
(2)應(yīng)用于無線通信
MPEG-4高效的碼率壓縮,交互和分級特性尤其適合于在窄帶移動網(wǎng)上實現(xiàn)多媒體通信,未來的手機將變成多媒體移動接收機,不僅可以打移動電視電話、移動上網(wǎng),還可以移動接收多媒體廣播和收看電視。
(3)應(yīng)用于靜止圖像壓縮
靜止圖像(圖片)在因特網(wǎng)中大量使用,現(xiàn)在網(wǎng)上的圖片壓縮多采用JPEG技術(shù)。 MPEG-4中的靜止圖像(紋理)壓縮是基于小波變換的,在同樣質(zhì)量條件下,壓縮后的文件大小約是JPEG壓縮文件的十分之一。把因特網(wǎng)上使用的JPEG 圖片轉(zhuǎn)換成MPEG-4格式,可以大幅度提高圖片在網(wǎng)絡(luò)中的傳輸速度。
(4)應(yīng)用于電視電話
傳統(tǒng)用于窄帶電視電話業(yè)務(wù)的壓縮編碼標(biāo)準(zhǔn),如H261,采用幀內(nèi)壓縮、幀間壓縮、減少象素和抽幀等辦法來降低碼率,但編碼效率和圖像質(zhì)量都難以令人滿意。MPEG-4的壓縮編碼可以做到以極低碼率傳送質(zhì)量可以接受的聲像信號,使電視電話業(yè)務(wù)可以在窄帶的公用電話網(wǎng)上實現(xiàn)。
(5)應(yīng)用于計算機圖形、動畫與仿真
MPEG-4特殊的編碼方式和強大的交互能力,使得基于MPEG-4的計算機圖形和動畫可以從各種來源的多媒體數(shù)據(jù)庫中獲取素材,MPEG4 高清技術(shù)算計顯卡并實時組合出所需要的結(jié)果。因而未來的計算機圖形可以在MPEG-4語法所允許的范圍內(nèi)向所希望的方向無限發(fā)展,產(chǎn)生出今天無法想象的動畫及仿真效果。
(6)應(yīng)用于電子游戲
MPEG-4可以進行自然圖像與聲音同人工合成的圖像與聲音的混合編碼,在編碼方式上具有前所未有的靈活性,并且能及時從各種來源的多媒體數(shù)據(jù)庫中調(diào)用素材。這可以在將來產(chǎn)生象電影一樣的電子游戲,實現(xiàn)極高自由度的交互式操作。
(7)硬件產(chǎn)品上面的應(yīng)用
目前,MPEG4技術(shù)在硬件產(chǎn)品上也已開始逐步得到應(yīng)用。特別是在視頻監(jiān)控、播放上,這項高清晰度,高壓縮的技術(shù)得到了眾多硬件廠商的鐘愛,而市場上支持MPEG4技術(shù)的產(chǎn)品也是種類繁多。下面筆者就列舉一些代表性的產(chǎn)品,旨在讓讀者了解MPEG4技術(shù)在今天應(yīng)用范圍之廣。
(1)、攝像機:日本夏普公司推出過應(yīng)用在互聯(lián)網(wǎng)上的數(shù)字?jǐn)z像機VN-EZ1。這臺網(wǎng)絡(luò)攝像機利用MPEG4格式,可把影像文件壓縮為ASF(高級流格式),用戶只要利用微軟公司的MediaPlayer播放程序,就可以直接在電腦上進行播放。
(2)、播放機:飛利浦公司于今年八月份推出了一款支持DivX的DVD播放機DVD737。它可以支持DivX 3.11、4.xx、5.xx等MPEG4標(biāo)準(zhǔn),而對于新標(biāo)準(zhǔn)的支持則可以通過升級固件來實現(xiàn)。(3)、數(shù)碼相機:日本京瓷公司在11月中旬發(fā)售其最新款數(shù)碼相機Finecam L30,這款是采用300萬像素、3倍光學(xué)變焦設(shè)計的數(shù)碼相機產(chǎn)品, L30采用了MPEG4格式動態(tài)視頻錄制,可以讓動態(tài)視頻錄制畫面效果比傳統(tǒng)數(shù)碼相機更出色。
(4)、手機:在手機領(lǐng)域,MPEG4技術(shù)更是得到了廣泛的應(yīng)用,各大手機廠商也都推出了可拍攝MPEG4動態(tài)視頻的手機型號,如西門子ST55、索尼愛立信P900/P908、LG 彩屏G8000等。
(5)、MPEG4數(shù)字硬盤:在今年深圳舉行的安防展覽會上,開發(fā)數(shù)字錄像監(jiān)控產(chǎn)品的廠家紛紛推出了他們的最新產(chǎn)品,而支持MPEG4的DVR壓縮技術(shù)也成為改展會上的亮點。
如北京華青紫博科技推出的"E眼神MPEG4數(shù)字視頻王"便是一款基于網(wǎng)絡(luò)環(huán)境的高清晰數(shù)字化監(jiān)控報警系統(tǒng)。內(nèi)置多畫面處理器,集現(xiàn)場監(jiān)控、監(jiān)聽、多路同時數(shù)字錄像與回放等多種功能為一體。
其實,市場上還有許多基于MPEG4技術(shù)的硬件產(chǎn)品,筆者這里就不一一列舉了,不過筆者相信,隨著視頻壓縮技術(shù)的不斷發(fā)展,MPEG4技術(shù)的產(chǎn)品會越來越多的出現(xiàn)在我們生活,工作中。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
相關(guān)閱讀:
- [電子說] 基于MPEG-4圖像壓縮技術(shù)的多媒體視頻會議系統(tǒng)的設(shè)計 2021-04-15
- [電子說] 基于MPEG-4壓縮芯片和嵌入式Linux實現(xiàn)網(wǎng)絡(luò)攝像機的設(shè)計 2021-03-19
- [電子說] 采用數(shù)字信號處理器實現(xiàn)MPEG-4視頻編碼卡的設(shè)計 2021-03-17
- [電子說] MPEG-4在視頻監(jiān)控錄像領(lǐng)域中的應(yīng)用優(yōu)勢及在DVR中的應(yīng)用 2021-03-17
- [電子說] 利用DSP芯片實現(xiàn)MPEG-4視頻編碼的優(yōu)化設(shè)計 2021-03-16
- [電子說] 采用MPEG-4壓縮算法的數(shù)字視頻監(jiān)控系統(tǒng)的應(yīng)用方案 2021-03-16
- [可編程邏輯] 基于可編程邏輯器件實現(xiàn)MPEG-4簡易編碼器和解碼器核的設(shè)計 2020-12-24
- [電子說] 什么是A/V容器?使用MPEG-4的音頻和視頻傳輸技術(shù) 2021-05-02
( 發(fā)表人:admin )