本文整理了北京大學(xué)教授馬思偉在 RTC 2018 實時互聯(lián)網(wǎng)大會上的分享,從技術(shù)、編碼與傳輸角度,分享了媒體編碼的現(xiàn)狀與未來,以及 AVS 編碼標(biāo)準(zhǔn)的技術(shù)現(xiàn)狀。
我的演講主題是《新媒體編碼時代》。這里的“新”有兩個含義,第一是指新時代,技術(shù)與應(yīng)用場景出現(xiàn)創(chuàng)新;第二是指媒體“新”,需要編碼的材料數(shù)據(jù)改變了。
我在 RTC 2017 曾講過《視頻編碼未來簡史》。當(dāng)時叫視頻編碼新時代(如上圖圖解),革命之一是采集革命,采集的數(shù)據(jù)發(fā)生了變化,視頻從標(biāo)清向高清、超高清方向發(fā)展。還有其它的一些數(shù)據(jù),包括光場、點云、神經(jīng)脈沖。理論也有很多,包括傳統(tǒng)的奈奎斯特采樣、壓縮感知。
革命之二是計算革命,編碼計算提升了很多,有 CPU、GPU、NPU,計算能力的提升使得原先因太過復(fù)雜而無法使用的算法變得可用了,提高了編碼效率。
第三個是認(rèn)知革命,數(shù)據(jù)處理有了新的方法,處理能力更強了,業(yè)界談的比較多的方法就是深度學(xué)習(xí)。
基于這三個革命,編碼在朝智能編碼的方向發(fā)展。其實,智能編碼并不是新概念,80年代后期到90年代中期,業(yè)界一直在講智能編碼。不過,到現(xiàn)在為止智能編碼還始終處于第二代。
今天,我從三方面講:新媒體,我們看到新的數(shù)據(jù)類型要編碼;新技術(shù),技術(shù)從編碼、傳輸、跨媒體智能講,我們朝智能方向發(fā)展了;新應(yīng)用,一般是大家說的 4K、8K、VR 這些應(yīng)用。
1
新媒體編碼時代:新媒體
首先講新媒體。很多人介紹自己專業(yè)的時候通常說我是做數(shù)字媒體技術(shù)的,或多媒體技術(shù)的。我們要把媒體和技術(shù)分開來看,所謂的技術(shù)是計算機對媒體的處理技術(shù)。在以前“通信基本靠吼,交通基本靠走”的年代,沒有媒體,后來出現(xiàn)了文字,再后來,聲音、視頻、圖像可以保存,隨后催生了新的產(chǎn)業(yè)。接著出現(xiàn)了 3D、AR、VR,最后到智能媒體??偟膩碚f,技術(shù)催生新媒體的誕生,這是關(guān)于媒體的介紹?,F(xiàn)在提的比較多的凡是包含三維信息比如光場、點云的媒體都統(tǒng)稱為新媒體、三維媒體,這些不是新名詞,只是現(xiàn)在我們強調(diào)的越來越多。
關(guān)于沉浸媒體,在今年的 ACM Multimedia Systems 大會上,Philip Chou 提出,“Holograms are the Next Video”。在他看來,全息是下一代視頻。上面有兩個圖,1977年的星球大戰(zhàn)電影里,出現(xiàn)了光場投影,是那時候我們最初對三維沉浸媒體的想象。右圖則是2018年的想象。我們已經(jīng)想象了40多年。Philip Chou 在會上有兩句話我印象很深刻,一句話是“Hologram compression today is like video compression in 1988”。王田博士也講到,今天的點云編碼水平,相當(dāng)于 30 年前視頻編碼的水平。1988 年時 MPEG 剛剛成立,當(dāng)時只有 JPEG。MPEG1-VCD 是在 1992 年才出現(xiàn)的。另一句話是關(guān)于流媒體的,“Hologram streaming today is like video treaming in 1997”。1997 年,國際會議在討論流媒體技術(shù)。我想,當(dāng)初討論流媒體技術(shù)的人看到今天互聯(lián)網(wǎng)流媒體的發(fā)展,應(yīng)該是感到很震驚的。還有一句話,“如果你看到了視頻的發(fā)展趨勢,那么你一定會同樣看到全息的趨勢?!彼裕两襟w是未來的趨勢。
關(guān)于沉浸媒體提供的感覺,主要有三類:視覺、聽覺、交互。視覺要提供更高分辨率,分辨率上去之后才更清楚、更清晰。聽覺方面,要高質(zhì)量、三維全景聲,感覺好比演唱會、演奏會。交互方面,講求低延時、交互自然。
沉浸式媒體的系統(tǒng)是比較復(fù)雜的,從前端采集到中間編碼傳輸?shù)胶蠖孙@示時間,每個模塊都是相互關(guān)系很強的,每個模塊都得做好才能呈現(xiàn)好的效果。
相關(guān)的組織都在做很多的研究,大概可以分成上圖這樣幾個層次,第一個層次是關(guān)于最基本的數(shù)據(jù)的表示,看到的 JEPG 圖像、MPEG 視頻、IEEE、AVS;中間層是關(guān)于應(yīng)用,比如 VR-IF,3GPP 等國際組織都在演講。上層是體驗,用戶端體驗做不好用戶肯定不接受,包括 ITU-T、VQEG、QUALINET 等組織。
我們今天關(guān)心的主要是最底層的編碼技術(shù)表示。今天另一場演講中,王田老師提到了沉浸式媒體,這是 MPEG 目前做的工作標(biāo)準(zhǔn)。這些技術(shù)的應(yīng)用從早先 MPEG1、2,后來到了 MPEG4,H.265 等等。
我們今天主要說的是 MPEG-I,沉浸式媒體。上圖是 MPEG-I 的發(fā)展路線圖,只包含視覺相關(guān)的,不包含音頻的內(nèi)容。其中之一是關(guān)于 New Video Codec,還有點云,從靜態(tài)對象到動態(tài)對象,以及光場,包括相機陣列等。
我們熟悉的是手機上數(shù)碼相機上都在用的 JPG。但實際上 JPEG 做了很多,其中一個是 XL,新一代圖像壓縮;另一個是 PLENO,光場圖像壓縮。
AVS 一直都在做高效視頻編碼,做的是面向廣播的編碼。從 2002 年開始,至今已經(jīng) 16 年了。2006 年成為國家標(biāo)準(zhǔn),進展比較快,2012 年能 AVS 成為廣電行標(biāo),2016 年 AVS2 成為廣電行標(biāo),也是國家標(biāo)準(zhǔn)。目前在4K的超清廣播應(yīng)用比較多,今年 10 月做試運行,明年北京冬奧會會有 4K 的超清廣播。對于 VR,AVS 有一個 HV 的工作組,有專門面向 VR 的HV1857.9視頻標(biāo)準(zhǔn)。
先普及一下沉浸式視頻的多維度屬性。包括分辨率,從標(biāo)清到高清到超高清,有更高的幀率、更高的采樣精度,更多的模型數(shù)據(jù),色域更豐富。
全景視頻方面,視場角中的 1° 能看到 60 個像素就可以達到視網(wǎng)膜級別。如果是 4K ,視角是 36°,平均下來每度 100 多個像素。有時候說看 4K 就夠了,不需要 8K 了,依據(jù)是從這兒來的。但實際上,8K 之后視角變得更大,也需要更高的像素。如果以這個算目前的 4K 全景,平均下來 1° 只有 11 個像素,離 4K 高清差的很遠。為什么 4K 全景質(zhì)量差?因為本身信號提供的就不夠。如果要做全景視頻,按照前面的分辨率算的話,像素值至少要到 22Kx11K,完全全景的話要 24Kx12K。計算下來數(shù)據(jù)量達到 4Gbps,只能等 5G 技術(shù)的到來。
還有其他媒體,點云、網(wǎng)格、光場、深度之間都可以轉(zhuǎn)換處理,不止體現(xiàn)在數(shù)據(jù)格式上轉(zhuǎn)換處理,后面編碼的時候也可以做相應(yīng)的融合。
剛才看到的都是比較傳統(tǒng)的相機采集的數(shù)據(jù)進行編碼,現(xiàn)在已經(jīng)出現(xiàn)了另外一種形式的采集,是在仿生的采集(如上圖)。原理是這樣的。首先,視頻采集的數(shù)據(jù)量很大,尤其是運動速度很快的時候,普通的相機采集的話都會出現(xiàn)模糊。第二,我們采集完這些視頻再做處理,做特征的提取,進行對象的分析識別。這個處理過程與人的視覺識別處理是相差很遠的。第一個問題,人眼是每秒 30 幀嗎?肯定不是,因為人眼的獲取原理本身就和傳統(tǒng)相機不一樣。那么仿生采集指的就是后端傳輸?shù)氖巧窠?jīng)脈沖信號,當(dāng)環(huán)境中要測那個點發(fā)生變化時才傳輸信號,這個原理與普通的相機采集不一樣。但是傳輸神經(jīng)脈沖信號后如何進行編碼,到現(xiàn)在也沒有完全解決。我們可以看下面這個視頻,它直觀解釋了傳統(tǒng)相機采集與仿生采集的區(qū)別。
2
新媒體編碼時代:新技術(shù)
現(xiàn)在已經(jīng)進入第三代標(biāo)準(zhǔn)時期。MPEGY 有 VVC(VersatileVideoCoding),俗稱是萬能的。AV1、AVS3,都是第三代標(biāo)準(zhǔn)。
視頻編碼做了這么多代標(biāo)準(zhǔn),做編碼的人會問編碼效率做了這么多優(yōu)化,繼續(xù)做下去有沒有意義?
有一個經(jīng)濟學(xué)的悖論:提升資源消耗效率,結(jié)果消耗的資源更多。比如,要提高煤炭的燃燒效率,后來煤炭的燃燒效率提上去了,煤燒得更多了。原理是效率支撐了更多的需求,從而帶來了更多資源的消耗。帶寬傳送也是一樣,如果我們提升帶寬,進一步提升壓縮效率,全景視頻、點云等新的應(yīng)用就會跟著來,然后帶寬消耗還會更高。從這個角度來看,需要更高效的壓縮技術(shù)。
再看編碼的具體技術(shù),下圖是我們熟悉的框架,編碼所做的工作非常精細(xì)、瑣碎。整個工程就像手表里一個個連接的小齒輪、大齒輪。我們的工作就是刪掉其中一個齒輪或者把幾個齒輪并成一個齒輪,并讓表跑得更準(zhǔn),更省電。
在AVS3 的時間規(guī)劃上,預(yù)計明年 8 月份會發(fā)布第一版,第一版是復(fù)雜度和效率做的比較平衡的一版。2021 年會發(fā)布第二版,最終目標(biāo)是面向8K、VR、流媒體等應(yīng)用,編碼效率比 AVS2 再高一倍。AVS3 的特征可以這從兩方面看,傳統(tǒng)技術(shù) AVS 在做很多研究,包括塊劃分、運動預(yù)測、變換等;智能方面也有研究,,用神經(jīng)網(wǎng)絡(luò)做變化預(yù)測濾波,編碼與傳輸?shù)穆?lián)合。
早先我們一直做的是信源信道聯(lián)合編碼。我們可以靠一些傳輸技術(shù)來折中編碼效率,不用很復(fù)雜的編碼方法就達到編碼效率的提升,比如,媒體端 CDN 中存了很多視頻流,不同流之間存在關(guān)聯(lián),一句話解釋就是類似于 P2P 傳輸式,我可以在傳輸中利用高層的傳輸支持達到相關(guān)內(nèi)容的更高效的預(yù)測編碼。利用這種技術(shù)可以提升 30% 以上的壓縮效率。
國際標(biāo)準(zhǔn)方面,2015年10月份已經(jīng)開始圍繞新一代 JVET VVC 標(biāo)準(zhǔn)進行討論,現(xiàn)在已經(jīng)三年了。技術(shù)進展很快,編碼效率相比 H.265 提升 40% 以上。今年4月份在圣地亞哥開的一次會議上,有一個環(huán)節(jié):響應(yīng)提案征集,SDR 有 22 項提案,HDR 12 項,360 全景 12 項。
下圖那次會提交的 SDR 提案征集。中國從 1996 年開始參加 MPEG,前期參與的時候主要是大學(xué)和研究所,沒有中國的公司。但是近年,中國的公司,比如華為、??低?/u>、騰訊、大疆、頭條等都開始積極參與國際標(biāo)準(zhǔn)的制定,這是很好的現(xiàn)象。同時說明中國近十年二十年來培養(yǎng)了不少人才,這是我們學(xué)校的貢獻。也歡迎更多的公司可以參與國際標(biāo)準(zhǔn),也可以參與 AVS 標(biāo)準(zhǔn)的制定。AVS 和 MPEG China 是一體的,加入 AVS 就相當(dāng)于加入 MPEG China。
再看技術(shù)情況,新特色是體現(xiàn)在從信號處理到深度學(xué)習(xí)。這些提案里,有5個都用到了深度學(xué)習(xí)的技術(shù),其中有關(guān)于預(yù)測的,也有關(guān)于濾波的。我會重點講一下預(yù)測。
神經(jīng)網(wǎng)絡(luò)和編碼之間的聯(lián)系在哪兒呢?可以用一個比較簡單的圖來解釋。下圖是傳統(tǒng)的變換,分解成變換系數(shù),后來做量化、反量化,量化反量化之后帶來失真。失真之后如何做一個最優(yōu)的量化,使得量化的誤差最?。孔钚≌`差范圍表示成二進制的形式,S1、S2 每個數(shù)要么是 0 要么是 1。量化決策的過程,實際上是,選擇 0 或者選擇 1 使得整個誤差最小,這就是一個優(yōu)化的問題。優(yōu)化的問題就是神經(jīng)網(wǎng)絡(luò)最擅長的工作,這個工作就可以交給神經(jīng)網(wǎng)絡(luò),幫你選擇是 0 還是 1,這是變換和神經(jīng)網(wǎng)絡(luò)的相通之處。
原來做幀的預(yù)測,選周圍像素,找一個插值濾波器,使得插值之后要逼近預(yù)測的值,使得誤差最小。如果用神經(jīng)網(wǎng)絡(luò)做的話,把周圍像素傳過去,神經(jīng)網(wǎng)絡(luò)幫我找加權(quán)、找偏移量。計算完之后失真最小,那么網(wǎng)絡(luò)就訓(xùn)練好了。以后做預(yù)測的時候,把數(shù)據(jù)送給它就自動處理,像黑盒一樣。這就是基于神經(jīng)網(wǎng)絡(luò)的預(yù)測。
目前用神經(jīng)網(wǎng)絡(luò)去做變換、預(yù)測、濾波的已經(jīng)有很多了,每個模塊都很多。但如果只做這些的話,還是像玩票一樣。畢竟神經(jīng)網(wǎng)絡(luò)在模式識別方面應(yīng)用得很好,到了編碼這邊做了很多,但是還沒有打敗傳統(tǒng)編碼,還是基于信號處理這套。
現(xiàn)在有了新的概念,Towards Conceptual Compression。在下圖中,最底部的一行原始圖像,最頂部模糊的編碼的。從上面的編碼,一步步推理迭代,能夠生成底下的原始圖像,這是用神經(jīng)網(wǎng)絡(luò)來做的。我認(rèn)為可以叫做概念(意象)壓縮。它強調(diào)的是,人的腦子里對一個圖像有個模糊的印象,但是恰恰靠這個模糊的印象就能夠做判定。這個概念正在進行中。
這是另外一個工作,剛才是用神經(jīng)網(wǎng)絡(luò)做表示、做生成,現(xiàn)在可以用神經(jīng)網(wǎng)絡(luò)在壓縮層次上提供對這個內(nèi)容分析理解的支持。傳統(tǒng)基于信號處理的壓縮,如果要進行分析會很困難。如果是基于神經(jīng)網(wǎng)絡(luò)的話,由于是基于特征的表示,對于媒體的分析理解會更加智能。
再看一看媒體分析,從多媒體到跨媒體。左邊從視頻到文字,給定視頻后可以對應(yīng)生成文字。右邊反過來再從文字生成視頻,從文字到視頻比較有限制,限制于數(shù)據(jù)集,靠文字描述生成視頻出來。這種技術(shù)再結(jié)合前邊基于神經(jīng)網(wǎng)絡(luò)的壓縮,智能壓縮前景無限,這種技術(shù)對媒體的分析和理解肯定比傳統(tǒng)編碼更優(yōu)越。
接下來的內(nèi)容是關(guān)于新媒體編碼。關(guān)于光場,目前光場有兩類,一類是基于相機陣列,還有用一些小凸透鏡,相當(dāng)于集中成像。對于光場,新類型的媒體可以用現(xiàn)有的框架去進行編碼。
對于點云,雖然我們感覺它是新數(shù)據(jù),其實也有比較好的編碼處理方法。原來圖像是二維的,分成一個塊一個塊處理。到了點云之后是三維的,也很簡單,把它分成三維的塊,原來是平面劃分,現(xiàn)在改成立體劃分,劃分完之后這些數(shù)據(jù)可以進行變換、預(yù)測、處理。和傳統(tǒng)編碼也可以做一個很好的結(jié)合,目前這塊都是處于比較初步的階段,還需要繼續(xù)研究。
以上是點云和光場與傳統(tǒng)的編碼框架之間的結(jié)合。還有一部分是關(guān)于光場編碼和點云編碼,光場編碼處理也可以用點云的編碼進行編碼框架表示?;舅枷胧切⊥雇哥R成像,從每個角度情趣看這個圖像,就可以看成一個球的圖像。把球的圖像進行分解,有一些系數(shù),系數(shù)類似于點云的屬性系數(shù)。
關(guān)于傳輸,編碼和傳輸都有很大的影響。傳輸有些是我們比較熟悉,比如 HLS、DASH。后端基于 Tile,把內(nèi)容劃分成 Tile,根據(jù)帶寬情況,選擇傳輸相應(yīng)質(zhì)量的內(nèi)容。這個工作對于全景視頻傳輸很有用處,因為全景視頻某些時候只是看某些角度,不是看整個內(nèi)容,所以可以基于 Tile 的傳輸降低整個傳輸?shù)墓ぷ髁浚€能提升圖像的質(zhì)量。
視點依賴的流媒體傳輸就是指全景傳輸。那么,我們就可以利用神經(jīng)網(wǎng)絡(luò),提前預(yù)測人看哪塊內(nèi)容,提前把信號內(nèi)容發(fā)送過去以獲得更好的體驗質(zhì)量。可以基于觀者本人,也可以基于其他觀眾的注意來預(yù)測。
神經(jīng)網(wǎng)絡(luò)智能不止是在編碼,在傳輸上也有很多用處。再看點云的傳輸,也是一樣的,點云數(shù)量很大,可以考神經(jīng)網(wǎng)絡(luò)來幫忙,比如點云傳輸劃分成三維的Tile,你看哪塊我給你傳哪塊,來降低傳輸工作量。
3
新媒體編碼時代:新應(yīng)用
新應(yīng)用,有線上抓娃娃,連抓娃娃這種應(yīng)用都可以搞這種火,我相信新媒體應(yīng)用可以搞得更火。
還有超高清,目前看到的有 4K、8K,也有人問我們需不需要 8K。我在八年前第一次看見 8K 的時就未曾懷疑過,一定有人需要。別說 8K,16K、24K 也有其必要性。對于全景視頻來講,我們還是需要更高的質(zhì)量、更好的傳輸支持才會有更好的節(jié)目、更好的體驗。
5G 與 VR,對于全景傳輸、動態(tài)點云的傳輸都可以提供更好的支持。
智能媒體的制作,紐約大學(xué)的研究人員 Ross Goodwin 訓(xùn)練了一個神經(jīng)網(wǎng)絡(luò),給它輸入幾部電影它自己就可以寫出劇本來,然后 9 分鐘的電影就排出來了。也許未來我們需要只明星的臉,不需要明星來演。
最后總結(jié)一下,The best is yet to come,最好的 TA 會來臨。我們要做的事情就是擁抱新技術(shù),攜手新媒體,研發(fā)新應(yīng)用,開創(chuàng)新時代,我的報告就是這些,謝謝大家。
-
編碼
+關(guān)注
關(guān)注
6文章
915瀏覽量
54651 -
AVS
+關(guān)注
關(guān)注
0文章
54瀏覽量
23089
原文標(biāo)題:新媒體編碼時代的技術(shù):編碼與傳輸
文章出處:【微信號:shengwang-agora,微信公眾號:聲網(wǎng)Agora】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論