作者:王旭, 劉瓊, 彭宗舉, 侯軍輝, 元輝, 趙鐵松, 秦熠, 吳科君, 劉文予, 楊鈾
00??引言
6自由度(six degrees of freedom,6DoF)視頻具體表現(xiàn)為在觀看視頻過程中,用戶站在原地時(shí)頭部與視頻內(nèi)容之間的3個(gè)自由度的交互和用戶位姿發(fā)生移動(dòng)時(shí)與內(nèi)容之間的另外3個(gè)自由度的交互(Boyce等,2021)。
6DoF視頻有多視點(diǎn)視頻、多視點(diǎn)+深度視頻、光場視頻、焦棧圖像和點(diǎn)云序列等多種數(shù)據(jù)表示方式(Wien等,2019)。用戶可以通過體感、視線、手勢(shì)、觸控和按鍵等交互方式來選取任意方向和位置的觀看視角。視頻系統(tǒng)在獲得用戶交互參數(shù)后,通過虛擬視點(diǎn)繪制技術(shù)完成視角平滑切換,在沉浸式體驗(yàn)上更加出色。6DoF視頻體現(xiàn)了用戶與視頻內(nèi)容的高度交互性,全面打破了人們被動(dòng)接受視頻內(nèi)容的傳統(tǒng)模式,能夠?qū)崿F(xiàn)千人千面的視覺體驗(yàn),是當(dāng)前多媒體通信、計(jì)算機(jī)視覺、人機(jī)交互和計(jì)算顯示等多個(gè)學(xué)科領(lǐng)域的交叉與前沿。
一方面,6DoF視頻通過計(jì)算重構(gòu)的方式向用戶提供包括視角、光照、焦距和視場范圍等多個(gè)視聽維度的交互與變化,使千里之外的用戶有身臨其境之感,這與元宇宙所具有的感知、計(jì)算、重構(gòu)、協(xié)同和交互等技術(shù)特征高度重合。因此,6DoF視頻所涵蓋的技術(shù)體系可用做實(shí)現(xiàn)元宇宙的替代技術(shù)框架。另一方面,6DoF視頻從采集、處理、編碼、傳輸、顯示、交互和計(jì)算等方面改變了數(shù)字媒體端到端全鏈條的生產(chǎn)制作模式,給內(nèi)容提供商、運(yùn)營商、設(shè)備商和用戶帶來巨大的改變,因此也受到國防訓(xùn)練、數(shù)字媒體和數(shù)字教育的高度關(guān)注。
本文將圍繞6DoF視頻內(nèi)容的生產(chǎn)、分發(fā)與呈現(xiàn)中存在的關(guān)鍵問題(如圖1所示),從內(nèi)容采集與預(yù)處理、編碼壓縮與傳輸優(yōu)化以及交互與呈現(xiàn)等方面闡述國內(nèi)外研究進(jìn)展,并圍繞該領(lǐng)域當(dāng)下挑戰(zhàn)及未來趨勢(shì)開展討論。
圖1??6DoF視頻系統(tǒng)中的關(guān)鍵問題
01??6DoF內(nèi)容采集與預(yù)處理
6DoF視頻以3維場景為觀察對(duì)象,以3維時(shí)空分布的點(diǎn)云、圖像等為數(shù)據(jù)表達(dá),可用模型
刻畫,包含空間、角度、光譜和時(shí)間等。如何獲取3維場景的視覺信息是6DoF視頻采集與生成需要實(shí)現(xiàn)的任務(wù)與目標(biāo)。相機(jī)一直以來作為獲取視覺信息的主要工具,將分布在3維時(shí)空中的光降維到2維時(shí)空上形成圖像或視頻?;谙鄼C(jī)的視覺獲取無法得到深度,因此如何通過相機(jī)來實(shí)現(xiàn)3維場景的視覺信息獲取,長期以來是一個(gè)挑戰(zhàn)性的難題。從技術(shù)演進(jìn)的角度,3維場景的視覺信息獲取可分為多視點(diǎn)聯(lián)合采集、多視點(diǎn)與深度聯(lián)合采集這兩個(gè)方向和階段。
1.1 多視點(diǎn)聯(lián)合采集
雖然單相機(jī)的視覺獲取只能得到平面圖像,但是仿照人眼的雙目視覺系統(tǒng),只要能夠利用2個(gè)及以上的相機(jī)進(jìn)行多視點(diǎn)同步采集,就能夠在得到的多視點(diǎn)圖像基礎(chǔ)上進(jìn)行立體匹配,從而得到深度的信息(Marr和Poggio,1976)。為此,科研人員以6DoF視頻為目標(biāo),研制出了不同類型的多視點(diǎn)視頻采集系統(tǒng)。如圖2所示,以影視內(nèi)容制作為目標(biāo),工程技術(shù)人員于1999年首次搭建了由上百臺(tái)相機(jī)共同構(gòu)成的多視點(diǎn)聯(lián)合采集系統(tǒng)。該系統(tǒng)在幾何排布上具有線性環(huán)繞的特點(diǎn),并形成了著名的“子彈時(shí)間”影視效果(Stankiewicz等,2018)。觀眾可通過這種方式在屏幕上直接得到立體的觀感。通過該多視點(diǎn)聯(lián)合采集系統(tǒng)所形成的交互式媒體內(nèi)容具有非常震撼的視覺效果,但同時(shí)也有明顯的缺陷,如不能拍動(dòng)態(tài)的視頻、幾何排布復(fù)雜不利于后期視覺計(jì)算以及成本高昂難以商業(yè)推廣等。因此,降低相機(jī)數(shù)量,簡化幾何排布方式,研發(fā)多相機(jī)標(biāo)定方法成為多視點(diǎn)聯(lián)合采集面臨的關(guān)鍵需求。
為了解決上述問題,研究者提出了幾種典型的幾何排布模式,如圖3所示。圖3(a)所示的平行模式以直線分布、光軸平行的方式進(jìn)行排布,視點(diǎn)之間的圖像原則上不存在垂直偏移,在交互過程中體現(xiàn)為水平移動(dòng)。稀疏的(間距20 cm及以上)平行模式是MPEG(motion picture expert group)中典型的多視點(diǎn)視頻數(shù)據(jù)表達(dá)形式(Merkle等,2007),而稠密的平行模式則可較為方便地構(gòu)成光線空間(ray space)(Tanimoto,2012),從而實(shí)現(xiàn)平移之外的縱向交互。圖3(b)所示的發(fā)散模式是所有相機(jī)的光軸后延線共圓心,從形式上不局限于水平共心,也可以是球面發(fā)散的共心方式。這種模式可較方便地形成全景視頻用于3自由度交互,并在許多商業(yè)應(yīng)用中取得了成功。圖3(c)所示的匯聚模式在排布模式上是平行模式的簡單變化,在直線分布的基礎(chǔ)上將光軸匯聚到一個(gè)點(diǎn)上,視點(diǎn)之間的圖像原則上不存在垂直偏移,在交互過程中體現(xiàn)為具有弧度的水平移動(dòng)。然而,在實(shí)際操作中匯聚模式有許多問題,如匯聚點(diǎn)的確定、相機(jī)間的幾何標(biāo)定問題等,導(dǎo)致大部分的匯聚模式最后退化到圖2的模式,即交互只在真實(shí)相機(jī)之間做切換,較少通過視覺計(jì)算的方式去繪制虛擬視點(diǎn)。
圖3(d)所示的圍繞模式不局限于平面,也可以進(jìn)一步拓展成半球體、圓球體的布置形式。與匯聚模式類似,同樣面臨著匯聚點(diǎn)確定、相機(jī)間幾何標(biāo)定的難題,而且難度更大,因?yàn)槊恳粋€(gè)相機(jī)一定會(huì)有另外一個(gè)相機(jī)與之完全相對(duì),無法通過構(gòu)建兩個(gè)視點(diǎn)之間公共特征點(diǎn)的匹配關(guān)系以完成幾何標(biāo)定所需的有關(guān)參數(shù)。華中科技大學(xué)團(tuán)隊(duì)突破了這一限制,通過視點(diǎn)傳遞的方式克服了環(huán)繞相機(jī)陣列(Abedi等,2018)以及球面相機(jī)陣列(An等,2020)的幾何標(biāo)定問題,為后續(xù)720°交互奠定了基礎(chǔ)。圖3(e)所示的平面模式在幾何分布上是平行模式的簡單擴(kuò)充,但是在實(shí)際應(yīng)用中產(chǎn)生了許多變型,并逐步演化成光場采集系統(tǒng),催生了許多交互式媒體之外的新型應(yīng)用(Levoy和Hanrahan,1996)和億像素采集系統(tǒng)(Brady等,2012)。
圖3??幾種典型的多視點(diǎn)視頻采集系統(tǒng)的幾何排布方式
1.2 多視點(diǎn)與深度聯(lián)合采集
典型的多視點(diǎn)聯(lián)合采集需通過后期計(jì)算的方式得到深度,如果能夠直接得到深度信息,則可以大幅提升采集效率。然而,直接獲得場景的深度信息并不是一件容易的事情,進(jìn)而在獲取深度信息的基礎(chǔ)之上是否能夠多視點(diǎn)獲取,又是另外一個(gè)難題。 直接獲取場景深度信息的方式大體分為被動(dòng)式和主動(dòng)式兩個(gè)技術(shù)方向。被動(dòng)式探測(cè)以雙目立體匹配為代表(Zhang,2012)。主動(dòng)式探測(cè)方法以結(jié)構(gòu)光技術(shù)為代表,并根據(jù)光源的不同又分為點(diǎn)掃描(Franca等,2005)、線掃描(Scharstein和Szeliski,2002)和面結(jié)構(gòu)光(Van der Jeught和Dirckx,2016)。點(diǎn)掃描和面掃描中激光器發(fā)出點(diǎn)狀或條狀光束,進(jìn)而通過旋轉(zhuǎn)或平移,實(shí)現(xiàn)完整的3維測(cè)量。面結(jié)構(gòu)光方法投射2維編碼圖案,無需移動(dòng)投影設(shè)備即可重建目標(biāo)表面,具有更高的效率(蘇顯渝 等,2014)。此外,面結(jié)構(gòu)光中投影圖案通常與編碼技術(shù)進(jìn)行結(jié)合,提取塊級(jí)/像素級(jí)/亞像素級(jí)的碼字用于視差匹配,以獲得更高的精度和效率。面結(jié)構(gòu)光的編碼通常包括空域編碼、時(shí)域編碼和相位編碼,通過多個(gè)編碼對(duì)場景進(jìn)行多次掃描來獲得目標(biāo)場景的深度。上述模式都是通過掃描的方式才能得到場景的深度信息,因此不適宜動(dòng)態(tài)場景的深度獲取。
采用點(diǎn)—面結(jié)合技術(shù)的Kinect深度傳感器克服了這個(gè)難題(Lilienblum和Al-Hamadi,2015),雖然深度圖的質(zhì)量、圖像分辨率、時(shí)間分辨率和探測(cè)距離等基本參數(shù)還有很大的提升空間,但是該設(shè)備的出現(xiàn)首次將場景的深度感知從靜態(tài)提升至了動(dòng)態(tài),給產(chǎn)業(yè)界和學(xué)術(shù)界同時(shí)帶來一輪新的研究熱潮。后來出現(xiàn)了基于光調(diào)制的ToF(time of flight)技術(shù)及相關(guān)設(shè)備,包括ToF相機(jī)和激光雷達(dá)(laser radar,LiDAR)等,大幅度提升了探測(cè)距離,但是在深度圖質(zhì)量、圖像分辨率和時(shí)間分辨率等參數(shù)上也都與Kinect一樣面臨相同的問題。 將多個(gè)深度傳感器與多個(gè)彩色相機(jī)相互配合對(duì)場景進(jìn)行視覺采集,則形成了多視點(diǎn)與深度聯(lián)合采集方案。在這些方案中,幾何排布上可以借鑒多視點(diǎn)聯(lián)合采集方案。多視點(diǎn)與深度聯(lián)合采集的關(guān)鍵難點(diǎn)在于多深度采集中所出現(xiàn)的視點(diǎn)間干擾、彩色視頻與深度視頻時(shí)間分辨率不匹配以及空間分辨率差距過大等問題。多深度相機(jī)之間的干擾來自其成像原理本身,如不同視角的Kinect會(huì)使用相似甚至相同的點(diǎn)—面結(jié)構(gòu)光,不同視角的ToF相機(jī)對(duì)同一波長的光進(jìn)行相同的調(diào)制,這些都會(huì)導(dǎo)致解碼失敗。為了解決這個(gè)問題,華中科技大學(xué)團(tuán)隊(duì)從機(jī)理層面進(jìn)行了探索,針對(duì)多種原理的深度傳感器分別設(shè)計(jì)了包括M-序列等方法在內(nèi)的多深度相機(jī)聯(lián)合采集方案,較好地解決了上述難題(Yan等,2014;Li等,2015;Xiang等,2015)。此外,還進(jìn)一步針對(duì)深度視頻與彩色視頻時(shí)間分辨率不匹配的問題,以及由此導(dǎo)致的深度圖運(yùn)動(dòng)模糊問題,提出了時(shí)域上采樣法(Yang等,2012)和時(shí)域校正法(Yang等,2015c;?Gao等, 2015)等多種方法,為運(yùn)動(dòng)場景的立體感知提供了豐富的工具集。
1.3 深度圖與點(diǎn)云預(yù)處理
如前所述,動(dòng)態(tài)場景的深度圖或點(diǎn)云數(shù)據(jù)往往具有空間分辨率低、時(shí)間分辨率低、畫面噪聲多等問題。為了保證下游任務(wù)的精度,需要進(jìn)行預(yù)處理。從處理技術(shù)上來分,主要包括深度圖預(yù)處理和點(diǎn)云數(shù)據(jù)預(yù)處理兩個(gè)類型。
1.3.1 深度圖預(yù)處理
深度信息不直接用于人眼觀測(cè),而是作為輔助信息幫助參考視點(diǎn)圖像映射到正確的虛擬視點(diǎn)上。深度圖像上的失真會(huì)傳播至虛擬視點(diǎn)圖像,造成主客觀質(zhì)量的下降。因此,在虛擬視點(diǎn)內(nèi)容生成前,需通過深度預(yù)處理技術(shù)盡可能獲得最接近場景實(shí)際距離的深度圖像。Ibrahim等人(2020a)較詳細(xì)地對(duì)深度圖預(yù)處理技術(shù)工作進(jìn)行了系統(tǒng)性的梳理??傮w而言,深度圖、點(diǎn)云的去噪與圖像去噪技術(shù)是同步發(fā)展的,但同時(shí)也有自身的一些特點(diǎn)。典型的圖像濾波器,如多邊濾波器(Choudhury和Tumblin,2005)、流型濾波器(Gastal和Oliveiray,2012)和非區(qū)域均值(Buades等,2005)等都可以直接作用于深度圖的去噪,但這些濾波器都只能解決以像素為單位的深度圖噪聲。一旦噪聲區(qū)域過大,如Kinect深度傳感器的噪聲多以成片區(qū)域深度值缺失為特點(diǎn),則傳統(tǒng)的濾波器都會(huì)失效(Xie等,2015)。
為了解決這個(gè)問題,Kopf等人(2007)提出了聯(lián)合雙邊濾波方法。該方法是對(duì)雙邊濾波的改進(jìn),引入了參考圖像為指導(dǎo),能夠較好地處理大面積深度值缺失的難題,但同時(shí)也引入了彩色圖中的邊緣和紋理信息,給去噪后的深度圖帶來了偽紋理。Liu等人(2017)利用對(duì)齊彩色圖像特征來引導(dǎo)深度圖像修復(fù),通過彩色信息引導(dǎo)權(quán)重并結(jié)合雙邊插值方法來進(jìn)行深度圖空洞修復(fù)。Wang等人(2015)提出一種面向Kinect深度圖像恢復(fù)的三邊約束稀疏表示方法,在懲罰項(xiàng)上考慮了參考?jí)K與目標(biāo)塊間的強(qiáng)度相似度和空間距離的約束,在數(shù)據(jù)保真度項(xiàng)下考慮了目標(biāo)塊質(zhì)心像素的位置約束,通過對(duì)紋理圖像的特征學(xué)習(xí),預(yù)測(cè)出深度圖像空洞恢復(fù)的最優(yōu)解。為了有效克服偽紋理的問題,Ibrahim等人(2020b)引入條件隨機(jī)場方法以抑制在彩色圖引導(dǎo)過程中的紋理干擾問題。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,人們也開始探索單一深度圖(張洪彬 等,2016)、彩色與深度圖聯(lián)合(Zhu等,2017)的濾波方案,總體上遵循了彩色圖濾波的基本架構(gòu),包括特征提取、圖像重建等模塊?;谏疃葘W(xué)習(xí)框架的深度圖濾波雖然能夠取得較好的去噪效果,但是目前仍面臨物體邊緣濾波模糊的難題。 多視點(diǎn)聯(lián)合濾波也是一個(gè)值得關(guān)注的課題。如果將每一個(gè)視點(diǎn)的深度圖單獨(dú)處理,勢(shì)必會(huì)導(dǎo)致視點(diǎn)間深度不穩(wěn)定的問題,為此需要將多個(gè)視點(diǎn)聯(lián)合在一起考慮。華中科技大學(xué)團(tuán)隊(duì)He等人(2020b)提出了跨視點(diǎn)跨模態(tài)的聯(lián)合濾波框架,建立了視點(diǎn)之間的映射模型與關(guān)聯(lián)方式,能夠較好地克服多種類型的噪聲在不同視點(diǎn)間的蔓延。針對(duì)平面相機(jī)陣列,Mieloch等人(2021)考慮到紋理信息的使用會(huì)在深度修正中引入誤差,僅用多個(gè)視點(diǎn)的深度信息對(duì)所選視點(diǎn)的信息進(jìn)行交叉驗(yàn)證,通過多次迭代,增強(qiáng)了多個(gè)深度圖像的視點(diǎn)間一致性,且可以自由設(shè)置需要修正的視點(diǎn)位置和數(shù)目。
1.3.2 點(diǎn)云預(yù)處理
深度相機(jī)和激光雷達(dá)傳感器產(chǎn)生的原始點(diǎn)云通常是稀疏、不均勻和充滿噪聲的,需要進(jìn)行去噪或補(bǔ)全。現(xiàn)有的點(diǎn)云補(bǔ)全的方法大致分為基于幾何或?qū)R的方法和基于表示學(xué)習(xí)的方法兩類。 基于幾何或?qū)R的方法包括基于幾何的方法和基于對(duì)齊的方法?;趲缀蔚姆椒ㄍㄟ^先前的幾何假設(shè),直接從觀察到的形狀部分預(yù)測(cè)不可見的形狀部分(Hu等,2019)。更具體地,一些方法通過生成平滑插值來局部填充表面孔。例如拉普拉斯平滑(Nealen等,2006)和泊松表面重建(Kazhdan和Hoppe,2013),這些方法直接從觀察區(qū)域推斷缺失數(shù)據(jù)并顯示出令人印象深刻的結(jié)果,但是需要為特定類型的模型預(yù)定義幾何規(guī)則,并且僅適用于不完整程度較小的模型?;趯?duì)齊的方法在形狀數(shù)據(jù)庫中檢索與目標(biāo)對(duì)象相似的相同模型,然后將輸入與模型對(duì)齊,隨后對(duì)缺失區(qū)域進(jìn)行補(bǔ)全。
目標(biāo)對(duì)象包括整個(gè)模型(Pauly等,2005)或其中的一部分(Kim等,2013)。除此以外,還有一些方法使用變形后的合成模型(Rock等,2015)或非3D幾何圖元,例如平面(Yin等,2014)和二次曲面(Chauve等,2010)代替數(shù)據(jù)庫中的3D形狀。這些方法在3D模型的類型上具有較強(qiáng)的泛化性,但在推理優(yōu)化和數(shù)據(jù)庫構(gòu)建過程中成本高,且對(duì)噪聲敏感。 基于表示學(xué)習(xí)的方法是一種點(diǎn)云補(bǔ)全的方法。Dai等人(2017)提出了基于3D體素的編碼器—解碼器架構(gòu)3D-EPN(3D-encoder-predictor)。盡管基于3D體素化的表示學(xué)習(xí)方法可以直接擴(kuò)展使用定義在2D規(guī)則網(wǎng)格上的神經(jīng)層或算子,但精細(xì)對(duì)象的重建需要消耗大量顯存和算力。隨著基于點(diǎn)表示學(xué)習(xí)的PointNet(Qi等,2017a)和PointNet++(Qi等,2017b)等模型的出現(xiàn),人們提出了TopNet(Tchapmi等,2019)、PCN(point cloud net)(Yuan等,2018)和SA-Net(shuffle attention net)(Wen等,2020a)等基于點(diǎn)編碼器—解碼器框架的點(diǎn)云修復(fù)模型。該類模型首先通過編碼器從不完整的點(diǎn)云中提取全局特征,再利用解碼器根據(jù)提取的特征推斷完整的點(diǎn)云。
現(xiàn)有基于表示學(xué)習(xí)的點(diǎn)云補(bǔ)全任務(wù)的相關(guān)研究主要分為兩類。1)基于先進(jìn)的深度學(xué)習(xí)框架。為了提高點(diǎn)云生成的完整形狀的真實(shí)性和一致性,人們提出了基于對(duì)抗生成網(wǎng)絡(luò)的RL-GAN-Net(reinforcement learning generative adversarial network)(Sarmad等,2019)、基于變分自動(dòng)編碼器的VRCNet(variational relational point completion network)(Pan等,2021)和基于注意力機(jī)制的PoinTr(Yu等,2021)、SnowflakeNet(Xiang等,2021)、PCTMA-Net(point cloud transformer with morphing atlas-based point generation network)(Lin等,2021)、MSTr(Liu等,2022)等模型,這些模型能更好地挖掘3D形狀的全局和局部幾何結(jié)構(gòu),從而更有利于補(bǔ)全點(diǎn)云中的不完整部分。2)基于任務(wù)特性的算子。為了保留更多的精細(xì)特征信息,SoftPool++(Wang等,2022a)設(shè)計(jì)了softpool算子替代PointNet中的最大池化算子。Wu等人(2021)提出基于密度感知的倒角距離,以改善原有損失函數(shù)對(duì)點(diǎn)云局部密度不敏感或精細(xì)結(jié)構(gòu)保護(hù)不足等缺陷。 考慮實(shí)際應(yīng)用需求,漸進(jìn)式點(diǎn)云補(bǔ)全任務(wù)也開始得到關(guān)注,人們提出了CRN(cascaded refinement network)(Wang等,2022b)、PF-Net(point fractal network)(Huang等,2020b)、PMP-Net++(point cloud completion by transformer-enhanced multi-step point moving paths)(Wen等,2023)等模型,以實(shí)現(xiàn)3D點(diǎn)云的漸進(jìn)細(xì)化。總體而言,基于學(xué)習(xí)的點(diǎn)云補(bǔ)全方法在性能提升上效果顯著,但在模型泛化上仍有很大的提升空間。如何結(jié)合幾何先驗(yàn)以提升模型的泛化性是一個(gè)潛在的研究方向。
02??6DoF視頻壓縮與傳輸
6DoF視頻有多視點(diǎn)視頻、多視點(diǎn)+深度視頻、光場圖像、焦棧圖像和點(diǎn)云序列等多種數(shù)據(jù)表示方式,本節(jié)根據(jù)各種數(shù)據(jù)表示方式的特點(diǎn),對(duì)6DoF視頻壓縮與傳輸?shù)难芯窟M(jìn)展展開介紹。
2.1 多視點(diǎn)視頻編碼
自從1988年CCITT(Consultative Committee International for Telegraph and Telephone)制定了視頻編碼標(biāo)準(zhǔn)H.261后,視頻編碼技術(shù)的應(yīng)用越來越廣泛,并涌現(xiàn)出大量的視頻編碼標(biāo)準(zhǔn),包括H.264/AVC(Wiegand等,2003)、H.265/HEVC(high efficiency video coding)(Ohm等,2012)和H.266/VVC(versatile video coding)(Bross等,2021)。最簡單的多視點(diǎn)視頻編碼MVC(multi-view video coding)方案是獨(dú)立地對(duì)各個(gè)視點(diǎn)進(jìn)行編碼,但是這樣不能充分去除視點(diǎn)間冗余,于是產(chǎn)生了時(shí)域—視點(diǎn)域結(jié)合的編碼壓縮方案研究。 1)多視點(diǎn)視頻擴(kuò)展國際編碼標(biāo)準(zhǔn)。MPEG-2標(biāo)準(zhǔn)中已采用了多視點(diǎn)視頻配置來編碼立體或者多視點(diǎn)視頻信號(hào)。由于壓縮標(biāo)準(zhǔn)的局限性、顯示技術(shù)和硬件處理能力的限制,MPEG-2的多視點(diǎn)擴(kuò)展沒有得到實(shí)際應(yīng)用。2005年,MPEG組織在H.264/AVC的基礎(chǔ)上提出了MVC擴(kuò)展標(biāo)準(zhǔn)(Vetro等,2011),并形成了聯(lián)合多媒體模型(joint multiview model,JMVM)。該模型集成了視點(diǎn)間亮度補(bǔ)償、自適應(yīng)參考幀濾波、MotionSkip模式以及視點(diǎn)合成預(yù)測(cè)等基于宏塊的編碼工具。類似于H.264/AVC的MVC,JCT-3V在H.265/HEVC的基礎(chǔ)上提出了擴(kuò)展編碼標(biāo)準(zhǔn)MV-HEVC(multi-view HEVC)(Tech等,2016)。我國從1996年開始參加MPEG專家組的工作,不斷有提案被接受,在視頻壓縮的技術(shù)成果逐漸具備了國際競爭力。2002年6月,我國成立了數(shù)字音視頻編解碼技術(shù)標(biāo)準(zhǔn)工作組AVS(audio-video standard),目標(biāo)是制定一個(gè)擁有自主知識(shí)產(chǎn)權(quán)的音視頻編碼標(biāo)準(zhǔn)。至今,其版本已經(jīng)發(fā)展到AVS3。基于國際編碼標(biāo)準(zhǔn),國內(nèi)學(xué)者在MVC快速算法、率失真控制和基于深度學(xué)習(xí)的多視點(diǎn)編碼等方面進(jìn)行了深入研究,取得了極大的進(jìn)展。 除了高效的壓縮編碼標(biāo)準(zhǔn)之外,精心設(shè)計(jì)的預(yù)測(cè)編碼結(jié)構(gòu)能充分利用多視點(diǎn)視頻信號(hào)中的時(shí)空相關(guān)性和視點(diǎn)間的相關(guān)性。目前,MVC中廣泛采用的分層B幀編碼結(jié)構(gòu)(hierarchical B pictures,HBP)結(jié)合運(yùn)動(dòng)估計(jì)和視差估計(jì),獲得了較高的壓縮效率和優(yōu)秀的率失真性能。
2)面向編碼的多視點(diǎn)視頻預(yù)處理。
利用多視點(diǎn)視頻擴(kuò)展編碼標(biāo)準(zhǔn)壓縮多視點(diǎn)視頻信號(hào)時(shí),能在編碼標(biāo)準(zhǔn)框架下同時(shí)消除時(shí)空冗余和視點(diǎn)間冗余。然而,多視點(diǎn)視頻信號(hào)往往存在幾何偏差和顏色偏差,影響了編碼壓縮效率。因此,多視點(diǎn)視頻信號(hào)的預(yù)處理也能提升壓縮性能。Doutre和Nasiopoulos(2009)對(duì)多視點(diǎn)視頻信號(hào)進(jìn)行顏色校正,提升了視點(diǎn)之間顏色一致性和MVC的視點(diǎn)間預(yù)測(cè)性能。Fezza等人(2014)提出了基于視點(diǎn)間對(duì)應(yīng)區(qū)域直方圖匹配方法的多視點(diǎn)顏色校正算法,以提升壓縮性能。福州大學(xué)團(tuán)隊(duì)Niu等人(2020)針對(duì)多視點(diǎn)視頻信號(hào)中存在的全局、局部和時(shí)間顏色差異,提出了由粗到細(xì)的多階段顏色校正算法。
3)多視點(diǎn)視頻快速編碼。
由于各種編碼標(biāo)準(zhǔn)集成了多種復(fù)雜技術(shù),且多視點(diǎn)視頻巨大的數(shù)據(jù)量也會(huì)帶來巨大的時(shí)間開銷。因此,多視點(diǎn)彩色視頻編碼的計(jì)算復(fù)雜度問題長期以來都是難題。針對(duì)各種編碼標(biāo)準(zhǔn)和多視點(diǎn)擴(kuò)展編碼標(biāo)準(zhǔn),學(xué)者們廣泛地開展了快速編碼算法研究。典型的手段包括減少搜索點(diǎn)數(shù)(Cernigliaro等,2009)、利用MVC的編碼模式的時(shí)空相關(guān)性和視點(diǎn)相關(guān)性減少當(dāng)前編碼宏塊的搜索數(shù)量(Zeng等,2011)以及基于像素級(jí)與圖像組級(jí)的并行搜索算法(Jiang和Nooshabadi,2016)等。 國內(nèi)學(xué)者也提出了若干快速編碼算法。Li等人(2008)通過減小搜索范圍和參考幀數(shù)目來提高M(jìn)VC速度。在MVC快速宏塊模式選擇方面,Shen等人(2010)利用相鄰視點(diǎn)的宏塊模式輔助當(dāng)前視點(diǎn)的宏塊模式選擇,提高編碼速度。Ding等人(2008)通過共享視點(diǎn)間編碼信息(例如率失真代價(jià)、編碼模式和運(yùn)動(dòng)矢量)來降低MVC的運(yùn)動(dòng)估計(jì)的計(jì)算復(fù)雜度。MVC中,大量宏塊的最優(yōu)模式為DIRECT/SKIP模式。根據(jù)此特性,Zhang等人(2013b)提出了Direct模式的提前判斷方法,從而避免所有宏塊模式的搜索過程。Yeh等人(2014)利用已編碼視點(diǎn)的最大和最小率失真代價(jià)形成閾值條件,用于提前終止當(dāng)前編碼視點(diǎn)的每個(gè)宏塊編碼模式選擇過程。Pan等人(2015)提出了一種Direct模式的快速模式?jīng)Q策算法,并利用MVC特性,設(shè)計(jì)了運(yùn)動(dòng)和視差估計(jì)的提前終止算法。Li等人(2016b)利用宏塊模式的一致性和率失真代價(jià)的相關(guān)性,提出了Direct模式的判定方法。
4)MVC的碼率控制。
碼率控制旨在提高網(wǎng)絡(luò)帶寬利用率和視頻重建質(zhì)量。與單視點(diǎn)視頻編碼的碼率控制不同,MVC的碼率控制需要考慮視點(diǎn)級(jí)的碼率分配。Vizzotto等人(2013)在幀級(jí)和宏塊級(jí)實(shí)現(xiàn)了一種分層MVC比特控制方法,該方法充分利用了當(dāng)前幀和以編碼相鄰幀比特分布的相關(guān)性。Yuan等人(2015)提出了視點(diǎn)間編碼依賴關(guān)系模型,認(rèn)為視點(diǎn)間的依賴關(guān)系主要由編碼器的跳躍(SKIP)模式導(dǎo)致,并據(jù)此提出了理論上最優(yōu)的多視點(diǎn)視頻碼率分配與控制算法。
5)基于深度學(xué)習(xí)的MVC。
Lei等人(2022)提出了基于視差感知參考幀生成網(wǎng)絡(luò)(disparity-aware reference frame generation network,DAG-Net)生成深度虛擬參考幀。該網(wǎng)絡(luò)包含多級(jí)感受野模塊、視差感知對(duì)齊模塊和融合重建模塊,能轉(zhuǎn)換不同視點(diǎn)之間的視差關(guān)系,生成更可靠的參考幀。這些參考幀插入到3D-HEVC的參考幀列表中,能提升MVC的編碼效率。Peng等人(2022)提出了基于多域相關(guān)學(xué)習(xí)和劃分約束網(wǎng)絡(luò)的深度環(huán)路濾波方法。其中,多域相關(guān)學(xué)習(xí)模塊充分利用多視點(diǎn)的時(shí)間和視點(diǎn)相關(guān)性來恢復(fù)失真視頻的高頻信息,分割約束重建模塊通過設(shè)計(jì)分割損失減少壓縮偽影。
2.2 多視點(diǎn)+深度視頻編碼
多視點(diǎn)彩色加深度(multiview video plus depth, MVD)是一種典型的場景表示方式,MVD信號(hào)包括多視點(diǎn)視頻信號(hào)和對(duì)應(yīng)的深度視頻信號(hào)。多視點(diǎn)視頻信號(hào)是利用相機(jī)陣列對(duì)在同一場景從不同位置采集得到,而對(duì)應(yīng)深度視頻可采用深度相機(jī)獲取或者利用軟件估計(jì)得到。與傳統(tǒng)的視頻信號(hào)相比,MVD的數(shù)據(jù)量隨著相機(jī)數(shù)目的增加而成倍增加。
1)多視點(diǎn)+深度視頻國際編碼標(biāo)準(zhǔn)。
為了編碼MVD信號(hào),JCT-3V基于HEVC提出了3D-HEVC的擴(kuò)展編碼標(biāo)準(zhǔn)(Tech等,2016),該標(biāo)準(zhǔn)能充分利用深度視頻的特性和視點(diǎn)之間的相關(guān)性,提升MVD信號(hào)的編碼性能。針對(duì)沉浸式視頻的最新編碼壓縮標(biāo)準(zhǔn)為ISO/IEC MIV(MPEG immersive video),該標(biāo)準(zhǔn)定義了比特流格式和解碼過程。沉浸式視頻參考軟件TMIV(test model for immersive video)包括編碼器、解碼器和渲染器等,并提供了測(cè)試用例、測(cè)試條件、質(zhì)量評(píng)估方法和實(shí)驗(yàn)性能結(jié)果等。在TMIV中,多個(gè)紋理和幾何視圖使用傳統(tǒng)的2D視頻編解碼器編碼為補(bǔ)丁的圖集,同時(shí)優(yōu)化比特率、像素率和質(zhì)量。
2)多視點(diǎn)+深度視頻快速編碼。
在基于H.265/HEVC及多視點(diǎn)視頻擴(kuò)展標(biāo)準(zhǔn)方面,學(xué)者們提出了基于MV-HEVC和3D-HEVC標(biāo)準(zhǔn)的多視點(diǎn)深度視頻快速編碼算法(張洪彬 等,2016)。由于深度視頻編碼深度視頻信息反映3D場景的幾何信息,最簡單的方法是對(duì)深度視頻下采樣,降低編碼復(fù)雜度和降低碼率,代價(jià)為丟失場景信息,導(dǎo)致繪制失真。Tohidypour等人(2016)利用已編碼信息,結(jié)合在線學(xué)習(xí)的方法,調(diào)節(jié)3D-HEVC編碼中非基礎(chǔ)視點(diǎn)彩色視頻的運(yùn)動(dòng)搜索范圍和降低模式搜索的復(fù)雜度。Chung等人(2016)提出了新的幀內(nèi)/幀間預(yù)測(cè)和快速四叉樹劃分方案,既提高了3D-HEVC的深度視頻的壓縮率,又提高了壓縮速度。Zhang等人(2018)針對(duì)3D-HEVC中深度視頻編碼模式引入的額外編碼復(fù)雜度,提出了兩種深度視頻的幀內(nèi)模式?jīng)Q策方法。Xu等人(2021)基于MV-HEVC編碼平臺(tái),提出了復(fù)雜度分配和調(diào)節(jié),實(shí)現(xiàn)了MVC的編碼復(fù)雜度優(yōu)化,已適應(yīng)于不同的視頻應(yīng)用系統(tǒng)。在多視點(diǎn)深度視頻方面,Lei等人(2015)利用MVD視頻信號(hào)中的視點(diǎn)相關(guān)性、彩色和深度視頻的相關(guān)性,提出了多視點(diǎn)深度視頻快速編碼算法。Peng等人(2016)和黃超等人(2018)基于3D-HEVC提出了聯(lián)合預(yù)處理和快速編碼系列算法,增強(qiáng)了MVD信號(hào)中深度視頻的時(shí)間不一致性,提高了壓縮效率和編碼速度。
3)多視點(diǎn)+深度視頻編碼碼率控制。
與MVC的碼率控制僅需要考慮視點(diǎn)級(jí)的碼率分配不同,MVD編碼進(jìn)一步需要考慮彩色與深度視頻之間的碼率分配。Yuan等人(2011,2014)最早確定了虛擬視點(diǎn)失真和多視點(diǎn)紋理和深度視頻的編碼失真之間的解析關(guān)系,進(jìn)而將多視點(diǎn)+深度視頻編碼碼率控制問題建模為拉格朗日優(yōu)化問題,并求得理論上的最優(yōu)解。Chung等人(2014)提出一種基于新型視點(diǎn)綜合失真模型的比特分配算法,在紋理和深度數(shù)據(jù)之間優(yōu)化分配有限的比特預(yù)算,以最大化合成的虛擬視圖和編碼的真實(shí)視圖的質(zhì)量。Klimaszewski等人(2014)提出一種新的多視點(diǎn)深度視頻壓縮質(zhì)量控制方法,建立了深度和紋理量化參數(shù)計(jì)算的數(shù)學(xué)模型。De Abreu等人(2015)提出一種在相關(guān)約束條件下有效選擇預(yù)測(cè)結(jié)構(gòu)及其相關(guān)紋理和深度量化參數(shù)的算法,具有較優(yōu)的壓縮效率和較低的計(jì)算復(fù)雜度,為交互式媒體應(yīng)用提供了一種有效的編碼解決方案。
Fiengo等人(2016)利用最新的對(duì)凸優(yōu)化工具,提出了幀級(jí)比特最優(yōu)速率分配的算法,其碼率控制性能超越標(biāo)準(zhǔn)MV-HEVC。Domański等人(2021)提出一種可用于比特率控制的視頻編碼器模型,該模型適用于MVD編碼,從AVC的模型中,可以快速推導(dǎo)出HEVC和VVC的模型。Paul(2018)提出一種基于3維幀參考結(jié)構(gòu)來提高交互和降低計(jì)算時(shí)間,增加一個(gè)參考幀來提高遮擋區(qū)域的率失真性能,采用視覺注意的比特分配以提供更好的視頻感知質(zhì)量。Liu等人(2011)提出一種MVD的視點(diǎn)、彩色/深度級(jí)和幀級(jí)的聯(lián)合碼率控制算法,利用預(yù)編碼及數(shù)理統(tǒng)計(jì)分析方法實(shí)現(xiàn)視點(diǎn)級(jí)、彩色/深度級(jí)的比特分配。Zhang等人(2013a)提出了基于視點(diǎn)合成失真模型的多視點(diǎn)深度視頻編碼的區(qū)域位分配和率失真優(yōu)化算法,測(cè)試序列的編碼效率得到顯著提高。Li等人(2021b)提出了一種基于視圖間依賴性和時(shí)空相關(guān)性新的多視圖紋理視頻編碼位分配方法,建立了一個(gè)基于視圖間依賴關(guān)系的聯(lián)合多視圖率失真模型。該方法在率失真性能方面優(yōu)于其他最先進(jìn)的算法。
4)基于深度學(xué)習(xí)的深度視頻編碼。
相比于彩色視頻,深度視頻具有更加平滑的內(nèi)容和更大的空域冗余,可以以更小的分辨率進(jìn)行編碼,以提高編碼效率。針對(duì)深度視頻編碼,Li等人(2022)提出了基于深度上采樣的多分辨率預(yù)測(cè)框架,該框架對(duì)于不同復(fù)雜度的深度塊,使用最優(yōu)的分辨率進(jìn)行編碼,以提高深度視頻編碼效率。
2.3 光場圖像壓縮
光場圖像壓縮的目的在于去除子視點(diǎn)圖像內(nèi)部冗余以及子視點(diǎn)圖像間冗余。傳統(tǒng)2D圖像編碼中成熟的幀內(nèi)壓縮技術(shù)可以直接應(yīng)用于光場圖像壓縮去除子視點(diǎn)圖像內(nèi)部冗余。因此,光場圖像壓縮的相關(guān)研究主要致力于去除視點(diǎn)間冗余(Liu等,2019)。光場圖像的各子視點(diǎn)圖像由于視差變化具有不規(guī)則變化的顯著特點(diǎn),根據(jù)建模方法,現(xiàn)有的光場圖像壓縮研究大體可分為基于偽視頻序列的方法、基于優(yōu)化的方法和基于視點(diǎn)重建的方法3類。
1)基于偽視頻序列的方法。
光場圖像壓縮的關(guān)鍵在于如何充分利用子視點(diǎn)圖像間的相關(guān)性。相鄰的子視點(diǎn)圖像之間存在著極大比例的重復(fù)場景,且由于視差引起的場景變化平緩,與傳統(tǒng)視頻中前后幀中的場景變化較為相似。自然而然地,早期的光場圖像壓縮引入了傳統(tǒng)2D視頻編碼的框架,將光場圖像中的子視點(diǎn)圖按照一定的掃描順序重組為偽視頻序列,將視點(diǎn)間冗余轉(zhuǎn)化為偽視頻序列的幀間冗余,直接利用成熟的視頻壓縮標(biāo)準(zhǔn)中的幀間預(yù)測(cè)技術(shù)去除視點(diǎn)間冗余。因此,此類研究方案的重點(diǎn)在于如何構(gòu)建合理的子視點(diǎn)排列順序以及預(yù)測(cè)結(jié)構(gòu),從而在偽視頻序列的幀間編碼過程中盡量減少編碼視點(diǎn)與參考視點(diǎn)間的殘差信息,增加壓縮效率。針對(duì)掃描順序,國內(nèi)一些早期的工作(Dai等,2015)中提出了橫向、縱向、之字形和環(huán)形的掃描方案,且均取得了一定的性能提升。
而在此類工作中,影響力較大的是由中國科學(xué)技術(shù)大學(xué)Li等人(2017)提出的2維層級(jí)編碼框架。在此框架中,首先將所有視點(diǎn)圖劃分為4個(gè)象限,再在每個(gè)象限中按固定位置劃分為4個(gè)編碼層次,沿用傳統(tǒng)視頻編碼中多層次編碼的框架,即在編碼過程中首先使用高保真編碼方案壓縮低層次視點(diǎn)圖,并且在高層次視點(diǎn)圖壓縮時(shí)作為參考視點(diǎn)。此外,在選取參考視點(diǎn)圖的過程中,通過衡量與不同參考視點(diǎn)間的距離確定最佳的參考視點(diǎn),進(jìn)一步提升壓縮效率。此工作為較早提出的完整的光場編碼框架,經(jīng)常被后續(xù)研究引用作為評(píng)價(jià)標(biāo)準(zhǔn)。此外,Liu等人(2016)將傳統(tǒng)視頻編碼中的可伸縮編碼思想應(yīng)用到光場壓縮中,提出了一個(gè)包括3層分辨率和質(zhì)量可伸縮的光場編碼框架。 基于偽視頻序列的壓縮方法致力于將視點(diǎn)間的相關(guān)性轉(zhuǎn)換為時(shí)域相關(guān)性,從而得以利用視頻編碼技術(shù)中的幀間預(yù)測(cè)技術(shù)去除偽視頻序列的時(shí)域冗余。然而,傳統(tǒng)視頻編碼的幀間預(yù)測(cè)技術(shù)中,只考慮了前后幀場景間的平移運(yùn)動(dòng),用表征上下、左右位移的2維的運(yùn)動(dòng)向量表示。而光場圖像中各個(gè)子視點(diǎn)圖像場景間更多的是由于視角變化引起的不規(guī)則運(yùn)動(dòng),這與傳統(tǒng)視頻存在本質(zhì)上的差異。所以,由于缺少針對(duì)光場圖像特性的適應(yīng)性優(yōu)化,基于偽視頻序列的光場編碼方案難以取得最優(yōu)的壓縮性能。
2)基于優(yōu)化的方法。
在基于偽視頻序列壓縮方案的基礎(chǔ)上,一部分研究者致力于研究子視點(diǎn)間場景不規(guī)則運(yùn)動(dòng)的模型,優(yōu)化原有光場編碼框架中的部分模塊,以期進(jìn)一步提升編碼效率。這些研究包括基于單應(yīng)性變化矩陣、圖變換等優(yōu)化方案。Chang等人(2006)針對(duì)視點(diǎn)間物體的不規(guī)則變化,首先利用傳統(tǒng)的圖像分割方法獲取物體形狀,繼而提出了一種視差補(bǔ)償算法來估計(jì)相鄰子視點(diǎn)圖中該物體的形狀變化,據(jù)此提升預(yù)測(cè)效率。此外,此工作也在光場編碼基礎(chǔ)框架上提出了改進(jìn)方案,即使用聚類算法對(duì)子視點(diǎn)圖像進(jìn)行排序,根據(jù)聚類結(jié)果調(diào)整偽視頻幀的排序。Jiang等人(2017)提出了基于單應(yīng)性變化矩陣的光場圖像編碼框架優(yōu)化方案。具體的,該方法利用單應(yīng)性或者多應(yīng)性變化矩陣將所有子視點(diǎn)圖統(tǒng)一映射到一個(gè)或者多個(gè)深度面上,繼而在此基礎(chǔ)上求取光場圖像的低秩表示。最后,通過單應(yīng)性矩陣參數(shù)與低秩矩陣的聯(lián)合優(yōu)化,以實(shí)現(xiàn)光場低秩表示數(shù)據(jù)的壓縮。Dib等人(2020)基于超射線表示的視差模型提出了一個(gè)局部低秩逼近方法。
超射線由與所有子視點(diǎn)圖像都相關(guān)的超像素點(diǎn)構(gòu)建,通過施加形狀與大小的約束,使得超射線得以表達(dá)復(fù)雜的場景變換,繼而通過參數(shù)化的視差模型描述每條超射線表示幀內(nèi)的視差局部變化。此模型的最佳參數(shù)將通過交替搜索估計(jì)的方法確定。 由于圖信號(hào)也能較好地描述圖像中物體的不規(guī)則運(yùn)動(dòng),部分研究者進(jìn)而將圖變換應(yīng)用于光場壓縮的視點(diǎn)間預(yù)測(cè)模塊。基于圖變換的優(yōu)化框架最早由Su等人(2017)提出,該方法依據(jù)深度信息將所有像素分類并構(gòu)建圖表示,并在此基礎(chǔ)上對(duì)子視點(diǎn)圖間場景的不規(guī)則變化進(jìn)行預(yù)測(cè)。然而此方案依賴于深度信息,并且基于圖變換的運(yùn)動(dòng)預(yù)測(cè)大幅增加了整體模型的復(fù)雜度。針對(duì)于此,Rizkallah等人(2021)提出了一個(gè)局部圖變換的方法,通過圖規(guī)約技術(shù)以及譜聚類來減少圖的維度,從而控制算法的整體復(fù)雜度,并提出了不同規(guī)約方案下重建子視點(diǎn)圖的率失真準(zhǔn)則模型,以實(shí)現(xiàn)在特定復(fù)雜度限制下尋找最優(yōu)圖構(gòu)建的目的。 在光場圖像壓縮乃至傳統(tǒng)視頻壓縮領(lǐng)域中,如何描述鄰近視點(diǎn)或幀間場景間的不規(guī)則運(yùn)動(dòng)是一個(gè)長久以來懸而未決的難題。類似于圖變化或者單應(yīng)性變化矩陣等基于人工設(shè)計(jì)函數(shù)的優(yōu)化方案受限于其預(yù)測(cè)的準(zhǔn)確率,對(duì)整體編碼性能提升較為有限,且極大地增加了整體編碼框架的復(fù)雜度,給實(shí)際應(yīng)用帶來了挑戰(zhàn)。
3)基于視角重建的方法。
相比于傳統(tǒng)使用手工設(shè)計(jì)函數(shù)描述復(fù)雜運(yùn)動(dòng)的優(yōu)化方案,直接使用智能圖像生成技術(shù)以重建鄰近視點(diǎn)圖的方案更為簡潔、高效。深度神經(jīng)網(wǎng)絡(luò)中的先驗(yàn)知識(shí)顯著減少了重建光場圖像所需要傳遞的信息,大幅提升了光場圖像壓縮框架的效率,因此成為當(dāng)前光場壓縮研究的重要方向。 該類方法首先在所有待壓縮的子視角圖中選取數(shù)幅作為關(guān)鍵視角(Chen等,2018),壓縮并傳送至解碼端。然后,在編碼非關(guān)鍵子視角圖時(shí),將重建后的關(guān)鍵視角圖作為輸入,利用圖像生成網(wǎng)絡(luò)合成非關(guān)鍵視角圖。最后,合成的非關(guān)鍵視角圖與原圖之間的殘差將被壓縮并傳送至解碼端。如香港城市大學(xué)Hou等人(2019)使用基于深度學(xué)習(xí)的角度超分辨率模型用于預(yù)測(cè)非關(guān)鍵視角圖。北京大學(xué)Jia等人(2019)使用對(duì)抗生成模型來學(xué)習(xí)子視角圖像結(jié)構(gòu)中的角度以及空間變化,從而得以實(shí)現(xiàn)更準(zhǔn)確的預(yù)測(cè)非關(guān)鍵視角幀的預(yù)測(cè)。針對(duì)低碼率條件下的光場壓縮,Ahmad等人(2020)提出了基于剪切小波變換的非關(guān)鍵視角預(yù)測(cè)方法。Bakir等人(2021)提出了一種自適應(yīng)的非關(guān)鍵視點(diǎn)丟棄的策略,并在解碼端對(duì)生成的非關(guān)鍵幀進(jìn)行圖像增強(qiáng)后處理,以進(jìn)一步提升整體壓縮效率。
2.4 焦棧圖像壓縮
焦棧圖像是光場圖像的降維,其壓縮是一個(gè)全新的課題。相比于傳統(tǒng)2D圖像的固定視點(diǎn)、固定對(duì)焦的采樣模式,焦棧圖像需要在某一時(shí)刻對(duì)不同深度的場景進(jìn)行稠密采集,以獲取完整的場景圖像數(shù)據(jù)。焦棧圖像序列與普通視頻具有不同的成像特性和冗余模型,普通視頻幀之間的冗余模型通過運(yùn)動(dòng)矢量來刻畫,而焦棧圖像序列則通過焦深來刻畫,因此現(xiàn)有編碼框架不適用于焦棧圖像壓縮的目標(biāo)。 焦棧圖像編碼方法可分為兩類,即基于靜態(tài)圖像的編碼和基于視頻的編碼。在基于靜態(tài)圖像的編碼方法中,Sakamoto等人(2012a)將焦棧圖像序列劃分為尺寸為8的3D像素塊,然后對(duì)每個(gè)3D像素塊進(jìn)行3D-DCT(3D discrete cosine transform)變換和線性量化,并按照頻率從低到高的順序排列為1D(one dimension)信號(hào),最后利用霍夫曼編碼方法將信號(hào)寫入碼流完成編碼。
為了抑制圖像退化噪聲,Sakamoto等人(2012b)進(jìn)一步利用3D離散小波變換對(duì)焦棧圖像進(jìn)行處理,相比于基于3D離散余弦變換的方法,有效抑制了編碼產(chǎn)生的塊效應(yīng)失真。Khire等人(2012)提出的方法采用差分脈沖編碼調(diào)制和相鄰圖像的信息來估計(jì)冗余度,獲得了比JPEG和JPEG2000更高的壓縮效率。 基于視頻的編碼方法考慮了序列各幀之間的相關(guān)性,通過運(yùn)動(dòng)搜索進(jìn)行幀間預(yù)測(cè),相比于基于靜態(tài)圖像的編碼方法可獲得更高的壓縮性能。如van Duong等人(2019)面向光場重聚焦應(yīng)用,將焦棧圖像排列為視頻序列,直接使用HEVC編碼器進(jìn)行壓縮。然而,這顯然不能挖掘圖像間的焦深冗余。為此,Wu等人(2020b,2022)分別提出了基于高斯1D維納濾波的塊模式單向/雙向焦深預(yù)測(cè),以及分層焦深預(yù)測(cè)的方法,較早地開展了焦深冗余模型的構(gòu)建。該類型相比于直接利用視頻編碼的方案,壓縮性能上有了極大提升。然而,需要強(qiáng)調(diào)的是,焦棧圖像壓縮的研究剛剛起步,尚有許多未知的問題需要探索和研究。
2.5 點(diǎn)云編碼壓縮
3D點(diǎn)云是具有法線、顏色和強(qiáng)度等屬性的無序3D點(diǎn)集。大規(guī)模3D點(diǎn)云數(shù)據(jù)的高效編碼壓縮技術(shù)具有廣泛的市場應(yīng)用前景?,F(xiàn)有研究主要可分為傳統(tǒng)壓縮方法和智能壓縮方法兩類。
1)傳統(tǒng)壓縮方法。
為了實(shí)現(xiàn)點(diǎn)云數(shù)據(jù)的高效壓縮,工業(yè)界和學(xué)術(shù)界提出了多種解決方案(Mekuria等,2017)。點(diǎn)云壓縮方法是通過八叉樹等表示方法將點(diǎn)云進(jìn)行預(yù)處理,主要思路有3種。第1種是通過映射,將3維點(diǎn)云轉(zhuǎn)換成2維圖像后,采用傳統(tǒng)的圖像或者視頻編碼工具進(jìn)行編碼操作;第2種是首先直接將數(shù)據(jù)矢量線性變換為合適的連續(xù)值表示,獨(dú)立地量化其元素,然后再使用多種無損的熵編碼對(duì)得到的離散表示進(jìn)行熵編碼操作;第3種是將八叉樹空間索引信息直接進(jìn)行編碼。根據(jù)組織機(jī)構(gòu)不同,主要可分為運(yùn)動(dòng)圖像專家組(MPEG)提出的點(diǎn)云壓縮(point cloud compression,PCC)標(biāo)準(zhǔn)、音視頻標(biāo)準(zhǔn)組(audio video coding standards workgroup,AVS)提出的點(diǎn)云壓縮參考模型(point cloud reference model,PCRM)和谷歌公司研發(fā)的“Draco”編碼軟件3類。 2017年MPEG啟動(dòng)了關(guān)于點(diǎn)云壓縮的技術(shù)征集提案,此后一直在評(píng)估和提升點(diǎn)云壓縮技術(shù)的性能。
根據(jù)點(diǎn)云壓縮的不同應(yīng)用場景,MPEG劃分了3類點(diǎn)云數(shù)據(jù),并針對(duì)3類點(diǎn)云開發(fā)了3種不同的編碼模型,分別是用于自動(dòng)駕駛的動(dòng)態(tài)獲取點(diǎn)云的模型(LiDAR point cloud compression,L-PCC)、針對(duì)用于表示靜止對(duì)象和固定場景的靜態(tài)點(diǎn)云模型(surface point cloud compression,S-PCC)和針對(duì)用于沉浸式多媒體通信的動(dòng)態(tài)點(diǎn)云的模型(video-based point cloud compression,V-PCC)。其中,動(dòng)態(tài)獲取點(diǎn)云指點(diǎn)云獲取設(shè)備一直處于運(yùn)動(dòng)狀態(tài),獲取的點(diǎn)云場景也處在實(shí)時(shí)變化之中;靜態(tài)點(diǎn)云指被掃描物體與點(diǎn)云獲取設(shè)備均處于靜止?fàn)顟B(tài);動(dòng)態(tài)點(diǎn)云指被掃描物體是運(yùn)動(dòng)的,但是點(diǎn)云獲取設(shè)備處于靜止?fàn)顟B(tài)。由于L-PCC和S-PCC的編碼框架相似,2018年1月MPEG對(duì)現(xiàn)有的L-PCC和S-PCC進(jìn)行整合,推出了全新的測(cè)試模型(geometry-based point cloud compression,G-PCC)。2022年MPEG公布了第1代點(diǎn)云壓縮國際標(biāo)準(zhǔn)V-PCC (ISO/IEC 23090-5)和G-PCC (ISO/IEC 23090-9)(Schwarz等,2019)。
其中,V-PCC適用于點(diǎn)分布相對(duì)均勻且稠密的點(diǎn)云,G-PCC適用于點(diǎn)分布相對(duì)稀疏的點(diǎn)云。G-PCC的幾何信息編碼部分主要是通過坐標(biāo)變換和體素化(Schnabel和Klein,2006)的方法進(jìn)行位置量化與重復(fù)點(diǎn)移除,然后通過八叉樹構(gòu)建將3維空間劃分為層次化結(jié)構(gòu),將每個(gè)點(diǎn)編碼為它所屬的子結(jié)構(gòu)的索引,最后通過熵編碼生成幾何比特流信息。屬性信息部分則是通過預(yù)測(cè)變換、提升變換(Liu等,2020)和區(qū)域自適應(yīng)分層變換(region-adaptive hierarchical transform,RAHT)(de Queiroz和Chou,2016)等進(jìn)行冗余消除。V-PCC則通過將輸入點(diǎn)云分解為塊集合,這些塊可以通過簡單的正交投影獨(dú)立地映射到常規(guī)的2D網(wǎng)格,再通過諸如HEVC和VVC等傳統(tǒng)2維視頻編碼器來處理紋理信息及附加元數(shù)據(jù)。
為了保障我國數(shù)字媒體相關(guān)產(chǎn)業(yè)的安全發(fā)展,AVS也成立了點(diǎn)云工作組,并在2019年12月發(fā)布了國內(nèi)第1個(gè)點(diǎn)云壓縮編碼參考模型PCRM(point cloud reference model)。PCRM的核心編碼思想與G-PCC類似,同樣是依據(jù)點(diǎn)云的幾何結(jié)構(gòu)直接編碼。PCRM的幾何編碼主要是通過多叉樹結(jié)構(gòu)對(duì)點(diǎn)云劃分,利用節(jié)點(diǎn)之間的關(guān)系和占位信息對(duì)點(diǎn)云編碼。PCRM的屬性編碼有兩種方案,一種是直接預(yù)測(cè)編碼;另一種是基于變換的編碼,即對(duì)點(diǎn)云的屬性信息進(jìn)行離散余弦變換。 Draco架構(gòu)是谷歌媒體團(tuán)隊(duì)提出的開源3D數(shù)據(jù)壓縮解決方案,使用k-維樹等多種空間數(shù)據(jù)索引方法對(duì)屬性和幾何信息進(jìn)行量化、預(yù)測(cè)壓縮以及熵編碼以達(dá)到高效壓縮目的。
2)智能壓縮方法。
隨著深度學(xué)習(xí)的發(fā)展及其在數(shù)據(jù)編碼領(lǐng)域的應(yīng)用,研究人員提出了基于深度學(xué)習(xí)的端到端點(diǎn)云編碼方法。2021年MPEG也開展了基于深度學(xué)習(xí)的點(diǎn)云編碼(artificial intelligence-point cloud compression,AI-PCC)技術(shù)探索,并提出標(biāo)準(zhǔn)測(cè)試流程?;谏疃葘W(xué)習(xí)的端到端點(diǎn)云編碼方法主要涉及基于體素表示、基于點(diǎn)表示和深度熵模型3種方式。 基于體素表示的方法是將點(diǎn)云轉(zhuǎn)換為體素化的網(wǎng)格表示,再對(duì)體素進(jìn)行編碼與壓縮。Quach等人(2019,2020)和Wang等人(2021b)受基于學(xué)習(xí)的圖像壓縮方法的啟發(fā),使用基于3D卷積的自編碼器,在體素上提取潛在表示作為點(diǎn)云的幾何編碼并在體素上執(zhí)行二分類任務(wù)以重建點(diǎn)云幾何信息。由于點(diǎn)云的稀疏性,點(diǎn)云占據(jù)的體素只占全部空間的小部分,體素網(wǎng)格中的大部分空間保持空白,導(dǎo)致存儲(chǔ)和計(jì)算的浪費(fèi)。
為了克服這一缺陷,南京大學(xué)Wang等人(2021a)利用稀疏體素代替稠密體素,并通過Minkowski稀疏卷積來降低內(nèi)存要求以提升編碼性能。 基于點(diǎn)表示的方法直接使用神經(jīng)網(wǎng)絡(luò)處理點(diǎn)云,而不需要額外的體素化。浙江大學(xué)Huang等人(2019)直接使用自編碼器用于點(diǎn)云幾何壓縮。深圳大學(xué)Wen等人(2020b)提出了一種用于大規(guī)模點(diǎn)云的自適應(yīng)八叉樹劃分模塊,并使用動(dòng)態(tài)圖卷積神經(jīng)網(wǎng)絡(luò)作為點(diǎn)云自編碼器的核心骨干網(wǎng)絡(luò)。為了獲得更好的率失真性能,Wiesmann等人(2021)使用核點(diǎn)卷積,南京大學(xué)Gao等人(2021)使用神經(jīng)圖采樣來充分利用點(diǎn)的局部相關(guān)性。 深度熵模型將點(diǎn)云構(gòu)建成八叉樹形式,并在八叉樹上應(yīng)用神經(jīng)網(wǎng)絡(luò)估計(jì)概率熵模型。Huang等人(2020a)使用簡單多層感知機(jī),根據(jù)在八叉樹上收集到的上下文信息來進(jìn)行熵估計(jì)。
Biswas等人(2020)考慮點(diǎn)云序列間的上下文,并將該上下文信息引入到神經(jīng)網(wǎng)絡(luò)估計(jì)的熵模型中,以提升點(diǎn)云序列編碼與壓縮的性能。北京大學(xué)Fu等人(2022)基于注意力機(jī)制,充分利用長距離的上下文信息,以進(jìn)一步提升編碼與壓縮性能。為了避免過多的上下文信息所引入的額外編解碼復(fù)雜度,南京大學(xué)Wang等人(2022a)提出了輕量級(jí)SparsePCGC(sparse point cloud grid compression)模型,該模型已參與了最新的MPEG AI-PCC的基線評(píng)測(cè)。目前,使用深度學(xué)習(xí)技術(shù)進(jìn)行點(diǎn)云屬性壓縮的工作較少,是一個(gè)有待于進(jìn)一步探索的領(lǐng)域。目前代表性的方法是由中山大學(xué)Fang等人(2022)提出的3DAC(three dimensional attribute coding)算法,該方法首先將帶有屬性的點(diǎn)云構(gòu)建為RAHT樹,并使用神經(jīng)網(wǎng)絡(luò)為RAHT樹構(gòu)建上下文熵模型,以消除統(tǒng)計(jì)冗余。此外,Tang等人(2018,2020)提出基于隱函數(shù)表示的自編碼器結(jié)構(gòu),以實(shí)現(xiàn)3D/4D點(diǎn)云數(shù)據(jù)的高效壓縮。
2.6 6DoF視頻傳輸優(yōu)化
6DoF視頻的典型應(yīng)用是擴(kuò)展現(xiàn)實(shí)(extended reality,XR)(Hu等,2020)。XR業(yè)務(wù)的典型特征是高數(shù)據(jù)速率和嚴(yán)格的時(shí)延預(yù)算,因此被歸類在5.5G愿景中的eMBB(enhanced mobile broadband)和URLLC(ultra reliable low latency communication)業(yè)務(wù)之間。早在2016年,3GPP(3rd generation partnership project)已開展支撐XR業(yè)務(wù)的標(biāo)準(zhǔn)化工作,其中服務(wù)和系統(tǒng)工作組定義了高速率和低延遲XR應(yīng)用程序。2018年,多媒體編解碼器、系統(tǒng)和服務(wù)工作組繼續(xù)開展這項(xiàng)工作,報(bào)告了相關(guān)流量特征。與此同時(shí),系統(tǒng)架構(gòu)和服務(wù)工作組標(biāo)準(zhǔn)化了新的5G服務(wù)質(zhì)量標(biāo)識(shí)符,以支持包括XR在內(nèi)的交互式服務(wù)。各種XR應(yīng)用程序和服務(wù)都有其用戶設(shè)置、流量和服務(wù)質(zhì)量指標(biāo),3GPP SA4為XR業(yè)務(wù)確定了20多個(gè)XR用例,對(duì)無線解決方案的性能評(píng)估提出了挑戰(zhàn)。在此基礎(chǔ)上,3GPP建議將XR用例分為3個(gè)基本類別,即虛擬現(xiàn)實(shí)(virtual reality,VR)、增強(qiáng)現(xiàn)實(shí)(augmented reality,AR)和云游戲(cloud game,CG)。對(duì)于無線傳輸來說,XR業(yè)務(wù)的兩個(gè)關(guān)鍵性能指標(biāo)是容量和功耗。
在方案對(duì)比之前,所有參會(huì)組織為容量和延遲約束定義了以用戶為中心的聯(lián)合度量方式,即滿足用戶數(shù)。由于XR業(yè)務(wù)對(duì)時(shí)延敏感,因此延遲接收到的數(shù)據(jù)包與丟失的數(shù)據(jù)包是等同的,這些超時(shí)接收到的數(shù)據(jù)包將被統(tǒng)計(jì)到誤包率中。 目前較為主流的VR服務(wù)模式是基于視場角的數(shù)據(jù)流(viewport-dependent streaming,VDS)。VDS是一種自適應(yīng)流方案,使用網(wǎng)絡(luò)狀態(tài)和用戶姿勢(shì)信息來調(diào)整3D視頻的比特率(Yaqoob等,2020)。具體而言,就是基于用戶的位置和方向?qū)⑷耙曨l在3D空間上劃分為獨(dú)立的子圖像,流服務(wù)器通過存儲(chǔ)不同質(zhì)量(即視頻分辨率、壓縮和幀率)的子圖像提供多種表示,由用戶動(dòng)作來觸發(fā)新視頻內(nèi)容的傳輸。下載視場(field of view,F(xiàn)OV)中的所有子圖后,用戶的XR終端設(shè)備將進(jìn)行渲染,然后進(jìn)行顯示。
VDS的使用意味著VR服務(wù)伴隨著上行頻繁更新的動(dòng)作、控制信號(hào),會(huì)帶來高速的下行傳輸速率。對(duì)于XR CG,控制信號(hào)包括手持控制器輸入和3DoF/6DoF運(yùn)動(dòng)樣本,即旋轉(zhuǎn)數(shù)據(jù)(“滾動(dòng)”、“俯仰”和“偏航”)以及用戶設(shè)備的3D空間位移數(shù)據(jù)。相關(guān)研究工作主要包括基于用戶視口軌跡的預(yù)測(cè)方案和基于混合方法的預(yù)測(cè)方案兩類。
1)基于用戶視口軌跡的預(yù)測(cè)方案。
Nasrabadi等人(2020)提出了一種基于聚類的視口預(yù)測(cè)方法,該方法結(jié)合當(dāng)前用戶的視口變化軌跡和以前觀看者的視口軌跡。算法每隔一定的時(shí)間將以前的用戶基于他們的視口模式進(jìn)行聚類,并決定當(dāng)前用戶所屬類別,從而利用該類中的視口變化模式預(yù)測(cè)當(dāng)前用戶的未來視口。Feng等人(2020)提出的LiveDeep方法采用了一種混合方法來解決VR直播流媒體的訓(xùn)練數(shù)據(jù)不足的問題,并基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)模型分析視頻內(nèi)容,通過長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)用戶感知軌跡進(jìn)行預(yù)測(cè),以消除單一模型造成的不準(zhǔn)確性。類似地,Xu等人(2018)為了避免頭部運(yùn)動(dòng)預(yù)測(cè)錯(cuò)誤,提出了一種概率視口預(yù)測(cè)模型,該模型利用了用戶方向的概率分布。Yuan等人(2020)采用高斯模型估計(jì)用戶未來運(yùn)動(dòng)視角,并采用Zipf模型估計(jì)不同視角的優(yōu)先級(jí),進(jìn)而保障用戶觀看視角的時(shí)間—空間質(zhì)量一致性。
Hou等人(2021)提出了基于長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的視口預(yù)測(cè)模型。該模型使用過去的頭部運(yùn)動(dòng)來預(yù)測(cè)用戶注視點(diǎn)的位置,實(shí)現(xiàn)了最優(yōu)段預(yù)取方法。 Fan等人(2020)提出利用傳感器和內(nèi)容特性來預(yù)測(cè)未來幀中每個(gè)Tile的觀看概率。為了提高預(yù)測(cè)性能,提出了幾種新的增強(qiáng)方法,包括生成虛擬視口、考慮未來內(nèi)容、降低特征采樣率以及使用更大的數(shù)據(jù)集進(jìn)行訓(xùn)練。Chen等人(2021)提出了一種用戶感知的視口預(yù)測(cè)算法Sparkle。該方法首先進(jìn)行測(cè)量研究,分析真實(shí)的用戶行為,觀察到視圖方向存在急劇波動(dòng),用戶姿勢(shì)對(duì)用戶的視口移動(dòng)有顯著影響。此外,跨用戶的相似性在不同的視頻類型中是不同的。基于此,該方法進(jìn)一步設(shè)計(jì)了基于用戶感知的視口預(yù)測(cè)算法,通過模擬用戶在分片地圖上的視口運(yùn)動(dòng),并根據(jù)用戶的軌跡和其他類似用戶在過去時(shí)間窗口的行為來確定用戶將如何改變視口角度。
2)基于混合方法的預(yù)測(cè)方案。
該類方法在視口預(yù)測(cè)時(shí)除了考慮用戶的頭部跟蹤歷史數(shù)據(jù),還結(jié)合了其他能反映視頻內(nèi)容特性的數(shù)據(jù)。Nguyen等人(2018)將全景顯著性檢測(cè)模型與頭部跟蹤歷史數(shù)據(jù)相結(jié)合,以實(shí)現(xiàn)頭部運(yùn)動(dòng)預(yù)測(cè)的精細(xì)化預(yù)測(cè)。Ban等人(2018)利用360°視頻自適應(yīng)流媒體中的跨用戶行為信息進(jìn)行視口預(yù)測(cè),試圖同時(shí)考慮用戶的個(gè)性化信息和跨用戶行為信息來預(yù)測(cè)未來的視口。與以往基于圖像像素級(jí)信息的視口預(yù)測(cè)方法不同,Wu等人(2020a)提出了基于語義內(nèi)容和偏好的視口預(yù)測(cè)方法,從嵌入的觀看歷史中提取用戶的語義偏好作為空間注意,以此幫助網(wǎng)絡(luò)找到未來視頻中感興趣的區(qū)域。類似地,F(xiàn)eng等人(2021b)提出的LiveROI(live region of interest)視口預(yù)測(cè)方案采用實(shí)時(shí)動(dòng)作識(shí)別方案來理解視頻內(nèi)容,并根據(jù)用戶軌跡動(dòng)態(tài)更新用戶偏好模型,在不需要?dú)v史用戶或視頻數(shù)據(jù)的情況下有效預(yù)測(cè)視口。
實(shí)時(shí)視口預(yù)測(cè)機(jī)制LiveObj(live object)通過對(duì)視頻中的對(duì)象進(jìn)行語義檢測(cè)并跟蹤,再通過強(qiáng)化學(xué)習(xí)算法實(shí)時(shí)推斷,從而實(shí)現(xiàn)用戶的視口預(yù)測(cè)。Zhang等人(2021b)將頭部運(yùn)動(dòng)預(yù)測(cè)任務(wù)建模為稀疏有向圖學(xué)習(xí)問題。在最新的研究中,Maniotis和Thomos(2022)將VR視頻在邊緣緩存網(wǎng)絡(luò)中的內(nèi)容放置看做馬爾可夫決策過程,然后利用深度強(qiáng)化學(xué)習(xí)算法確定最優(yōu)緩存放置。Kan等人(2022)提出了一種名為RAPT360(rate adaptive with prediction and trilling 360)的策略,通過擬合不同預(yù)測(cè)長度下基于拉普拉斯分布的預(yù)測(cè)誤差概率密度函數(shù),以提高視口預(yù)測(cè)方法的準(zhǔn)確性。提出的視口感知自適應(yīng)平鋪方案可根據(jù)視口的2維投影的形狀和位置分配3種類型的平鋪粒度。 當(dāng)前,6DoF視頻傳輸優(yōu)化的研究重心已逐漸從全景視頻碼流轉(zhuǎn)向點(diǎn)云碼流。隨著數(shù)據(jù)量的顯著增大,6DoF視頻傳輸優(yōu)化不僅需要考慮視口的自適應(yīng)預(yù)測(cè),還要在編碼壓縮時(shí)考慮到碼流容錯(cuò)和糾錯(cuò)能力。此外,為了應(yīng)對(duì)移動(dòng)終端算力不足的限制,還需要考慮邊緣服務(wù)器的動(dòng)態(tài)配置與卸載。
03??6DoF視頻交互與顯示
6DoF視頻允許用戶自由選擇觀看視角,這就需要給用戶提供大量可供自由選擇的視點(diǎn)內(nèi)容。然而,對(duì)任意視角進(jìn)行視覺內(nèi)容的采集需要記錄的數(shù)據(jù)量非常大,給采集、存儲(chǔ)和傳輸過程造成很大的負(fù)擔(dān)。因此,在實(shí)際的場景環(huán)境中,通常采集場景中有限的視點(diǎn)信息,并借助已有視點(diǎn)信息,依靠虛擬視點(diǎn)繪制技術(shù)繪制出未采集的視點(diǎn)(即虛擬視點(diǎn))畫面,以供用戶自由切換。 現(xiàn)有的虛擬視點(diǎn)圖像繪制技術(shù)研究正向6DoF方向發(fā)展(Jin等,2022)。虛擬視點(diǎn)技術(shù)的相關(guān)研究與應(yīng)用大部分還停留在水平基線繪制階段??紤]到平移自由度是沉浸式視頻系統(tǒng)中向用戶提供運(yùn)動(dòng)視差的關(guān)鍵,MPEG開展了關(guān)于平移自由度的探索實(shí)驗(yàn)。其中,基于4參考視點(diǎn)的虛擬視點(diǎn)視覺內(nèi)容繪制算法可以在用戶切換觀看視點(diǎn)時(shí)提供更多的平移自由度,成為近年來的研究熱點(diǎn)。繪制算法存在影響用戶感知的偽影、背景滲透等繪制失真,且3維映射環(huán)節(jié)存在計(jì)算冗余導(dǎo)致繪制速度較慢,同時(shí)參考視點(diǎn)的數(shù)量增長進(jìn)一步增加了3維映射環(huán)節(jié)的時(shí)間消耗,所以繪制技術(shù)還存在改進(jìn)的空間。以下將從解碼后濾波增強(qiáng)和虛擬視點(diǎn)合成兩個(gè)角度展開討論。
3.1 解碼后濾波增強(qiáng)
3.1.1 深度圖濾波
由于深度圖紋理較少,通常會(huì)在編碼端以高壓縮比進(jìn)行編碼,從而使得解碼端的深度圖質(zhì)量較低,這給虛擬視點(diǎn)繪制帶來挑戰(zhàn)。Yang等人(2015a)提出了直接利用編碼參數(shù)(如運(yùn)動(dòng)矢量、塊模式等)來進(jìn)行深度圖濾波的方法。Yuan等人(2012)證明3D視頻編碼誤差服從平穩(wěn)白噪聲的分布規(guī)律,并據(jù)此首次提出了基于維納濾波的深度圖濾波和虛擬視圖濾波方法。Yang和Zheng(2019)提出了一種新型局部雙邊濾波器,為不太可能受到噪聲影響的像素賦予了更高的權(quán)重,但沒有徹底解決邊緣輪廓中的不連續(xù)性問題。Yang等人(2019)和He等人(2020a)提出了一種跨視點(diǎn)的多邊濾波方法,最終提升了虛擬視點(diǎn)繪制質(zhì)量。He等人(2020b)針對(duì)有損編碼造成的深度失真提出了一種跨視點(diǎn)優(yōu)化濾波方法,該方法設(shè)計(jì)了一個(gè)互信息度量來模擬跨視點(diǎn)質(zhì)量一致性的約束,其中包括數(shù)據(jù)精度和空間平滑性,可以恰當(dāng)?shù)靥幚韺?duì)象邊緣上的振鈴和錯(cuò)位偽影。 3.1.2 點(diǎn)云上采樣 點(diǎn)云上采樣任務(wù)的目標(biāo)是對(duì)低分辨率稀疏點(diǎn)云進(jìn)行上采樣,生成一個(gè)密集、完整且均勻的點(diǎn)云,并需要保持目標(biāo)物體的形狀?,F(xiàn)有的點(diǎn)云上采樣的方法大致可以分為基于優(yōu)化和基于深度學(xué)習(xí)兩大類。
1)基于優(yōu)化方法的模型。
該類型方法一般依賴于幾何先驗(yàn)知識(shí)或者一些額外的場景屬性。為了上采樣稀疏點(diǎn)集,Alexa等人(2003)提出在局部切線空間的Voronoi圖頂點(diǎn)處插入點(diǎn)。Lipman等人(2007)引入了局部最優(yōu)投影算子來重新采樣點(diǎn)并基于L1范數(shù)重建曲面。Huang等人(2009)設(shè)計(jì)了一種帶迭代正態(tài)估計(jì)的加權(quán)策略,以整合具有噪聲、異常值和非均勻性的點(diǎn)集。Huang等人(2013)提出邊緣感知的點(diǎn)集重采樣方法,以實(shí)現(xiàn)漸進(jìn)式點(diǎn)集上采樣。Wu等人(2015)通過引入新的點(diǎn)集表示方法,以改善孔洞和缺失區(qū)域的填充質(zhì)量。由于上述方法在建模時(shí)依賴于目標(biāo)點(diǎn)云的先驗(yàn)假設(shè),僅適用于光滑平面,對(duì)含有大量噪聲的稀疏點(diǎn)云上采樣效果有限。
2)基于數(shù)據(jù)驅(qū)動(dòng)的模型。
Yu等人(2018b)首次提出了基于數(shù)據(jù)驅(qū)動(dòng)的點(diǎn)云上采樣模型PU-Net(point cloud upsampling network)。相比基于優(yōu)化方法的模型,PU-Net顯著提升了點(diǎn)云上采樣的性能。為了充分利用點(diǎn)云中的全局與局部幾何結(jié)構(gòu),EC-Net(edge-aware point set consolidation network)(Yu等,2018a)實(shí)現(xiàn)了邊緣感知點(diǎn)云上采樣,進(jìn)一步提高了表面重建質(zhì)量。為了處理大規(guī)模點(diǎn)集,Wang等人(2019)提出的MPU模型在訓(xùn)練集生成時(shí),將上采樣目標(biāo)物體分割成小尺度的片元。 根據(jù)模型改進(jìn)的手段不同,現(xiàn)有的研究工作主要可分為4類。 1)基于先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)。如PU-GAN(point cloud upsampling adversarial network)(Li等,2019a)通過利用生成對(duì)抗網(wǎng)絡(luò)學(xué)習(xí)合成潛伏空間中均勻分布的點(diǎn)。PU-GCN(Qian等,2021)基于圖卷積網(wǎng)絡(luò)來高效提取點(diǎn)云局部結(jié)構(gòu)信息。PU-Transformer(Qiu等,2022)借助多頭自注意力機(jī)制和位置編碼,以增強(qiáng)模型的表示學(xué)習(xí)能力。PUFA-GAN(Liu等,2022)通過分析點(diǎn)云的頻域信息,進(jìn)一步增強(qiáng)模型的表達(dá)和學(xué)習(xí)能力。 2)基于幾何先驗(yàn)的模型設(shè)計(jì)。
如PUGeo-Net(geometry-centric network for 3D point cloud upsampling)(Qian等,2020)不僅利用點(diǎn)云的坐標(biāo)信息,還使用了點(diǎn)云的法向量信息來顯式學(xué)習(xí)目標(biāo)物體的局部幾何表示。深圳大學(xué)Zhang等人(2021a)提出了基于可微渲染的點(diǎn)云上采樣網(wǎng)絡(luò),通過最小化含有重建損失和渲染損失的復(fù)合損失函數(shù)來生成高質(zhì)量的稠密點(diǎn)云。Dis-PU(point cloud upsampling via disentangled refinement)(Li等,2021a)首先生成一個(gè)能覆蓋物體表面的稠密點(diǎn)云,然后再通過微調(diào)點(diǎn)的位置來保證點(diǎn)云的分布均勻性。 3)任意倍數(shù)上采樣策略。Meta-PU(meta point cloud upsampling)(Ye等,2022)采用元學(xué)習(xí)的方式動(dòng)態(tài)調(diào)節(jié)上采樣模塊的權(quán)重,從而使得模型訓(xùn)練一次就可以支持不同倍率上采樣需求。在線性近似理論的基礎(chǔ)上,Qian等人(2021)自適應(yīng)地學(xué)習(xí)插值權(quán)重以及高階近似誤差。Mao等人(2022)在歸一化流約束下的特征空間中構(gòu)建可學(xué)習(xí)的插值過程。Zhao等人(2022)選擇多個(gè)靠近物體隱式表面的體素化的點(diǎn)云中心作為種子點(diǎn),再將種子點(diǎn)密集且均勻地投射到物體的隱式表面,最后通過最遠(yuǎn)點(diǎn)采樣,實(shí)現(xiàn)任意倍率的點(diǎn)云上采樣任務(wù)。 4)自監(jiān)督學(xué)習(xí)策略。為了提升模型的泛化性。SPU-Net(self-supervised point cloud upsampling)(Liu等,2022)將自監(jiān)督學(xué)習(xí)應(yīng)用在點(diǎn)云上采樣任務(wù)中??傮w而言,現(xiàn)有基于學(xué)習(xí)的方法依賴于數(shù)據(jù)集特性,在實(shí)際應(yīng)用時(shí)的泛化性能仍有很大提升空間。未來結(jié)合優(yōu)化和數(shù)據(jù)驅(qū)動(dòng)方法,提升點(diǎn)云上采樣任務(wù)的性能是一個(gè)很有潛力的研究方向。
3.2 虛擬視點(diǎn)合成
按照繪制機(jī)理不同,虛擬視點(diǎn)合成方法可根據(jù)6DoF視頻內(nèi)容劃分為基于模型的繪制(model based rendering,MBR)和基于圖像的繪制(image based rendering,IBR)兩類。MBR是利用3維網(wǎng)格或者點(diǎn)云數(shù)據(jù)建立3維立體模型,從而重建出趨于真實(shí)的場景(Chen等,2019)。其中,在基于網(wǎng)格的表示方式中,通過基于三角形的方式來表示場景中的對(duì)象,對(duì)于靜態(tài)場景可以較好地通過數(shù)十、數(shù)百或者數(shù)千幅輸入圖像的匹配特征進(jìn)行劃分,獲得明確的3D模型。然而,由于網(wǎng)格的不規(guī)則性和低細(xì)節(jié),從重建的場景中生成動(dòng)態(tài)的新對(duì)象是一項(xiàng)困難的任務(wù)。MBR方法適用于簡單場景,復(fù)雜場景中數(shù)據(jù)量會(huì)隨著場景復(fù)雜度的增加而急劇增長,不適用于追求強(qiáng)烈交互感的沉浸式場景。IBR方法是使用獲取的圖像的顏色值來恢復(fù)場景的外觀,目前有兩種方式,即基于光場圖像的繪制方法和基于深度圖像的繪制方法(depth image-based rendering,DIBR)(Bonatto等,2021)。
與DIBR技術(shù)相比,基于光場圖像的繪制由于光場數(shù)據(jù)中含有大量不易壓縮的高頻信息,實(shí)際采集、存儲(chǔ)、傳輸以及終端內(nèi)容生成的任務(wù)都更重,而且產(chǎn)生重影、偽影等失真的概率也更大。DIBR使用的數(shù)據(jù)更簡單,易于處理,技術(shù)復(fù)雜度低,對(duì)設(shè)備要求不高,可以生成更具真實(shí)感的視覺內(nèi)容。隨著深度估計(jì)算法和多視點(diǎn)視覺內(nèi)容獲取技術(shù)的長足進(jìn)步,DIBR技術(shù)已成為實(shí)現(xiàn)6DoF視頻的基礎(chǔ)技術(shù)?;谏窠?jīng)輻射場的視點(diǎn)合成方法得到了廣泛關(guān)注(Xu等,2021)。本部分將重點(diǎn)介紹基于深度圖像的虛擬視點(diǎn)繪制技術(shù)和基于神經(jīng)輻射場的視點(diǎn)合成技術(shù)。 ?
3.2.1 基于深度圖像的虛擬視點(diǎn)繪制
DIBR技術(shù)包括3維映射(3D-Warping)、視點(diǎn)融合和空洞填補(bǔ)3個(gè)環(huán)節(jié),考慮到深度圖的質(zhì)量對(duì)繪制虛擬視點(diǎn)質(zhì)量也具有重要意義,因此圍繞DIBR技術(shù)的研究可劃分為3D-Warping優(yōu)化與加速、視點(diǎn)融合優(yōu)化和空洞填補(bǔ)優(yōu)化。
? 1)3D-Warping優(yōu)化與加速。
3D-Warping是DIBR的核心環(huán)節(jié),這一環(huán)節(jié)對(duì)虛擬視點(diǎn)生成的質(zhì)量和速度有重要影響。Nonaka等人(2018)提出了利用圖形處理器并行編程的實(shí)時(shí)虛擬視點(diǎn)視覺內(nèi)容繪制方法,大幅降低了繪制一幀圖像所需的時(shí)間。但這類方法對(duì)用戶使用的硬件配置提出了較高的要求,另一方面,在算法層面上不去除冗余,仍會(huì)占用一定的開銷。 針對(duì)由3D-Warping環(huán)節(jié)所引起的繪制質(zhì)量不佳問題,Ni等人(2009)提出了一種針對(duì)匯聚相機(jī)陣列的啟發(fā)式融合插值算法,融合插值過程中考慮了深度、映射像素位置和視點(diǎn)位置,然而難以自適應(yīng)地確定合適尺寸的窗口。Fachada等人(2018)提出一種支持寬基線場景的視點(diǎn)繪制方法,參考視點(diǎn)圖像被劃分為以像素中心為頂點(diǎn)的三角形,在映射圖像中重新形成的三角形中的像素通過三線性插值進(jìn)行填充,提高了切向曲面的繪制質(zhì)量。 針對(duì)由3D-Warping環(huán)節(jié)所引起的繪制速度過慢問題,國內(nèi)研究者提出利用專用的現(xiàn)場可編程邏輯門陣列設(shè)備(Li等,2008)和超大規(guī)模集成電路設(shè)備(黃超 等,2018)來解決。為了從算法層面提升繪制速度,Jin等人(2016)提出了區(qū)域級(jí)的映射方法,根據(jù)區(qū)域的不同特征將區(qū)域分類,僅對(duì)包含重要信息的區(qū)域進(jìn)行映射操作,避免計(jì)算中的冗余信息,大幅減少了映射時(shí)間,但由于不同區(qū)域利用的是來自不同視點(diǎn)的信息,生成的圖像中存在明顯的區(qū)域邊界。在提升繪制質(zhì)量方面,F(xiàn)u等人(2017)提出一種基于變換域的用于多視點(diǎn)混合分辨率圖像的超分辨率方法,并基于目標(biāo)低分辨率視點(diǎn)和輔助高分辨率視點(diǎn)之間相關(guān)性的最優(yōu)權(quán)重分配算法,可以為低分辨率幀的視點(diǎn)圖像提供更多細(xì)節(jié)信息。Nie等人(2017)針對(duì)寬基線街道圖像提出了一種新穎的單應(yīng)性限制映射公式,該公式通過利用映射網(wǎng)格的一階連續(xù)性來增強(qiáng)相鄰超像素間單應(yīng)性傳播的平滑度,可以消除重疊、拉伸等小偽影。 ?
2)視點(diǎn)融合優(yōu)化。
不同的融合策略會(huì)影響虛擬視點(diǎn)繪制圖像絕大部分區(qū)域的內(nèi)容。Vijayanagar等人(2013)根據(jù)1維鄰域中非空洞像素的數(shù)量來優(yōu)化左右參考視點(diǎn)映射圖像的融合權(quán)重,但該方法僅能改善空洞附近的失真。Lee等人(2016)利用邊緣信息提取出深度圖的不可靠區(qū)域,根據(jù)顏色相似性、深度可靠性和深度值進(jìn)行視點(diǎn)融合,減少了偽影和模糊。Wegner等人(2016)采用Z-Buffer技術(shù)對(duì)深度差區(qū)域進(jìn)行視點(diǎn)融合,但該方法需要準(zhǔn)確的深度圖。Ceulemans等人(2018)提出了一種針對(duì)寬基線相機(jī)陣列的多視點(diǎn)繪制框架,首先對(duì)深度圖進(jìn)行預(yù)處理以避免不可靠的信息在整個(gè)幀中傳播,并且利用加權(quán)顏色混合結(jié)合直方圖匹配確保了參考攝像機(jī)的顏色直方圖之間的平滑過渡。Sharma和Ragavan(2019)利用幾何信息得到紋理匹配概率,自適應(yīng)地融合參考視點(diǎn)的紋理和深度信息。
de Oliveira等人(2021)采用快速分層超像素算法來計(jì)算視差和顏色相似性,增強(qiáng)了圖像中結(jié)構(gòu)的一致性。 針對(duì)平面相機(jī)陣列,Chang和Hang等人(2017)提出了一種改進(jìn)的多參考視點(diǎn)融合算法,選擇距離最接近的參考視點(diǎn)作為主導(dǎo)參考視點(diǎn),并根據(jù)其他輔助參考視點(diǎn)的深度和顏色信息修復(fù)深度邊緣區(qū)域中的錯(cuò)誤像素。但由于視點(diǎn)切換過程中主導(dǎo)參考視點(diǎn)會(huì)發(fā)生變化,用戶自由巡航時(shí)易產(chǎn)生不連續(xù)感和出畫感。Kim等人(2021)通過直方圖匹配去除了由于圖像對(duì)比度不一致而導(dǎo)致的誤差,解決了圖像之間差異較大時(shí)出現(xiàn)的失真。Qiao等人(2019)采用多項(xiàng)式擬合方法進(jìn)行視點(diǎn)亮度校正,提升了虛擬視點(diǎn)融合準(zhǔn)確度。 ?
3)空洞填補(bǔ)優(yōu)化。
由于遮擋、采樣精度不夠高、計(jì)算中的舍入誤差以及視野的局限性等原因,融合后的虛擬視點(diǎn)圖像中存在部分缺失信息的區(qū)域需要填補(bǔ)以協(xié)調(diào)圖像的整體視覺效果??斩刺钛a(bǔ)是利用DIBR過程進(jìn)行虛擬視點(diǎn)繪制的困難挑戰(zhàn)之一,根據(jù)參考信息來源可以分為基于圖像修復(fù)的方法、基于時(shí)域的方法和基于空域的方法。 Criminisi等人(2004)提出的修復(fù)方法可以在不引入模糊偽影的情況下填充較大的空洞。該方法通過復(fù)制來自虛擬視點(diǎn)圖像非空洞區(qū)域的最佳匹配塊來填充空洞,但是有時(shí)會(huì)錯(cuò)誤地采用前景紋理來填充孔洞。因此,基于鄰域信息傳播的算法會(huì)在空洞附近產(chǎn)生模糊偽影。Kim和Ro(2017)提出了一種具有時(shí)空一致性和雙目對(duì)稱性的可靠標(biāo)簽傳播方法,將相鄰視圖和前一幀中使用的可靠標(biāo)簽傳播到要填充的目標(biāo)圖像,可以避免前景用于空洞填充的發(fā)生。Kanchana等人(2022)基于深度學(xué)習(xí)的方法進(jìn)行空洞填補(bǔ),結(jié)合時(shí)間先驗(yàn)和歸一化深度圖來預(yù)測(cè)填充向量,可以提高繪制視點(diǎn)的時(shí)空一致性。 實(shí)際上,當(dāng)視點(diǎn)切換時(shí),捕捉時(shí)域上的信息更難,所以一些研究者提出了基于空域信息的空洞填補(bǔ)方法。Yao等人(2014)利用時(shí)域信息來輔助空洞填補(bǔ)。
首先利用紋理和深度信息的時(shí)間相關(guān)性來生成背景參考圖像,然后將其用于填充與場景的動(dòng)態(tài)部分關(guān)聯(lián)的孔洞;而對(duì)于靜態(tài)部分,則使用傳統(tǒng)的修補(bǔ)方法。該方法可以避免部分區(qū)域的閃爍效應(yīng),但是會(huì)產(chǎn)生時(shí)延現(xiàn)象。Luo等人(2018)提出一種基于快速馬爾可夫隨機(jī)場的空洞填補(bǔ)方法,將圖像修復(fù)作為能量優(yōu)化問題并通過循環(huán)置信傳播來解決,而且利用深度信息來阻止前景紋理錯(cuò)誤填充。Lie等人(2018)提出一種建立背景子畫面模型填充空洞的方法,通過將視頻的空間和時(shí)間信息逐步整合到統(tǒng)一的背景子模型中,從而利用真實(shí)的背景信息來恢復(fù)空洞,但其需要每一幀模型的更新維護(hù)和額外的過程,會(huì)導(dǎo)致時(shí)間復(fù)雜度增加。
Rahaman和Paul等人(2018)采用高斯混合模型(Gaussian mixed model,GMM)方法來分離背景和前景像素,并通過對(duì)相應(yīng)的GMM模型和映射圖像像素亮度的自適應(yīng)加權(quán)平均來恢復(fù)映射過程中引入的缺失像素,但其學(xué)習(xí)率需預(yù)先訓(xùn)練得到且無法改變,魯棒性較差。Thatte和Girod(2019)通過挖掘空洞區(qū)域的特性,設(shè)計(jì)出一種統(tǒng)計(jì)模型來預(yù)測(cè)視點(diǎn)切換而導(dǎo)致虛擬視點(diǎn)圖像中丟失數(shù)據(jù)的可能性,但只能用于單自由度視點(diǎn)切換的情況。Zhu和Gao(2019)針對(duì)GMM對(duì)于往復(fù)運(yùn)動(dòng)的局限性,提出了一種改進(jìn)方法,使用深度信息來調(diào)整GMM的學(xué)習(xí)率,提高了辨別前景像素和背景像素的準(zhǔn)確性。Luo等人(2020)提出了一種包括前景提取、運(yùn)動(dòng)補(bǔ)償、背景重構(gòu)和空洞填補(bǔ)4個(gè)模塊的空洞填充框架,可使用或擴(kuò)展現(xiàn)有的大部分背景重建方法和圖像修復(fù)方法作為該框架的模塊。 現(xiàn)有的空洞填補(bǔ)算法存在一定的局限,且不可避免地會(huì)引入邊緣模糊,無法完全恢復(fù)出空洞中的真實(shí)信息。基于四參考視點(diǎn)的DIBR算法通過引入更多參考視點(diǎn)的方式顯著減少了空洞區(qū)域,尤其是消除了位于視野邊界的空洞,僅剩余部分公共小塊空洞,提升了虛擬視點(diǎn)圖像的主客觀質(zhì)量。 ?
3.2.2 基于神經(jīng)輻射場的視點(diǎn)合成
Mildenhall等人(2020)提出了基于神經(jīng)輻射場的視點(diǎn)合成方法NeRF(nueral radiance field),該算法使用全連接(非卷積)深度網(wǎng)絡(luò)表示場景,其輸入是單個(gè)連續(xù)5D坐標(biāo)(3維空間位置和觀察方向),輸出是可支持任意視角查看的3維體素場景。算法通過沿相機(jī)光線查詢5D坐標(biāo)來合成視圖,并使用經(jīng)典的體渲染技術(shù)將輸出顏色和密度投影到圖像中。因?yàn)轶w積渲染是自然可微的,所以優(yōu)化表示所需的唯一輸入是一組具有已知相機(jī)姿勢(shì)的圖像。該算法描述了如何有效地優(yōu)化神經(jīng)輻射場以渲染具有復(fù)雜幾何和外觀的場景的逼真的新穎視圖,并展示了優(yōu)于先前神經(jīng)渲染和視點(diǎn)合成工作的結(jié)果。
在此基礎(chǔ)上,Barron等人(2021)提出了Mip-NeRF的解決方案,擴(kuò)展了NeRF以連續(xù)值的比例表示場景。通過有效地渲染抗鋸齒圓錐截頭體而不是射線,Mip-NeRF減少了鋸齒偽影并顯著提高了NeRF表示精細(xì)細(xì)節(jié)的能力。針對(duì)全景視頻輸入,Barron等人(2022)提出了解決采樣和混疊問題的NeRF變體Mip-NeRF360,使用非線性場景參數(shù)化、在線蒸餾和基于失真的正則化器來克服無界場景帶來的模糊或低分辨率的渲染問題。Wang等人(2021c)提出了一種雙向陰影渲染方法來實(shí)時(shí)渲染全景視頻中真實(shí)和虛擬對(duì)象之間的陰影。Hong等人(2022)將神經(jīng)輻射場與人體頭部的參數(shù)表示相結(jié)合,提出了基于NeRF的參數(shù)化頭部模型HeadNeRF,可以在GPU(graphics processing unit)上實(shí)時(shí)渲染高保真頭部圖像,并支持直接控制生成圖像的渲染姿勢(shì)和各種語義屬性??傮w而言,基于神經(jīng)輻射場的視點(diǎn)合成方法已得到產(chǎn)業(yè)界和學(xué)界的廣泛關(guān)注,隨著模型訓(xùn)練速度的大幅提升和漸進(jìn)式渲染技術(shù)的廣泛研究,將具有非常大的應(yīng)用潛力。
04??發(fā)展趨勢(shì)與展望
6DoF視頻技術(shù)的發(fā)展將為未來元宇宙時(shí)代的到來奠定基礎(chǔ),并且將呈現(xiàn)多維度的發(fā)展,包括感官豐富程度的提升、分辨率和碼率的提升、時(shí)延和可靠性需求的提升以及與現(xiàn)實(shí)的交互程度的提升。從這些維度出發(fā),對(duì)6DoF視頻技術(shù)的內(nèi)容采集與預(yù)處理、壓縮與傳輸以及交互與顯示提出了更高的要求與挑戰(zhàn)。 ?
1)6DoF內(nèi)容采集與預(yù)處理。
內(nèi)容采集的難度以及后期制作技術(shù)的復(fù)雜程度直接影響了6DoF視頻內(nèi)容制作的難度,因此長期以來是限制6DoF視頻發(fā)展的主要原因。從發(fā)展需求來看,未來的研發(fā)方向包括兩個(gè)方面:(1)輕量化和低成本的視頻采集系統(tǒng)。例如,手持彩色3維掃描儀、手持多視點(diǎn)采集系統(tǒng)等裝備已經(jīng)開始具有這些特點(diǎn),但是距離實(shí)際應(yīng)用還有較長的演進(jìn)路線;(2)高效、智能的視頻內(nèi)容處理技術(shù)。當(dāng)前技術(shù)在幾何標(biāo)定、深度圖去噪等方面已經(jīng)有較好的積累,但適用范圍還比較有限,亟需適應(yīng)面更廣、處理流程更智能的技術(shù)。 ?
2)6DoF視頻壓縮與傳輸。
該方向的研究熱點(diǎn)主要集中于高效點(diǎn)云壓縮和數(shù)據(jù)傳輸策略。一方面,現(xiàn)有的點(diǎn)云壓縮算法仍存在數(shù)據(jù)分布刻畫難、場景先驗(yàn)利用少和計(jì)算復(fù)雜度高等挑戰(zhàn)?;?維場景智能分析的大規(guī)模3D點(diǎn)云壓縮研究,可以實(shí)現(xiàn)非結(jié)構(gòu)化點(diǎn)云數(shù)據(jù)的場景—目標(biāo)—要素多目標(biāo)層次化表示,然后根據(jù)應(yīng)用場景類型和目標(biāo)特性做針對(duì)性壓縮,以改善重建點(diǎn)云中存在的細(xì)節(jié)丟失和全局形變等問題,進(jìn)而實(shí)現(xiàn)高效的點(diǎn)云數(shù)據(jù)編碼壓縮,是潛在的發(fā)展趨勢(shì)。另一方面,相對(duì)于傳統(tǒng)視頻流式傳輸場景,點(diǎn)云視頻特有的傳輸方式對(duì)資源調(diào)度優(yōu)化引入了新的挑戰(zhàn)。例如,在碼流傳輸過程中需要考慮預(yù)測(cè)視口大小與點(diǎn)云質(zhì)量等指標(biāo)之間的平衡。將強(qiáng)化學(xué)習(xí)在傳統(tǒng)視頻流式傳輸場景中的應(yīng)用遷移到點(diǎn)云視頻流式傳輸場景中,并針對(duì)新場景進(jìn)行適應(yīng)性的改進(jìn)與優(yōu)化,是一個(gè)有潛力的研發(fā)方向。 ?
3)6DoF視頻交互與顯示。
未來云渲染架構(gòu)下,大量的視點(diǎn)合成和渲染計(jì)算工作都位于云端服務(wù)器上完成,可以有效降低終端的計(jì)算負(fù)載和功耗,同時(shí)也使終端的佩戴重量盡可能降低。同時(shí),借助終端的異步時(shí)間扭曲技術(shù),實(shí)時(shí)視頻的端到端時(shí)延要求可放松至70 ms,實(shí)現(xiàn)無眩暈感的沉浸式視頻體驗(yàn)。如何對(duì)端、管、云三者高效協(xié)同,將是未來6DoF視頻交互與顯示的重要技術(shù)方向。
編輯:黃飛
?
評(píng)論
查看更多