文/黃亞坤
編者按:計(jì)算機(jī)圖形與仿真技術(shù)的發(fā)展為人類帶來(lái)了眾多的沉浸式技術(shù)。虛擬現(xiàn)實(shí)(VR)、增強(qiáng)現(xiàn)實(shí)(AR)、混合現(xiàn)實(shí)(MR)等技術(shù)通過(guò)不同程度數(shù)字信息與現(xiàn)實(shí)環(huán)境的融合,為用戶帶來(lái)了全新體驗(yàn),而統(tǒng)括三者的擴(kuò)展現(xiàn)實(shí)(XR)更強(qiáng)調(diào)虛擬世界與現(xiàn)實(shí)世界的彌合,縮小人們、信息和體驗(yàn)之間的距離壁壘。LiveVideoStackCon 2023 上海站邀請(qǐng)了來(lái)自北京郵電大學(xué)的黃亞坤,為大家分享學(xué)術(shù)界關(guān)于云化XR和沉浸式全息交互技術(shù)的探索與思考?。
大家好,我是來(lái)自北京郵電大學(xué)的黃亞坤,目前主要在學(xué)術(shù)界從事研究工作。本次我將從更好地結(jié)合學(xué)術(shù)和工業(yè)界這一角度出發(fā)來(lái)與大家分享我們的探索與思考。
本次分享分為四方面:首先以囊括多種沉浸式技術(shù)為主旨談?wù)劤两絏R通信與交互現(xiàn)狀,然后介紹我們從2017年至今關(guān)于輕量化跨平臺(tái)WebXR技術(shù)的探索與研究進(jìn)展,接下來(lái)介紹全息XR通信與實(shí)時(shí)交互服務(wù),最后對(duì)云化XR的新需求與挑戰(zhàn)進(jìn)行總結(jié)。
-01-
沉浸式XR通信與交互現(xiàn)狀
XR包含了AR、VR和MR等沉浸式技術(shù),旨在打造真實(shí)、虛擬組合的數(shù)字化環(huán)境,實(shí)現(xiàn)沉浸感更深入的人機(jī)交互體驗(yàn)。
其中VR可能更為大眾所熟知(如當(dāng)下熱門(mén)的VR看房、看車),它通過(guò)計(jì)算機(jī)來(lái)模擬虛擬環(huán)境。目前多數(shù)用戶使用手機(jī)來(lái)體驗(yàn),而使用沉浸感更強(qiáng)的專業(yè)VR終端由于昂貴的成本問(wèn)題在用戶間還沒(méi)有廣泛普及;
進(jìn)一步地,AR可將VR打造的虛擬世界和真實(shí)世界無(wú)縫融合,目前在工業(yè)界中的落地應(yīng)用廣泛使用率較高;
MR則是在融合AR、VR的基礎(chǔ)上,實(shí)現(xiàn)用戶與現(xiàn)實(shí)、虛擬世界間的深層次交互反饋。
最后,在常規(guī)XR概念的基礎(chǔ)上拓展引入了HR,與VR不同,它可以利用光干涉和衍射記錄進(jìn)行真實(shí)物體的再現(xiàn),還原真實(shí)的人物與環(huán)境。
以上圖表展示了XR的技術(shù)架構(gòu)、產(chǎn)業(yè)發(fā)展趨勢(shì),以及XR業(yè)務(wù)的網(wǎng)絡(luò)需求。目前來(lái)看,XR還處于部分沉浸式體驗(yàn)階段,正朝著深度沉浸階段發(fā)展,主要表現(xiàn)為單眼觀看可達(dá)到2K分辨率,F(xiàn)OV處于100-120度范圍內(nèi)。
對(duì)于即將正式發(fā)售的Apple Vision Pro,我們也持續(xù)關(guān)注它對(duì)業(yè)界帶來(lái)的潛在前景與應(yīng)用價(jià)值。
我們對(duì)市場(chǎng)現(xiàn)有的一些XR設(shè)備進(jìn)行了體驗(yàn)分析并總結(jié)了幾方面問(wèn)題。
首先是技術(shù)成熟度不夠:在畫(huà)面真實(shí)率,視場(chǎng)角,眩暈和遲滯感等方面有待提升。例如在工業(yè)場(chǎng)景下的三維大模型渲染服務(wù),終端上會(huì)出現(xiàn)明顯的卡頓、眩暈和遲滯感;
第二是用戶成本高:主流的XR頭顯對(duì)于大眾用戶來(lái)說(shuō)價(jià)格過(guò)高;
第三是佩戴體驗(yàn)差:當(dāng)前的XR終端設(shè)備存在佩戴沉重,攜帶性差等體驗(yàn)問(wèn)題;
第四是優(yōu)質(zhì)內(nèi)容源缺乏:高品質(zhì)的XR應(yīng)用稀缺,對(duì)用戶吸引力不夠;
第五是缺乏統(tǒng)一平臺(tái):各大廠商當(dāng)前主要圍繞自身產(chǎn)品的生態(tài)圈進(jìn)行內(nèi)容開(kāi)發(fā),難以建立有效共享和快速分發(fā)體驗(yàn)的統(tǒng)一平臺(tái)。
隨著5G的普及應(yīng)用,云化XR的部署與應(yīng)用已經(jīng)成為可能。
首先5G的網(wǎng)絡(luò)切片技術(shù)保證了應(yīng)用程序的部分帶寬、移動(dòng)邊緣計(jì)算(MEC)減少了內(nèi)容匯聚,在節(jié)省帶寬的同時(shí)降低了時(shí)延,為XR云化部署奠定了技術(shù)基礎(chǔ)。
同時(shí),通過(guò)將XR的密集計(jì)算上云,有助于減輕終端設(shè)備的重量,提升佩戴體驗(yàn)和續(xù)航能力,云化XR更有助于提升多用戶共享體驗(yàn),降低單一用戶的體驗(yàn)限制;
最后,通過(guò)與5G技術(shù)相集合,智能手機(jī)有望成為承載云XR體驗(yàn)的終端設(shè)備,這有助于吸引更多的新用戶。
XR云化主要的優(yōu)勢(shì)體現(xiàn)在承載密集三維空間計(jì)算方面。大量的視覺(jué)、空間計(jì)算和密集的3D渲染給資源受限的XR終端設(shè)備帶來(lái)了極大的計(jì)算壓力,通過(guò)將這些密集的計(jì)算任務(wù)卸載上云后,能夠大幅降低終端的設(shè)備計(jì)算成本,進(jìn)而助力終端輕量化。
同時(shí)云端可借助Wi-Fi、5G等網(wǎng)絡(luò)技術(shù)將內(nèi)容以視頻流形式推向用戶,相對(duì)于傳統(tǒng)設(shè)備無(wú)需再連接終端的HDMI線,實(shí)現(xiàn)了終端無(wú)繩化、移動(dòng)化。
最后,內(nèi)容云化也便于統(tǒng)一分發(fā)和版權(quán)管理。
但將云XR推向產(chǎn)業(yè)成熟,目前仍面臨技術(shù)成熟度、云網(wǎng)架構(gòu)升級(jí)、建設(shè)健康的生態(tài)環(huán)境、共贏的商業(yè)模式以及XR平臺(tái)與系統(tǒng)互通等問(wèn)題,還需要進(jìn)一步探索。
-02-
輕量化WebXR探索與研究進(jìn)展
上圖展示了XR技術(shù)的發(fā)展簡(jiǎn)史。從1998年AR首次應(yīng)用于電視直播到AR專用頭顯、移動(dòng)終端、基于APP的AR游戲和基于Web的AR解決方案陸續(xù)出現(xiàn),再到OpenXR 1.0的發(fā)布,各大國(guó)內(nèi)廠商加入OpenXR聯(lián)盟,這些發(fā)展充分體現(xiàn)了XR追求移動(dòng)化、輕量化和跨平臺(tái)標(biāo)準(zhǔn)化的發(fā)展趨勢(shì)。
Web具有天然的跨平臺(tái)性,并且有兼容高、普及廣的優(yōu)勢(shì),因而基于輕量化移動(dòng)Web的XR技術(shù)開(kāi)始萌芽。
但實(shí)現(xiàn)WebXR并非易事。首先是瀏覽器極其有限的算力難以滿足AR密集的位姿計(jì)算需求,這也導(dǎo)致位姿估計(jì)與計(jì)算的時(shí)延差距大,畫(huà)面延遲較高,無(wú)法達(dá)到AR的高頻實(shí)時(shí)跟蹤要求。且三維模型的復(fù)雜度對(duì)Web的渲染能力提出很大考驗(yàn)。最后,國(guó)內(nèi)各大硬件廠商瀏覽器的內(nèi)核和開(kāi)放權(quán)限參差不齊,導(dǎo)致傳統(tǒng)的方案難以跨平臺(tái)通用。
基于以上考慮,我們提出了基于云實(shí)現(xiàn)的WebXR解決方案。
接下來(lái),我講介紹幾種云化WebXR方案的典型落地場(chǎng)景。如實(shí)現(xiàn)基于Web瀏覽器的AR導(dǎo)航、真實(shí)世界的三維目標(biāo)實(shí)時(shí)識(shí)別、跟蹤、渲染以及異構(gòu)跨終端的XR通信交互等。
在統(tǒng)籌考慮端云算力和時(shí)延要求的基礎(chǔ)上,我們針對(duì)AR室內(nèi)導(dǎo)航服務(wù)場(chǎng)景提出了端云協(xié)同方案。該方案的核心問(wèn)題是如何精準(zhǔn)、高頻次獲取移動(dòng)終端的實(shí)施6-DoF相機(jī)位姿?
目前基于Web的定位方案一般是提供局部定位,無(wú)法提供面向大規(guī)模地圖場(chǎng)景的全局定位,難以滿足導(dǎo)航場(chǎng)景路徑規(guī)劃等功能的需要;其次是終端側(cè)的行人航位推算(PDR)等方案的累計(jì)誤差較大,只能保持短距離精確定位;第三是傳輸實(shí)時(shí)視頻幀到云端求解無(wú)法滿足定位頻率要求。
因此,我們通過(guò)將終端側(cè)定位位姿和云端VPS定位對(duì)齊實(shí)現(xiàn)了“端側(cè)輕量化自主定位+云端精確輔助重定位”的方式。具體流程如上圖左下角所示,端側(cè)以云端的精確定位為基準(zhǔn)點(diǎn),通過(guò)PDR方案進(jìn)行自主實(shí)時(shí)定位,導(dǎo)航行進(jìn)過(guò)程中通過(guò)借助云端重定位來(lái)及時(shí)修正誤差。
我們從定位精度和開(kāi)銷兩方面對(duì)該方案進(jìn)行了性能評(píng)估,可以看到最終呈現(xiàn)的效果較好。
但端云協(xié)同方案在網(wǎng)絡(luò)條件差、環(huán)境復(fù)雜等條件下難以發(fā)揮作用。我們考慮到用戶在導(dǎo)航時(shí)一般僅調(diào)用地圖的局部,因此通過(guò)將大地圖語(yǔ)義化,以物體為特征建立點(diǎn)云地圖,將其分塊并實(shí)時(shí)按需下發(fā)至端側(cè),使端側(cè)具備了獨(dú)立精確定位計(jì)算能力。
經(jīng)過(guò)測(cè)試,1M的點(diǎn)云數(shù)據(jù)即可覆蓋40-50平米的范圍,且通過(guò)預(yù)加載等方式可以讓用戶基本感受不到地圖下載的延遲。
針對(duì)局部語(yǔ)義地圖的技術(shù)架構(gòu)我們拓展了很多新的應(yīng)用場(chǎng)景,如上圖展示的BIM數(shù)字沙盤(pán),可將BIM模型和效果投放到實(shí)景沙盤(pán)上。
在多人場(chǎng)景,通過(guò)移動(dòng)Web動(dòng)態(tài)加載語(yǔ)義點(diǎn)云地圖,使用局部點(diǎn)云定位,在點(diǎn)云世界坐標(biāo)下記錄模型信息即可通過(guò)P2P通信實(shí)現(xiàn)Web端的多人AR交互。
無(wú)論是端云協(xié)同還是局部語(yǔ)義地圖方案都很大程度上依賴云端預(yù)建地圖的準(zhǔn)確性,但它的時(shí)效性非常強(qiáng)。為了解決實(shí)時(shí)地圖更新的問(wèn)題我們采用了眾包方案。
在眾包模式下,用戶的手機(jī)可以作為地圖重建采集設(shè)備,將拍攝的畫(huà)面反饋至云端進(jìn)行更新。
我們也采用了兩種在定位優(yōu)化手段。首先,傳統(tǒng)定位算法往往依賴低級(jí)幾何特征(特征點(diǎn))來(lái)建立視覺(jué)地圖,但在弱光或暗光場(chǎng)景下可能難以提取到足夠的特征點(diǎn),針對(duì)這類復(fù)雜場(chǎng)景我們通過(guò)引入語(yǔ)義化特征,利用高層級(jí)語(yǔ)義信息協(xié)助建立點(diǎn)云地圖,從而增強(qiáng)定位能力。
第二是針對(duì)樓梯間等特征點(diǎn)較少的場(chǎng)景改為使用線特征注冊(cè)圖像,使重建流程和定位能力更加穩(wěn)定。
以上是我們從通信角度對(duì)基于MEC+D2D融合的多用戶交互XR協(xié)同架構(gòu)提出的一些考慮。
上圖展示了我們從降低分發(fā)時(shí)延、同步時(shí)延角度提出的Web側(cè)多用戶XR協(xié)作框架。
-03-
全息XR通信與實(shí)時(shí)交互服務(wù)
全息容積視頻是一種捕捉3D空間的全息顯示技術(shù)。而實(shí)現(xiàn)3D全息視頻實(shí)時(shí)采集、傳輸與交互是沉浸式XR的關(guān)鍵挑戰(zhàn)。相對(duì)于視頻的捕捉采集,我們更多地關(guān)注它從傳輸、通信到最終在終端呈現(xiàn)的過(guò)程。
全息視頻實(shí)時(shí)采集、傳輸過(guò)程中的難點(diǎn)體現(xiàn)在以下幾方面:一是全息視頻的采集時(shí)間過(guò)長(zhǎng),歷經(jīng)多機(jī)位畫(huà)面融合、編碼、傳輸和解碼后嚴(yán)重降低了視頻幀率;第二是全息視頻的數(shù)據(jù)量過(guò)大,所需帶寬過(guò)高,現(xiàn)有網(wǎng)絡(luò)難以承載;第三是編解碼效果差,現(xiàn)有標(biāo)準(zhǔn)無(wú)法實(shí)現(xiàn)實(shí)時(shí)解碼。
在此基礎(chǔ)上,我們提出了基于AI的語(yǔ)義通信傳輸機(jī)制,通過(guò)提取、傳輸全息視頻的關(guān)鍵點(diǎn)云語(yǔ)義特征極大降低了傳輸數(shù)據(jù)量。終端側(cè)負(fù)責(zé)進(jìn)行容積視頻幀重建。
由于基于AI的點(diǎn)云編解碼方案對(duì)計(jì)算和存儲(chǔ)的要求較高,資源有限的終端設(shè)備難以實(shí)現(xiàn)實(shí)時(shí)解碼交互。因而我們提出了面向任務(wù)的輕量化傳輸機(jī)制,采用興趣感知選擇技術(shù)提取局部用戶感興趣的內(nèi)容,同時(shí)采用剪枝、量化等網(wǎng)絡(luò)輕量化技術(shù),極大地降低了AI傳輸模型的參數(shù)和推理速度,提高了解碼效率。
除了單純的3D全息點(diǎn)云實(shí)時(shí)交互外,我們也在思考面對(duì)混合模態(tài)視頻XR業(yè)務(wù)場(chǎng)景的解決方案,但現(xiàn)有視頻流自適應(yīng)傳輸方案都是針對(duì)單模態(tài)業(yè)務(wù)的優(yōu)化。
我們提出了一種面向多模態(tài)業(yè)務(wù)的云渲染自適應(yīng)視頻流框架,對(duì)于包含傳統(tǒng)2D、360度視頻,全息點(diǎn)云視頻的多模態(tài)業(yè)務(wù),通過(guò)云渲染的轉(zhuǎn)碼方式有效降低了移動(dòng)終端的帶寬和解碼壓力。
我們采用多智能體強(qiáng)化學(xué)習(xí)的方式實(shí)現(xiàn)多維度內(nèi)容ABR控制,從而最大程度保證不同用戶的QoE。
基于未來(lái)網(wǎng)絡(luò)試驗(yàn)設(shè)施(CENI)提供的大帶寬、低時(shí)延等特性需求,從創(chuàng)造承載高清全息XR的網(wǎng)絡(luò)條件考慮,我們擬搭建出一套基于CENI的設(shè)施,可支持超遠(yuǎn)距離多人交互的實(shí)時(shí)全息通信試驗(yàn)系統(tǒng)。
-04-
云化XR的新需求和新挑戰(zhàn)
總體來(lái)看,未來(lái)云化XR的發(fā)展將面臨網(wǎng)絡(luò)能力方面的需求和挑戰(zhàn)。目前多個(gè)3GPP工作組也在針對(duì)5G低時(shí)延云游戲、AR/VR、多媒體編解碼和XR業(yè)務(wù)QoE等方向展開(kāi)研究。
同時(shí)云化XR仍面臨幾點(diǎn)技術(shù)挑戰(zhàn)。
一是在云網(wǎng)架構(gòu)上,復(fù)雜場(chǎng)景下的圖形渲染、編碼和計(jì)算部署在云端也為云側(cè)帶來(lái)了很大壓力。那么未來(lái)面對(duì)海量用戶,云側(cè)要滿足確定性渲染計(jì)算能力及處理時(shí)延,網(wǎng)絡(luò)需要滿足確定性帶寬及傳輸時(shí)延;
二是在網(wǎng)絡(luò)側(cè),滿足XR多模態(tài)業(yè)務(wù)不同場(chǎng)景的差異化和安全隔離需求需要定制化網(wǎng)絡(luò)切片和安全隔離;
三是在邊側(cè),云XR業(yè)務(wù)需要消耗GPU資源來(lái)實(shí)現(xiàn)實(shí)時(shí)圖形渲染、并行計(jì)算等能力。邊側(cè)IaaS層成本主要是GPU成本,通過(guò)GPU虛擬化提升GPU使用效率是拓展云化XR業(yè)務(wù)的重大挑戰(zhàn);
四是在云側(cè),XR的超高分辨率畫(huà)質(zhì)要求,巨大的數(shù)據(jù)量給編解碼帶來(lái)的挑戰(zhàn),尤其是強(qiáng)交互云XR直播與交互業(yè)務(wù)需要支持實(shí)時(shí)轉(zhuǎn)碼,基于通用視頻的編解碼技術(shù)效率相對(duì)較低;
五是在終端側(cè),3D體驗(yàn)的終端價(jià)格仍然昂貴,內(nèi)容質(zhì)量低,跨平臺(tái)性差。
最后,由于傳統(tǒng)的QoE指標(biāo)評(píng)價(jià)通常只針對(duì)單一的業(yè)務(wù)類型,且業(yè)務(wù)之間的耦合度低,已經(jīng)無(wú)法適應(yīng)云化XR的業(yè)務(wù)場(chǎng)景,我們目前正在推進(jìn)建立兼容云XR的質(zhì)量評(píng)估體系。
編輯:黃飛
?
評(píng)論
查看更多