來源:電子工程專輯
編輯:感知芯視界 萬仞
幾十年來,真正身臨其境的虛擬現實(VR)和增強現實(AR)的前景似乎都已非常接近,然而,隨著每一項新技術的引入,似乎又都變得遙不可及了。如今的好消息是,它們距離人們的確越來越近了。然而,要想讓AR和VR真正身臨其境,人們所有的感官都必須確信這種體驗是真實的。
創造可信的VR和AR體驗,取決于工程師如何準確、一致地再現所有構成人們感知現實的元素,需要從理解人類生理學和神經科學開始。對于感知現實世界中的3D結構來說,至關重要的是人們必須首先了解多感官信號,然后再是利用耳機技術來進行模擬。
實現基于技術的現實
VR設備遮擋了用戶的視覺,呈現了一個模擬環境——在該環境中,感官刺激提供了存在感和與虛擬對象的交互。AR設備將虛擬對象覆蓋在物理環境上,感官提示提供了物理元素和增強元素之間的一致性。3D AR系統也被稱為混合現實設備,它在虛擬環境中融合了真實世界的元素。
每種配置都有獨特的要求,但推動這些系統向前進步的常見技術,包括實時3D傳感和跟蹤、強大算力且節能的計算處理、高保真圖形渲染和顯示、沉浸式音頻、機器學習和人工智能算法、直觀的人機界面和新穎的應用。
身臨其境的視覺體驗
通過創新的圖形和顯示技術,人們可以渲染逼真度更高的數字對象,并在更小的區域封裝更多像素,且比以往任何時候都更清晰、更明亮。然而實際上,對于上述這些,還有更多的事情要做。其中不光是渲染逼真的圖像,以及利用所需視覺提示的近眼顯示。
如今的高分辨率智能手機顯示器,每英寸顯示500多個像素(PPI)。但對于身臨其境的耳機視覺效果來說,利用PPI來度量已顯不足,一個相關度更好的度量是,顯示器顯示視場的每度的像素(PPD)。
在中心視覺點上,典型的人眼具有大約1/60度的角分辨率。每只眼睛的水平視野約為160°,垂直視野約為175°。兩只眼睛協同工作,在約120°寬和約135°高的FOV范圍內實現立體深度感知。所有這些都意味著人們需要為每只眼睛提供大約100兆像素(MP),為立體視覺提供大約60MP,以提供60PPD的視覺。然而,當今最先進的主流VR頭戴式耳機顯示器大約才達到3.5MP。
由于目前的制造技術,還不支持這種像素密度,設計師必須在理解人類視覺系統如何工作的基礎上,在高分辨率渲染視覺場景的凸顯部分做出權衡。
眼睛跟蹤和注視點渲染
人類高視力敏度僅限于非常小的視場,該視覺場為以中央凹為中心、圍繞眼睛光軸約±1°的范圍。這意味著視覺中心最清晰,邊緣趨模糊。使用實時傳感器來跟蹤用戶的注視區域,人們可以在中心注視區域渲染更多數量的多邊形,將計算能力集中在那里,并在其他地方以指數級降低圖形保真度(多邊形密度)。這種強化中央渲染的處理方式,可以顯著減少圖形工作負荷和相關的功耗。
圖1:人眼的中央凹上有高密度的視錐感光體,從而導致中央視覺的視力敏度高,而周邊的光受體密度顯著下降,導致視力下降。(資料來源:E.Bruce Goldstein《感覺與感知》)
世界各地的研究人員正在對此進行研究,設計師正在探索多顯示器配置,其中高分辨率顯示器覆蓋中央凹視覺,像素數相對較低的顯示器覆蓋周邊視覺。未來的顯示架構,將能夠在注視方向上及其周圍,動態地實時投影更高分辨率的視覺內容。
調節和會聚失配
另一個關鍵問題是確保動眼神經線索的一致性,以糾正眼睛調節和會聚錯配。人類用兩只眼睛聚焦在一個物體上,立體地看待世界。通過調節,每只眼睛的晶狀體都會改變形狀,以聚焦來自不同深度的光線。兩只眼睛會聚的距離與每只眼睛所適應的距離相同。
如今的商用VR和AR耳機中,匯聚距離和調和距離之間存在不匹配。現實世界中的光,是通過來自各種不同距離光源的反射和折射來調適的。而在頭戴式耳機中,所有的光都是通過同一距離的光源產生的。此時,當眼睛會聚以觀看虛擬物體時,其透鏡形狀必須不斷調整,以聚焦從顯示器發出的固定距離光,從而導致不同程度的距離失配,這通常會導致眼睛疲勞或定向問題。
圖2:3D顯示器的會聚調節失配。(來源:Martin Banks)
為解決這一問題,人們正在探索各種方法,例如動態可移動光學器件和焦點可調液晶透鏡,其焦距可以隨著電壓的調整而改變。
3D空間音頻
對于真正的沉浸感,AR/VR音頻體驗必須與視覺體驗相對應并協調,以便所感覺的聲音位置與用戶所看到的目標完全一致。在現實世界中,大多數人即使閉上眼睛,都能感知到聲音的大致位置。這是因為大腦能夠對聲音的“到達時間”和強度進行感知和分析。這在現實世界中是自動即時發生的,然而在VR耳機中,必須對3D空間音頻進行編程和處理。
挑戰在于,每個人對聲音信號的體驗是不同的,信號頻譜會根據頭部和耳朵的大小、形狀以及受眾等因素而變化。這個被稱為與頭部相關的傳遞函數,如今的許多技術,都在致力于對其實現盡可能逼近的近似。另外,正在進行的個性化功能研究,也將使耳機用戶能夠以正確的空間線索來感知虛擬物體發出的聲音。
低延遲由內而外跟蹤
在VR/AR中,實時跟蹤用戶的頭部運動顯然是必要的。無論何時,在3D空間內,系統都必須能夠確定頭戴式耳機相對于其他物體的位置,并同時確保高精度和低延遲,以便根據用戶的頭部位置及方向來渲染和呈現相應的視覺和聽覺信息,另外,在用戶移動時還要快速更新。
直到不久前,VR耳機還通過“內外”跟蹤方法,利用用戶放置在環境周圍的外部傳感器來跟蹤人類頭部運動。而如今,基于計算機視覺和微調運動傳感器的有機結合,“由內而外”的跟蹤提供了模擬定位、映射技術、以及視覺慣性測距,從而實現了頭戴式耳機內的運動跟蹤。
然而,一個持續的挑戰是,如何實現更低的動作到光子延遲,即從目標動作開始到從顯示器中相應圖像幀的最后一個像素發射光子之間的延遲。換句話說,它是傳感器數據采集、處理、接口傳輸、圖形計算、圖像渲染和顯示更新所花費的總時間。
通常在現實世界中,根據視覺確定的視野變化以及前庭感覺系統檢測到的運動信息,來跟蹤人們的頭部運動。如果VR耳機的延遲時間過長,會導致視覺前庭不匹配,從而導致定向問題和頭暈。目前系統實現的動作到光子延遲通常為20~40ms,但感知無縫體驗要求該延遲小于10ms。
人類導入和交互
身臨其境的體驗還要求用戶能夠與虛擬對象進行逼真的交互。人們必須能夠伸手抓住物體,并且物體必須按照物理定律實時做出反應。
如今最先進的耳機,讓用戶可以用基本的手勢選擇物體,隨著計算機視覺技術的不斷進步,還有人工智能的快速進步,未來的耳機將包括更豐富的手勢控制功能。
下一代設備還將提供多模式交互及眼動追蹤技術,將允許用戶通過將視線集中在虛擬物體上來進行選擇,然后用手勢進行激活或操控。很快,隨著人工智能技術的不斷發展,本地低延遲處理將成為現實,耳機也將具有實時語音識別功能。
展望未來
如今,人們可以體驗一些主流的VR和有前景的工業AR,但它們并非完全沉浸式的。雖然這條路并不直接,但隨著數十億美元的相關技術投資,其潛力幾乎是無限的。例如,麥肯錫估計,到2030年,元宇宙可能產生4萬億至5萬億美元的收入。
通過不斷突破技術障礙,人們將能夠再現逼真的體驗,最終能夠從根本上縮小人們在真實世界和虛擬世界體驗之間的差異。
審核編輯 黃宇
-
Ar
+關注
關注
24文章
5083瀏覽量
169255 -
vr
+關注
關注
34文章
9633瀏覽量
150056
發布評論請先 登錄
相關推薦
評論