作者:CEVA 高級營銷專員 Charles Pao
Charles Pao 畢業于約翰霍普金斯大學,獲得電氣工程學碩士學位后,他開始在 CEVA Hillcrest 實驗室工作。他從事軟件開發工作,研發了一個黑盒系統用來評估運動特征。Charles 十分熱愛媒體和通信領域,開始為 Hillcrest Labs 制作演示和產品視頻。出于熱愛,他正式轉崗到市場營銷部門。目前,他是 Hillcrest 信息與支持部的第一聯系人,并負責管理營銷工作。同時,他還擔任多種職責和項目管理角色。Charles 還獲得了約翰霍普金斯大學電氣工程和計算機工程理學學士學位。
沉浸式 3D/空間音頻 ,與 XR/360 視頻相結合,給您帶來宛若置身于茂密深林的視聽體驗——飄落的細枝在腳下嘎吱作響,一頭鹿向東原跑去,當您的目光追著一只紅衣鳳頭鳥而遠去時,您能聽見它扇動翅膀的聲音。
精準的頭部跟蹤有助于提供逼真的用戶體驗 (UX),了解評估解決方案的關鍵因素,可以幫助您在不斷發展的行業中找到方向。
頭部跟蹤的關鍵因素
為了便于理解,本文內容總結了頭部跟蹤中的關鍵因素。
延遲:它指視聽信號從視聽源發出到被用戶感知之間的時間差。依據本文的目的,我們將其分為兩部分。 —音頻輸入延遲:它指音頻信號從音頻源發出到被用戶感知之間的時間差。 —頭部跟蹤延遲:它指當您的頭部移動時,3D 音頻處理變化以適應新的頭部方向的時間差。
頭部跟蹤準確度:在本文中,我們討論的是僅跟蹤方向的 3-DOF 頭部跟蹤,而不是跟蹤位置和方向的 6-DOF 頭部跟蹤。準確度指實際運動與其在擴展現實 (XR) 環境中對應位置之間的測定差。如果傳感器(及其算法)不準確,您可能能夠實時跟蹤頭部運動,但在虛擬環境中的運動與現實中的運動會存在差異。
頭部跟蹤平滑度:它指頭部轉變方向時,3D 音頻轉換的清晰和可察覺程度。您希望創造一種不受跳躍影響的 XR 體驗。突然改變的輸出會破壞沉浸式的體驗感,在游戲過程中,甚至會導致死機。
測試因素
頭部跟蹤延遲
在沒有合適的測量設備的情況下,對延遲進行測試并不簡單,但可以用主觀的方法進行測試。柏林工業大學 (TU Berlin) 音頻通信團隊的一項研究表明,人類受試者的平均檢測水平為 108 毫秒,單聲源的絕對檢測閾值為 52 至 73 毫秒。這里需要澄清的是,該團隊研究的是“總系統延遲”,它指說話者的音頻輸出和設備輸出之間的時間差。研究得出的結論是,人類平均需要經過 108 毫秒才能注意到運動的變化。當從單個來源播放聲音時,聲音會更加明顯。
收聽預錄制的音樂或其他受限音頻的內容時,此延遲不會有任何影響。但是,對于錄制的視頻而言,如果顯示器沒有延遲圖像解決音頻輸入延遲的問題,則可能會出現口型同步問題。對于視頻游戲而言,您不希望出現畫面延遲的狀況,因為畫面延遲會影響到玩家的游戲表現,因此低音頻延遲對保持聲音與游戲畫面同步來說非常重要。延遲在一定程度上會一直存在,但關鍵是要盡量減少延遲,這樣用戶就不會察覺到延遲的影響。
在空間音頻系統中,通常應用頭相關變換函數 (HRTF),混響或其他室內模擬技術,通過空間處理過的空間音頻輸入來映射頭部跟蹤數據。完成此處理后,有幾種常用方法可以實現空間音頻系統。
如果您在音頻設備本機上運行空間處理算法,由于無線通信技術的影響,僅會增加音頻的輸入延遲。由于頭部跟蹤路徑中沒有無線鏈路,頭部跟蹤的延遲仍然很低。這是在同一設備上同時執行空間處理和頭部跟蹤的一個關鍵優勢。
另一種方法是在手機等移動設備上執行空間音頻處理。頭部跟蹤信息從可聽設備發送至移動設備,移動設備會對其進行處理,然后將其推回給用戶。由于存在額外的通信鏈路,與前一種方法相比,此方法會加大頭部跟蹤的延遲。通過藍牙技術可將音頻從電話傳輸到耳機,藍牙延遲取決于使用的音頻編解碼器。較快的編解碼器的延遲可低至 50-80 毫秒,但較常見的編解碼器的延遲可達 170-270 毫秒。頭部跟蹤數據通常會增加 50-100 毫秒的延遲。
通過對空間音頻系統的理解和人類延遲檢測的研究,我們可以大致了解空間音頻系統延遲的優劣情況。試著使用更高頻的聲音來測試延遲。低頻噪聲的方向性不顯著(這就是為什么立體聲系統通常只有一個低音炮)。
用于測試延遲的優質聲源是一種連續的聲音,可以很好地定位。理想情況下,此聲源需混合多個頻率的聲音,但為了便于測試的說明,請考慮用不斷播放的高頻音頻測試延遲。較高的頻率更易于識別,而恒定音調可以讓您注意到音頻圖像中的不同變化。
假設您的耳機的頭部跟蹤延遲為 200 毫秒。若要獲得良好的音頻渲染效果,我們希望音頻圖像的移動范圍不超過 5 度。這意味著用戶需要始終以低于 25 度/秒的速度移動。為了幫助您更好地想象,這意味著在 3.6 秒內將您的頭部旋轉 90 度。這種移速相當緩慢,您在正常情況下的移動速度比這快得多。
在測試中,如果您在大約 1/4 秒內將頭部旋轉 90 度,您將以 360 度/秒的速度移動。200 毫秒的延遲意味著聲源將移動 72 度,但是它僅在 200 毫秒的時間內處于錯誤的位置。在測試中,以連續的聲音作為參考,可以輕易辨別延遲情況。
準確度、精確度和平滑度
準確度與運動與真實世界/真實答案的差距有關。精確度與您獲得相同答案的一致性有關。只有使用帶有磁力計的完整 9 軸解決方案,才能測量出真正的準確度。但是,由于音頻技術使用了磁性驅動器,以及不斷變化的用戶環境,使用完整的 9 軸頭部跟蹤解決方案并不切實際。這就是為什么大多數空間音頻硬件只使用加速計和陀螺儀的原因。
測試精確度和平滑度有點棘手,但使用您的空間音頻軟件,應該能夠測試它們的運行效果。清晰的語音音頻(如播客)可能是測試這些標準的最佳工具。在播客中,說話者處于固定位置,所以無論您把頭轉至哪個方向,說話者的聲音都應該來自同一個位置。當您移動頭部時,3D 音頻應該會發生從一個位置到另一個位置的變化,而音量或音質不會出現明顯的落差或變化。
3D/空間音頻耳機中的陀螺儀傳感器容易發生偏移,這會降低耳機的整體精度。軟件將為您提供多個選項:手動復位,慢速穩定或快速穩定。
如果您未調整偏移,會發現隨著時間的推移,人們在房間里移動的速度很慢。也許他們一開始在您的正前方,但現在位于中心偏左的位置。這種效果是不理想的。您可以通過點擊(設備物或軟件上)指定的按鈕來手動復位設備,說出“我再次直視前方”,并重新設置偏移度。但是,隨著時間的推移,偏移度仍然會逐漸增加。緩慢復位方法利用了您的頭部朝向視線對象這一事實。通過作出此假設,它可以在幾分鐘內重置陀螺儀偏移。快速復位方法利用了同樣的思路,但是相比而言,可以在幾秒鐘之內立即實現移動。
您需根據具體的使用情形,選擇理想的自動復位方法。如果您看向屏幕的同一方向,快速復位則是理想的選擇,因為偶爾看向屏幕以外的位置不會影響復位,并讓您的視線落點保持在中心位置。在活動開始時,重置“正前”方向可以指引復位,讓您不必花費幾分鐘的時間等待算法調整。但是,如果您在家中的多個屏幕上玩游戲,在手機上玩動作游戲,或者在公園里散步,您的方向就會頻繁變化。快速復位能夠更好地跟上以上場景的方向變化。
當您轉著頭聽播客時,試著注意聲音在空間里的追蹤效果,以及當聲音移動時,聲音位置變化的平滑程度(或者您是否注意到移動)。空間音頻的流暢性主要體現在聲音在位置轉換過程中的清晰度。無論是緩慢還是快速轉動頭部,您能察覺到的音頻位置的清晰變化都是平滑算法的標志。如果您在頭部移動時注意到音頻跳躍或明顯量化的現象,這可能是跳轉校正的跡象,或者傳感器/系統無法平滑轉換運動。
隨著大型科技公司創造出各種 3D/空間音頻的集成產品,3D/空間音頻正成為世界的主流。產品越多,您就越需要了解如何挑選最佳產品。盡管以上評估在很大程度上代表了本人的主觀看法,但我希望通過解釋評估與測試背后的想法與邏輯,為您在 3D/空間音頻的世界里暢游提供一些指引。如果您需要以可視化方式了解頭部跟蹤延遲的重要性,或者獲取有關 HRTF 的更多信息,請查看網絡研討會視頻。如果本文或網絡研討會的內容讓您產生了興趣,請向我們發送消息,以了解哪些 CEVA 產品能為您的項目提供最佳支持。
-
3D
+關注
關注
9文章
2864瀏覽量
107338 -
音頻
+關注
關注
29文章
2839瀏覽量
81373 -
CEVA
+關注
關注
1文章
177瀏覽量
75904
原文標題:如何評估 3D 音頻解決方案
文章出處:【微信號:CEVA-IP,微信公眾號:CEVA】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論