當我們談?wù)?a target="_blank">視頻技術(shù)時,超高清視頻(Ultra High Definition,簡稱UHD)無疑是當今最令人興奮的領(lǐng)域之一。上期,我們介紹了讓人眼花繚亂的超高清視頻編解碼格式,以及各大組織、企業(yè)在視頻編解碼上的投入,博弈與紛爭,致力于爭奪技術(shù)和專利上的制高點。本期,我們就聊聊和超高清圖像同樣非常重要的技術(shù)——三維聲。
關(guān)聯(lián)回顧
全圖說電視的發(fā)展歷史
全圖說視頻編解碼的發(fā)展歷史
由淺入深說高清——聊聊高動態(tài)范圍(HDR)
由淺入深說高清——HDR的標準之爭
由淺入深說高清——HDR的適配性與流程化的挑戰(zhàn)由淺入深說高清——讓人眼花繚亂的超高清視頻編解碼格式立體聲-環(huán)繞聲-三維聲
自古以來,聲音一直是人類體驗不可或缺的一部分。從鳥鳴到風聲,我們總是被豐富的聲音所包圍。幾個世紀以來,從留聲機到數(shù)字音頻工作站,人類開發(fā)了各種捕捉和再現(xiàn)聲音的技術(shù)。而聲音技術(shù)在電影、電視、游戲等影音藝術(shù)中的作用顯而易見。有聲電影誕生以來,聲音技術(shù)扮演越來越重要的角色。由于能夠提供畫面所不具備的親密感和物理存在,聲音有時更能打動我們。導(dǎo)演科波拉和喬治·盧卡斯都曾表示,聲音在電影中的重要作用“占到整體體驗的一半”。在影視作品《權(quán)力的游戲》中,當極速飛過的巨龍卓耿長嘯的怒火橫掃多斯拉克騎兵的隆隆馬蹄聲在耳畔響起,沒有人會否認他們在和畫面中的人物一起經(jīng)歷那種緊張、激動或是恐懼。
音頻技術(shù)的演進歷程是“單聲道-立體聲-環(huán)繞聲-三維聲”,相應(yīng)地,人耳感受經(jīng)歷了由“點”及“線”到“面”再到“空間”的過程。
立體聲可以追溯到20世紀初,當時研究人員開始探索聲音定位的心理聲學。20世紀30年代,EMI的英國工程師Alan Blumlein發(fā)明了現(xiàn)代立體聲技術(shù),并且獲得了立體聲唱片、立體聲電影和環(huán)繞聲的專利。為該領(lǐng)域的進一步研究鋪平了道路。
立體聲是一種基本的聲音設(shè)置,它使用兩個揚聲器來創(chuàng)建左右聲場。左右聲道分別錄制和混音,并通過獨立的揚聲器播放,營造出一種寬度感和深度感。立體聲是最常見的聲音設(shè)置,用于從音樂播放到電影配樂的所有內(nèi)容。
環(huán)繞聲是一項已經(jīng)存在了一段時間的技術(shù),它通常涉及在房間周圍放置揚聲器以創(chuàng)造更加身臨其境的聆聽體驗。最常見的設(shè)置是 5.1 系統(tǒng),它有五個揚聲器(左前、右前、中置、左后、右后)和一個低音炮。環(huán)繞聲旨在讓聽眾置身于動作之中,聲音來自不同的方向,營造出一種空間感和維度感。
????Ambisonics技術(shù)中的虛擬麥克風,這種算法可以保證在任何一階指向性的恒定增益。這種效果會衍生出圓形、寬心形、心形、超心形、或八字形。
三維聲(3D Sound)的概念可以追溯到 20 世紀 70 年代,英國數(shù)學家和聲學家 Michael Gerzon 開發(fā)了一種新的 3D 聲音方法。Gerzon 的方法被稱為 Ambisonics,除了水平面之外,它還覆蓋聽者上方和下方的聲源。它使用數(shù)學模型來捕捉完整的 3D 聲場并使用環(huán)繞聲系統(tǒng)再現(xiàn)。Ambisonics算法使用四個或更多麥克風捕捉來自各個方向的聲音,然后對其進行處理以創(chuàng)建可通過多個揚聲器播放的聲場。通過調(diào)整不同通道的電平和時間,3D 音響系統(tǒng)可以營造出來自不同方向和距離的聲音效果。雖然 Ambisonics 從未取得廣泛的商業(yè)成功,但它為三維聲技術(shù)的未來發(fā)展奠定了基礎(chǔ)。
從單聲道、立體聲、環(huán)繞聲發(fā)展到三維聲,技術(shù)演進使聲音的制作手段不斷進步。從環(huán)繞聲時代開始,得益于多聲道良好的分離度、數(shù)字系統(tǒng)寬闊的動態(tài)范圍以及獨立出來的低頻效果聲道,觀眾的觀影體驗逐漸被改變,從作為局外人簡單地看和聽,變成沉浸在敘事世界中。當動作發(fā)生時,它把觀眾定位在動作中間,使其注意力保持在即將到來的那一刻;它突出影視劇的敘事性,使觀眾與角色處在同一世界中,可以像角色一樣體驗故事;它“隱藏”了影院自身的空間,以創(chuàng)造出來的敘事環(huán)境空間取而代之;它使得聲音和畫面更緊密同步,表現(xiàn)畫面內(nèi)的事件和觀眾能聽到的畫外故事世界,為畫面內(nèi)容提供特殊的空間定位。最終,觀眾和敘事世界之間的距離“縮小”了,甚至能感覺到自己被“移入”故事場景之中的那個世界。
三維聲的技術(shù)內(nèi)核三維聲是一項較新的技術(shù),旨在通過模擬來自不同方向和距離的聲音來創(chuàng)造更加身臨其境和逼真的聆聽體驗。這項技術(shù)使用復(fù)雜的算法來創(chuàng)建一個三維聲場,聽者可以感覺到它來自上方、下方、前方、后方,甚至周圍。換句話說,三維聲試圖模仿我們的耳朵和大腦在現(xiàn)實生活中處理聲音的方式。三維聲技術(shù)的出現(xiàn),讓聲音在原來平面聲場的基礎(chǔ)上,增加了高度感,每個聲音精準定位,將聲場還原為三維空間,更接近真實世界,強化了沉浸式感受。三維聲技術(shù)作為超高清體驗的重要組成部分,帶來音頻的空間感、方位感、高還原度、高沉浸度,帶給觀眾更具感染力的臨場感,個性化和交互體驗。
三維聲技術(shù)決定超高清視頻的聲音真實感。相比目前常用的5.1環(huán)繞聲,三維聲增加了多個頂部聲道,通過算法模擬人耳聽音過程重建三維虛擬聲像,或通過揚聲器優(yōu)化布局,實現(xiàn)了聲場的精確重構(gòu)。觀眾在聽音過程中不僅能辨別聲源的位置和方向,還能感知聲源的移動軌跡,從而使得音效更加逼真、細膩。沉浸式的三維聲配合高清晰度、高色彩還原度的超高清畫面,能夠真實再現(xiàn)場景,給觀眾以更具沉浸感、參與感的體驗。
5.1環(huán)繞聲誕生之初,業(yè)內(nèi)曾經(jīng)探討過究竟使用多少聲道才能讓觀眾獲得最為真實的沉浸式體驗。然而三維聲技術(shù)并沒有糾結(jié)于聲道的數(shù)量,而是引入了“對象”的概念。在三維聲場內(nèi),每一個“對象”都具有與之對應(yīng)的位置坐標。對于內(nèi)容生產(chǎn)者(導(dǎo)演、混音師)來說,“對象”這一概念的應(yīng)用可以實現(xiàn)更加精準的定位和更加平滑的位移。例如,配合電影中攝影機視角移動和切換,每個聲音的方位也在不停地游移。聲音這種飄忽不定的呈現(xiàn)方式無意中為銀幕前的觀眾強化了沉浸感和參與感,這種效果在傳統(tǒng)制作方式中是很難達到的。
三維聲體驗中使用了多項關(guān)鍵技術(shù),包括:
頭部相關(guān)傳遞函數(shù) (HRTF):HRTF 是一種數(shù)學模型,描述了聲波從聲源傳播到耳道時如何轉(zhuǎn)換。通過模擬聽眾的 HRTF,三維聲音響系統(tǒng)可以創(chuàng)造更準確和逼真的空間音頻體驗。該算法考慮了聽者頭部和耳朵的形狀,以模擬聲波進入耳道時被過濾和修改的方式。通過將不同的 HRTF 應(yīng)用于來自不同方向的聲音,三維聲系統(tǒng)可以營造出聲音來自空間特定位置的印象。
HRTF濾波效果基于對象的音頻:基于對象的音頻是三維聲中使用的一項關(guān)鍵技術(shù),它允許將聲音視為可以定位在三維空間中的單個對象。這使聲音工程師能夠創(chuàng)建更逼真和動態(tài)的聲場,模擬來自不同方向和距離的聲音。通過使用 AI 算法分析聲音對象的聲學特性,聲音工程師可以創(chuàng)建更準確、更逼真的聲音對象,以響應(yīng)環(huán)境的變化。
空間音頻處理:空間音頻處理是一組用于在三個維度上處理聲音的技術(shù)。這包括聲場旋轉(zhuǎn)、空間濾波和空間混響等技術(shù),可用于創(chuàng)造更加身臨其境和逼真的聆聽體驗。
-
-
聲場旋轉(zhuǎn):此技術(shù)涉及操縱聲場的方向以創(chuàng)建空間感。通過旋轉(zhuǎn)聲場,音響工程師可以模擬來自不同方向的聲音,創(chuàng)造更加身臨其境的音頻體驗。例如,在虛擬現(xiàn)實游戲中,聲場旋轉(zhuǎn)可以用來模擬物體圍繞聽者頭部移動的聲音。
-
空間過濾:該技術(shù)涉及選擇性地過濾音頻信號中的某些頻率,以模擬聲波與聽者的頭部和耳朵相互作用的方式。通過模仿聲波在空氣中傳播并與聽者的頭部互動時被過濾和扭曲的方式,空間過濾可以創(chuàng)造更逼真的和身臨其境的音頻體驗。
-
空間混響:這項技術(shù)涉及模擬聲波從房間表面反彈的方式,在音頻環(huán)境中創(chuàng)造空間感和深度感。通過為音頻信號添加空間混響,音響工程師可以營造出聽者身處特定房間或環(huán)境的錯覺,即使他們是戴著耳機聆聽。
-
三維聲技術(shù)解決聲音從構(gòu)建到還原的整個環(huán)節(jié),三維聲技術(shù)用于多種應(yīng)用,可在音樂會、大型體育賽事、戲曲等的直播/制播和電影、紀錄片等影視內(nèi)容制作、家庭環(huán)境、影院環(huán)境、個人、AR/VR以及車載中得到廣泛應(yīng)用。包括:
電影和電視:三維聲徹底改變了我們在電影和電視節(jié)目中體驗聲音的方式。借助三維聲,音響工程師可以創(chuàng)造更加身臨其境和逼真的音頻體驗,模擬來自不同方向和距離的聲音,以增強觀眾對內(nèi)容的情感投入。
音樂制作:三維聲也被用于音樂制作,以創(chuàng)建更加身臨其境和空間準確的錄音。借助三維聲音效,藝術(shù)家和制作人可以創(chuàng)造出更加動態(tài)和逼真的聲場,讓聽眾能夠以更發(fā)自內(nèi)心的方式體驗音樂。
虛擬現(xiàn)實和增強現(xiàn)實:三維聲是虛擬現(xiàn)實和增強現(xiàn)實應(yīng)用程序的重要組成部分,可讓用戶體驗完全身臨其境且空間準確的音頻體驗。這在游戲中尤為重要,因為三維聲音效可以增強玩家在游戲世界中的臨場感和沉浸感。虛擬現(xiàn)實的頭盔的三維聲技術(shù)要更為復(fù)雜,因為為了保證沉浸感,虛擬環(huán)境中相對固定的聲音也能感知頭部的運動而調(diào)整相對位置,以確保給人以穩(wěn)定聲音來源的感受。
現(xiàn)場活動:三維聲技術(shù)也被用于音樂會和戲劇表演等現(xiàn)場活動。借助三維聲,音響工程師可以為觀眾創(chuàng)造更具動感和身臨其境的音頻體驗,模擬來自不同方向和距離的聲音,以增強表演的情感影響。前面提到的“對象”概念,在直播節(jié)目制作中也可以為混音師和消費者提供更多選擇。例如,將解說等語言類內(nèi)容作為“對象”定義,即可實現(xiàn)對語言的開關(guān)、切換選擇甚至是音量大小的調(diào)整;將事件中某些信息內(nèi)容定義為“對象”,可以讓混音師實現(xiàn)個性化制作或者讓消費者實現(xiàn)定制化收看。在2018年俄羅斯足球世界杯的三維聲制作中,制作團隊將兩支對陣球隊球迷的群雜效果定義為兩組“對象”,分別放置在聲場的左右兩邊。實際轉(zhuǎn)播中的呈現(xiàn)效果一如真實的比賽現(xiàn)場,雙方球迷的吶喊助威隨著攻守的易位此消彼長。觀眾如果愿意,還可以選擇關(guān)掉對方球迷的聲音而只聽自家球迷的助威。
汽車音頻:三維聲越來越多地用于汽車音頻系統(tǒng),以創(chuàng)造更逼真的和身臨其境的聆聽體驗。通過模擬三維聲場,駕駛員和乘客即使坐在車內(nèi)也能體驗到仿佛置身于音樂廳中的音樂。
三維聲的技術(shù)標準和解決方案維聲主流標準及解決方案實現(xiàn)廠家集中,以杜比、DTS等為主,專利壁壘較高,并形成了較為成熟的生態(tài)體系。目前,四種主流的三維聲技術(shù)解決方案分別為杜比全景聲系Dolby Atmos(美國Dolby Labratories)、臨境音DTS:X(美國DTS)、Auro 3D(比利時 Auro Technologies)、MPEG-H(德國Fraunhofer IIS)。
杜比全景聲 (Dolby Atmos) 通過模擬來自不同方向和距離的聲音來創(chuàng)造更加身臨其境和逼真的聆聽體驗。與基于聲道音頻的傳統(tǒng)環(huán)繞聲不同,杜比全景聲 (Dolby Atmos) 是基于對象的,這意味著聲音被視為可以放置在三維空間中的單獨對象。這使音響工程師能夠在聲場內(nèi)精確定位聲音,創(chuàng)造更加逼真和動態(tài)的聆聽體驗。杜比全景聲 (Dolby Atmos) 可以通過各種揚聲器配置進行播放,包括傳統(tǒng)的 5.1 或 7.1 環(huán)繞聲設(shè)置,但它還支持額外的縱向聲道和頭頂揚聲器,以創(chuàng)造更具包圍感的聲場。此外,杜比全景聲 (Dolby Atmos) 可以通過耳機播放,以在移動設(shè)備或私人聆聽中營造更加身臨其境的聆聽體驗。
DTS:X 是由 DTS(數(shù)字影院系統(tǒng))開發(fā)的一種類似于杜比全景聲 (Dolby Atmos) 的 三維聲格式。它使用基于對象的音頻來創(chuàng)造更加身臨其境和逼真的聆聽體驗。
Auro-3D 是由 Auro Technologies 開發(fā)的一種 三維聲格式,它使用獨特的揚聲器配置來創(chuàng)建更具包圍感的聲場。Auro-3D 支持多達 13.1 聲道的音頻,包括縱向聲道和頂置揚聲器。
Sony 360 Reality Audio 是一種專為音樂播放而設(shè)計的 三維聲格式。它使用基于對象的音頻來創(chuàng)造更加身臨其境和空間準確的聆聽體驗。
MPEG-H 由運動圖像專家組 (MPEG) 開發(fā)的標準,支持沉浸式音頻,包括用于廣播和流媒體應(yīng)用的三維聲。MPEG-H 也是一種基于對象的音頻格式,可以將音頻傳送到各種揚聲器配置,從傳統(tǒng)的立體聲或環(huán)繞聲設(shè)置到更復(fù)雜的三維聲系統(tǒng)。MPEG-H 的設(shè)計具有靈活性和可擴展性,允許廣播公司和流媒體服務(wù)向各種設(shè)備和播放系統(tǒng)提供身臨其境的音頻。它還包括高級功能,例如交互式音頻,允許觀眾根據(jù)自己的喜好調(diào)整音頻組合,以及音頻描述,為視障觀眾提供額外的音頻信息。
在編解碼方面,杜比全景聲的編碼技術(shù)和MPEG-H編碼技術(shù)較為成熟,如Dolby ED2、Dolby DD+集成到了音頻工作站Protools、Nuendo中,MPEG-H已被韓國4K頻道使用。在渲染方面,通過算法模擬人耳聽音過程重建三維虛擬聲像,或通過揚聲器優(yōu)化布局重構(gòu)聲場。杜比全景聲的渲染方案在影院、電視、手機等產(chǎn)品中均有使用,Auro 3D的揚聲器布局方案已被ITU系列標準采用。
我國研制的三維聲標準及解決方案已步入推廣落地階段。我國的三維聲標準由世界超高清視頻產(chǎn)業(yè)聯(lián)盟(UWA)牽頭,與AVS工作組協(xié)同,聯(lián)合產(chǎn)業(yè)端到端生態(tài),于2022年4月推動發(fā)布三維菁彩聲(Audio Vivid)技術(shù)團隊標準草案,并被國家廣播電視總局接納為行業(yè)標準。喜馬拉雅已完成了120小時有聲書音樂內(nèi)容制作,總臺中秋晚會采用該標準進行直播應(yīng)用示范。國內(nèi)企業(yè)的WANOS全景聲解決方案已于央視網(wǎng)CNTV、芒果TV、騰訊視頻、百度云合作布局應(yīng)用于央視網(wǎng)“2019年春節(jié)晚會”、芒果TV“歌手2019”“聲入人心”等重要節(jié)目中,并服務(wù)了全國300多個影廳。
三維聲的未來展望
三維聲預(yù)計未來將與虛擬現(xiàn)實、元宇宙等結(jié)合逐步,并進一步向會議辦公、醫(yī)療健康等場景延伸。隨著音視頻技術(shù)逐步由向沉浸式、交互式方向發(fā)展,三維聲將拓展產(chǎn)業(yè)互聯(lián)網(wǎng)的應(yīng)用,深化行業(yè)應(yīng)用領(lǐng)域的使用,擴大技術(shù)規(guī)范在垂直行業(yè)的影響力,預(yù)計2023~2025年將加速發(fā)展。隨著技術(shù)的不斷進步,三維聲的潛在應(yīng)用幾乎是無限的。從醫(yī)學模擬到建筑聲學,三維聲有可能徹底改變我們在無數(shù)領(lǐng)域體驗聲音的方式。此外,人工智能和機器學習的進步正在為三維聲技術(shù)開辟新的可能性,從而實現(xiàn)更準確和個性化的空間音頻體驗。
今天,我們就先聊到這里,下一期,我們再展開談一下超高清視頻的超分技術(shù)。
-
開源技術(shù)
+關(guān)注
關(guān)注
0文章
389瀏覽量
7882 -
OpenHarmony
+關(guān)注
關(guān)注
25文章
3548瀏覽量
15742
原文標題:河套IT TALK 66: (原創(chuàng)) 超高清視頻的三維聲技術(shù)
文章出處:【微信號:開源技術(shù)服務(wù)中心,微信公眾號:共熵服務(wù)中心】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論