電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)虛擬數(shù)字人(DigitalHuman/MetaHuman),是運(yùn)用數(shù)字技術(shù)創(chuàng)造出來的、與人類形象接近的數(shù)字化人物形象。虛擬數(shù)字人系統(tǒng)一般情況下由人物形象、語音生成、動(dòng)畫生成、音視頻合成顯示、交互等5個(gè)模塊構(gòu)成。
虛擬數(shù)字人核心技術(shù)
人物形象根據(jù)人物圖形資源的維度,可分為2D和3D兩大類,從外形上又可分為卡通、擬人、寫實(shí)、超寫實(shí)等風(fēng)格。
語音生成模塊和動(dòng)畫生成模塊可分別基于文本生成對(duì)應(yīng)的人物語音以及與之相匹配的人物動(dòng)畫,語音生成基于表達(dá)內(nèi)容文本生成語音,應(yīng)用智能語音TTS技術(shù),動(dòng)畫生成,基于表達(dá)內(nèi)容文本生成動(dòng)畫,核心技術(shù)為驅(qū)動(dòng)與渲染。
音視頻合成顯示模塊將語音和動(dòng)畫合成視頻,基于終端顯示技術(shù),將數(shù)字人產(chǎn)品呈現(xiàn)于手機(jī)等智慧終端屏幕,顯示給用戶。
交互模塊使數(shù)字人具備交互功能,即通過語音語義識(shí)別等智能技術(shù)識(shí)別用戶的意圖,并根據(jù)用戶當(dāng)前意圖決定數(shù)字人后續(xù)的語音和動(dòng)作,驅(qū)動(dòng)人物開啟下一輪交互。
其中計(jì)算驅(qū)動(dòng)型交互對(duì)廠商的對(duì)話式AI能力要求高,往往由對(duì)話式AI廠商進(jìn)行能力提供。對(duì)話式AI能力,包括基于語義理解、知識(shí)庫、知識(shí)圖譜給到信息回饋,基于語音識(shí)別、計(jì)算機(jī)視覺完成用戶信息輸入。
在虛擬數(shù)字人的制作流程,最為核心、最具挑戰(zhàn)的是建模、驅(qū)動(dòng)、渲染三大流程。建模環(huán)節(jié)以真人為模型或設(shè)計(jì)人物,為虛擬數(shù)字人建立基本的3D模型,3D建模為構(gòu)建虛擬人形象的基礎(chǔ),重點(diǎn)在于實(shí)現(xiàn)細(xì)節(jié)的精細(xì)還原。
驅(qū)動(dòng)環(huán)節(jié),通過訓(xùn)練驅(qū)動(dòng)模型等形式確定虛擬數(shù)字人的基本動(dòng)作;渲染環(huán)節(jié),根據(jù)在設(shè)計(jì)環(huán)節(jié)中確定的虛擬人最終呈現(xiàn)效果和應(yīng)用場景等外界要素,將模型與其運(yùn)動(dòng)進(jìn)行渲染以呈現(xiàn)最佳效果。渲染技術(shù)用于提升虛擬人的逼真程度,實(shí)時(shí)互動(dòng)亦需要實(shí)現(xiàn)實(shí)時(shí)渲染。
虛擬數(shù)字人產(chǎn)業(yè)鏈
當(dāng)前虛擬數(shù)字人理論和技術(shù)日益成熟,應(yīng)用范圍不斷擴(kuò)大,產(chǎn)業(yè)正在逐步形成、不斷豐富,相應(yīng)的商業(yè)模式也在持續(xù)演進(jìn)和多元化。
從產(chǎn)業(yè)鏈來看,虛擬數(shù)字人從上到下可以分為基礎(chǔ)層、平臺(tái)層和應(yīng)用層。基礎(chǔ)層為虛擬數(shù)字人提供基礎(chǔ)軟硬件支撐,硬件包括顯示設(shè)備、光學(xué)器件、傳感器、芯片等,基礎(chǔ)軟件包括建模軟件、渲染引擎。
顯示設(shè)備是數(shù)字人的載體,既包括手機(jī)、電視、投影、LED顯示等2D顯示設(shè)備,也包括裸眼立體、AR、VR等3D顯示設(shè)備。
光學(xué)器件用于視覺傳感器、用戶顯示器的制作;傳感器用于數(shù)字人原始數(shù)據(jù)及用戶數(shù)據(jù)的采集;芯片用于傳感器數(shù)據(jù)預(yù)處理和數(shù)字人模型渲染、AI計(jì)算。
建模軟件能夠?qū)μ摂M數(shù)字人的人體、衣物進(jìn)行三維建模。渲染引擎能夠?qū)艄狻⒚l(fā)、衣物等進(jìn)行渲染,主流引擎包括UnityTechnologies公司的Unity3D、EpicGames公司的UnrealEngine等。
平臺(tái)層包括軟硬件系統(tǒng)、生產(chǎn)技術(shù)服務(wù)平臺(tái)、AI能力平臺(tái),為虛擬數(shù)字人的制作及開發(fā)提供技術(shù)能力。建模系統(tǒng)和動(dòng)作捕捉系統(tǒng)通過產(chǎn)業(yè)鏈上游的傳感器、光學(xué)器件等硬件獲取真人/實(shí)物的各類信息,利用軟件算法實(shí)現(xiàn)對(duì)人物的建模、動(dòng)作的重現(xiàn)。
渲染平臺(tái)用于模型的云端渲染。解決方案平臺(tái)基于自身技術(shù)能力為廣大客戶提供數(shù)字人解決方案。AI能力平臺(tái)提供計(jì)算機(jī)視覺、智能語音、自然語言處理技術(shù)能力。
平臺(tái)層匯聚的企業(yè)較多,包括AI相關(guān)的企業(yè)科大訊飛、追一科技、竹間智能、商湯科技等,以及互聯(lián)網(wǎng)廠商百度、阿里、華為、火山引擎、騰訊、京東、網(wǎng)易伏羲等。
小結(jié)
從目前的情況來看,近幾年虛擬數(shù)字人的熱度居高不下,互聯(lián)網(wǎng)廠商、人工智能廠商、CG廠商等各類玩家紛紛入局。然而當(dāng)前虛擬數(shù)字人產(chǎn)業(yè)鏈存在割裂現(xiàn)象,生產(chǎn)環(huán)節(jié)分散在各個(gè)主體之間,難以達(dá)到高效協(xié)同。
而具備全棧集成能力的大型互聯(lián)網(wǎng)廠商正嘗試通過生態(tài)開放、平臺(tái)建設(shè)集成各環(huán)節(jié)資源,為客戶提供覆蓋全流程、低成本、短周期的虛擬數(shù)字人平臺(tái),降低虛擬數(shù)字人產(chǎn)業(yè)的應(yīng)用門檻,在這場虛擬數(shù)字人商業(yè)落地推進(jìn)中占據(jù)優(yōu)勢。
-
Ar
+關(guān)注
關(guān)注
24文章
5083瀏覽量
169290 -
AI
+關(guān)注
關(guān)注
87文章
30239瀏覽量
268473
發(fā)布評(píng)論請先 登錄
相關(guān)推薦
評(píng)論