說到以VR演奏樂器,目前應(yīng)用市場中已有的VR樂器應(yīng)用并不罕見。VR樂器的誕生幫助很多對音樂向往卻囿于樂器價格和擺放空間的愛好者過上了把手癮、耳癮。
就在上一周,小編提到的關(guān)于facebook對手部的精準(zhǔn)追蹤,更是助了VR演奏一臂之力,十八般樂器,樣樣不在話下。
這些應(yīng)用都是以人為演奏者,根據(jù)人的動作發(fā)出對應(yīng)的音調(diào)聲響。可若是把這個過程反過來又會是怎么樣的一種情形呢?
最近,facebook又又公布了一篇論文,名叫“音頻到身體動力學(xué)”,講的就是如何以3D動畫的形式將一段音頻轉(zhuǎn)化為演奏時的肢體動作。依據(jù)人的動作,發(fā)出聲音,我們已經(jīng)見過許多,但根據(jù)聲音,模擬出相應(yīng)動作,這還是首次。
(可惜動圖發(fā)不出聲音ε=(′ο`*))))
想要進(jìn)行這種轉(zhuǎn)化,就需要知道每個音符所對應(yīng)的演奏者可能會做出的動作。按照傳統(tǒng)方法,自然是請幾位演奏家到實驗室內(nèi),在他們的手指和身體關(guān)節(jié)處貼上傳感器,再讓他們演奏上幾個小時。但這種方法實施起來還是有些麻煩,怕麻煩的研究人員想出了一個更好的點子。
不知道大家還記不記得去年這個時候曾流傳過一個用黑科技合成奧巴馬說話的視頻。華盛頓大學(xué)的研究人員分析了14個小時的奧巴馬講話的視頻,判斷奧巴馬在講話時其臉部是如何運動的,如嘴唇、牙齒、面部皺紋以及下巴的活動,再通過神經(jīng)網(wǎng)絡(luò)與人工智能技術(shù)根據(jù)海量數(shù)據(jù)掌握了與不同聲音相關(guān)聯(lián)的嘴型,因此只要隨意放出一段音頻就可以制作奧巴馬講話的視頻。
正是受到了“奧巴馬”的啟發(fā),facebook的研究人員也采用了相似的視頻學(xué)習(xí)方法。研究人員通過檢測視頻中每一幀中的上半身和手指來處理視頻。每幀上取50個點,其中每只手占21個點,上半身占8個點。接著,分別通過OpenPose、MaskRCNN 和DeepFace三個庫運行視頻,其中OpenPose提供面部,身體和手部關(guān)鍵點,MaskRCNN 和DeepFace則為人臉識別算法。
當(dāng)然在采集過程中,也是成功與失敗并存。為了采集的數(shù)據(jù)更精準(zhǔn),研究人員在每段視頻中都選擇一幀作為參考幀。倘若在參考幀附近的連續(xù)幀中有與參考幀參數(shù)相差較大的幀,例如面部、手部關(guān)鍵點不匹配,則自動消除掉那一幀。下圖手部糊在一起的便是失敗幀。
研究人員的目標(biāo)是學(xué)習(xí)音頻特征和身體動作之間的相關(guān)性,因此,完成了關(guān)鍵點采集,便要構(gòu)建一個Long-Short-TermMemory(LSTM長短期記憶)網(wǎng)絡(luò)開始學(xué)習(xí)音頻特征和身體骨架標(biāo)志之間的相關(guān)性了。
這也與“奧巴馬”那個使用的是同款學(xué)習(xí)網(wǎng)絡(luò)。研究人員選擇使用具有時間延遲的單向單層LSTM。 xi是特定時間實例i的音頻MFCC特征,yi是身體關(guān)鍵點的PCA系數(shù),m是存儲器(隱藏狀態(tài))。研究人員還添加了一個標(biāo)記為'fc'的完全連接層,經(jīng)過試驗發(fā)現(xiàn)它可以提高系統(tǒng)學(xué)習(xí)效率。
最后動畫的生成是基于ARkit實現(xiàn)的。研究人員使用ARkit構(gòu)建了一個增強(qiáng)現(xiàn)實應(yīng)用程序,該應(yīng)用程序可以在手機(jī)上實時運行。使用帶有骨骼的3D身體模型,通過將預(yù)測點與3D世界坐標(biāo)對齊來初始化動畫形象。研究人員通過所有幀平均下拉的左右肩點距離計算得出模型的剛性變換數(shù)據(jù)。然后再分別考慮身體,手臂和手指。對于身體,研發(fā)人員創(chuàng)建了一條IK鏈,其中根節(jié)點定義為左右臀部之間的平均值,并連接到左肩和右肩的平均值。然后,估計所有幀的平均脊柱長度,并據(jù)此相應(yīng)地縮放動畫模型的脊柱。對于手臂,以手腕為參考點,由前臂長度決定偏移量。對于手指,通過小指的根關(guān)節(jié)和指針的根關(guān)節(jié)確定手的旋轉(zhuǎn)。最后,應(yīng)用根旋轉(zhuǎn)偏移來匹配琴與人的姿勢角。
除了鋼琴,還有小提琴的演奏
雖然目前這個應(yīng)用還僅限于鋼琴與小提琴演奏的轉(zhuǎn)化,但是相信隨著進(jìn)一步的開發(fā),將支持更多種樂器演奏的轉(zhuǎn)化。甚至于將來還有可能發(fā)展出除樂器之外其他形式的轉(zhuǎn)化,比如,放一段音樂,可以Freestyle出一段舞蹈;再比如,根據(jù)一段霹靂扒拉的拳打腳踢聲,生成一段3D動畫的打斗場面。總之,能夠依聲定形還是很有趣的。
-
傳感器
+關(guān)注
關(guān)注
2548文章
50709瀏覽量
752089 -
Facebook
+關(guān)注
關(guān)注
3文章
1429瀏覽量
54655 -
vr
+關(guān)注
關(guān)注
34文章
9634瀏覽量
150071
原文標(biāo)題:facebook:用音樂生成3D動畫
文章出處:【微信號:ARchan_TT,微信公眾號:AR醬】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論