斯坦福大學(xué)研究人員給AI模型看了100部好萊塢電影,讓AI看懂了什么是接吻,并從視頻片段中分割識(shí)別出接吻的鏡頭場(chǎng)景,而且把接吻和***場(chǎng)景區(qū)分開(kāi)來(lái)。嗯,想開(kāi)車(chē)的朋友可能要等等,但想看吻戲的朋友這回可以一次看個(gè)夠了。
和大多數(shù)沒(méi)有接過(guò)吻的人一樣,AI學(xué)接吻這件事最開(kāi)始也是通過(guò)觀看愛(ài)情電影片段進(jìn)行的。AI通過(guò)看電影來(lái)了解關(guān)于接吻的基本知識(shí),尤其是看看那些好萊塢明星的嘴唇動(dòng)作究竟是什么樣的。
研究人員對(duì)熟練掌握識(shí)別面部識(shí)別和目標(biāo)識(shí)別的深度學(xué)習(xí)算法進(jìn)行了訓(xùn)練,識(shí)別由專(zhuān)業(yè)演員戲劇化的熱吻場(chǎng)景,這表明,AI系統(tǒng)已經(jīng)能夠更深入地了解最親密的人類(lèi)“交流”活動(dòng)。
電影《泰坦尼克號(hào)》中男女主角著名的“船頭接吻”鏡頭
這項(xiàng)研究來(lái)自Netflix的高級(jí)數(shù)據(jù)科學(xué)家Amir Ziai,他正在斯坦福大學(xué)攻讀AI專(zhuān)業(yè)研究生。Ziai從過(guò)去一個(gè)世紀(jì)的好萊塢電影數(shù)據(jù)庫(kù)中挑選了100部電影的代表性片段。然后手動(dòng)將不同的電影片段標(biāo)記為接吻/非接吻場(chǎng)景,并使用來(lái)自這些片段的靜止圖像幀和聲音片段來(lái)訓(xùn)練深度學(xué)習(xí)算法,以檢測(cè)影片中親吻的場(chǎng)景和聲音。
尋找非交叉接吻動(dòng)作分割片段的算法偽代碼
不過(guò)請(qǐng)不要誤會(huì),目前還不清楚這個(gè)測(cè)吻的方法是否可以用于親吻之外的進(jìn)一步***場(chǎng)景的識(shí)別。對(duì)此,Ziai 表示:“在我的訓(xùn)練數(shù)據(jù)集中有意遠(yuǎn)離了過(guò)度的***場(chǎng)景,以確保模型不會(huì)混淆接吻和***”。
Ziai目前的雇主Netflix沒(méi)有參與斯坦福大學(xué)的這項(xiàng)研究,該研究一發(fā)表在預(yù)印本服務(wù)器arXiv上。Ziai尚未研究該技術(shù)在Netflix上的能否獲得一些應(yīng)用前景。但不難想象,這類(lèi)視頻識(shí)別技術(shù)可能會(huì)讓Netflix或其他公司(如YouTube,F(xiàn)acebook,Instagram和TikTok)很感興趣,由此技術(shù)開(kāi)發(fā)出的商業(yè)應(yīng)用可以處理大量流媒體或存儲(chǔ)視頻。
2019年4月,谷歌宣布其Pixel智能手機(jī)已經(jīng)能夠接收Photobooth功能更新,可以在智能手機(jī)攝像頭拍攝的視頻中檢測(cè)到接吻時(shí)進(jìn)行自動(dòng)拍照。Ziai展示了與視頻有關(guān)的接吻檢測(cè)技術(shù),未來(lái)的應(yīng)用可以對(duì)視頻內(nèi)容進(jìn)行自動(dòng)分類(lèi),為用戶(hù)打造個(gè)性化的視頻推薦列表,甚至可能充當(dāng)在線(xiàn)視頻審核的部分作用,對(duì)某些內(nèi)容的視頻進(jìn)行篩選。
“這是一個(gè)很好的例子,說(shuō)明現(xiàn)代計(jì)算機(jī)視覺(jué)技術(shù)如何能夠相當(dāng)容易地開(kāi)發(fā)特定的'感知和響應(yīng)'軟件,提示定性/非結(jié)構(gòu)化的東西(如場(chǎng)景中的接吻),”O(jiān)penAI策略與轉(zhuǎn)播主管杰克·克拉克說(shuō),他的導(dǎo)入人工智能新聞通訊,最近突出了親吻檢測(cè)研究。“我認(rèn)為這是AI改變個(gè)人軟件開(kāi)發(fā)方面,未來(lái)受關(guān)注潛力最高的領(lǐng)域之一?!?/p>
目前對(duì)親吻場(chǎng)景識(shí)別最成功的深度學(xué)習(xí)模型是ResNet-18,這是一種圖像分類(lèi)算法,已經(jīng)基于ImageNet數(shù)據(jù)庫(kù)中的超過(guò)一百萬(wàn)張圖像進(jìn)行了預(yù)訓(xùn)練。為了能夠正確識(shí)別接吻的聲音,使用名為VGGish的深度學(xué)習(xí)模型,利用每個(gè)接吻場(chǎng)景的一秒鐘片段的后960毫秒的音頻進(jìn)行了訓(xùn)練。
使用這種雙管齊下的訓(xùn)練方式,AI模型處理接吻的圖像和音頻的方式,讓整個(gè)模型獲得了高達(dá)的0.95的F1分?jǐn)?shù) - 這一分?jǐn)?shù)用于衡量算法(對(duì)于誤報(bào)和假陰性的)精度的加權(quán)平均值。
但是,面對(duì)一些電影場(chǎng)景中視頻編輯過(guò)多,以及和攝像機(jī)角度問(wèn)題時(shí),模型可能會(huì)無(wú)能為力。拍攝演員接吻的遠(yuǎn)景鏡頭有時(shí)會(huì)騙過(guò)算法,因?yàn)檫@種情況下,大部分相機(jī)鏡框內(nèi)都是風(fēng)景背景。快節(jié)奏的視頻剪輯和不包括兩個(gè)演員的鏡頭也證明是具有挑戰(zhàn)性的。
要弄清究竟是AI模型究竟是根據(jù)哪些特定數(shù)據(jù)模式進(jìn)行預(yù)測(cè)是比較困難的事情。人類(lèi)嘗試?yán)斫釧I邏輯的一種方法是使用顯著性圖來(lái)突出顯示在分析過(guò)程中受到AI最多關(guān)注的數(shù)據(jù)。在好萊塢電影中的親吻場(chǎng)景中,深度學(xué)習(xí)模型似乎更加關(guān)注與演員面部相關(guān)的圖像像素。
Ziai說(shuō),一些“有限的實(shí)驗(yàn)”也表明,AI模型更依賴(lài)視覺(jué)特征,而不是音頻特征來(lái)識(shí)別接吻場(chǎng)景。實(shí)驗(yàn)表明,利用更加“精心調(diào)整的數(shù)據(jù)集”會(huì)更有利于接吻探測(cè)系統(tǒng)的性能發(fā)揮,并且可能利用更多的背景信息,而不僅僅是靠靜止圖像來(lái)識(shí)別接吻場(chǎng)景。
電影《幽靈》(1990)中的接吻場(chǎng)景
目前還不清楚AI模型在全部100部好萊塢電影中的識(shí)別表現(xiàn)如何,如《安娜·卡列尼娜》(1935),《幽靈》(1990)和《皇家賭場(chǎng)》(2006)將在更大的電影數(shù)據(jù)集中發(fā)揮作用。但是,在訓(xùn)練數(shù)據(jù)集超過(guò)80個(gè)視頻后,該模型僅僅出現(xiàn)了“邊際化的性能提升”,Ziai說(shuō)。好萊塢電影數(shù)據(jù)集和一些計(jì)算資源由斯坦福大學(xué)計(jì)算機(jī)科學(xué)助理教授Kayvon Fatahalian實(shí)驗(yàn)室提供。
另一個(gè)問(wèn)題是,這種接吻AI識(shí)別模型是否能夠在檢測(cè)社交媒體上常見(jiàn)的視頻中的接吻場(chǎng)景時(shí)表現(xiàn)出相當(dāng)?shù)木?。這一挑戰(zhàn)可能需要對(duì)更大的視頻數(shù)據(jù)集進(jìn)行額外的訓(xùn)練。盡管如此,一些初步測(cè)試仍然表明,這種方式有望誕生更廣泛的AI接吻檢測(cè)應(yīng)用。
“這項(xiàng)研究的嘗試是使用多樣化的數(shù)據(jù)集,讓模型不會(huì)過(guò)度適應(yīng)任何特定類(lèi)型的電影,”Ziai說(shuō)?!坝腥さ氖?,它似乎在我發(fā)現(xiàn)的一些YouTube視頻上的性能表現(xiàn)相當(dāng)不錯(cuò)?!?/p>
-
AI
+關(guān)注
關(guān)注
87文章
30146瀏覽量
268414 -
面部識(shí)別
+關(guān)注
關(guān)注
1文章
375瀏覽量
26618 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5492瀏覽量
120977
原文標(biāo)題:斯坦福研究人員讓AI看了100部好萊塢大片,養(yǎng)出一個(gè)“吻戲識(shí)別大師”
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論