深度學習生成表情包,笑不笑由你。
自從有了表情包,跟人聊天時的第一反應,就是去找找看有什么適合的表情。
有一類表情包,形式是文字+圖,尤其能夠精妙地抒發和傳遞感情。
在這一點上,可能全世界的網友都一樣。
好用的表情永遠不嫌多,而且似乎總是不夠用。
怎么辦?
好在我們有深度學習。
表情包,一個天然的圖說生成問題
斯坦福大學的Abel L. Peirson V和E. Meltem Tolunayl,在這一期斯坦福深度學習自然語言處理課程CS224n的期末作業中,提交了一個表情包生成器,使用深度學習,制作“圖片+文字”型的表情包。
下面這些都是他們的系統自動生成的結果。不得不說,深得表情包制作精髓。
這個表情包生成器的基本的框架是一個編碼器-解碼器圖說生成系統,先進行CNN圖像嵌入,然后用一個LSTM RNN進行文字生成。
其中,編碼器的目標是要給出一個有意義的狀態,讓解碼器開始進行文字生成。他們使用在ImageNet上預訓練的Inception-v3做為編碼器模型,并將最后一層隱藏CNN作為編碼器的輸出。當表情包模板進入Inception模型后,輸出是一組長度固定的向量,也即圖像嵌入,能夠反映圖像的內容。這個圖像嵌入之后會被投射到詞嵌入空間里,方便后續文字生成。
他們一共嘗試了3種不同的編碼器模型,最簡單的一種只輸入圖像,另一種輸入圖像和標簽,最后一種的輸入也是圖像和標簽,但使用了注意力機制。至于解碼器,都是一個單向LSTM。這樣搭配組合成了3種編碼器-解碼器方案。下圖展示了第二種方案的模型。
學習40萬個表情,幽默程度媲美人類
數據集是這個表情包生成器的精髓。他們的數據集由大約40萬張帶標簽和圖說的圖片組成。其中有2600個獨特的圖像-標簽對,是他們寫Python腳本從Memegenerator.net中獲取的。一張圖片對應一個標簽,標簽是對這幅圖的簡單描述,而每張圖都與很多不同的圖說(大約160個)相關聯。
下圖展示了數據的樣本:
在訓練前,他們還針對圖說中的標點、格式和某些詞出現的頻率等進行了預處理。
訓練的結果,深度學習生成了各種表情:
系統看過的圖像(左邊4張)的輸入標簽是來自訓練集的標簽,而對于沒見過的圖像(右邊4張),我們使用的句子是“AI是新的電力”。
從語法、搞笑程度和可區分性(分辨是人制作的還是深度學習生成的)幾個維度判斷,深度學習表情包生成器取得了不錯的效果。尤其是搞笑程度,因為這一點是制作表情包的初衷,普通表情包的搞笑程度7分(滿分10分),深度學習生成的表情包最高達到了6.8。
兩位作者指出,幽默是很難評判的事情,本身就是一個很深的研究領域。他們的這項工作十分基礎,接下來如果能構建出能夠自動斷句的表情包生成器(就是自動判斷圖片上方和下方兩行文字從哪里斷開),將會是一個很大的進步。(因為使用的都是網絡熱圖,因此數據含有性別歧視和不文明的成分。)此外,探索視覺注意力機制在表情包生成中的作用,也是一個不錯的研究方向。
-
編碼器
+關注
關注
44文章
3529瀏覽量
133261 -
深度學習
+關注
關注
73文章
5422瀏覽量
120587 -
cnn
+關注
關注
3文章
349瀏覽量
21952
原文標題:深度學習了40萬個表情,一大波AI 表情包來了
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論