NVIDIA研究人員利用全新GPU加速的深度學習技術,能夠將圖片中的美洲豹同時轉換為貓咪、老虎,甚至是狗狗。這項技術對于視頻也同樣適用。
將一幅圖像或一段視頻轉化為多幅圖像或多段視頻的能力可以幫助游戲開發人員和電影制作人員加快速度、降低成本,為用戶創造出更豐富的體驗。除此之外,還可以更快、更輕松地生成各種訓練數據,提升自動駕駛汽車的能力,助其應對更多的路況。
一生萬物
在去年12月的神經信息處理系統大會和研討會(NIPS)中,NVIDIA進行了圖像轉換工作成果的相關演示。NIPS論文中介紹的方法采用的是一對一的方式,將一幅圖像或一段視頻轉換成另一幅圖像或另一段視頻。如今他們能夠在此基礎上更上一層樓。
近日發布的論文中(Multimodal Unsupervised Image-to-Image Translation)披露的新技術叫做“多模態”(Multimodal)技術,能夠同時將一幅圖像轉化為多幅圖像。
多模態圖像轉換僅是一個最新的典例,展現了NVIDIA 200 人的研究團隊其中的一項突破性成果。NVIDIA的研究人員分布在全球11個不同的地點,致力于推動機器學習、計算機視覺、自動駕駛汽車、機器人、圖形、計算機架構、編程系統和其他領域的技術進步。
陰郁天氣里的一抹陽光
與NIPS展示的研究類似,多模態圖像轉換依賴于無監督式學習和生成式對抗網絡 (GAN) 這兩項深度學習技術,賦予設備更多“想象力”,例如“想象”一條陽光普照的街道在暴風雨或冬季時的景象。
現在,將一段夏季駕車視頻轉換為一段冬季駕車視頻,這樣的技術已然過時。研究人員推陳出新,他們現在能夠創建一系列不同的冬季駕車視頻,展現降雪量各異的情景。該技術也適用于一天內不同的時段以及其他不同的天氣條件,能夠在陰云密布的天氣中營造出一縷陽光,或者將黑夜轉換為黎明、下午或黃昏時分。該項技術在自動駕駛領域將具有非常大的價值,能夠幫助訓練深度神經網絡。
在游戲領域,多模態圖像轉換可以為工作室提供更快捷、更簡單的方式來創建新角色或新環境。藝術家無須再費心處理比較繁冗的任務,而是能夠專心去開發更豐富、更復雜的故事。
多模態無監督式圖像到圖像轉換框架(簡稱 MUNIT)的工作原理是將圖像內容與樣式分離開來。以一張貓咪的圖片為例,貓咪的姿勢就是內容,而品種屬于樣式。姿勢是固定的。如果要將一只家貓的圖像轉換為一只美洲豹或狗狗的圖像,那么動物的姿勢必須保持一致。發生變化的是品種或物種,比如說,短毛家貓、美洲豹或牧羊犬。
沒有數據?不必擔心
這項研究以深度學習方法為基礎,這種深度學習方法能夠生成視覺數據。GAN使用兩個互相博弈的神經網絡:一個用于生成圖像,另一個則用于判別生成的圖像是真是假。在數據不足的情況下,GAN尤其有用。
通常,圖像轉換需要相應圖像的數據集——在此案例中,即牧羊犬、拉布拉多巡回犬或老虎的圖片,并且其位置應與原始的貓咪圖片完全相同。這種數據很難找到,甚至可能根本無法找到。MUNIT的優勢就在于,即使沒有這些數據,它也可以正常工作。
MUNIT也可以方便地為自動駕駛汽車生成訓練數據,而無需在拍攝點、視角、對向交通和其他細節均處于完全相同的前提下拍攝相同的鏡頭。
此外,借助GAN,人們無需再為每幅圖像或每段視頻的內容加標簽,而這本是一項需要大量時間和人力的任務。
論文的其中一位作者劉洺堉表示:“我的目標是,讓機器具有類似于人類的想象力。人類能夠想象冬天會是什么景象,無論樹木是只剩光禿禿的枝干,還是被白雪所覆蓋。我希望開發出具有相同想象力的人工智能。”
-
NVIDIA
+關注
關注
14文章
4949瀏覽量
102830 -
人工智能
+關注
關注
1791文章
46896瀏覽量
237672 -
深度學習
+關注
關注
73文章
5493瀏覽量
121000
原文標題:NVIDIA研究新進展:利用多模態圖像轉換AI技術將貓咪變身成小狗、雄獅和老虎
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論