2018,仍是AI領域激動人心的一年。
計算機視覺領域同樣精彩紛呈,與四年前相比GAN生成的假臉逼真到讓人不敢相信;新工具、新框架的出現,也讓這個領域的明天特別讓人期待……
近日,Analytics Vidhya發布了一份2018人工智能技術總結與2019趨勢預測報告,原文作者PRANAV DAR。這份報告總結和梳理了全年主要AI技術領域的重大進展,同時也給出了相關的資源地址,以便大家更好的使用、查詢。
重點為大家介紹這份報告中的兩個部分:
計算機視覺
工具和庫
下面,我們就逐一來盤點和展望。
計算機視覺
今年,無論是圖像還是視頻方向都有大量新研究問世,有三大研究曾在CV圈掀起了集體波瀾。
BigGAN
今年9月,當搭載BigGAN的雙盲評審中的ICLR 2019論文現身,行家們就沸騰了:簡直看不出這是GAN自己生成的。
在計算機圖像研究史上,BigGAN的效果比前人進步了一大截。比如在ImageNet上進行128×128分辨率的訓練后,它的Inception Score(IS)得分166.3,是之前最佳得分52.52分3倍。
除了搞定128×128小圖之外,BigGAN還能直接在256×256、512×512的ImageNet數據上訓練,生成更讓人信服的樣本。
在論文中研究人員揭秘,BigGAN的驚人效果背后,真的付出了金錢的代價,最多要用512個TPU訓練,費用可達11萬美元,合人民幣76萬元。
不止是模型參數多,訓練規模也是有GAN以來最大的。它的參數是前人的2-4倍,批次大小是前人的8倍。
研究論文:https://openreview.net/pdf?id=B1xsqj09Fm
Fast.ai 18分鐘訓練整個ImageNet
在完整的ImageNet上訓練一個模型需要多久?各大公司不斷下血本刷新著記錄。
不過,也有不那么燒計算資源的平民版。
今年8月,在線深度學習課程Fast.ai的創始人Jeremy Howard和自己的學生,用租來的亞馬遜AWS的云計算資源,18分鐘在ImageNet上將圖像分類模型訓練到了93%的準確率。
前前后后,Fast.ai團隊只用了16個AWS云實例,每個實例搭載8塊英偉達V100 GPU,結果比Google用TPU Pod在斯坦福DAWNBench測試上達到的速度還要快40%。
這樣拔群的成績,成本價只需要40美元,Fast.ai在博客中將其稱作人人可實現。
Fast.ai博客介紹:https://www.fast.ai/2018/08/10/fastai-diu-imagenet/
vid2vid技術
今年8月,英偉達和MIT的研究團隊高出一個超逼真高清視頻生成AI。
只要一幅動態的語義地圖,就可獲得和真實世界幾乎一模一樣的視頻。換句話說,只要把你心中的場景勾勒出來,無需實拍,電影級的視頻就可以自動P出來:
除了街景,人臉也可生成:
這背后的vid2vid技術,是一種在生成對抗性學習框架下的新方法:精心設計的生成器和鑒別器架構,再加上時空對抗目標。
這種方法可以在分割蒙版、素描草圖、人體姿勢等多種輸入格式上,實現高分辨率、逼真、時間相干的視頻效果。
好消息,vid2vid現已被英偉達開源。
研究論文:https://tcwang0509.github.io/vid2vid/paper_vid2vid.pdf
GitHub地址:https://github.com/NVIDIA/vid2vid
2019趨勢展望
Analytics Vidhya預計,明年在計算機視覺領域,對現有方法的改進和增強的研究可能多于創造新方法。
在美國,政府對無人機的限令可能會稍微“松綁”,開放程度可能增加。而今年大火的自監督學習明年可能會應用到更多研究中。
Analytics Vidhya對視覺領域也有一些期待,目前來看,在CVPR和ICML等國際頂會上公布最新研究成果,在工業界的應用情況還不樂觀。他希望在2019年,能看到更多的研究在實際場景中落地。
Analytics Vidhya預計,視覺問答(Visual Question Answering,VQA)技術和視覺對話系統可能會在各種實際應用中首次亮相。
工具和框架
哪種工具最好?哪個框架代表了未來?這都是一個個能永遠爭論下去的話題。
沒有異議的是,不管爭辯的結果是什么,我們都需要掌握和了解最新的工具,否則就有可能被行業所拋棄。
今年,機器學習領域的工具和框架仍在快速的發展,下面就是這方面的總結和展望。
PyTorch 1.0
根據10月GitHub發布的2018年度報告,PyTorch在增長最快的開源項目排行上,名列第二。也是唯一入圍的深度學習框架。
作為谷歌TensorFlow最大的“勁敵”,PyTorch其實是一個新兵,2017年1月19日才正式發布。2018年5月,PyTorch和Caffe2整合,成為新一代PyTorch 1.0,競爭力更進一步。
相較而言,PyTorch速度快而且非常靈活,在GitHub上有越來越多的開碼都采用了PyTorch框架。可以預見,明年PyTorch會更加普及。
至于PyTorch和TensorFlow怎么選擇?在我們之前發過的一篇報道里,不少大佬站PyTorch。
實際上,兩個框架越來越像。前Google Brain深度學習研究員,Denny Britz認為,大多數情況下,選擇哪一個深度學習框架,其實影響沒那么大。
PyTorch官網:https://pytorch.org/
AutoML
很多人將AutoML稱為深度學習的新方式,認為它改變了整個系統。有了AutoML,我們就不再需要設計復雜的深度學習網絡。
今年1月17日,谷歌推出Cloud AutoML服務,把自家的AutoML技術通過云平臺對外發布,即便你不懂機器學習,也能訓練出一個定制化的機器學習模型。
不過AutoML并不是谷歌的專利。過去幾年,很多公司都在涉足這個領域,比方國外有RapidMiner、KNIME、DataRobot和H2O.ai等等。
除了這些公司的產品,還有一個開源庫要介紹給大家:
Auto Keras!
這是一個用于執行AutoML任務的開源庫,意在讓更多人即便沒有人工智能的專家背景,也能搞定機器學習這件事。
這個庫的作者是美國德州農工大學(Texas A&M University)助理教授胡俠和他的兩名博士生:金海峰、Qingquan Song。Auto Keras直擊谷歌AutoML的三大缺陷:
第一,還得付錢。
第二,因為在云上,還得配置Docker容器和Kubernetes。
第三,服務商(Google)保證不了你數據安全和隱私。
官網:https://autokeras.com/
GitHub:https://github.com/jhfjhfj1/autokeras
TensorFlow.js
今年3月底的TensorFlow開發者會峰會2018上,TensorFlow.js正式發布。
這是一個面向JavaScript開發者的機器學習框架,可以完全在瀏覽器中定義和訓練模型,也能導入離線訓練的TensorFlow和Keras模型進行預測,還對WebGL實現無縫支持。
在瀏覽器中使用TensorFlow.js可以擴展更多的應用場景,包括展開交互式的機器學習、所有數據都保存在客戶端的情況等。
實際上,這個新發布的TensorFlow.js,就是基于之前的deeplearn.js,只不過被整合進TensorFlow之中。
谷歌還給了幾個TensorFlow.js的應用案例。比如借用你的攝像頭,來玩經典游戲:吃豆人(Pac-Man)。
-
人工智能
+關注
關注
1791文章
46896瀏覽量
237669 -
計算機視覺
+關注
關注
8文章
1696瀏覽量
45930
原文標題:一文看盡2018全年計算機視覺大突破
文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論