生成對抗網絡GANs自從誕生以來就得到了各界的廣泛關注,在圖像領域的發展成果更是目不暇接,飛速的發展讓人眼花繚亂。但我們從另一個角度來審視GAN會發現這一領域還有很多問題沒有公認的理解,例如對如何評價GANs的表現人們還沒有達成共識。
最近,來自Google Brain的研究人員就GANs目前的研究狀況進行了詳細深入的梳理,提出了GANs領域值得深入研究的七個問題,讓我們得以窺視GANs未來的發展走向。
一、GANs與其他生成模型間的利弊權衡
除了GANs外,目前還包括流模型FlowModels和自動回歸模型AutoregressiveModels兩種主要的生成模型。簡單來說,流模型主要講一系列不可逆的變化轉換為從先驗中的采樣,使模型可以計算精確的對數似然,而自回歸模型則將觀測的分布分解到了條件分布上,一次觀測只處理其中的一個(對于圖像來說,一次處理一個像素)。
最近的研究表明這幾種模型有著不同的表現特點和平衡方式,對這些平衡的特點及模型的內稟屬性進行精確的研究是十分有意義的方向。下面將從計算量上來分析模型間的差異。流模型可以計算出精確的對數似然和推理,看起來會讓GANs沒有用武之地。訓練GANs是一項復雜的工作,需要很大的努力,Flow模型的出現讓我們不禁擔心起GANs的發展,也許在訓練中加入最大似然是不錯的方法。
但計算量成為了一個無法回避的問題。對于流模型的代表Glow來說,訓練一張256*256的圖像生成器需要40個GPU耗時兩個星期訓練200M參數,而GANs訓練1024*1024的生成器只需要在8GPU上用4天時間訓練46M參數。這意味著流模型需要用17倍的時間才能訓練出生成1/16大小的圖像。那么是什么造成了流模型的低效呢?研究人員認為有兩個主要的原因,其一是極大似然估計比對抗樣本的訓練更為復雜。
如果樣本中的元素被模型設置了0概率,那么懲罰將會變成無窮大!而GANs則通過間接的方式設置0概率,懲罰將會緩和的多。另一個方法來自于歸一化流(normalizedflows),研究人員認為這是對于特定函數的一種低效表達,但目前對于這一領域還沒有深入的研究。討論完流模型后我們再來看看自回歸模型。
有研究表明自回歸模型可以被表示為非并行化的流模型。從流模型中采樣必須是串行的過程,每次只能進行一次觀測。同時也有研究表明,自回歸模型比流模型具有更高的運行和參數效率。綜上所述,GANs是并行高效的計算模型,但是不具有回溯性;流模型具有回溯性和并行性,但是效率很低;自回歸模型雖然高效和回溯,但卻無法并行化處理。
到這里我們可以進一步總結第一個問題:
GANs和其他生成模型間最基本的trade-offs到底是什么?
我們能不能在這個領域建立起類似CAP利用的方法來描述可逆性、并行性和參數/時間效率呢?
其中一個可能的方向是研究更多的混合模型,但混合的流模型/GAN模型目前的研究還很少。研究人員認為極大似然訓練比GAN訓練更為困難,流模型參數的表達能力很很可能比任意編碼器函數低,但需要一定的假設來進行證明。
二、GANs可以為什么樣的分布建模呢?
目前絕大多數的GANs集中在圖像領域,研究人員們常常在MNIST,CIFAR-10,STL-10,CelebA,和Imagenet上進行訓練。通常來講,MNIST和CelebA上的訓練比Imagenet,CIFAR-10,STL-10上的訓練更為容易,很多人都注意到類別數的上升是GANs難以訓練ImageNet的原因。這也使得先進的網絡在CelebA上的生成結果比ImageNet上的結果更。然而我們需要對這些在大數據集上訓練所觀察到的結果進行科學的解釋,研究人員希望在未來能夠有一定的理論和標準來判斷一個數據集是否適合用GANs訓練。這一領域的研究已經開始,但未來還有廣泛的發展空間。所以我們可以將第二個問題表示為下面的陳述:
對于給定數據集,我們可以給出用GANs構建其分布的難以程度嗎?
那么一系列新的問題隨之而來:為分布建模的定義是什么?我們需要的是一個下界表示還是真實的稠密模型?是不是存在GANs無法建模的分布?是不是存在一些可以學習但建模效率很低的分布?針對上述問題的答案,與其他生成模型相比GANs是不是具有獨特的性質?針對上述問題,研究人員提出了兩個策略:1.合成數據集。可以通過對合成數據集的研究探索影響可學習性的因素;2.改進現有的理論結果。可以修改現有理論的假設來對數據集的不同特性進行研究,例如我們可以觀察GANs對于單模數據和多模數據的表現差異來進行探索。
三、GANs如何實現超越圖像合成的廣泛應用?
除了圖像和合成、風格遷移等域適應的應用,在圖像領域外GANs的應用主要集中于以下三個方面:1.文本。文字天然的離散特性對于GANs的處理來說十分困難,這主要由于GANs的訓練需要將判別器的信號輸入生成器進行反向傳播。目前主要有兩種方法來解決這一問題,一方面將GANs應用于離散數據的連續表達上,另一方面則利用實際的離散模型基于梯度估計來訓練GAN,但目前這些方法的表現都還低于基于似然的語言模型。2.結構化數據。那么對于像圖這類非歐式的結構化數據該如何應用GANs呢?雖然像圖卷積等模型已經取得了一定的成績,但GANs在這方面的探索十分有限,目前研究人員正嘗試利用生成器得到隨機游走來重組來自原始圖中的結構化信息。3.音頻。GANs在音頻領域很有希望獲得與圖像領域一樣的成功,在非監督音頻合成等方面取得了一系列結果。最新的研究甚至可以在某些感知指標上超過自動回歸模型的表現。那么對于在非圖像數據上的第三個問題就歸結為下面的表述:
如何使GANs在非圖像數據上取得良好的結果?將GANs用于這些不同的域上是否需要新的訓練技術、或者更為完善的先驗呢?
我們需要思考怎樣才能讓GANs在這些域中實現有效的訓練和學習。特別對于離散的結構化數據來說,未來也許會引入強化學習對生成器和判別器進行訓練,這需要強大計算資源的支撐和基礎研究的幫助。
四、GANs在訓練中的全局收斂性是怎樣的?
GANs的訓練的特殊性在于我們需要同時優化生成器和判別器,目前的論文在嚴格的假設下已經證明同時優化時局域漸進穩定的。但我們卻難以證明訓練過程具有全局的通用性。這主要是由于生成器/判別器的損失是參數的非凸函數,那么問題來了:
我們如何才能證明GANs是全局收斂的?哪一種神經網絡的收斂結果可以應用于GANs上呢?
目前有三個方面的探索在致力于解決這一問題:1.簡化假設。例如可以使用LGQGAN來簡化假設,利用線性生成器、高斯分布的數據和二次判別器的假設,可以利用特殊的優化技術得到全局收斂的證明;2.利用歸一化神經網絡。當網絡變大時低質量的局域極小值出現的可能將會指數下降,這種特性也許對GANs同樣有效;3.博弈論 。利用納什均衡等理論來解決全局收斂性的問題。
五、如何評測GANs?
目前在GANs中流行的評價指標主要包括感知分數(IS)和弗雷歇感知距離(FID)、多層級結構相似性(MS-SSIM),幾何評分(GeometryScore),精度和召回率(PrecisionandRecall),AIS和SkillRating等。目前廣泛采用的是感知類指標,但人們對于GANs評價更多的疑惑卻也同時來自于合適該使用GAN,那么第五個問題就將這一疑問歸結為:
何時我們該使用GANs?我們該如何評測GANs在這些任務上的表現?
我們應該明確使用GANs的目的,如果你想得到真實的稠密模型GANs并不是一個很好的選擇.GANs適用于感知偏好的任務,例如圖像合成、風格遷移等都是GANs可以大展身手的場景。對于感知任務,目前主要使用分類器(C2STs)來進行評測,但生成器的缺陷會對評價造成系統性的影響。一種不依賴于單因素的全局評價方法是未來的發展方向。最后,人類評價雖然昂貴但是必不可少的。未來可能會通過預測人類的感知情況來代替評價,但出現較大不確定度時才需要人類的介入。
六、如何使用較大的批次訓練GANs呢?
提升分類網絡訓練速度的大規模minibatches是否能加速GANs的訓練呢?但GANs中存在一系列會導致訓練發散的瓶頸,使得提高批量大小的方法并不容易達到,我們需要探索下面的問題:
如何通過批量大小提升GANs的訓練效率?梯度噪聲在GANs訓練中扮演著多重要的角色?是否可以對GANs進行一系列改進來適應更大的批大小呢?
有跡象表明增加批大小可以改善結果并減少訓練時間,但還缺乏系統的研究。研究人員目前從優化輸運GANs和異步SGD等方面探索了增大批的可能性,但這個方向仍然有很多的問題等待我們去探索。
七、GANs和對抗樣本的關系如何?
眾所周知分類器很容易受到對抗樣本的影響,魯棒性不強。考慮到判別器通常也基于圖像分類器而構建,針對GANs的對抗樣本研究具有重要的意義,但關注GANs與對抗樣本間關系的文章卻很少,所以最后一個問題就是:
判別器的對抗魯棒性如何影響GAN的訓練過程?
我們可以假設存在一個固定的判別器D,存在這樣一個生成樣本G(z),判別器判別G(z)為假但卻將加了擾動的生成樣本G(z)+p判定為真。我們似乎可以更新生成器來獲得更魯棒的結果G’=G(z)+p.但由于每次訓練梯度只能進行一次更新、同時每個批次各不相同,這樣的方法在現實中不太可能存在。但如果可以尋找到一種方式研究這一相關性并提升模型的精度與穩定性將是充滿前景的研究方向!GANs是AI研究中最為前沿和活躍的領域之一,這篇文章從生成對抗的本質、數據、收斂、應用和評測等方面給出了一系列尚未解決的問題,這些存在問題和挑戰的地方也是未來將發展的前進的方向,希望這些問題和方向能夠啟發各位小伙伴研究的新思路。
-
GaN
+關注
關注
19文章
1919瀏覽量
73003 -
模型
+關注
關注
1文章
3173瀏覽量
48716 -
數據集
+關注
關注
4文章
1205瀏覽量
24644
原文標題:七問生成對抗:谷歌大腦研究員提出未來GANs研究的七個深入方向
文章出處:【微信號:thejiangmen,微信公眾號:將門創投】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論