機(jī)器學(xué)習(xí)論文簡析
人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的學(xué)術(shù)論文汗牛充棟。每年的各大頂級會議、研討班錄用好幾千篇論文,即便是親臨現(xiàn)場也很難追蹤到所有的前沿信息。在時(shí)間精力有限的情況下,選擇精讀哪些論文,學(xué)習(xí)哪些熱門技術(shù)就成為了AI學(xué)者和從業(yè)人員所頭痛的問題。本欄目旨在要幫助大家篩選出有意思的論文,解讀出論文的核心思想,為精讀提供閱讀指導(dǎo)。
NIPS(Neural Information Processing Systems,神經(jīng)信息處理系統(tǒng)進(jìn)展大會)是每年12月由NIPS基金會主辦的人工智能和機(jī)器學(xué)習(xí)頂級會議,每年大會都吸引了機(jī)器學(xué)習(xí)、人工智能、統(tǒng)計(jì)等領(lǐng)域的眾多國際專家前來參與。筆者從NIPS 2016會議文章中精選出10篇有意思的文章,為讀者解惑。
Using Fast Weights to Attend to the Recent
亮點(diǎn):在Short-Term Memory、Long-Term Memory以及LSTM之外,有什么更好的Attention機(jī)制呢?
本文作者陣容豪華,有來自多倫多大學(xué)的Jimmy Ba、Google DeepMind的Volodymyr Mnih、Joel Leibo以及Catalin Ionescu,外加Geoffrey Hinton坐鎮(zhèn)。文章一開始講明了現(xiàn)在的問題,在傳統(tǒng)的Recurrent Neural Networks(RNN)領(lǐng)域,有兩種形式的Memory。這兩種Memory形式有不一樣的結(jié)構(gòu)、目的和容量(Capacity)。Short-Term Memory直接通過Hidden Vector來存放信息,容量是O(H),這里H是Hidden Units的數(shù)量。而另一方面,Long-Term Memory通過現(xiàn)在的輸入信息和Hidden Vector,來得到下一步的輸出信息以及新的Hidden Vector,總共的容量是O(H2)+O(IH)+O(HO),這里I和O是輸入單元以及輸出單元的數(shù)量。另外一種比較傳統(tǒng)的Long Short-Term Memory Networks(LSTM)依然只擁有O(H)的處理Short-Term Memory的能力。文章的核心是想提出一種能夠更加有效地提供記憶的機(jī)制。當(dāng)然,文章用了一小節(jié)從生理學(xué)的角度來講如何有這樣的啟發(fā),不過這恐怕主要想把文章的立意拔高,其實(shí)和后面的主要模型部分并沒有直接的聯(lián)系。簡單說來,這篇文章提出的模型基于傳統(tǒng)的RNN進(jìn)行了這樣的改進(jìn):
下一步的Hidden Vector來自于兩個因素:
當(dāng)前的Hidden Vector和當(dāng)前的輸入信息;
一個類似Attention機(jī)制的但這篇文章叫做Fast Weights的Matrix作用于之前的Hidden Vector。
這個Fast Weights隨著時(shí)間的推移,會有一個衰減信息。
如何理解Fast Weights呢?直觀來說, Fast Weights是一個Attention機(jī)制,把現(xiàn)在的Hidden Vector和過去的任意Hidden Vector進(jìn)行比較,通過Outer Product的結(jié)果來決定Attention的強(qiáng)度。有了這么一種Attention機(jī)制,整個模型就能夠?qū)^去類似的記憶進(jìn)行回憶,產(chǎn)生一個可以對近期的信息進(jìn)行綜合反應(yīng)的效果。在穩(wěn)定Fast Weights的目的下,文章還使用了Layer Normalization技術(shù)。文章的一些實(shí)驗(yàn)結(jié)果驚人,比如在一個人造的數(shù)據(jù)集上,模型效果能夠很容易達(dá)到0錯誤率。而在MNIST的數(shù)據(jù)上做Visual Attention,提出的模型也能有非常不錯的效果。總之,這篇文章值得泛讀。對于研究Attention機(jī)制的讀者來說,是一個精讀的材料。
Learning Structured Sparsity in Deep Neural Networks
亮點(diǎn):如何把前幾年盛行的Structured Sparisity和DNN結(jié)合?這篇文章給出了思路。
這篇文章來自匹茲堡大學(xué)的研究人員,核心內(nèi)容非常清晰,那就是要引入Structured Sparsity到DNN來,使得最終的DNN有一個比較緊湊的表示,加快運(yùn)算速度,同時(shí)能夠得到硬件友善的表現(xiàn)形式,讓硬件能夠比較快地執(zhí)行。雖然之前已經(jīng)有了一些工作來對DNN進(jìn)行壓縮,但這篇文章的作者認(rèn)為,這些壓縮方法(比如直接使用L1 Regularization),可能會讓網(wǎng)絡(luò)得到一些隨機(jī)(Random)的鏈接,使得內(nèi)存訪問變得不常規(guī)(Iregular)。在這樣的情況下,新的模型,雖然表面上有很大的Sparsity,但是并沒有加快運(yùn)算速度,有時(shí)候甚至還有減少。另外一種最近的思路,就是最近采用的Low-Rank Approximation方法。簡單說來這種方法為先訓(xùn)練DNN,然后每層得到的Tensor被分解,并且被更小的Factor所替代逼近。這種方法的好處是能夠達(dá)到加速,壞處則是需要最終重新Fine-Tune模型的精度。顯然,這篇文章就是要解決上述缺點(diǎn)。文章作者把前幾年火熱的Structured Sparisty Learning(SSL)和DNN相結(jié)合。具體說來,就是采用了Group Lasso的方法來讓DNN的參數(shù)能夠結(jié)構(gòu)化置0。在這篇文章里,作者采用了三種方法:
懲罰(Penalizing)不重要的Filter和Channel:把一些Filter和Channel置0;
學(xué)習(xí)任意形狀的Filter:在2D空間上學(xué)習(xí)通過置0,達(dá)到學(xué)習(xí)任意形狀的要求;
縮短DNN的層數(shù):徹底移除整個層,通過增加Shortcut的方法來達(dá)到不產(chǎn)生斷層的情況。
文章并沒有提供在SSL和DNN相結(jié)合的情況下的Learning算法。實(shí)驗(yàn)部分非常詳實(shí),用LeNet在MNIST、ConvNet和ResNet在CIFAR-10以及AlexNet在ImageNet上都做了實(shí)驗(yàn)。總體的感覺是,在很多例子的情況下,更加Sparsity的DNN反而帶來了精度的提高。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
下載地址
機(jī)器學(xué)習(xí)論文簡析下載
相關(guān)電子資料下載
- 如何創(chuàng)建FPGA控制的機(jī)器人手臂 49
- 機(jī)器學(xué)習(xí)需要掌握的九種工具盤點(diǎn) 16
- Hugging Face被限制訪問 404
- 《人工智能在指揮和控制系統(tǒng)中的決策支持》 133
- 生成式人工智能和機(jī)器學(xué)習(xí)正在這9個學(xué)科中打造未來 216
- 智慧礦山AI算法帶你解決皮帶運(yùn)行難題! 51
- 人工智能領(lǐng)域存在第一性原理嗎? 53
- 英特爾啟動首個AI PC加速計(jì)劃,目標(biāo)2025年前為超100萬臺PC提供AI特性 223
- PLC就是邏輯控制嗎?PLC的網(wǎng)絡(luò)通信怎么樣? 51
- 機(jī)器學(xué)習(xí)常用的5種采樣方法盤點(diǎn) 45