概述
深度學習和人工智能是 2017 年的熱詞;2018 年,這兩個詞愈發火熱,但也更加容易混淆。我們將深入深度學習的核心,也就是神經網絡。大多數神經網絡的變體是難以理解的,并且它們的底層結構組件使得它們在理論上和圖形上是一樣的。
下圖展示了最流行的神經網絡變體。
本文介紹卷積神經網絡(CNN)。在開始之前,我們首先了解一下感知機。神經網絡是一些被稱作感知機的單元的集合,感知機是二元線性分類器。
如上圖所示,輸入 x1 和 x2 分別和各自的權重 w1 和 w2 相乘、求和,所以函數 f=x1*w1+x2*w2+b(偏置項,可以選擇性地添加)。函數 f 可以是任意的運算,但是對于感知機而言通常是求和。函數 f 隨后會通過一個激活函數來評估,該激活函數能夠實現期望分類。Sigmoid 函數是用于二元分類的最常見的激活函數。如果您想進一步了解感知機,推薦閱讀這篇文章(https://appliedgo.net/perceptron/)。
如果我們把多個輸入堆疊在一起,并且使用函數 f 將其與位于另一層的多個堆疊在一起的單元連接在一起,這就形成了多個全連接的感知機,這些單元(隱藏層)的輸出成為最后一個單元的輸入,再通過函數 f 和激活函數得到最終的分類。如下圖所示,這個就是最簡單的神經網絡。
神經網絡有一個獨特的能力,被稱作「泛逼近函數」(Universal Approximation function),所以神經網絡的拓撲和結構變體是很多樣化的。這本身就是一個很大的話題,Michael Nielsen 在文章中做了詳細的描述(http://neuralnetworksanddeeplearning.com/chap4.html)。讀完這個我們可以相信:神經網絡可以模擬任何函數,不管它是多么的復雜。上面提到的神經網絡也被稱為前饋神經網絡(FFNN),因為信息流是單向、無環的。現在我們已經理解了感知機和前饋神經網絡的基本知識,我們可以想象,數百個輸入連接到數個這樣的隱藏層會形成一個復雜的神經網絡,通常被稱為深度神經網絡或者深度前饋神經網絡。
那么深度神經網絡和卷積神經網絡有什么不同呢?讓我們來探討一下。
CNN 由于被應用在 ImageNet 等競賽中而廣受歡迎,最近也被應用在自然語言處理和語音識別中。需要記住的關鍵點是,其他的變體,如 RNN、LSTM、GRU 等,基于和 CNN 類似的結構,不過架構存在一些差異。
CNN 由三種不同的層組成,即「卷積層」、「池化層」、「密集層或全連接層」。我們之前的神經網絡都是典型的全連接層神經網絡。如果想了解更多卷積和池化層的知識,可以閱讀 Andrej Karpathy 的解釋(https://cs231n.github.io/convolutional-networks/)。現在繼續我們關于層的討論,下面我們來看一下卷積層。
(在下面的內容里,我們會以圖像分類為例來理解卷積神經網絡,后面再轉移到自然語言處理和視頻任務中。)
卷積層:假設一張圖像有 5*5 個像素,1 代表白,0 代表黑,這幅圖像被視為 5*5 的單色圖像。現在用一個由隨機地 0 和 1 組成的 3*3 矩陣去和圖像中的子區域做乘法,每次迭代移動一個像素,這樣該乘法會得到一個新的 3*3 的矩陣。下面的動圖展示了這個過程。
上述的 3*3 的矩陣被稱作「濾波器」,它的任務是提取圖像特征,它使用「優化算法」來決定 3*3 矩陣中具體的 0 和 1。我們在神經網絡的卷積層中使用好幾個這樣的濾波器來提取多個特征。3*3 矩陣的每一個單個步驟被稱作「步幅」(stride)。
下圖展示了使用兩個三通道濾波器從三通道(RGB)圖像中生成兩個卷積輸出的詳細過程。
濾波器 w0 和 w1 是「卷積」,輸出是提取到的特征,包含這些濾波器的層叫做卷積層。
池化層:這個層主要使用不同的函數為輸入降維。通常,最大池化層(max-pooling layer)出現在卷積層之后。池化層使用 2*2 的矩陣,以卷積層相同的方式處理圖像,不過它是給圖像本身降維。下面分別是使用「最大池化」和「平均池化」的示例。
全連接層:這個層是位于之前一層和激活函數之間的全連接層。它和之前討論過的簡單「神經網絡」是類似的。
注意:卷積神經網絡結果也會使用正則化層,不過本文將分開討論。此外,池化層會損失信息,所以也不是首選的。通常的做法是在卷機層中使用一個較大的步幅。
ILSVRC 2014 的亞軍 VGGNet 是一個流行的卷積神經網絡,它使用 16 個層來幫助我們理解 CNN 中深度的重要性,AlexNet 是 ILSVRC 2012 的冠軍,它只有 8 層。Keras 中有可以直接使用的模型 VGG-16。
在 Keras 中加載了這個模型之后,我們可以觀察每一層的「output shape」來理解張量維度,觀察「Param#」來了解如何計算參數來得到卷積特征。「Param#」是每一次獲取卷積特征時的所有權重更新。
-
神經網絡
+關注
關注
42文章
4762瀏覽量
100535 -
人工智能
+關注
關注
1791文章
46845瀏覽量
237535 -
深度學習
+關注
關注
73文章
5492瀏覽量
120975
原文標題:掃盲 | 一文看懂卷積神經網絡
文章出處:【微信號:worldofai,微信公眾號:worldofai】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論