国产国产人免费人成免费视频在线观看_亚洲AⅤ中文无码字幕_成年人电影中文字幕无码区_久久99热这里只有精品66

1為什么要 Normalization

在深度神經網絡中，存在一種內部協變偏移（internal covariate shift）現象，它是由于訓練過程中不斷變化的網絡參數導致網絡各層的輸入分布發生變化。

例如，輸入層中某些具有較高數值的特征可能會起到主導作用，從而在網絡中產生偏差，即只有這些特征對訓練結果有貢獻。

例如，假設特征 1 的值介于 1 和 5 之間，特征 2 的值介于 100 和 10000 之間。在訓練期間，由于兩個特征的規模不同，特征 2 將主導網絡，只有該特征對模型作出貢獻。

這僅僅是一層的情況，如果從整個深度神經網絡來看，那就更加復雜了。Google 在其論文中將這一現象總結為，

Internal Covariate Shift簡稱 ICS，是由于訓練過程中網絡參數的變化引起的網絡激活分布的變化。

網絡中的每一層的參數更新會導致本層的激活輸出的分布發生變化，也就是后面層的輸入的分布發生變化。而深度神經網絡往往涉及到很多層的疊加，通過層層疊加，會引發后面層非常劇烈的變化，這就給深度模型的訓練帶來了巨大挑戰。

由于上述原因，引入了稱為 normalization 的概念來解決這些問題。

Normalization 有很多優點，包括

減少內部協變偏移以改善訓練；

將每個特征縮放到相似的范圍以防止或減少網絡中的偏差；

通過防止權重在整個地方爆炸并將它們限制在特定范圍內來加速優化過程；

通過輔助正則化減少網絡中的過擬合。

Normalization 也可以結合概率論來解釋。一般來說，機器學習中的方法比較偏愛獨立同分布的數據。當然并不是所有算法都有這個要求，但獨立同分布的數據往往可以簡化一般模型的訓練，提升模型的預測能力。

在把數據輸入模型之前，對其經過白化（whitening）處理是一個不錯的預處理步驟。

比如上圖（左）的數據，先經過零均值化以及去相關性操作，得到中間的形式，各個特征相互獨立；再讓所有特征具有單位標準差，最終得到獨立同分布的數據。

但深度學習中往往不直接使用白化操作，白化中間需要用到 PCA。如果對輸入數據作一次 PCA，那也僅僅是針對線性模型，但如果針對神經網絡中的中間每一層在激活后再使用白化，那計算代價太過高昂。

那怎么辦呢？不妨模仿白化，但可以作一些簡化，比如不考慮去相關性，而是對各層的激活輸出在一定范圍內作標準化處理，再加一定的縮放和偏移。這里的操作范圍可以不同，于是就有了一堆 Normalization 方法。

2Batch Normalization

Batch Normalization 側重于標準化任何特定層的輸入（即來自前一層的激活）。

下圖左邊網絡中沒有 BN 層，右邊網絡中在隱藏層前加入了 BN 層，即對輸入層在小批次上作了 Normalization。

標準化輸入意味著網絡中任何層的輸入都應該近似零均值以及單位方差。簡單來說，BN 層通過減去當前小批量中的輸入均值并除以標準差來變換當前小批量中的每個輸入。

總結一下：簡而言之，BN 使得梯度更具預測性，從而有效改善網絡訓練。

下面，讓我們看看 BN 的一些優點：

BN 加速深度神經網絡的訓練。

對于每個輸入小批量，我們計算不同的統計量，這引入了某種正則化。正則化技術起到在訓練期間限制深度神經網絡復雜度的作用。

每個小批量都有不同的小分布，這些小分布之間的變化稱為內部協變偏移，BN 被認為消除了這種現象。

BN 對通過網絡的梯度流也提供了有利影響：它減少了梯度對參數尺度或其初始值的依賴性，從而使我們能夠使用更高的學習率。

然而，下面是批量標準化的幾個缺點：

BN 在每次訓練迭代中計算批次數據的統計量（Mini-batch 均值和方差），因此在訓練時需要更大的批次大小，以便它可以有效地逼近來自 mini-batch 的總體均值和方差。這使得 BN 更難訓練用于對象檢測、語義分割等應用的網絡，因為它們通常涉及高分辨率（通常高達 1024，2048 等）的輸入數據，使用大批量進行訓練在計算上往往是不可行的。

BN 不適用于 RNN。問題是 RNN 與之前的時間戳具有循環連接，并且在 BN 層中的每個時間步長都需要單獨的和，這反而增加了額外的復雜性并使 BN 與 RNN 一起使用變得更加困難。

不同的訓練和測試計算：在測試（或推理）期間，BN 層不會從測試數據 mini-batch（上面算法表中的步驟 1 和 2）計算均值和方差，而是使用固定均值和從訓練數據計算的方差。這在使用 BN 時需要謹慎，并引入了額外的復雜性。在 pytorch 中，model.eval()確保在評估模型中設置模型，因此 BN 層利用它來使用從訓練數據預先計算的固定均值和方差。

3Weight Normalization

針對 BN 的缺點，Saliman 等人提出了 WN。他們的想法是將權重向量的大小與方向解耦，從而重新參數化網絡以加快訓練速度。

重新參數化是什么意思呢？