精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

DeepMind最新提出“神經算術邏輯單元”,旨在解決神經網絡數值模擬能力不足的問題

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-08-05 09:54 ? 次閱讀

DeepMind最新提出“神經算術邏輯單元”,旨在解決神經網絡數值模擬能力不足的問題。與傳統架構相比,NALU在訓練期間的數值范圍內和范圍外都得到了更好的泛化。論文引起大量關注,本文附上大神的Keras實現。

在昆蟲、哺乳動物和人類等許多物種的行為中,表示和操縱數值的能力都是顯而易見的。這表明基本的定量推理是智能intelligence)的一個基本組成部分。

雖然神經網絡能夠在給出適當的學習信號的情況下成功地表示和操縱數值量,但它們學習的行為通常不會表現出系統的泛化。具體來說,當在測試時遇到訓練時使用的數值范圍之外的數值時,即使目標函數很簡單(例如目標函數僅取決于聚合計數或線性外推),也經常會出現失敗。

這種失敗表明,神經網絡學習行為的特點是記憶,而不是系統的抽象。觸發外推失敗的輸入分布變化是否具有實際意義,取決于訓練過的模型將在何處運行。然而,有相當多的證據表明,像蜜蜂這樣簡單的動物都能夠表現出系統的數值外推(numerical extrapolation)能力,這表明基于數值的系統化推理具有生態學上的優勢。

DeepMind、牛津大學和倫敦大學學院的多名研究人員最新發表的論文“Neural Arithmetic Logic Units”,旨在解決這個問題。研究人員開發了一種新的模塊,可以與標準的神經網絡結構(如LSTM或convnet)結合使用,但偏向于學習系統的數值計算。他們的策略是將數值表示為沒有非線性的單個神經元。對于這些single-value的神經元,研究人員應用能夠表示簡單函數的運算符(例如 +, - ,×等)。這些運算符由參數控制,這些參數決定用于創建每個輸出的輸入和操作。盡管有這樣的組合特征,但它們是可微的,因此可以通過反向傳播來學習。

摘要

神經網絡可以學習表示和操作數值信息,但它們很少能很好地推廣到訓練中遇到的數值范圍之外。為了支持更系統的數值外推(numerical extrapolation),我們提出一種新的架構,它將數值表示為線性激活函數,使用原始算術運算符進行操作,并由學習門(learned gates)控制。

我們將這個模塊稱為神經算術邏輯單元(neural arithmetic logic unit, NALU),參照自傳統處理器中的算術邏輯單元。實驗表明,NALU增強的神經網絡可以學習跟蹤時間,對數字圖像執行算術運算,將數字語言轉化為實值標量,執行計算機代碼,以及對圖像中的對象進行計數。與傳統架構相比,我們在訓練期間的數值范圍內和范圍外都得到了更好的泛化,外推經常超出訓練數值范圍幾個數量級之外。

這篇論文一經發表即引起很多關注,有人認為這篇論文比一眼看上去要更重要,Reddit用戶claytonkb表示:“結合最近的D2NN,我們可以構建超低功耗的芯片,可以在恒定時間計算超級復雜的函數,我們很快就會轉向異構計算架構。”

很快有大神在Keras做出了NALU網絡的實現,感受一下:

https://github.com/kgrm/NALU

神經累加器和神經算術邏輯單元

算術邏輯單元(Arithmetic Logic Unit, ALU)是中央處理器的執行單元,是所有中央處理器的核心組成部分,由與門和或門構成的算數邏輯單元,主要功能是進行二進制的算術運算,如加減乘。

在這篇論文中,研究者提出兩種能夠學習以系統的方式表示和操作數字的模型。第一種方法支持累加積累量(accumulate quantities additively)的能力,這是線性外推的理想歸納偏差。這個模型構成了第二個模型的基礎,即支持乘法外推(multiplicative extrapolation)。該模型還說明了如何將任意算術函數的歸納偏差有效地合并到端到端模型中。

第一個模型是神經累加器(Neural Accumulator,NAC),它是線性層的一種特殊情況,其變換矩陣W僅由-1,0和1組成;也就是說,它的輸出是輸入向量中行的加法或減法。這可以防止層在將輸入映射到輸出時更改數字表示的比例,這意味著無論將多少個操作鏈接在一起,它們在整個模型中都是一致的。我們通過以下方式鼓勵W內的0,1和-1來改善簡單線性層的歸納偏差。

由于硬約束強制W的每個元素都是{-1,0,1}中的一個,這會使學習變得困難,我們提出W在無約束參數方面的連續和可微分參數化:。 這種形式便于用梯度下降進行學習,并產生矩陣,其元素保證在[-1,1]并且偏向接近-1,0或1。

圖2:神經累加器(NAC)是其輸入的線性變換。 變換矩陣是tanh(W)和σ(M)的元素乘積。 神經算術邏輯單元(NALU)使用兩個帶有綁定權重的NAC來啟用加/減(較小的紫色cell)和乘法/除法(較大的紫色cell),由門(橙色的cell)控制

雖然加法和減法使得許多有用的系統泛化成為可能,但是可能需要學習更復雜的數學函數(例如乘法)的強健能力。 圖2描述了這樣一個單元:神經算術邏輯單元(NALU),它學習兩個子單元之間的加權和,一個能夠執行加法和減法,另一個能夠執行乘法,除法和冪函數,如。 重要的是,NALU演示了NAC如何通過門控子操作進行擴展,從而促進了新類型數值函數的端到端學習。

NALU由兩個NAC單元(紫色單元)組成,這兩個單元由學習的S形門g(橙色單元)內插,這樣如果加/減子單元的輸出值應用權重為1(on),則乘法/除法子單元為0(off),反之亦然。 第一個NAC(較小的紫色子單元)計算累加向量a,存儲NALU的加法/減法運算的結果; 它與原始NAC的計算方式相同(即a = Wx)。 第二個NAC(較大的紫色子單元)在對數空間中運行,因此能夠學習乘法和除法,將結果存儲在m:

總之,這個單元可以學習由乘法,加法,減法,除法和冪函數組成的算術函數,其推斷方式是在訓練期間觀察到的范圍之外的數字。

實驗和結果

我們在多個任務領域(合成、圖像、文本和代碼)、學習信號(監督學習和強化學習)和結構(前饋和循環)進行實驗。結果表明,我們提出的模型可以學習捕獲數據潛在數值性質的表示函數,并將其推廣到比訓練中觀察到的數值大幾個數量級的數值。我們還觀察到,即使不需要外推,我們的模塊相對于線性層也顯示出優越的計算偏差。在一種情況下,我們的模型在誤差率上超過了最先進的圖像計數網絡54%。

任務1:簡單的函數學習任務

表1:靜態和循環任務的插值和外推誤差率。

任務2;MNIST計數和算術任務

表2:長度為1,10,100和1000的序列的MNIST計數和加法任務的準確度。

結果顯示,NAC和NALU都能很好地推斷和插值。

任務3:語言到數字的翻譯任務

表3:將數字串轉換為標量的平均絕對誤差(MAE)比較。

圖3:對先前未見過的查詢的中間NALU預測。

圖3顯示了隨機選擇的測試實例中NALU的中間狀態。 在沒有監督的情況下,模型學會跟蹤當前token的未知數的合理估計,這允許網絡預測它以前從未見過的token。

程序評估

圖4:簡單的程序評估,外推到更大的值。

我們比較了三種流行的RNN(UGRNN,LSTM和DNC),結果顯示即使域增加了兩個數量級,外推也是穩定的。

學習在網格世界環境中跟蹤時間

圖5 :(上)Grid-World環境中時間跟蹤任務的幀。 智能體(灰色)必須在指定時間移動到目的地(紅色)。 (下)NAC提高了A3C智能體所學到的外推能力。

MNIST奇偶校驗預測任務和消融研究

表4:關于MNIST奇偶校驗任務的affine層和NAC之間的消融研究。

表4總結了變體模型的性能。結果顯示,去除偏差并對權重應用非線性顯著提高了端到端模型的準確性,即使大多數參數不在NAC中,NAC將先前最佳結果的誤差減少了54%。

結論

目前神經網絡中數值模擬的方法還不夠完善,因為數值表示方法不能推廣到訓練中觀察到的范圍之外。我們已經展示了NAC和NALU是如何在廣泛的任務領域中糾正這兩個缺點的,它促進了數字表示和在訓練過程中觀察到的范圍之外的數值表示函數。然而,NAC或NALU不太可能是每個任務的完美解決方案。相反,它們舉例說明了一種通用設計策略,用于創建具有針對目標函數類的偏差的模型。這種設計策略是通過我們提出的單神經元數值表示(single-neuron number representation)來實現的,它允許將任意(可微的)數值函數添加到模塊中,并通過學習門控制,正如NALU在加法/減法和乘法/除法之間實現的那樣。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4765

    瀏覽量

    100550
  • 函數
    +關注

    關注

    3

    文章

    4308

    瀏覽量

    62434

原文標題:DeepMind重磅:神經算術邏輯單元,Keras實現

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    matlab 神經網絡 數學建模數值分析

    matlab神經網絡 數學建模數值分析 精通的可以討論下
    發表于 09-18 15:14

    神經網絡教程(李亞非)

    源程序  4.3 旅行商問題(TSP)的HNN求解  Hopfield模型求解TSP源程序  第5章 隨機型神經網絡  5.1 模擬退火算法  5.2 Boltzmann機  Boltzmann機模型
    發表于 03-20 11:32

    神經網絡簡介

    神經網絡簡介
    發表于 08-05 21:01

    求助大神關于神經網絡的問題

    求助大神 小的現在有個難題: 一組車重實時數據 對應一個車重的最終數值(一個一維數組輸入對應輸出一個數值) 這其中可能經過均值、方差、去掉N個最大值、、、等等的計算 我的目的就是弄清楚這個中間計算過程 最近實在想不出什么好辦法就打算試試
    發表于 07-14 13:35

    容差模擬電路軟故障診斷的小波與量子神經網絡方法設計

    作者:李云紅0 引言自20世紀70年代以來,模擬電路故障診斷領域已經取得了一定的研究成果,近年來,基于神經網絡技術的現代模擬電路軟故障診斷方法已成為新的研究熱點,神經網絡的泛化
    發表于 07-05 08:06

    卷積神經網絡如何使用

    卷積神經網絡(CNN)究竟是什么,鑒于神經網絡在工程上經歷了曲折的歷史,您為什么還會在意它呢? 對于這些非常中肯的問題,我們似乎可以給出相對簡明的答案。
    發表于 07-17 07:21

    【案例分享】基于BP算法的前饋神經網絡

    `BP神經網絡首先給出只包含一個隱層的BP神經網絡模型(兩層神經網絡): BP神經網絡其實由兩部分組成:前饋神經網絡
    發表于 07-21 04:00

    【案例分享】ART神經網絡與SOM神經網絡

    今天學習了兩個神經網絡,分別是自適應諧振(ART)神經網絡與自組織映射(SOM)神經網絡。整體感覺不是很難,只不過一些最基礎的概念容易理解不清。首先ART神經網絡是競爭學習的一個代表,
    發表于 07-21 04:30

    人工神經網絡實現方法有哪些?

    人工神經網絡(Artificial Neural Network,ANN)是一種類似生物神經網絡的信息處理結構,它的提出是為了解決一些非線性,非平穩,復雜的實際問題。那有哪些辦法能實現人工神經
    發表于 08-01 08:06

    如何設計BP神經網絡圖像壓縮算法?

    ,并能在腦海中重現這些圖像信息,這不僅與人腦的海量信息存儲能力有關,還與人腦的信息處理能力,包括數據壓縮能力有關。在各種神經網絡中,多層前饋神經網絡
    發表于 08-08 06:11

    如何構建神經網絡

    原文鏈接:http://tecdat.cn/?p=5725 神經網絡是一種基于現有數據創建預測的計算系統。如何構建神經網絡神經網絡包括:輸入層:根據現有數據獲取輸入的層隱藏層:使用反向傳播優化輸入變量權重的層,以提高模型的預測
    發表于 07-12 08:02

    基于BP神經網絡的PID控制

    最近在學習電機的智能控制,上周學習了基于單神經元的PID控制,這周研究基于BP神經網絡的PID控制。神經網絡具有任意非線性表達能力,可以通過對系統性能的學習來實現具有最佳組合的PID控
    發表于 09-07 07:43

    卷積神經網絡模型發展及應用

    神經網絡的思想起源于1943年McCulloch 和 Pitts 提出神經元模型[19],簡稱 MCP 神經元模 型。它是利用計算機來模擬
    發表于 08-02 10:39

    神經網絡基本介紹

    神經網絡基本介紹,人工神經網絡(簡稱神經網絡,Neural Network)是模擬人腦思維方式的數學模型。 神經網絡是在現代生物
    發表于 12-06 15:07 ?0次下載

    卷積神經網絡和bp神經網絡的區別

    不同的神經網絡模型,它們在結構、原理、應用等方面都存在一定的差異。本文將從多個方面對這兩種神經網絡進行詳細的比較和分析。 引言 神經網絡是一種模擬人腦神經元連接和信息傳遞的計算模型,它
    的頭像 發表于 07-02 14:24 ?3020次閱讀