欧美日韩国产一区二区三区地区-久久亚洲线观看视频-国产亚洲综合性久久久影院-国产欧美日韩亚洲αv-国产欧美精品一区二区三区-久久国产亚洲欧美日韩精品

清華大學、Google AI 和斯坦福大學李飛飛團隊提出了一種具有強記憶力的 E3D-LSTM 網絡，強化了 LSTM 的長時記憶能力，這為視頻預測、動作分類等相關問題提供了新思路，是一項非常具有啟發性的工作。

如何對時間序列進行時空建模及特征抽取，是 RGB 視頻預測分類，動作識別，姿態估計等相關領域的研究熱點。

清華大學、Google AI 和斯坦福大學李飛飛團隊提出了一種具有強記憶力的 E3D-LSTM 網絡，用 3D 卷積代替 2D 卷積作為 LSTM 網絡的基礎計算操作，并加入自注意力機制，使網絡能同時兼顧長時和短時信息依賴以及局部時空特征抽取。

這為視頻預測、動作分類等相關問題提供了新思路，是一項非常具有啟發性的工作。

時間序列的時空建模問題

現實生活中許多數據都同時具有時間特征和空間特征，例如人體的運動軌跡，連續幀的視頻等，每個時間點都對應一組數據，而數據往往又具有一定的空間特征。因此要在這樣的時間序列數據上開展分類，預測等工作，就必須在時間（temporal）和空間（spatial）上對其進行建模和特征抽取。

常用的時間建模工具是循環神經網絡（RNN）相關模型（LSTM 等），由于其特有的門結構設計，對時間序列特征具有強大的抽取能力，因此被廣泛應用于預測問題并取得了良好的成果，但是 RNN 并不能很好的學習到原始特征的高階表示，這不利于對空間信息的提取?？臻g建模則當屬卷積神經網絡（CNN），其具有強大的空間特征抽取能力，其中3D-CNN又能將卷積核可控范圍擴大到時域上，相對于 2D 卷積靈活性更高，能學習到更多的運動信息（motion 信息），相對于 RNN 則更有利于學習到信息的高級表示（層數越深，信息越高級），是目前動作識別領域的流行方法。當然 3D 卷積的時間特征抽取能力并不能和 RNN 媲美。

得益于 3D 卷積和 RNN 在各自領域的成功，如何進一步將二者結合起來使用也成為了研究熱點，常見的簡單方法是將二者串聯堆疊或者并聯結合（在圖卷積網絡出現之前，動作識別領域的最優方法就是將 CNN 和 RNN 并聯），但測試發現這么做并不能帶來太大的提升，這是因為二者的工作機制差距太大，簡單的結合并不能很好的實現優勢互補。本文提出用 3D 卷積代替原始 LSTM 中的門更新操作，使 LSTM 不僅能在時間層面，也能在空間層面上進行短期依賴的表象特征和運動特征的抽取，從而在更深的機制層面實現兩種網絡的結合。此外，在 LSTM 中引入自注意力（self-attention）機制，進一步強化了 LSTM 的長時記憶能力，使其對長距離信息作用具有更好的感知力。作者將這種網絡稱為Eidetic 3D LSTM（E3D-LSTM），Eidetic 意思是具有逼真記憶，強調網絡的強記憶能力。

E3D-LSTM 網絡結構

圖 1：三種不同的 3D 卷積和 LSTM 的結合方法

圖中每個顏色的模塊都代表了多層相應的網絡。圖（a）和圖（b）是兩種 3D 卷積和 LSTM 結合的基線方法，3D 卷積和 LSTM 線性疊加，主要起到了編碼（解碼器）的作用，并沒有和 RNN 有機制上的結合。圖（a）中 3D 卷積作為編碼器，輸入是一段視頻幀，圖（b）中作為解碼器，得到每個單元的最終輸出。這兩個方法中的綠色模塊使用的是時空長短時記憶網絡（ST-LSTM）［1］，這種 LSTM 獨立的維護兩個記憶狀態 M 和 C，但由于記憶狀態 C 的遺忘門過于響應具有短期依賴的特征，因此容易忽略長時依賴信息，因此 E3D-LSTM 在 ST-LSTM 的基礎添加了自注意力機制和 3D 卷積操作，在一定程度上解決了這個問題。具體單元結構下一節介紹。

圖（c）是 E3D-LSTM 網絡的結構，3D 卷積作為編碼 - 解碼器（藍色模塊），同時和 LSTM 結合（橙色模塊）。E3D-LSTM 既可用于分類任務，也可用于預測任務。分類時將所有 LSTM 單元的輸出結合，預測時則利用 3D 卷積解碼器的輸出作為預測值。

E3D-LSTM 單元結構設計

圖 2：標準 LSTM 單元結構

首先簡要介紹一下標準 LSTM 結構，和 RNN 相比 LSTM 增加了更復雜的門結構（圖中黃色模塊），主要解決 RNN 中存在的梯度消失問題，從而提高網絡對長時依賴（long-term dependency）的記憶感知能力。LSTM 有兩個輸入門，一個輸出門和遺忘門

。

圖 2：ST-LSTM 網絡結構和單元結構

和標準 LSTM 相比，ST-LSTM 還增加了不同層間對應位置的 cell 連接，如圖 2 左側，水平灰色連接線表示標準 LSTM 的單元連接，豎直黃色連接線表示層間同一時刻的單元連接，通過張量 M 傳播，注意當 l=1 時，

（作者認為 t 時刻的頂層信息對 t+1 時刻的底層信息影響很大），這樣記憶信息就能同時在層內和層間傳播。

圖 3 E3D-LSTM 單元結構

圖 3 是本文提出的 E3D-LSTM 模型的單元結構，

是一個維度為的五維張量，代表之前個時間步的所有隱狀態。表示召回門（代替遺忘門），和 ST-LSTM 相比，主要有以下改進：

1、輸入數據是的四維張量，對應時刻

的連續幀序列，因此現在每個單元時間步都對應一段視頻，而不是單幀視頻。

2、針對幀序列數據額外添加了一個召回門（recall gate）以及相關結構，用于實現長時依賴學習，也就是自注意力機制。這部分對應網絡名稱中的 Eidetic。

3、由于輸入數據變成了四維張量，因此在更新公式中采用 3D 卷積操作而不是 2D 卷積。

大部分門結構的更新公式和 ST-LSTM 相同，額外添加了召回門更新公式：

上面介紹的機制用于同一層不同時間步連接，作者將這種機制也用在了不同層同一時間步的連接，但效果并不好，這是因為不同層在同一時刻學習到的信息并沒有太好的依賴性。

基于 E3D-LSTM 的半監督輔助學習

在許多監督學習任務，例如視頻動作識別中，沒有足夠的監督信息和標注信息來幫助訓練一個令人滿意的 RNN，因此可以將視頻預測作為一個輔助的表征學習方法，來幫助網絡更好的理解視頻特征，并提高時間域上的監督性。

具體的，讓視頻預測和動作識別任務共享相同的主干網絡（圖 1），只不過損失函數不同，在視頻預測任務中，目標函數為：

帶上標的 X 表示預測值，不帶上標的表示真值，F 表示 Frobenius 歸一化。

在動作識別任務中，目標函數為：

其中 Y 和是預測值和幀值，這樣通過將預測任務的損失函數嵌入到識別任務中，以及主干網絡的共享，能在一定程度上幫助識別任務學習到更多的時序信息。為了保證過渡平滑，額外添加了一個權重因子，會隨著迭代次數的增加而線性衰減：

作者將這種方法稱為半監督輔助學習。

實驗結果

視頻預測任務，在 Moving MINIST 數據集上的結果：

為了驗證 E3D-LSTM 中不同模塊對性能的影響，作者還在該數據集上進行了燒蝕研究：

可以看到不管是添加 3D 卷積還是自注意力機制，網絡性能相對于基線方法都有提升。

視頻預測任務，在 KTH 人體動作數據集上的結果：

接下來在一個實際視頻預測任務：交通流預測中，與其他方法進行了對比：

動作識別任務，在 Something-Something 數據集上進行了測試：

同樣在該數據集上進行了燒蝕研究：

以及不同的半監督輔助學習策略帶來的性能提升：

總結

本文對 ST-LSTM 進行了改進，將流行的 3D 卷積操作作為其基本張量操作，同時添加了自注意力模塊，進一步強化了網絡對長距離依賴信息的刻畫能力，不僅能用于預測任務，還能通過輔助學習的方法拓展到其他任務上，是非常具有啟發性的工作。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

循環神經網絡

循環神經網絡

+關注

關注
0

文章
38

瀏覽量
2966

原文標題：數月整改，三星折疊屏手機Fold 終于可以發售了？

文章出處：【微信號：AppDowns，微信公眾號：掌上科技頻道】歡迎添加關注！文章轉載請注明出處。

RNN與LSTM模型的比較分析

RNN（循環神經網絡）與LSTM（長短期記憶網絡）模型在深度學習領域都具有處理序列數據的能力，但它們在結構、功能和應用上存在顯著的差異。以下

發表于 11-15 10:05 ?204次閱讀

深度學習框架中的LSTM神經網絡實現

長短期記憶（LSTM）網絡是一種特殊的循環神經網絡（RNN），能夠學習長期依賴信息。與傳統的RNN相比，LSTM通過引入門控機制來解決梯度消

發表于 11-13 10:16 ?241次閱讀

基于LSTM神經網絡的情感分析方法

情感分析是自然語言處理（NLP）領域的一項重要任務，旨在識別和提取文本中的主觀信息，如情感傾向、情感強度等。隨著深度學習技術的發展，基于LSTM（長短期記憶）神經網絡的情感分析方法因其出色的序列建模

發表于 11-13 10:15 ?343次閱讀

LSTM神經網絡在圖像處理中的應用

長短期記憶（LSTM）神經網絡是一種特殊的循環神經網絡（RNN），它能夠學習長期依賴關系。雖然LSTM最初是為處理序列數據設計的，但近年來，

發表于 11-13 10:12 ?166次閱讀

如何使用Python構建LSTM神經網絡模型

構建一個LSTM（長短期記憶）神經網絡模型是一個涉及多個步驟的過程。以下是使用Python和Keras庫構建LSTM模型的指南。 1. 安裝必要的庫首先，確保你已經安裝了Python

發表于 11-13 10:10 ?161次閱讀

LSTM神經網絡的結構與工作機制

LSTM（Long Short-Term Memory，長短期記憶）神經網絡是一種特殊的循環神經網絡（RNN），設計用于解決長期依賴問題，特別是在處理時間序列數據時表現出色。以下是

發表于 11-13 10:05 ?134次閱讀

LSTM神經網絡在語音識別中的應用實例

語音識別技術是人工智能領域的一個重要分支，它使計算機能夠理解和處理人類語言。隨著深度學習技術的發展，特別是長短期記憶（LSTM）神經網絡的引入，語音識別的準確性和效率得到了顯著提升。 LSTM

發表于 11-13 10:03 ?279次閱讀

LSTM神經網絡的調參技巧

長短時記憶網絡（Long Short-Term Memory, LSTM）是一種特殊的循環神經網絡（RNN），它能夠學習長期依賴信息。在實際應用中，

發表于 11-13 10:01 ?305次閱讀

LSTM神經網絡的優缺點分析

長短期記憶（Long Short-Term Memory, LSTM）神經網絡是一種特殊的循環神經網絡（RNN），由Hochreiter和Schmidhuber在1997年

發表于 11-13 09:57 ?436次閱讀

使用LSTM神經網絡處理自然語言處理任務

自然語言處理（NLP）是人工智能領域的一個重要分支，它旨在使計算機能夠理解、解釋和生成人類語言。隨著深度學習技術的發展，特別是循環神經網絡（RNN）及其變體——長短期記憶（LSTM）網絡

發表于 11-13 09:56 ?271次閱讀

LSTM神經網絡在時間序列預測中的應用

時間序列預測是數據分析中的一個重要領域，它涉及到基于歷史數據預測未來值。隨著深度學習技術的發展，長短期記憶（LSTM）神經網絡因其在處理序列數據方面的優勢而受到廣泛關注。 LSTM神經

發表于 11-13 09:54 ?339次閱讀

LSTM神經網絡的基本原理如何實現LSTM神經網絡

LSTM（長短期記憶）神經網絡是一種特殊的循環神經網絡（RNN），它能夠學習長期依賴信息。在處理序列數據時，如時間序列分析、自然語言處理等，LSTM

發表于 11-13 09:53 ?200次閱讀

LSTM模型的基本組成

長短期記憶網絡（Long Short-Term Memory, LSTM）是一種特殊的循環神經網絡（RNN）架構，它在處理序列數據時能夠捕捉長期依賴關系，有效解決了傳統RNN在處理長序

發表于 07-10 17:01 ?1002次閱讀

新火種AI|AI教母李飛飛初創AI公司，開啟最前沿AI算法研究

AI教母李飛飛首次創業，瞄準“空間智能”。

發表于 05-06 16:24 ?286次閱讀

量子比特的“記憶力”——相干時間

通常來說，一個人記憶力越好，他能整合、處理的信息就越多。傳說魚的記憶力只有7秒！這可能是它們沒有統治世界的原因。在量子計算中，量子比特所能“記住”的量子狀態越久，其所能進行的計算次數也就越多。量子

發表于 12-27 08:25 ?1668次閱讀

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

清華、GoogleAI和斯李飛飛團隊提出具有強記憶力的E3D-LSTM網絡

評論

RNN與LSTM模型的比較分析

深度學習框架中的LSTM神經網絡實現

基于LSTM神經網絡的情感分析方法

LSTM神經網絡在圖像處理中的應用

如何使用Python構建LSTM神經網絡模型

LSTM神經網絡的結構與工作機制

LSTM神經網絡在語音識別中的應用實例

LSTM神經網絡的調參技巧

LSTM神經網絡的優缺點分析

使用LSTM神經網絡處理自然語言處理任務

LSTM神經網絡在時間序列預測中的應用

LSTM神經網絡的基本原理如何實現LSTM神經網絡

LSTM模型的基本組成

新火種AI|AI教母李飛飛初創AI公司，開啟最前沿AI算法研究

量子比特的“記憶力”——相干時間

搜索歷史

清華、GoogleAI和斯李飛飛團隊提出具有強記憶力的E3D-LSTM網絡

評論

清華、GoogleAI和斯李飛飛團隊提出具有強記憶力的E3D-LSTM網絡