欧美日韩亚洲另类一区二区_综合久久免费精品无码视频_亚洲中文字幕无码永久在线_无码?V综合网国产精品

當(dāng)我們?cè)诜g軟件上輸入 “Transformer is a novel neural network architecture based on a self－attention mechanism” 后，計(jì)算機(jī)就可以迅速將它翻譯為 “Transformer 是一種基于自注意力機(jī)制的新型神經(jīng)網(wǎng)絡(luò)架構(gòu)”，神奇的機(jī)器翻譯使得多語(yǔ)種互譯成為可能。

近年來(lái)，得益于機(jī)器學(xué)習(xí)的快速發(fā)展，自然語(yǔ)言處理（NLP）技術(shù)不斷突破，在人機(jī)交互、在線翻譯工具等領(lǐng)域的應(yīng)用層出不窮，不同語(yǔ)種的人與人、人與機(jī)器之間的無(wú)障礙自由交流得以實(shí)現(xiàn)。

當(dāng)前的主流機(jī)器翻譯主要是基于神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯，這類方法是一個(gè) “編碼器－解碼器”（encoder－decoder）架構(gòu)的系統(tǒng)，編碼器對(duì)源語(yǔ)言序列進(jìn)行編碼，并提取信息，然后通過(guò)解碼器把信息轉(zhuǎn)換為目標(biāo)語(yǔ)言，完成語(yǔ)言翻譯過(guò)程。

自 2017 年問(wèn)世以來(lái)，基于“編碼器－解碼器”架構(gòu)設(shè)計(jì)的 Transformer 模型憑借其優(yōu)越的性能，已然成為機(jī)器翻譯領(lǐng)域的主流模型，在深度學(xué)習(xí)領(lǐng)域產(chǎn)生了巨大影響。

然而，Transformer 模型并非完美，模型引入self－attention機(jī)制雖實(shí)現(xiàn)了快速并行的訓(xùn)練，但在長(zhǎng)序列文本的處理問(wèn)題上，卻需要占據(jù)大量計(jì)算資源，導(dǎo)致模型訓(xùn)練成本提高。

近日，由 Google、劍橋大學(xué)、DeepMind 和艾倫·圖靈研究院（Alan Turing Institute）的研究人員組成的團(tuán)隊(duì)基于正交隨機(jī)特征的快速注意力（Fast Attention Via Positive Orthogonal Random Features，F(xiàn)AVOR＋）機(jī)制，提出了一種新的 Transformer 模型——Performer。相比于 Transformer 模型，新模型無(wú)需做出過(guò)度調(diào)整就可以變得更加高效和節(jié)能。

Performer 模型的技術(shù)突破

2017 年，谷歌大腦（Google Brain）的 Ashish Vaswani 等人發(fā)表了一篇題為 “Attention Is All You Need” 的論文，首次提出一種基于自注意力機(jī)制的 Transformer 模型。

Transformer 模型顛覆了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的架構(gòu)，彌補(bǔ)了卷積神經(jīng)網(wǎng)絡(luò)（CNN）和遞歸神經(jīng)網(wǎng)絡(luò)（RNN）存在的不足，在語(yǔ)義特征提取、長(zhǎng)距離特征捕獲、任務(wù)綜合特征抽取等自然語(yǔ)言處理方面表現(xiàn)出了更優(yōu)的性能，在自然語(yǔ)言處理、人機(jī)對(duì)話、圖像處理等許多領(lǐng)域都達(dá)到了當(dāng)時(shí)最好的水平（SOTA）。

Transformer 架構(gòu)的核心模塊是自注意力模塊，模型在處理每個(gè)單詞（輸入序列中的每個(gè)位置）時(shí)，自注意力模塊通過(guò)計(jì)算輸入序列中所有位置對(duì)的相似度分?jǐn)?shù)，來(lái)尋找能夠幫助更好地編碼該單詞的線索。

然而，隨著輸入序列長(zhǎng)度的增加，模型需要二次方的計(jì)算時(shí)間來(lái)產(chǎn)生所有相似度分?jǐn)?shù)，所需計(jì)算內(nèi)存也隨之增加，注意力機(jī)制面臨的效率問(wèn)題也越來(lái)越突出。

針對(duì)那些需要長(zhǎng)距離關(guān)注的應(yīng)用，在 Transformer 基礎(chǔ)上已經(jīng)有一些研究者提出了幾種快速的、空間利用率高的改進(jìn)方法，但是大部分常見(jiàn)方法都依賴于稀疏注意力機(jī)制。

然而，稀疏注意力機(jī)制仍存在一定的局限性。

（1）它們需要高效的稀疏矩陣乘法運(yùn)算，而這些運(yùn)算并不是在所有加速器上都能實(shí)現(xiàn)的；（2）它們通常不能為其表示能力提供嚴(yán)格的理論保證；（3）它們主要針對(duì) Transformer 模型和生成式預(yù)訓(xùn)練進(jìn)行優(yōu)化；（4）它們通常會(huì)疊加更多的注意力層來(lái)補(bǔ)償稀疏表示，這使得它們很難與其他預(yù)訓(xùn)練模型一起使用，因此需要重新訓(xùn)練并消耗大量能量。

此外，稀疏注意機(jī)制通常仍然不足以解決常規(guī)注意方法應(yīng)用的全部問(wèn)題，如指針網(wǎng)絡(luò)。還有一些運(yùn)算不能被稀疏化，如在工業(yè)級(jí)推薦系統(tǒng)中被大量應(yīng)用的 softmax 運(yùn)算。

Performer 使用了一個(gè)高效的（線性）廣義注意力框架，能夠?qū)ΤＲ?guī)（softmax）全階注意力進(jìn)行可證明的、準(zhǔn)確的、實(shí)用的估計(jì)，不依賴于任何稀疏性或低階等先驗(yàn)條件，從而實(shí)現(xiàn)更快的訓(xùn)練速度，同時(shí)允許模型處理更長(zhǎng)的序列，這一特性恰恰滿足了 ImageNet64 圖像數(shù)據(jù)集和PG－19文本數(shù)據(jù)集的要求。

Performer 模型通過(guò)正交隨機(jī)特征（FAVOR＋）算法實(shí)現(xiàn)快速注意力機(jī)制，并改用 Positive Orthogonal Random Features 估計(jì) softmax 和高斯核函數(shù)，以實(shí)現(xiàn)在 FAVOR＋機(jī)制中對(duì)常規(guī) softmax 注意力進(jìn)行魯棒且無(wú)偏的估計(jì)。

研究人員表示：“Performer 是第一個(gè)通過(guò)微調(diào)可以與常規(guī) Transformers 進(jìn)行完全兼容的線性架構(gòu)”。

左圖｜原點(diǎn)對(duì)稱的通用函數(shù) r（定義為建立在：三角隨機(jī)特征和正隨機(jī)特征上的估計(jì)器的均方誤差（MSEs）的比值）是輸入特征向量與其長(zhǎng)度l之間的角度 φ（以弧度為單位）的函數(shù)，函數(shù)的數(shù)值越大表示正隨機(jī)特征性能越好的（φ，l）空間區(qū)域；

右圖｜當(dāng)l為定值 1 時(shí)，與變化的角度 φ 構(gòu)成的函數(shù) r 為正切函數(shù)；右上角｜比較低 softmax 內(nèi)核值區(qū)域中兩個(gè)估算器的 MSE。

作者通過(guò)比較發(fā)現(xiàn)，對(duì)于 φ 足夠大的臨界區(qū)域，該方法所使用的正交隨機(jī)特征比任意的三角隨機(jī)特征更精確。

圖｜我們將原始的經(jīng)過(guò)預(yù)訓(xùn)練的 Transformer 的權(quán)重轉(zhuǎn)移到 Performer 中，Performer 產(chǎn)的精度達(dá)到 0．07 （橙色虛線），但在原來(lái)的梯度步數(shù)的一小部分中，很快就恢復(fù)了精度。然而在 PG－19 上，三角法（TRIG） softmax 逼近變得非常不穩(wěn)定，而正特征（POS）（不重繪）和 Linformer （也是逼近 softmax）即使在重繪投影的情況下，也會(huì)在同樣的復(fù)雜度中趨于平穩(wěn)。具有特征重繪的正 softmax 是匹配 Transformer 的必要條件，SMREG 可實(shí)現(xiàn)更快的收斂。

這篇論文利用詳細(xì)的數(shù)學(xué)定理，證明了與其單純依靠計(jì)算資源來(lái)提升性能，還不如開(kāi)發(fā)出改進(jìn)的、高效的 Transformer 架構(gòu)，來(lái)顯著降低能耗。同時(shí)，由于 Performers 使用了與 Transformer 相同的訓(xùn)練超參數(shù)，也可以有效訓(xùn)練基于 softmax 的線性 Transformer。因此 FAVOR＋機(jī)制可以作為一個(gè)簡(jiǎn)單的插件，而無(wú)需進(jìn)行過(guò)多的調(diào)整。

Performer 模型應(yīng)用前景廣泛

研究人員表示，Performer 模型的提出，顯著降低了常規(guī) Transformer 的空間和時(shí)間復(fù)雜度，并在 Transformer 的研究以及非稀疏注意機(jī)制的作用方面開(kāi)辟了新的途徑。

該論文利用詳細(xì)的數(shù)學(xué)定理，證明了與其單純依靠計(jì)算資源來(lái)提升性能，還不如開(kāi)發(fā)出改進(jìn)的、高效的 Transformer 架構(gòu)，來(lái)顯著降低能耗。同時(shí)，由于 Performers 使用了與 Transformer 相同的訓(xùn)練超參數(shù)，因此 FAVOR＋機(jī)制可以作為一個(gè)簡(jiǎn)單的插件，而無(wú)需進(jìn)行過(guò)多的調(diào)整。

該團(tuán)隊(duì)在一系列豐富的場(chǎng)景下測(cè)試了 Performers 的性能，執(zhí)行的任務(wù)包括像素預(yù)測(cè)、蛋白質(zhì)序列建模。在實(shí)驗(yàn)設(shè)置中，一個(gè) Performer 只用 FAVOR＋機(jī)制取代了常規(guī) Transformer 的注意力組件。

在使用蛋白質(zhì)序列訓(xùn)練一個(gè) 36 層模型的挑戰(zhàn)性任務(wù)上，基于 Performer 的模型（Performer－RELU）的性能優(yōu)于基線 Transformer 模型：Reformer 和 Linformer，后者的準(zhǔn)確率顯著下降。

在標(biāo)準(zhǔn)的 ImageNet64 基準(zhǔn)上，具有 6 層的 Performer 與具有 12 層的 Reformer 的準(zhǔn)確性相當(dāng)。優(yōu)化后，Performer 的速度達(dá)到了 Reformer 的兩倍。

研究人員表示，由于基于 Performer 的可擴(kuò)展 Transformer 架構(gòu)可以處理更長(zhǎng)的序列，而不受注意力機(jī)制結(jié)構(gòu)的限制，同時(shí)保持準(zhǔn)確和魯棒性，相信它們可以在生物信息學(xué)領(lǐng)域帶來(lái)新的突破，如蛋白質(zhì)的語(yǔ)言建模等技術(shù)已經(jīng)顯示出強(qiáng)大的潛力。

責(zé)任編輯：PSY

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6142

瀏覽量
105099
軟件

軟件

+關(guān)注

關(guān)注
69

文章
4774

瀏覽量
87160
nlp

nlp

+關(guān)注

關(guān)注
1

文章
487

瀏覽量
22011

評(píng)論

相關(guān)推薦

ASR與自然語(yǔ)言處理的結(jié)合

ASR（Automatic Speech Recognition，自動(dòng)語(yǔ)音識(shí)別）與自然語(yǔ)言處理（NLP）是人工智能領(lǐng)域的兩個(gè)重要分支，它們?cè)谠S多應(yīng)用中緊密結(jié)合，共同構(gòu)成了自然語(yǔ)言理解和

發(fā)表于 11-18 15:19 ?301次閱讀

Transformer架構(gòu)在自然語(yǔ)言處理中的應(yīng)用

隨著人工智能技術(shù)的飛速發(fā)展，自然語(yǔ)言處理（NLP）領(lǐng)域取得了顯著的進(jìn)步。其中，Transformer架構(gòu)的提出，為

發(fā)表于 07-09 11:42 ?694次閱讀

nlp自然語(yǔ)言處理基本概念及關(guān)鍵技術(shù)

自然語(yǔ)言處理（Natural Language Processing，簡(jiǎn)稱NLP）是人工智能領(lǐng)域的一個(gè)重要分支，它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類語(yǔ)言。

發(fā)表于 07-09 10:32 ?516次閱讀

nlp自然語(yǔ)言處理框架有哪些

自然語(yǔ)言處理（Natural Language Processing，簡(jiǎn)稱NLP）是計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域的一個(gè)重要分支，它致力于使計(jì)算機(jī)能夠理解和處理人類

發(fā)表于 07-09 10:28 ?499次閱讀

nlp自然語(yǔ)言處理的主要任務(wù)及技術(shù)方法

自然語(yǔ)言處理（Natural Language Processing，簡(jiǎn)稱NLP）是人工智能和語(yǔ)言學(xué)領(lǐng)域的一個(gè)分支，它研究如何讓計(jì)算機(jī)能夠理解、生成和

發(fā)表于 07-09 10:26 ?870次閱讀

nlp自然語(yǔ)言處理模型怎么做

自然語(yǔ)言處理（Natural Language Processing，簡(jiǎn)稱NLP）是人工智能領(lǐng)域的一個(gè)重要分支，它涉及到計(jì)算機(jī)對(duì)人類語(yǔ)言的理解和生成。隨著深度學(xué)習(xí)

發(fā)表于 07-05 09:59 ?533次閱讀

nlp自然語(yǔ)言處理的應(yīng)用有哪些

自然語(yǔ)言處理（Natural Language Processing，簡(jiǎn)稱NLP）是人工智能領(lǐng)域的一個(gè)分支，它致力于使計(jì)算機(jī)能夠理解和生成自然語(yǔ)言。隨著

發(fā)表于 07-05 09:55 ?2454次閱讀

用于自然語(yǔ)言處理的神經(jīng)網(wǎng)絡(luò)有哪些

自然語(yǔ)言處理（Natural Language Processing, NLP）是人工智能領(lǐng)域的一個(gè)重要分支，旨在讓計(jì)算機(jī)能夠理解和處理人類語(yǔ)言

發(fā)表于 07-03 16:17 ?850次閱讀

自然語(yǔ)言處理技術(shù)有哪些

自然語(yǔ)言處理（Natural Language Processing，簡(jiǎn)稱NLP）是人工智能領(lǐng)域的一個(gè)分支，它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類語(yǔ)言。

發(fā)表于 07-03 14:30 ?956次閱讀

自然語(yǔ)言處理模式的優(yōu)點(diǎn)

自然語(yǔ)言處理（Natural Language Processing，簡(jiǎn)稱NLP）是人工智能領(lǐng)域的一個(gè)重要分支，它致力于使計(jì)算機(jī)能夠理解、生成和處理人類

發(fā)表于 07-03 14:24 ?656次閱讀

自然語(yǔ)言處理技術(shù)的核心是什么

自然語(yǔ)言處理（Natural Language Processing，簡(jiǎn)稱NLP）是人工智能領(lǐng)域的一個(gè)重要分支，其核心目標(biāo)是使計(jì)算機(jī)能夠理解、生成和處理人類

發(fā)表于 07-03 14:20 ?586次閱讀

自然語(yǔ)言處理是什么技術(shù)的一種應(yīng)用

自然語(yǔ)言處理（Natural Language Processing，簡(jiǎn)稱NLP）是人工智能和語(yǔ)言學(xué)領(lǐng)域的一個(gè)分支，它涉及到使用計(jì)算機(jī)技術(shù)來(lái)

發(fā)表于 07-03 14:18 ?618次閱讀

自然語(yǔ)言處理包括哪些內(nèi)容

，從而實(shí)現(xiàn)人機(jī)之間的自然交流。本文將詳細(xì)介紹NLP的主要內(nèi)容，包括基本概念、關(guān)鍵技術(shù)、應(yīng)用領(lǐng)域等。一、自然語(yǔ)言處理的基本概念

發(fā)表于 07-03 14:15 ?733次閱讀

什么是自然語(yǔ)言處理 (NLP)

理解和處理自然語(yǔ)言文本，從而實(shí)現(xiàn)人機(jī)交互的流暢和自然。NLP不僅關(guān)注理論框架的建立，還側(cè)重于實(shí)際技術(shù)的開(kāi)發(fā)和應(yīng)用，廣泛應(yīng)用于法律、醫(yī)療、教育

發(fā)表于 07-02 18:16 ?1050次閱讀

自然語(yǔ)言處理技術(shù)的原理的應(yīng)用

自然語(yǔ)言處理（Natural Language Processing, NLP）作為人工智能（AI）領(lǐng)域的一個(gè)重要分支，旨在使計(jì)算機(jī)能夠理解和處理人類

發(fā)表于 07-02 12:50 ?452次閱讀

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

自然語(yǔ)言處理（NLP）技術(shù)不斷突破，谷歌Transformer再升級(jí)

評(píng)論

ASR與自然語(yǔ)言處理的結(jié)合

Transformer架構(gòu)在自然語(yǔ)言處理中的應(yīng)用

nlp自然語(yǔ)言處理基本概念及關(guān)鍵技術(shù)

nlp自然語(yǔ)言處理框架有哪些

nlp自然語(yǔ)言處理的主要任務(wù)及技術(shù)方法

nlp自然語(yǔ)言處理模型怎么做

nlp自然語(yǔ)言處理的應(yīng)用有哪些

用于自然語(yǔ)言處理的神經(jīng)網(wǎng)絡(luò)有哪些

自然語(yǔ)言處理技術(shù)有哪些

自然語(yǔ)言處理模式的優(yōu)點(diǎn)

自然語(yǔ)言處理技術(shù)的核心是什么

自然語(yǔ)言處理是什么技術(shù)的一種應(yīng)用

自然語(yǔ)言處理包括哪些內(nèi)容

什么是自然語(yǔ)言處理 (NLP)

自然語(yǔ)言處理技術(shù)的原理的應(yīng)用

搜索歷史

自然語(yǔ)言處理（NLP）技術(shù)不斷突破，谷歌Transformer再升級(jí)

評(píng)論

自然語(yǔ)言處理（NLP）技術(shù)不斷突破，谷歌Transformer再升級(jí)