又粗又大精品久久久久国产片_中国一级毛片国产_欧美三级国产三级在线_成在人av抽搐高潮喷水流白浆_欧洲日韩国产综合AV无码_午夜伦理电影在线观看_久久人妻无码hd毛片_国产在线观看第一页_亚洲精品成人电影

說到Transformer，大家可能會想到BERT[1]、GPT-3[2]等等，這些都是利用無監督訓練的大型預訓練模型。既然Transformer也能用在CV上，那么能不能做類似的事情呢？這篇論文利用ImageNet訓練了一個能降噪、超分和去雨的圖像預訓練模型（IPT）。

Motivation

目前很多low-level的task其實都是有一定相關性的，就是在一個low-level task上預訓練對另一個task是有幫助的，但是目前幾乎沒有人去做相關的工作。而且pre-training在某些數據稀缺的task上就很有必要，并且無論在CV還是NLP，使用pre-trained model是非常常見的事情。對于一些輸入和輸出都是image的low-level算法來說，目前的pre-trained model顯然是不適合的。

準備數據集

因為Transformer需要大量的數據去擬合，所以必須使用一個大型的數據集。在這篇論文中，作者用的是imagenet。對于imagenet的每一張圖片生成各種任務對應的圖像對，例如對于超分（super-resolution）來說，模型的輸入數據是imagenet經過下采樣的數據，而標簽是原圖。

IPT

在上篇文章介紹過了，因為Transformer本身是用于NLP領域的，輸入應該是一個序列，因此這篇的論文做法和ViT[3]一樣，首先需要把feature map分塊，每個patch則視為一個word。但是不同的是，因為IPT是同時訓練多個task，因此模型定義了多個head和tail分別對應不同的task。

整個模型架構包含四個部分：用于提取特征的heads、Transformer Encoder、Transformer Decoder和把feature map還原成輸出的tails。

Heads

不同的head對應于不同的task，由于IPT需要處理多個task，因此是一個multi-head的結構，每個head由3層卷積層組成。Heads要完成的任務可以描述為：fH = Hi(x)，x是輸入圖像，f是第i個Head的輸出。

Transformer encoder

在輸入Transformer前，需要將Head輸出的feature map分成一個個patch，同樣還需要加入位置編碼信息，與ViT不同，這里是直接相加就可以作為Transformer Encoder的輸入了，不需要做linear projection。

fpi是feature map的一個patch，Epi∈ RP*P×C是fpi的learnable position encoding。LN是layer normalization，MSA是多頭self-attention模塊，FFN是feed forward network。

Transformer decoder

Transformer decoder的輸入時encoder的輸出和task embedding。這些task embedding是可訓練的，不同的task embedding代表處理不同的task。decoder的計算可以表示如下：

fEi是指encoder的輸出，fDi是指decoder的輸出。

Tails

Tails與Heads是相對應的，但是不同的tail的輸出的大小可能不一樣，例如超分，做超分時輸出比輸入的圖像大，因此與其它的tail輸出的大小可能不一樣。

Loss

loss由兩部分組成，分別是Lcontrastive和Lsupervised的加權和。

Lsupervised是指IPT的輸出與label的L1 loss。

加入Lcontrastive是為了最小化Transformer decoder對于來自同一張圖的不同patch的輸出的距離，最大化對于不同圖片的patch之間的輸出的距離。

實驗與結果

作者用了32塊NVIDIA Tesla V100，以256的batch size訓練了200個epoch。

Reference

[1]Jacob Devlin, Ming-Wei Chang, Kenton Lee, and KristinaToutanova. Bert: Pre-training of deep bidirectionaltransformers for language understanding. arXiv preprintarXiv:1810.04805, 2018.

[2]Tom B Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al.Language models are few-shot learners. arXiv preprintarXiv:2005.14165, 2020.

[3]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.

責任編輯：lq

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

模型

模型

+關注

關注
1

文章
3178

瀏覽量
48731
數據集

數據集

+關注

關注
4

文章
1205

瀏覽量
24649
nlp

nlp

+關注

關注
1

文章
487

瀏覽量
22015

原文標題：視覺新范式Transformer之IPT

文章出處：【微信號：gh_a204797f977b，微信公眾號：深度學習實戰】歡迎添加關注！文章轉載請注明出處。

什么是大模型、大模型是怎么訓練出來的及大模型作用

，基礎模型。 ? 大模型是一個簡稱，完整的叫法，應該是“人工智能預訓練大

發表于 11-25 09:29 ?109次閱讀

什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓練</b>出來的及大<b class='flag-5'>模型</b>作用

AI大模型的訓練數據來源分析

學術機構、政府組織或企業公開發布，涵蓋了各種類型的數據，如圖像、文本、音頻、視頻等。例如： ImageNet ：一個廣泛用于圖像識別任務的大

發表于 10-23 15:32 ?392次閱讀

如何訓練自己的AI大模型

訓練自己的AI大模型是一個復雜且耗時的過程，涉及多個關鍵步驟。以下是一個詳細的

發表于 10-23 15:07 ?692次閱讀

直播預約 |數據智能系列講座第4期：預訓練的基礎模型下的持續學習

鷺島論壇數據智能系列講座第4期「預訓練的基礎模型下的持續學習」10月30日（周三）20：00精彩開播期待與您云相聚，共襄學術盛宴！|直播信息報告題目預

發表于 10-18 08:09 ?168次閱讀

直播預約 |數據智能系列講座第4期：<b class='flag-5'>預</b><b class='flag-5'>訓練</b>的基礎<b class='flag-5'>模型</b>下的持續學習

預訓練和遷移學習的區別和聯系

預訓練和遷移學習是深度學習和機器學習領域中的兩個重要概念，它們在提高模型性能、減少訓練時間和降低對數據量的需求方面發揮著關鍵作用。本文將從定

發表于 07-11 10:12 ?851次閱讀

大語言模型的預訓練

能力，逐漸成為NLP領域的研究熱點。大語言模型的預訓練是這一技術發展的關鍵步驟，它通過在海量無標簽數據上進行訓練，使

發表于 07-11 10:11 ?390次閱讀

人臉識別模型訓練流程

據準備階段，需要收集大量的人臉圖像數據，并進行數據清洗、標注和增強等操作。 1.1 數據收集數據收集是人臉識別模型訓練的第一步。可以通過網絡爬蟲、公開數據集、合作伙伴等途徑收集人臉

發表于 07-04 09:19 ?848次閱讀

人臉識別模型訓練是什么意思

人臉識別模型訓練是指通過大量的人臉數據，使用機器學習或深度學習算法，訓練出一個能夠識別和分類人臉的模型

發表于 07-04 09:16 ?498次閱讀

預訓練模型的基本原理和應用

預訓練模型（Pre-trained Model）是深度學習和機器學習領域中的一個重要概念，尤其是在自然語言處理（NLP）和計算機視覺（CV）

發表于 07-03 18:20 ?2438次閱讀

利用深度循環神經網絡對心電圖降噪

- 與后來為降噪任務添加的噪聲水平不同。生成的合成信號的示例如下圖所示。測試是為了回答兩個問題：DRNN對于心電圖去噪的有效性如何數據以及使用合成數據進行預

發表于 05-15 14:42

【大語言模型：原理與工程實踐】大語言模型的預訓練

進行損失計算，得到下一個目標的預測。也會設計一些其他輔助訓練任務，與主任務共同訓練。選擇合適的預訓練

發表于 05-07 17:10

視覺深度學習模型：規模越大效果越佳嗎？

評估三類模型：(i) 在ImageNet-21k上預訓練的ViT，(ii) 在LAION-2B上預訓練

發表于 04-11 09:45 ?486次閱讀

谷歌模型訓練軟件有哪些功能和作用

谷歌模型訓練軟件主要是指ELECTRA，這是一種新的預訓練方法，源自谷歌AI。ELECTRA不僅擁有BERT的優勢，而且在效率上更勝

發表于 02-29 17:37 ?750次閱讀

深度學習如何訓練出好的模型

算法工程、數據派THU深度學習在近年來得到了廣泛的應用，從圖像識別、語音識別到自然語言處理等領域都有了卓越的表現。但是，要訓練出一個高效準確的深度學習

發表于 12-07 12:38 ?1061次閱讀

超分畫質大模型！華為和清華聯合提出CoSeR：基于認知的萬物超分大模型

一是缺乏泛化能力。為了實現更好的超分效果，通常需要針對特定場景使用特定傳感器采集到的數據來進行模型訓練，這種學習方式擬合了某種低清

發表于 12-04 16:22 ?670次閱讀

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

利用ImageNet訓練了一個能降噪、超分和去雨的圖像預訓練模型

評論

什么是大模型、大模型是怎么訓練出來的及大模型作用

AI大模型的訓練數據來源分析

如何訓練自己的AI大模型

直播預約 |數據智能系列講座第4期：預訓練的基礎模型下的持續學習

預訓練和遷移學習的區別和聯系

大語言模型的預訓練

人臉識別模型訓練流程

人臉識別模型訓練是什么意思

預訓練模型的基本原理和應用

利用深度循環神經網絡對心電圖降噪

【大語言模型：原理與工程實踐】大語言模型的預訓練

視覺深度學習模型：規模越大效果越佳嗎？

谷歌模型訓練軟件有哪些功能和作用

深度學習如何訓練出好的模型

超分畫質大模型！華為和清華聯合提出CoSeR：基于認知的萬物超分大模型

搜索歷史

利用ImageNet訓練了一個能降噪、超分和去雨的圖像預訓練模型

評論

利用ImageNet訓練了一個能降噪、超分和去雨的圖像預訓練模型