精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

計算機視覺迎來GPT時刻!UC伯克利三巨頭祭出首個純CV大模型!

CVer ? 來源:機器之心 ? 2023-12-05 15:34 ? 次閱讀

僅靠視覺(像素)模型能走多遠?UC 伯克利、約翰霍普金斯大學的新論文探討了這一問題,并展示了大型視覺模型(LVM)在多種 CV 任務上的應用潛力。

最近一段時間以來,GPT 和 LLaMA 等大型語言模型 (LLM) 已經風靡全球。

另一個關注度同樣很高的問題是,如果想要構建大型視覺模型 (LVM) ,我們需要的是什么?

LLaVA 等視覺語言模型所提供的思路很有趣,也值得探索,但根據動物界的規律,我們已經知道視覺能力和語言能力二者并不相關。比如許多實驗都表明,非人類靈長類動物的視覺世界與人類的視覺世界非常相似,盡管它們和人類的語言體系「兩模兩樣」。

在最近一篇論文中,UC 伯克利和約翰霍普金斯大學的研究者探討了另一個問題的答案 —— 我們僅靠像素本身能走多遠?

d17b841a-932c-11ee-939d-92fbcf53809c.png

論文地址:https://arxiv.org/abs/2312.00785

項目主頁:https://yutongbai.com/lvm.html

研究者試圖在 LVM 中效仿的 LLM 的關鍵特征:1)根據數據的規模增長進行擴展,2)通過提示(上下文學習)靈活地指定任務。

他們指定了三個主要組件,即數據、架構和損失函數。

在數據上,研究者想要利用視覺數據中顯著的多樣性。首先只是未標注的原始圖像和視頻,然后利用過去幾十年產生的各種標注視覺數據源(包括語義分割、深度重建、關鍵點、多視圖 3D 對象等)。他們定義了一種通用格式 —— 「視覺句子」(visual sentence),用它來表征這些不同的注釋,而不需要任何像素以外的元知識。訓練集的總大小為 16.4 億圖像 / 幀。

在架構上,研究者使用大型 transformer 架構(30 億參數),在表示為 token 序列的視覺數據上進行訓練,并使用學得的 tokenizer 將每個圖像映射到 256 個矢量量化的 token 串。

在損失函數上,研究者從自然語言社區汲取靈感,即掩碼 token 建模已經「讓位給了」序列自回歸預測方法。一旦圖像、視頻、標注圖像都可以表示為序列,則訓練的模型可以在預測下一個 token 時最小化交叉熵損失。

通過這一極其簡單的設計,研究者展示了如下一些值得注意的行為:

隨著模型尺寸和數據大小的增加,模型會出現適當的擴展行為;

現在很多不同的視覺任務可以通過在測試時設計合適的 prompt 來解決。雖然不像定制化、專門訓練的模型那樣獲得高性能的結果, 但單一視覺模型能夠解決如此多的任務這一事實非常令人鼓舞;

大量無監督數據對不同標準視覺任務的性能有著顯著的助益;

在處理分布外數據和執行新的任務時,出現了通用視覺推理能力存在的跡象,但仍需進一步研究。

論文共同一作、約翰霍普金斯大學 CS 四年級博士生、伯克利訪問博士生 Yutong Bai 發推宣傳了她們的工作。

d18d754e-932c-11ee-939d-92fbcf53809c.png

圖源:https://twitter.com/YutongBAI1002/status/1731512110247473608

在論文作者中,后三位都是 UC 伯克利在 CV 領域的資深學者。Trevor Darrell 教授是伯克利人工智能研究實驗室 BAIR 創始聯合主任、Jitendra Malik 教授獲得過 2019 年 IEEE 計算機先驅獎、 Alexei A. Efros 教授尤以最近鄰研究而聞名。

d1919228-932c-11ee-939d-92fbcf53809c.png

從左到右依次為 Trevor Darrell、Jitendra Malik、Alexei A. Efros。

方法介紹

本文采用兩階段方法:1)訓練一個大型視覺 tokenizer(對單個圖像進行操作),可以將每個圖像轉換為一系列視覺 token;2)在視覺句子上訓練自回歸 transformer 模型,每個句子都表示為一系列 token。方法如圖 2 所示:

d1975ef6-932c-11ee-939d-92fbcf53809c.png

圖像 Token 化

為了將 Transformer 模型應用于圖像,典型的操作包括:將圖像劃分為 patch,并將其視為序列;或者使用預訓練的圖像 tokenizer,例如 VQVAE 或 VQGAN,將圖像特征聚集到離散 token 網格中。本文采用后一種方法,即用 VQGAN 模型生成語義 token。

LVM 框架包括編碼和解碼機制,還具有量化層,其中編碼器和解碼器是用卷積層構建的。編碼器配備了多個下采樣模塊來收縮輸入的空間維度,而解碼器配備了一系列等效的上采樣模塊以將圖像恢復到其初始大小。對于給定的圖像,VQGAN tokenizer 會生成 256 個離散 token。

實現細節。本文采用 Chang 等人提出的 VQGAN 架構,并遵循 Chang 等人使用的設置,在此設置下,下采樣因子 f=16,碼本大小 8192。這意味著對于大小為 256 × 256 的圖像,VQGAN tokenizer 會生成 16 × 16 = 256 個 token,其中每個 token 可以采用 8192 個不同的值。此外,本文在 LAION 5B 數據集的 1.5B 子集上訓練 tokenizer。

視覺句子序列建模

使用 VQGAN 將圖像轉換為離散 token 后,本文通過將多個圖像中的離散 token 連接成一維序列,并將視覺句子視為統一序列。重要的是,所有視覺句子都沒有進行特殊處理 —— 即不使用任何特殊的 token 來指示特定的任務或格式。

d1a185fc-932c-11ee-939d-92fbcf53809c.png

視覺句子允許將不同的視覺數據格式化成統一的圖像序列結構。

實現細節。在將視覺句子中的每個圖像 token 化為 256 個 token 后,本文將它們連接起來形成一個 1D token 序列。在視覺 token 序列上,本文的 Transformer 模型實際上與自回歸語言模型相同,因此他們采用 LLaMA 的 Transformer 架構。

本文使用的上下文長度為 4096 個 token,與語言模型類似,本文在每個視覺句子的開頭添加一個 [BOS](begin of sentence)token,在末尾添加一個 [EOS](end of sentence)token,并在訓練期間使用序列拼接提高效率。

本文在整個 UVDv1 數據集(4200 億個 token)上訓練模型,總共訓練了 4 個具有不同參數數量的模型:3 億、6 億、10 億和 30 億。

實驗結果

該研究進行實驗評估了模型的擴展能力,以及理解和回答各種任務的能力。

擴展

如下圖 3 所示,該研究首先檢查了不同大小的 LVM 的訓練損失。

d1a7223c-932c-11ee-939d-92fbcf53809c.png

如下圖 4 所示,較大的模型在所有任務中復雜度都是較低的,這表明模型的整體性能可以遷移到一系列下游任務上。

d1b39184-932c-11ee-939d-92fbcf53809c.png

如下圖 5 所示,每個數據組件對下游任務都有重要作用。LVM 不僅會受益于更大的數據,而且還隨著數據集的多樣性而改進。

d1bf186a-932c-11ee-939d-92fbcf53809c.png

序列 prompt

為了測試 LVM 對各種 prompt 的理解能力,該研究首先在序列推理任務上對 LVM 進行評估實驗。其中,prompt 非常簡單:向模型提供 7 張圖像的序列,要求它預測下一張圖像,實驗結果如下圖 6 所示:

d1cc0ec6-932c-11ee-939d-92fbcf53809c.png

該研究還將給定類別的項目列表視為一個序列,讓 LVM 預測同一類的圖像,實驗結果如下圖 15 所示:

d1da6c00-932c-11ee-939d-92fbcf53809c.png

那么,需要多少上下文(context)才能準確預測后續幀?

該研究在給出不同長度(1 到 15 幀)的上下文 prompt 情況下,評估了模型的幀生成困惑度,結果如下圖 7 所示,困惑度從 1 幀到 11 幀有明顯改善,之后趨于穩定(62.1 → 48.4)。

d1e35f54-932c-11ee-939d-92fbcf53809c.png

Analogy Prompt

該研究還評估了更復雜的 prompt 結構 ——Analogy Prompt,來測試 LVM 的高級解釋能力。

下圖 8 顯示了對許多任務進行 Analogy Prompt 的定性結果:

d1eb4dfe-932c-11ee-939d-92fbcf53809c.png

與視覺 Prompting 的比較如下所示, 序列 LVM 在幾乎所有任務上都優于以前的方法。

d22640ee-932c-11ee-939d-92fbcf53809c.png

合成任務。圖 9 展示了使用單個 prompt 組合多個任務的結果。

d22a7d12-932c-11ee-939d-92fbcf53809c.png

其他 prompt

研究者試圖通過向模型提供它以往未見過的各種 prompt,來觀察模型的擴展能力到底怎樣。下圖 10 展示了一些運行良好的此類 prompt。

d22fe2e8-932c-11ee-939d-92fbcf53809c.png

下圖 11 展示了一些用文字難以描述的 prompt,這些任務上 LVM 最終可能會勝過 LLM。

d23b3d6e-932c-11ee-939d-92fbcf53809c.png

圖 13 顯示了在非語言人類 IQ 測試中發現的典型視覺推理問題的初步定性結果。

d2471616-932c-11ee-939d-92fbcf53809c.png

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 圖像
    +關注

    關注

    2

    文章

    1083

    瀏覽量

    40420
  • 計算機視覺
    +關注

    關注

    8

    文章

    1696

    瀏覽量

    45930
  • 語言模型
    +關注

    關注

    0

    文章

    508

    瀏覽量

    10247

原文標題:計算機視覺迎來GPT時刻!UC伯克利三巨頭祭出首個純CV大模型!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    UC伯克利教授Stuart Russell:人工智能基礎概念與34個誤區

    Russell是加州大學伯克利分校人工智能系統中心創始人兼計算機科學專業教授,同時還是人工智能領域里「標準教科書」《人工智能:一種現代方法》作者(谷歌研究主管Peter Norvig也是該書作者)。在這篇文章中,他以Q&A的方式講解了人工智能的未來以及常見的誤解。
    的頭像 發表于 07-04 09:41 ?5553次閱讀

    AI視野·今日CV 計算機視覺論文速覽

    AI視野·今日CV 計算機視覺論文速覽
    發表于 07-07 06:23

    計算機視覺論文速覽

    AI視野·今日CS.CV 計算機視覺論文速覽transformer、新模型視覺語言模型、多模態
    發表于 08-31 08:46

    伯克利博士論文:DC-DC轉換器

    伯克利博士的論文,關于DC-DC轉換器的理解介紹和應用分析。
    發表于 09-29 18:13 ?103次下載
    <b class='flag-5'>伯克利</b>博士論文:DC-DC轉換器

    美國加州大學伯克利分校模電資料

    美國加州大學伯克利分校模電資料,個人收集整理了很久的資料,大家根據自己情況,有選擇性的下載吧~
    發表于 10-28 09:19 ?0次下載

    華為投入1百萬美元和伯克利合作推進 AI 技術

    華為諾亞方舟研究室一直致力于人工智能學習和數據挖掘研究,而伯克利人工智能研究實驗室的研究領域是計算機視覺、機器學習、自然語言的處理規劃和機器人方面。對于兩家實驗室的合作,雙方都認為,這一戰略合作伙伴關系將推動人工智能技術的進步.
    發表于 10-13 09:28 ?599次閱讀

    USNews發布了最新的大學計算機科學排名

    周志華教授也評論說:華科超越MIT,北郵超越伯克利和CMU。清華計算機全世界第一!厲害了!愚人節是4.1吧,怎么今年提前過了?什么時候MIT的CS學生以到華科讀博為榮、伯克利和CMU的學生以到北郵讀博為榮了再說吧。
    的頭像 發表于 11-01 09:37 ?5591次閱讀

    計算機視覺與機器視覺區別

     “計算機視覺”,是指用計算機實現人的視覺功能,對客觀世界的維場景的感知、識別和理解。計算機
    的頭像 發表于 12-08 09:27 ?1.2w次閱讀

    推特公開宣布了伯克利機器人學習實驗室最新開發的機器人BLUE

    ieter Abbeel 是領域內著名的機器人學與機器學習專家,他目前是加州大學伯克利分校電子工程與計算機系教授、伯克利人工智能實驗室(BAIR)聯合主任、伯克利機器人學習實驗室(
    的頭像 發表于 04-13 11:09 ?4423次閱讀

    UC伯克利新機器人成果:靈活自由地使用工具

    之前我們剛剛介紹了加州大學伯克利分校 Pieter Abbeel 教授領導伯克利機器人學習實驗室(UC Be
    的頭像 發表于 04-15 09:03 ?2456次閱讀

    加州大學伯克利分校的團隊給予跳躍機器人更高目標

    美國加州大學伯克利分校的研究人員,研發出一款能不斷跳躍的機器人:Salto-1P。
    的頭像 發表于 06-13 17:52 ?3418次閱讀

    加州大學伯克利分校研發可以操控的機器人

    近日,加州大學伯克利分校(UC Berkeley)研發出了一款新型機器人,可實現洗碗、疊衣服、收拾房間的等動作。
    發表于 08-05 15:45 ?958次閱讀

    美國伯克利市考慮2027年出臺汽油車禁售令

    八成的汽柴油車和天然氣車。 ? 但該法令不適用于卡車,并分個階段進行。伯克利市計劃在2025年、2026年和2027年分別淘汰售價2.8萬美元以上的車輛、2.3萬美元以上的車輛及所有內燃機車。 今年9月,市長加文·紐森(Gavin Newsom)宣稱,加州
    的頭像 發表于 01-19 11:25 ?1435次閱讀

    用語言建模世界:UC伯克利多模態世界模型利用語言預測未來

    直接拿來當成指令,但卻蘊含著豐富的世界信息。智能體很難了解這些語言在世界上的含義。 圖源:谷歌機器人團隊論文「Interactive Language: Talking to Robots in Real Time」。 UC 伯克利 Dynalang 研究的關鍵思想是,我
    的頭像 發表于 08-06 22:05 ?445次閱讀
    用語言建模世界:<b class='flag-5'>UC</b><b class='flag-5'>伯克利</b>多模態世界<b class='flag-5'>模型</b>利用語言預測未來

    計算機視覺的主要研究方向

    計算機視覺(Computer Vision, CV)作為人工智能領域的一個重要分支,致力于使計算機能夠像人眼一樣理解和解釋圖像和視頻中的信息。隨著深度學習、大數據等技術的快速發展,
    的頭像 發表于 06-06 17:17 ?858次閱讀