,亚洲欧美日韩国产成人精品影院,亚洲国产欧美日韩精品一区二区三区,久久亚洲国产成人影院,久久国产成人亚洲精品影院老金,九九精品成人免费国产片,国产精品成人综合网,国产成人一区二区三区,国产成...

僅靠視覺（像素）模型能走多遠？UC 伯克利、約翰霍普金斯大學的新論文探討了這一問題，并展示了大型視覺模型（LVM）在多種 CV 任務上的應用潛力。

最近一段時間以來，GPT 和 LLaMA 等大型語言模型 (LLM) 已經風靡全球。

另一個關注度同樣很高的問題是，如果想要構建大型視覺模型 (LVM) ，我們需要的是什么？

LLaVA 等視覺語言模型所提供的思路很有趣，也值得探索，但根據動物界的規律，我們已經知道視覺能力和語言能力二者并不相關。比如許多實驗都表明，非人類靈長類動物的視覺世界與人類的視覺世界非常相似，盡管它們和人類的語言體系「兩模兩樣」。

在最近一篇論文中，UC 伯克利和約翰霍普金斯大學的研究者探討了另一個問題的答案 —— 我們僅靠像素本身能走多遠？

論文地址：https://arxiv.org/abs/2312.00785

項目主頁：https://yutongbai.com/lvm.html

研究者試圖在 LVM 中效仿的 LLM 的關鍵特征：1）根據數據的規模增長進行擴展，2）通過提示（上下文學習）靈活地指定任務。

他們指定了三個主要組件，即數據、架構和損失函數。

在數據上，研究者想要利用視覺數據中顯著的多樣性。首先只是未標注的原始圖像和視頻，然后利用過去幾十年產生的各種標注視覺數據源（包括語義分割、深度重建、關鍵點、多視圖 3D 對象等）。他們定義了一種通用格式 —— 「視覺句子」（visual sentence），用它來表征這些不同的注釋，而不需要任何像素以外的元知識。訓練集的總大小為 16.4 億圖像 / 幀。

在架構上，研究者使用大型 transformer 架構（30 億參數），在表示為 token 序列的視覺數據上進行訓練，并使用學得的 tokenizer 將每個圖像映射到 256 個矢量量化的 token 串。

在損失函數上，研究者從自然語言社區汲取靈感，即掩碼 token 建模已經「讓位給了」序列自回歸預測方法。一旦圖像、視頻、標注圖像都可以表示為序列，則訓練的模型可以在預測下一個 token 時最小化交叉熵損失。

通過這一極其簡單的設計，研究者展示了如下一些值得注意的行為：

隨著模型尺寸和數據大小的增加，模型會出現適當的擴展行為；

現在很多不同的視覺任務可以通過在測試時設計合適的 prompt 來解決。雖然不像定制化、專門訓練的模型那樣獲得高性能的結果，但單一視覺模型能夠解決如此多的任務這一事實非常令人鼓舞；

大量無監督數據對不同標準視覺任務的性能有著顯著的助益；

在處理分布外數據和執行新的任務時，出現了通用視覺推理能力存在的跡象，但仍需進一步研究。

論文共同一作、約翰霍普金斯大學 CS 四年級博士生、伯克利訪問博士生 Yutong Bai 發推宣傳了她們的工作。

圖源：https://twitter.com/YutongBAI1002/status/1731512110247473608

在論文作者中，后三位都是 UC 伯克利在 CV 領域的資深學者。Trevor Darrell 教授是伯克利人工智能研究實驗室 BAIR 創始聯合主任、Jitendra Malik 教授獲得過 2019 年 IEEE 計算機先驅獎、 Alexei A. Efros 教授尤以最近鄰研究而聞名。

從左到右依次為 Trevor Darrell、Jitendra Malik、Alexei A. Efros。

方法介紹

本文采用兩階段方法：1）訓練一個大型視覺 tokenizer（對單個圖像進行操作），可以將每個圖像轉換為一系列視覺 token；2）在視覺句子上訓練自回歸 transformer 模型，每個句子都表示為一系列 token。方法如圖 2 所示：

圖像 Token 化

為了將 Transformer 模型應用于圖像，典型的操作包括：將圖像劃分為 patch，并將其視為序列；或者使用預訓練的圖像 tokenizer，例如 VQVAE 或 VQGAN，將圖像特征聚集到離散 token 網格中。本文采用后一種方法，即用 VQGAN 模型生成語義 token。

LVM 框架包括編碼和解碼機制，還具有量化層，其中編碼器和解碼器是用卷積層構建的。編碼器配備了多個下采樣模塊來收縮輸入的空間維度，而解碼器配備了一系列等效的上采樣模塊以將圖像恢復到其初始大小。對于給定的圖像，VQGAN tokenizer 會生成 256 個離散 token。

實現細節。本文采用 Chang 等人提出的 VQGAN 架構，并遵循 Chang 等人使用的設置，在此設置下，下采樣因子 f=16，碼本大小 8192。這意味著對于大小為 256 × 256 的圖像，VQGAN tokenizer 會生成 16 × 16 = 256 個 token，其中每個 token 可以采用 8192 個不同的值。此外，本文在 LAION 5B 數據集的 1.5B 子集上訓練 tokenizer。

視覺句子序列建模

使用 VQGAN 將圖像轉換為離散 token 后，本文通過將多個圖像中的離散 token 連接成一維序列，并將視覺句子視為統一序列。重要的是，所有視覺句子都沒有進行特殊處理 —— 即不使用任何特殊的 token 來指示特定的任務或格式。