精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

DreamLLM:多功能多模態大型語言模型,你的DreamLLM~

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-09-25 17:26 ? 次閱讀

今天為大家介紹西安交大,清華大學、華中科大聯合MEGVII Technology的一篇關于多模態LLM學習框架的論文,名為DREAMLLM。

  • 論文:DreamLLM: Synergistic Multimodal Comprehension and Creation
  • 論文鏈接:https://arxiv.org/abs/2309.11499
  • GitHub:https://github.com/RunpeiDong/DreamLLM

摘要

DREAMLLM是一個學習框架,實現了通用的多模態大型語言模型(Multimodal Large Language Models,MLLMs),該模型利用了多模態理解和創造之間經常被忽視的協同作用。DREAMLLM的運作遵循兩個基本原則:一是在原始多模態空間中通過直接采樣對語言和圖像后驗進行生成建模有助于獲取更徹底的多模態理解。二是促進了原始、交錯文檔的生成,對文本和圖像內容以及非結構化布局進行建模,使得模型能夠有效地學習所有條件、邊際和聯合多模式分布。

簡介

在多模態任務中,內容理解和創作是機器智能的終極目標之一。為此,多模式大語言模型成功進入視覺領域。MLLMs在多模態理解能力方面取得了前所未有的進展。通常通過將圖像作為多模式輸入來增強LLM,以促進語言輸出的多模式理解。其目的是通過語言后驗來捕捉多模式的條件分布或邊際分布。然而,涉及生成圖像、文本或兩者的多模式創作,需要一個通用的生成模型來同時學習語言和圖像后驗,而這一點目前尚未得到充分的探索。最近,一些工作顯示出使用MLLMs的條件圖像生成的成功。如下圖所示,

ea2561d0-5b81-11ee-939d-92fbcf53809c.png

由于固有的模態缺口,如CLIP語義主要關注模態共享信息,往往忽略了可以增強多模態理解的模態特定知識。因此,這些研究并沒有充分認識到多模式創造和理解之間潛在的學習協同作用,只顯示出創造力的微小提高,并且在多模式理解方面仍然存在不足。

創新點:DREAMLLM以統一的自回歸方式生成原始語言和圖像輸入,本質上實現了交錯生成。

知識背景

  • Autoregressive Generative Modeling:自回歸生成建模
  • Diffusion Model:擴散模型

MLLMs具體做法:現有策略會導致MLLMs出現語義減少的問題,偏離其原始輸出空間,為了避免,提出了替代學習方法如下圖所示,即DREAMLLM模型框架。

ea3adca4-5b81-11ee-939d-92fbcf53809c.png

DREAMLLM架構

DREAMLLM框架如上圖所示,使用交錯的文檔用作輸入,解碼以產生輸出。文本和圖像都被編碼成用于MLLM輸入的順序的、離散的token嵌入。特殊的<dream>標記可以預測在哪里生成圖像。隨后,一系列dream查詢被輸入到MLLM中,捕獲整體歷史語義。圖像由stable diffusion圖像解碼器以查詢的語義為條件進行合成。然后將合成的圖像反饋到MLLM中用于隨后的理解。

其中MLLM是基于在shareGPT上訓練的LLama的Vicuna,采用CLIP-Large作為圖像編碼器,為了合成圖像使用Stable Diffusion作為圖像解碼器。

模型訓練

模型訓練分為對齊訓練、I-GPT預訓練和監督微調。

實驗結果

  • 多模態理解:多模式理解使人類能夠與以單詞和視覺內容為條件的主體進行互動。本文評估了DREAMLLM在幾個基準上的多模式視覺和語言能力。此外,對最近開發的MMBench和MM-Vet基準進行了零樣本評估,以評估模型在復雜多模式任務中的性能。

ea54d50a-5b81-11ee-939d-92fbcf53809c.png

  • 發現,DREAMLLM在所有基準測試中都優于其他MLLM。值得注意的是,DREAMLLM-7B在圖像合成能力方面大大超過了并發MLLMs,與Emu-13B相比,VQAv2的精度提高了16.6。在MMBench和MMVet等綜合基準測試中,DREAMLLM與所有7B同行相比都取得了最先進的性能。

  • 條件文本圖像合成:條件文本圖像合成是創造性內容生成最常用的技術之一,它通過自由形式的語言生成遵循人類描述的圖像。

ea6dc394-5b81-11ee-939d-92fbcf53809c.png

  • 其結果如上表所示。結果顯示:DREAMLLM 在階段I對齊后顯示出比Stable Diffusion基線顯著提高FID,在 MS-COCO 和 LN-COCO 上分別將分數分別降低了 3.67 和 11.83。此外,預訓練和監督微調后實現了 3.97 和 13.73 的 FID 改進。LN-COCO 的實質性改進強調了 DREAMLLM 在處理長上下文信息方面的卓越性能。與之前的專家模型相比,DREAMLLM 基于 SD 圖像解碼器提供了有競爭力的結果。DREAMLLM 始終優于基于并發 MLLM 的圖像合成方法。

  • 多模態聯合創建于比較:分別進行了自由形式的交錯文檔創建、圖片質量和人工評估三個實驗。實驗結果表明:DREAMLLM可以根據給定的指令生成有意義的響應。系統可以通過預測所提出的令牌在任何指定位置自主創建圖像,從而消除了對額外人工干預的需要。DREAMLLM生成的圖像準確地對應于相關文本。證明了所提方法的有效性。

總結

本文介紹了一個名為DREAMLLM的學習框架,它能夠同時實現多模態理解和創作。DREAMLLM具有兩個基本原則:第一個原則是通過在原始多模態空間中進行直接采樣,生成語言和圖像后驗概率的生成建模。第二個原則是促進生成原始、交錯文檔,模擬文本和圖像內容以及無結構的布局,使DREAMLLM能夠有效地學習所有條件、邊際和聯合多模態分布。實驗結果表明,DREAMLLM是第一個能夠生成自由形式交錯內容的MLLM,并具有卓越的性能。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 框架
    +關注

    關注

    0

    文章

    399

    瀏覽量

    17437
  • 語言模型
    +關注

    關注

    0

    文章

    508

    瀏覽量

    10247
  • 機器智能
    +關注

    關注

    0

    文章

    55

    瀏覽量

    8588

原文標題:DreamLLM:多功能多模態大型語言模型,你的DreamLLM~

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    大型語言模型有哪些用途?

    大型語言模型能識別、總結、翻譯、預測和生成文本及其他內容。 AI 應用在大型語言模型的幫助下,可
    的頭像 發表于 02-23 19:50 ?5116次閱讀

    大型語言模型有哪些用途?大型語言模型如何運作呢?

    大型語言模型能識別、總結、翻譯、預測和生成文本及其他內容。
    的頭像 發表于 03-08 13:57 ?7918次閱讀

    利用大語言模型模態任務

    大型語言模型LLM(Large Language Model)具有很強的通用知識理解以及較強的邏輯推理能力,但其只能處理文本數據。
    的頭像 發表于 05-10 16:53 ?1013次閱讀
    利用大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>做<b class='flag-5'>多</b><b class='flag-5'>模態</b>任務

    如何利用LLM做模態任務?

    大型語言模型LLM(Large Language Model)具有很強的通用知識理解以及較強的邏輯推理能力,但其只能處理文本數據。雖然已經發布的GPT4具備圖片理解能力,但目前還未開放
    的頭像 發表于 05-11 17:09 ?877次閱讀
    如何利用LLM做<b class='flag-5'>多</b><b class='flag-5'>模態</b>任務?

    邱錫鵬團隊提出具有內生跨模態能力的SpeechGPT,為模態LLM指明方向

    大型語言模型(LLM)在各種自然語言處理任務上表現出驚人的能力。與此同時,模態
    的頭像 發表于 05-22 14:38 ?652次閱讀
    邱錫鵬團隊提出具有內生跨<b class='flag-5'>模態</b>能力的SpeechGPT,為<b class='flag-5'>多</b><b class='flag-5'>模態</b>LLM指明方向

    VisCPM:邁向多語言模態模型時代

    隨著 GPT-4 和 Stable Diffusion 等模型模態能力的突飛猛進,模態模型
    的頭像 發表于 07-10 10:05 ?691次閱讀
    VisCPM:邁向多<b class='flag-5'>語言</b><b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>時代

    更強更通用:智源「悟道3.0」Emu模態模型開源,在模態序列中「補全一切」

    當前學界和工業界都對模態模型研究熱情高漲。去年,谷歌的 Deepmind 發布了模態視覺語言
    的頭像 發表于 07-16 20:45 ?699次閱讀
    更強更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>開源,在<b class='flag-5'>多</b><b class='flag-5'>模態</b>序列中「補全一切」

    探究編輯模態語言模型的可行性

    不同于單模態模型編輯,模態模型編輯需要考慮更多的模態信息。文章出發點依然從單
    發表于 11-09 14:53 ?485次閱讀
    探究編輯<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的可行性

    哈工大提出Myriad:利用視覺專家進行工業異常檢測的大型模態模型

    最近,大型模態(即視覺和語言模型(LMM)在圖像描述、視覺理解、視覺推理等多種視覺任務上表現出了卓越的感知能力,使其成為更易于理解的異常
    的頭像 發表于 11-21 16:08 ?1759次閱讀
    哈工大提出Myriad:利用視覺專家進行工業異常檢測的<b class='flag-5'>大型</b><b class='flag-5'>多</b><b class='flag-5'>模態</b><b class='flag-5'>模型</b>

    自動駕駛和模態語言模型的發展歷程

    模態語言模型(MLLM) 最近引起了廣泛的關注,其將 LLM 的推理能力與圖像、視頻和音頻數據相結合,通過多模態對齊使它們能夠更高效地執
    發表于 12-28 11:45 ?492次閱讀
    自動駕駛和<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的發展歷程

    機器人基于開源的模態語言視覺大模型

    ByteDance Research 基于開源的模態語言視覺大模型 OpenFlamingo 開發了開源、易用的 RoboFlamingo 機器人操作
    發表于 01-19 11:43 ?367次閱讀
    機器人基于開源的<b class='flag-5'>多</b><b class='flag-5'>模態</b><b class='flag-5'>語言</b>視覺大<b class='flag-5'>模型</b>

    韓國Kakao宣布開發模態語言模型“蜜蜂”

    韓國互聯網巨頭Kakao最近宣布開發了一種名為“蜜蜂”(Honeybee)的模態大型語言模型。這種創新
    的頭像 發表于 01-19 16:11 ?647次閱讀

    谷歌模型軟件有哪些功能

    谷歌模型軟件通常指的是谷歌推出的一系列人工智能模型和軟件工具,其中最具代表性的是Google Gemini。Google Gemini是谷歌DeepMind團隊開發的一款大型語言
    的頭像 發表于 03-01 16:20 ?615次閱讀

    智譜AI發布全新模態開源模型GLM-4-9B

    近日,智譜AI在人工智能領域取得重大突破,成功推出全新開源模型GLM-4-9B。這款模型以其卓越的模態能力,再次刷新了業界對于大型
    的頭像 發表于 06-07 09:17 ?687次閱讀

    利用OpenVINO部署Qwen2模態模型

    模態模型的核心思想是將不同媒體數據(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態之間的關聯,實現更加智能化的信息處理。簡單來說,
    的頭像 發表于 10-18 09:39 ?329次閱讀