精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

微軟發布Visual ChatGPT:視覺模型加持ChatGPT實現絲滑聊天

深度學習自然語言處理 ? 來源:微軟亞洲研究院 ? 2023-03-16 10:35 ? 次閱讀

近來,AI領域迎來各個領域的大突破,ChatGPT展現出強大的語言問答能力和推理能力,然而作為一個自然語言模型,它無法處理視覺信息

與此同時,視覺基礎模型如Visual Transformer或者Stable Diffusion等,則展現出強大的視覺理解和生成能力。

Visual Transformer將ChatGPT作為邏輯處理中心,集成若干視覺基礎模型,從而達到如下效果:

視覺聊天系統Visual ChatGPT可以接收和發送文本和圖像

提供復雜的視覺問答,或者視覺編輯指令,可以通過多步推理調用工具來解決復雜視覺任務

可以提供反饋,總結答案,主動詢問模糊的指令等

這個工作開啟了ChatGPT借助視覺基礎模型作為工具,進行視覺任務處理的研究方向。

論文鏈接:

https://arxiv.org/abs/2303.04671

開源代碼:

https://github.com/microsoft/visual-chatgpt

論文作者:

Chenfei Wu, Shengming Yin, Weizhen Qi, Xiaodong Wang, Zecheng Tang, Nan Duan

機構:微軟亞洲研究院

模型效果

5f12d024-c378-11ed-bfe3-dac502259ad0.gif

5f706e46-c378-11ed-bfe3-dac502259ad0.png

工作流程

5fc0bab8-c378-11ed-bfe3-dac502259ad0.png

記對話,第i輪的回復,是通過若干次思考調用工具的結果來最終總結出來的。我們記第i輪對話中,第j次的工具調用中間答案記作,那么

其中,是全局原則,是各個視覺基礎模型,是歷史會話記憶,是這一輪的用戶輸入,是這輪對話里思考和的歷史,是中間答案,是prompt manager,用于把上面各個功能轉化成合理的文本prompt,從而可以交給ChatGPT進行處理。以下圖為例進行講解:

5fdc300e-c378-11ed-bfe3-dac502259ad0.png

對于用戶輸入,添加于全局原則prompt,工具描述prompt,歷史會話prompt之后,送給ChatGPT進行邏輯推理(Use VFM?)得到推理結果(就是這一次得到的GPT文本輸出)。經過正則匹配進行分析,如果工具調用結束,則直接提取總結輸出作為最終回復,如果是需要繼續調用工具,則將提取到的工具名稱、工作參數,輸入視覺基礎模型,從而得到,置于思考歷史中,進行下一輪推理。或者說喂給GPT的內容為:

第一次問答里,第一個API

第一次問答里,第二個API:

第一次問答里,第三個API:

第二次問答里,第一個API:

第二次問答里,第二個API:

得到GPT的輸出后,正則匹配進行工具的判斷和解析,最終決定流程。API調用歷史在每次回答后清空,其中只有最后總結性的回復被記錄進入對話歷史

細節描述

60621eb2-c378-11ed-bfe3-dac502259ad0.png

: 系統原則的提示符,“Visual ChatGPT是一個可以處理廣泛語言和視覺任務的助手,xxxxxx”。在這個prompt的部分,以下內容被強調:Visual ChatGPT的角色,可以訪問且需要盡可能使用視覺基礎模型,要對文件名稱非常敏感不可以捏造,可以且必須遵循嚴格的Chain-of-Thought思考鏈的格式進行思考(不然正則匹配不出來是否使用函數和函數名稱參數),可靠性等描述。

: 對每個視覺基礎模型的描述,包含工具名稱,使用方法,輸入輸出格式,實例

: 用戶的輸入會被改寫,用來理解圖片和強制GPT思考

:對輸出的處理,鏈式的文件命名,"imaga/{Name}_{Operation}_{Prev_Name}_{Org_Name}.png",強制修改GPT內容,讓GPT降低思考難度,在指代不清時二次詢問用戶等。

Case Study

論文分析了在各個模塊,如果prompt manager設計不到位,會各自出現什么問題:

608d634c-c378-11ed-bfe3-dac502259ad0.png

在中,如果不強調對圖片文件名的敏感,可能會發生指代錯誤。如果不強調思考鏈的格式嚴格,可能正則匹配匹不上。如果不強調可靠性,不要基于文本上下文腦補,可能會出現不讀圖片直接回答的情況。如果不強調可以鏈式使用工具,則可能出現一口吃個大胖子而不能一步一步思考的情況。

61a8537c-c378-11ed-bfe3-dac502259ad0.png

類似的,對于工具包的描述,也應該對名稱、功能、輸入輸出格式進行嚴格的設計。其中,for example進行舉例影響不大,只要前面描述足夠清楚,GPT可以理解,可以刪掉保存token長度。

61b316c2-c378-11ed-bfe3-dac502259ad0.png

對于用戶輸入和工具包輸出的后處理,如圖。比較神奇的是,右上角的舉例里,用ChatGPT自己的口吻來說一些原則(從而讓ChatGPT以為是它自己說的,然后順著說),以及直接讓ChatGPT說到"Thought: Do I need a tool"繼續生成,能強制進入思考鏈,從而大幅度降低思考難度。左下角的舉例里,對于鏈式的文件命名,問Visual ChatGPT能不能總結出來文件命名原則,基本總結正確,這說明此種命名方法,確實可以幫助Visual ChatGPT理解文件的內容和依賴關系,生成路徑。

有意義的啟發

開啟了ChatGPT處理視覺任務的新大門

NLP --> Natural Language PhotoShop,自然語言文本描述下的圖片創作編輯和問答

可以通過系統設計和工具包設計的Prompt,做到無監督的工具調用,類似于zero-shot的toolformer

ChatGPT本身對仿真場景的能力很強,也讀過圖片路徑和函數關系,從而善于使用基礎視覺模型

Prompt很重要,作為純語言模型,前文說它是啥他就仿照啥,除了細致的要求,一定要多夸一夸他,是能力很強的處理模型,那它順著說,能力才會真的強

Visual ChatGPT本身是一個語言模型,所謂的兩方多輪對話只是一個Human: AI: 的多輪特殊形式前文的繼續生產,所以,完全可以強行給前文AI: 讓ai自己說一些東西出來,是它信了是它自己說的,這能夠極大的降低生成難度。這在本篇論文里對幾個場景的幫助很大。例如,用戶輸入圖片后,改寫為“Human: 上傳了一張圖片,描述為:{}。注意,這里的描述是幫助你理解圖片的,你不能基于它幻想而不調用工具。如果你理解了,就恢復收到。AI:收到。”注意,這里AI回復的收到,并不是真的GPT的生成內容,而是我們強行寫入進dialogue history memory的,而且可以發現,AI真的相信了。另外一個點是,在用戶的輸入后面,挨著的應該是GPT自己的思考內容,如果我們借它的口,自己說“推理信息僅自己可見,需要在最后總結的時候把重要信息復述給讀者”,效果比在最前文的prompt里效果好很多,可能是因為距離的原因,也可能是AI自己說出來的原因。另外,可以直接給到"Thought: do i need a tool?"去讓GPT繼續生成,從而一定進入推理鏈,可以匹配到遠處描述思維鏈格式的prompt內容,極大的降低思考難度。

外網評價

630d2c42-c378-11ed-bfe3-dac502259ad0.png

631bedd6-c378-11ed-bfe3-dac502259ad0.png

63234c70-c378-11ed-bfe3-dac502259ad0.png

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 微軟
    +關注

    關注

    4

    文章

    6572

    瀏覽量

    103963
  • AI
    AI
    +關注

    關注

    87

    文章

    30239

    瀏覽量

    268475
  • ChatGPT
    +關注

    關注

    29

    文章

    1549

    瀏覽量

    7507

原文標題:微軟發布Visual ChatGPT:視覺模型加持ChatGPT實現絲滑聊天

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    怎樣搭建基于 ChatGPT聊天系統

    搭建一個基于ChatGPT聊天系統是一個涉及多個步驟的過程,包括理解ChatGPT的API、設計用戶界面、處理數據和集成ChatGPT模型
    的頭像 發表于 10-25 16:23 ?443次閱讀

    ChatGPT 適合哪些行業

    。 客戶服務行業 自動化客服 :ChatGPT可以作為聊天機器人,提供24/7的客戶支持,處理常見問題和查詢。 個性化服務 :通過分析客戶的語言習慣和偏好,ChatGPT可以提供更加個性化的服務體驗。 情感分析 :
    的頭像 發表于 10-25 16:11 ?381次閱讀

    如何使用 ChatGPT 進行內容創作

    ChatGPT平臺。 選擇模型ChatGPT目前支持GPT3.5和GPT4兩個模型。根據創作需求,選擇合適的模型。一般來說,GPT4
    的頭像 發表于 10-25 16:08 ?369次閱讀

    華納云:ChatGPT 登陸 Windows

    ChatGPT 現已在 Windows 上推出。 今天,OpenAI宣布已開始預覽其 AI 聊天機器人平臺ChatGPT的專用 Windows 應用程序。 OpenAI 表示, ChatGPT
    的頭像 發表于 10-18 15:50 ?207次閱讀

    模型LLM與ChatGPT的技術原理

    與機器的交互方式。這些技術通過深度學習和自然語言生成(Natural Language Generation, NLG)的結合,實現了對復雜語言任務的高效處理。本文將深入探討大模型LLM和ChatGPT的技術原理,并通過代碼示例
    的頭像 發表于 07-10 10:38 ?716次閱讀

    llm模型chatGPT的區別

    ,有許多不同的LLM模型,如BERT、GPT、T5等。 ChatGPT是一種基于GPT(Generative Pre-trained Transformer)模型聊天機器人。GPT
    的頭像 發表于 07-09 09:55 ?935次閱讀

    使用espbox lite進行chatgpt_demo的燒錄報錯是什么原因?

    我使用espbox lite進行chatgpt_demo的燒錄 我的idf是v5.1release版本的,espbox是master版本的 在編譯時似乎沒有什么問題 在燒錄時報錯 請問這是什么原因
    發表于 06-11 08:45

    OpenAI 深夜拋出王炸 “ChatGPT- 4o”, “她” 來了

    當地時間5月13日OpenAI推出ChatGPT-4o,代表了人工智能向前邁出的一大步。在GPT-4turbo的強大基礎上,這種迭代擁有顯著的改進。在發布會的演示中,OpenAI展示該模型的高級
    發表于 05-27 15:43

    【Longan Pi 3H 開發板試用連載體驗】給ChatGPT裝上眼睛,還可以語音對話

    結果整合,整合后再輸入ChatGPT或其他大語言模型。最后再將大語言模型的輸出結果利用TTS轉化為語音進行播放。實現Chatgpt多模態輸入
    發表于 04-12 12:41

    在FPGA設計中是否可以應用ChatGPT生成想要的程序呢

    當下AI人工智能崛起,很多開發領域都可看到ChatGPT的身影,FPGA設計中,是否也可以用ChatGPT輔助設計呢?
    發表于 03-28 23:41

    微軟和OpenAI面臨關于ChatGPT和Copilot的更多訴訟指控

    這三家媒體指責 OpenAI 聊天機器人 ChatGPT微軟Copilot也使用此項技術)在訓練過程中,未經授權便擅自拷貝了發布于自家網站的文章。他們宣稱,若用戶知曉
    的頭像 發表于 02-29 11:28 ?525次閱讀

    【國產FPGA+OMAPL138開發板體驗】(原創)6.FPGA連接ChatGPT 4

    訪問ChatGPT 4這樣的AI模型是非常復雜的,因為這涉及到大量的數據傳輸、協議實現、并行處理、優化等等。更重要的是,ChatGPT 4這樣的模型
    發表于 02-14 21:58

    OpenAI推出Vision Pro版ChatGPT

    OpenAI近日宣布,其知名聊天機器人ChatGPT已正式進駐蘋果Vision Pro的visionOS App Store,用戶現在可以直接在visionOS上下載并使用這款應用。盡管在visionOS上的顯示效果與iPad版本相似,但
    的頭像 發表于 02-06 16:01 ?834次閱讀

    微軟推出Copilot安卓應用 類似ChatGPT功能

    微軟在安卓系統上的Copilot應用程序與ChatGPT非常相似,可以訪問聊天機器人功能,通過DALL-E 3生成圖像,并可以為電子郵件和文檔起草文本。它還包括免費訪問OpenAI最新的GPT-4
    的頭像 發表于 12-28 16:59 ?1053次閱讀
    <b class='flag-5'>微軟</b>推出Copilot安卓應用 類似<b class='flag-5'>ChatGPT</b>功能

    ChatGPT原理 ChatGPT模型訓練 chatgpt注冊流程相關簡介

    ChatGPT注冊沒有外國手機號驗證怎么辦? ChatGPT作為近期火爆網絡的AI項目,受到了前所未有的關注。我們可以與AI機器人實時聊天,獲得問題的答案。但受ChatGPT服務器及相
    的頭像 發表于 12-06 16:28 ?852次閱讀
    <b class='flag-5'>ChatGPT</b>原理 <b class='flag-5'>ChatGPT</b><b class='flag-5'>模型</b>訓練 <b class='flag-5'>chatgpt</b>注冊流程相關簡介