人妻无码第一区二区三区_久久久久久久综合色一本_美女黄频视频大全免费的国内

近來，AI領域迎來各個領域的大突破，ChatGPT展現出強大的語言問答能力和推理能力，然而作為一個自然語言模型，它無法處理視覺信息。

與此同時，視覺基礎模型如Visual Transformer或者Stable Diffusion等，則展現出強大的視覺理解和生成能力。

Visual Transformer將ChatGPT作為邏輯處理中心，集成若干視覺基礎模型，從而達到如下效果：

視覺聊天系統Visual ChatGPT可以接收和發送文本和圖像

提供復雜的視覺問答，或者視覺編輯指令，可以通過多步推理調用工具來解決復雜視覺任務

可以提供反饋，總結答案，主動詢問模糊的指令等

這個工作開啟了ChatGPT借助視覺基礎模型作為工具，進行視覺任務處理的研究方向。

論文鏈接：

https://arxiv.org/abs/2303.04671

開源代碼：

https://github.com/microsoft/visual-chatgpt

論文作者：

Chenfei Wu, Shengming Yin, Weizhen Qi, Xiaodong Wang, Zecheng Tang, Nan Duan

機構：微軟亞洲研究院

模型效果

工作流程

記對話，第i輪的回復，是通過若干次思考調用工具的結果來最終總結出來的。我們記第i輪對話中，第j次的工具調用中間答案記作，那么

其中，是全局原則，是各個視覺基礎模型，是歷史會話記憶，是這一輪的用戶輸入，是這輪對話里思考和的歷史，是中間答案，是prompt manager，用于把上面各個功能轉化成合理的文本prompt，從而可以交給ChatGPT進行處理。以下圖為例進行講解：

對于用戶輸入，添加于全局原則prompt，工具描述prompt，歷史會話prompt之后，送給ChatGPT進行邏輯推理（Use VFM?）得到推理結果（就是這一次得到的GPT文本輸出）。經過正則匹配進行分析，如果工具調用結束，則直接提取總結輸出作為最終回復，如果是需要繼續調用工具，則將提取到的工具名稱、工作參數，輸入視覺基礎模型，從而得到，置于思考歷史中，進行下一輪推理。或者說喂給GPT的內容為：

第一次問答里，第一個API：

第一次問答里，第二個API:

第一次問答里，第三個API:

第二次問答里，第一個API:

第二次問答里，第二個API:

得到GPT的輸出后，正則匹配進行工具的判斷和解析，最終決定流程。API調用歷史在每次回答后清空，其中只有最后總結性的回復被記錄進入對話歷史

細節描述

: 系統原則的提示符，“Visual ChatGPT是一個可以處理廣泛語言和視覺任務的助手，xxxxxx”。在這個prompt的部分，以下內容被強調：Visual ChatGPT的角色，可以訪問且需要盡可能使用視覺基礎模型，要對文件名稱非常敏感不可以捏造，可以且必須遵循嚴格的Chain-of-Thought思考鏈的格式進行思考（不然正則匹配不出來是否使用函數和函數名稱參數），可靠性等描述。

: 對每個視覺基礎模型的描述，包含工具名稱，使用方法，輸入輸出格式，實例

: 用戶的輸入會被改寫，用來理解圖片和強制GPT思考

：對輸出的處理，鏈式的文件命名，"imaga/{Name}_{Operation}_{Prev_Name}_{Org_Name}.png"，強制修改GPT內容，讓GPT降低思考難度，在指代不清時二次詢問用戶等。

Case Study

論文分析了在各個模塊，如果prompt manager設計不到位，會各自出現什么問題：

在中，如果不強調對圖片文件名的敏感，可能會發生指代錯誤。如果不強調思考鏈的格式嚴格，可能正則匹配匹不上。如果不強調可靠性，不要基于文本上下文腦補，可能會出現不讀圖片直接回答的情況。如果不強調可以鏈式使用工具，則可能出現一口吃個大胖子而不能一步一步思考的情況。

類似的，對于工具包的描述，也應該對名稱、功能、輸入輸出格式進行嚴格的設計。其中，for example進行舉例影響不大，只要前面描述足夠清楚，GPT可以理解，可以刪掉保存token長度。

對于用戶輸入和工具包輸出的后處理，如圖。比較神奇的是，右上角的舉例里，用ChatGPT自己的口吻來說一些原則（從而讓ChatGPT以為是它自己說的，然后順著說），以及直接讓ChatGPT說到"Thought: Do I need a tool"繼續生成，能強制進入思考鏈，從而大幅度降低思考難度。左下角的舉例里，對于鏈式的文件命名，問Visual ChatGPT能不能總結出來文件命名原則，基本總結正確，這說明此種命名方法，確實可以幫助Visual ChatGPT理解文件的內容和依賴關系，生成路徑。

有意義的啟發

開啟了ChatGPT處理視覺任務的新大門

NLP --> Natural Language PhotoShop，自然語言文本描述下的圖片創作編輯和問答

可以通過系統設計和工具包設計的Prompt，做到無監督的工具調用，類似于zero-shot的toolformer

ChatGPT本身對仿真場景的能力很強，也讀過圖片路徑和函數關系，從而善于使用基礎視覺模型

Prompt很重要，作為純語言模型，前文說它是啥他就仿照啥，除了細致的要求，一定要多夸一夸他，是能力很強的處理模型，那它順著說，能力才會真的強

Visual ChatGPT本身是一個語言模型，所謂的兩方多輪對話只是一個Human: AI: 的多輪特殊形式前文的繼續生產，所以，完全可以強行給前文AI: 讓ai自己說一些東西出來，是它信了是它自己說的，這能夠極大的降低生成難度。這在本篇論文里對幾個場景的幫助很大。例如，用戶輸入圖片后，改寫為“Human: 上傳了一張圖片，描述為：{}。注意，這里的描述是幫助你理解圖片的，你不能基于它幻想而不調用工具。如果你理解了，就恢復收到。AI：收到。”注意，這里AI回復的收到，并不是真的GPT的生成內容，而是我們強行寫入進dialogue history memory的，而且可以發現，AI真的相信了。另外一個點是，在用戶的輸入后面，挨著的應該是GPT自己的思考內容，如果我們借它的口，自己說“推理信息僅自己可見，需要在最后總結的時候把重要信息復述給讀者”，效果比在最前文的prompt里效果好很多，可能是因為距離的原因，也可能是AI自己說出來的原因。另外，可以直接給到"Thought: do i need a tool?"去讓GPT繼續生成，從而一定進入推理鏈，可以匹配到遠處描述思維鏈格式的prompt內容，極大的降低思考難度。

外網評價

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

微軟

微軟

+關注

關注
4

文章
6572

瀏覽量
103963
AI

AI

+關注

關注
87

文章
30239

瀏覽量
268475
ChatGPT

ChatGPT

+關注

關注
29

文章
1549

瀏覽量
7507

原文標題：微軟發布Visual ChatGPT：視覺模型加持ChatGPT實現絲滑聊天

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

怎樣搭建基于 ChatGPT 的聊天系統

搭建一個基于ChatGPT的聊天系統是一個涉及多個步驟的過程，包括理解ChatGPT的API、設計用戶界面、處理數據和集成ChatGPT模型

發表于 10-25 16:23 ?443次閱讀

ChatGPT 適合哪些行業

。客戶服務行業自動化客服：ChatGPT可以作為聊天機器人，提供24/7的客戶支持，處理常見問題和查詢。個性化服務：通過分析客戶的語言習慣和偏好，ChatGPT可以提供更加個性化的服務體驗。情感分析：

發表于 10-25 16:11 ?381次閱讀

如何使用 ChatGPT 進行內容創作

到ChatGPT平臺。選擇模型： ChatGPT目前支持GPT3.5和GPT4兩個模型。根據創作需求，選擇合適的模型。一般來說，GPT4

發表于 10-25 16:08 ?369次閱讀

華納云：ChatGPT 登陸 Windows

ChatGPT 現已在 Windows 上推出。今天，OpenAI宣布已開始預覽其 AI 聊天機器人平臺ChatGPT的專用 Windows 應用程序。 OpenAI 表示， ChatGPT

發表于 10-18 15:50 ?207次閱讀

大模型LLM與ChatGPT的技術原理

與機器的交互方式。這些技術通過深度學習和自然語言生成（Natural Language Generation, NLG）的結合，實現了對復雜語言任務的高效處理。本文將深入探討大模型LLM和ChatGPT的技術原理，并通過代碼示例

發表于 07-10 10:38 ?716次閱讀

llm模型和chatGPT的區別

，有許多不同的LLM模型，如BERT、GPT、T5等。 ChatGPT是一種基于GPT（Generative Pre-trained Transformer）模型的聊天機器人。GPT

發表于 07-09 09:55 ?935次閱讀

使用espbox lite進行chatgpt_demo的燒錄報錯是什么原因？

我使用espbox lite進行chatgpt_demo的燒錄我的idf是v5.1release版本的，espbox是master版本的在編譯時似乎沒有什么問題在燒錄時報錯請問這是什么原因

發表于 06-11 08:45

OpenAI 深夜拋出王炸 “ChatGPT- 4o”， “她” 來了

當地時間5月13日OpenAI推出ChatGPT-4o，代表了人工智能向前邁出的一大步。在GPT-4turbo的強大基礎上，這種迭代擁有顯著的改進。在發布會的演示中，OpenAI展示該模型的高級

發表于 05-27 15:43

【Longan Pi 3H 開發板試用連載體驗】給ChatGPT裝上眼睛，還可以語音對話

結果整合，整合后再輸入ChatGPT或其他大語言模型。最后再將大語言模型的輸出結果利用TTS轉化為語音進行播放。實現Chatgpt多模態輸入

發表于 04-12 12:41

在FPGA設計中是否可以應用ChatGPT生成想要的程序呢

當下AI人工智能崛起，很多開發領域都可看到ChatGPT的身影，FPGA設計中，是否也可以用ChatGPT輔助設計呢？

發表于 03-28 23:41

微軟和OpenAI面臨關于ChatGPT和Copilot的更多訴訟指控

這三家媒體指責 OpenAI 聊天機器人 ChatGPT（微軟Copilot也使用此項技術）在訓練過程中，未經授權便擅自拷貝了發布于自家網站的文章。他們宣稱，若用戶知曉

發表于 02-29 11:28 ?525次閱讀

【國產FPGA+OMAPL138開發板體驗】（原創）6.FPGA連接ChatGPT 4

訪問ChatGPT 4這樣的AI模型是非常復雜的，因為這涉及到大量的數據傳輸、協議實現、并行處理、優化等等。更重要的是，ChatGPT 4這樣的模型

發表于 02-14 21:58

OpenAI推出Vision Pro版ChatGPT

OpenAI近日宣布，其知名聊天機器人ChatGPT已正式進駐蘋果Vision Pro的visionOS App Store，用戶現在可以直接在visionOS上下載并使用這款應用。盡管在visionOS上的顯示效果與iPad版本相似，但

發表于 02-06 16:01 ?834次閱讀

微軟推出Copilot安卓應用類似ChatGPT功能

微軟在安卓系統上的Copilot應用程序與ChatGPT非常相似，可以訪問聊天機器人功能，通過DALL-E 3生成圖像，并可以為電子郵件和文檔起草文本。它還包括免費訪問OpenAI最新的GPT-4

發表于 12-28 16:59 ?1053次閱讀

ChatGPT原理 ChatGPT模型訓練 chatgpt注冊流程相關簡介

ChatGPT注冊沒有外國手機號驗證怎么辦？ ChatGPT作為近期火爆網絡的AI項目，受到了前所未有的關注。我們可以與AI機器人實時聊天，獲得問題的答案。但受ChatGPT服務器及相

發表于 12-06 16:28 ?852次閱讀

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

微軟發布Visual ChatGPT：視覺模型加持ChatGPT實現絲滑聊天

評論

怎樣搭建基于 ChatGPT 的聊天系統

ChatGPT 適合哪些行業

如何使用 ChatGPT 進行內容創作

華納云：ChatGPT 登陸 Windows

大模型LLM與ChatGPT的技術原理

llm模型和chatGPT的區別

使用espbox lite進行chatgpt_demo的燒錄報錯是什么原因？

OpenAI 深夜拋出王炸 “ChatGPT- 4o”， “她” 來了

【Longan Pi 3H 開發板試用連載體驗】給ChatGPT裝上眼睛，還可以語音對話

在FPGA設計中是否可以應用ChatGPT生成想要的程序呢

微軟和OpenAI面臨關于ChatGPT和Copilot的更多訴訟指控

【國產FPGA+OMAPL138開發板體驗】（原創）6.FPGA連接ChatGPT 4

OpenAI推出Vision Pro版ChatGPT

微軟推出Copilot安卓應用類似ChatGPT功能

ChatGPT原理 ChatGPT模型訓練 chatgpt注冊流程相關簡介