国产亚州精品女人久久久久久_欧美日韩国产精品中文_亚洲av日韩av永久在线观看_欧美激性欧美激情在线户外_国产黄片久久三级_一级特黄性色生活片免费_非洲人粗长硬配种视频_香蕉国产精品偷在线观_日韩少妇无码一区二区三区

【導(dǎo)讀】浙大&微軟推出的HuggingGPT爆火之后，剛剛開放了demo，急不可待的網(wǎng)友自己上手體驗了一番。

最強組合HuggingFace+ChatGPT=「賈維斯」現(xiàn)在開放demo了。

前段時間，浙大&微軟發(fā)布了一個大模型協(xié)作系統(tǒng)HuggingGPT直接爆火。研究者提出了用ChatGPT作為控制器，連接HuggingFace社區(qū)中的各種AI模型，完成多模態(tài)復(fù)雜任務(wù)。整個過程，只需要做的是：用自然語言將你的需求輸出。英偉達科學(xué)家稱，這是我本周讀到的最有意思的論文。它的思想非常接近我之前說的「Everything App」，即萬物皆App，被AI直接讀取信息。

上手體驗

現(xiàn)在，HuggingGPT增加了Gradio演示。

項目地址：https://github.com/microsoft/JARVIS 有網(wǎng)友便上手體驗了一番，先來「識別圖上有幾個人」？

HuggingGPT根據(jù)推理結(jié)果，得出圖片中有2個人正在街道上行走。具體過程如下：首先使用圖像到文本模型nlpconnect/vit-gpt2-image-captioning進行圖像描述，生成的文本「2個女人在有火車的街道上行走」。接著，使用了目標檢測模型facebook/detrresnet 50來檢測圖片中的人數(shù)。模型檢測出7個物體，2個人。再使用視覺問題回答模型dandelin/vilt-b32-finetuned-vqa得出結(jié)果。最后，系統(tǒng)提供了詳細的響應(yīng)和用于解答問題的模型信息。

另外，讓它理解「我愛你」這句話的情感，并將其翻譯成泰米爾語（Tami?）。 HuggingGPT調(diào)用了以下模型：首先，使用了模型「dslim/bert-base-NER」對文本「l love you」進行情感分類，是「浪漫」。然后，使用「ChatGPT」將文本翻譯成泰米爾語，即「Nan unnai kadalikiren」。在推理結(jié)果中沒有生成的圖片、音頻或視頻文件。

轉(zhuǎn)錄MP3文件時，HuggingGPT卻失敗了。網(wǎng)友表示，「不確定這是否是我的輸入文件的問題。」

再來看看圖像生成的能力。輸入「一只貓?zhí)琛箞D像上添加文字「I LOVE YOU」作為疊加層。 HuggingGPT首先使用了「runwayml/stable-diffusion-1-5」模型根據(jù)給定的文本生成「跳舞的貓」的圖片。然后，使用同一個模型根據(jù)給定的文本生成了「I LOVE YOU」的圖片。最后，將2個圖片合并在一起，輸出如下圖：

賈維斯照進現(xiàn)實

項目公開沒幾天，賈維斯已經(jīng)在GitHub上收獲了12.5k星，以及811個fork。

研究者指出解決大型語言模型（LLMs）當前的問題，可能是邁向AGI的第一步，也是關(guān)鍵的一步。

因為當前大型語言模型的技術(shù)仍然存在著一些缺陷，因此在構(gòu)建 AGI 系統(tǒng)的道路上面臨著一些緊迫的挑戰(zhàn)。

為了處理復(fù)雜的人工智能任務(wù)，LLMs應(yīng)該能夠與外部模型協(xié)調(diào)，以利用它們的能力。因此，關(guān)鍵點在于如何選擇合適的中間件來橋接LLMs和AI模型。在這篇研究論文中，研究者提出在HuggingGPT中語言是通用的接口。其工作流程主要分為四步：

論文地址：https://arxiv.org/pdf/2303.17580.pdf 首先是任務(wù)規(guī)劃，ChatGPT解析用戶請求，將其分解為多個任務(wù)，并根據(jù)其知識規(guī)劃任務(wù)順序和依賴關(guān)系。接著，進行模型選擇。LLM根據(jù)HuggingFace中的模型描述將解析后的任務(wù)分配給專家模型。然后執(zhí)行任務(wù)。專家模型在推理端點上執(zhí)行分配的任務(wù)，并將執(zhí)行信息和推理結(jié)果記錄到LLM中。最后是響應(yīng)生成。LLM總結(jié)執(zhí)行過程日志和推理結(jié)果，并將摘要返回給用戶。

假如給出這樣一個請求：

請生成一個女孩正在看書的圖片，她的姿勢與example.jpg中的男孩相同。然后請用你的聲音描述新圖片。

可以看到HuggingGPT是如何將它拆解為6個子任務(wù)，并分別選定模型執(zhí)行得到最終結(jié)果的。

通過將AI模型描述納入提示中，ChatGPT可以被視為管理人工智能模型的大腦。因此，這一方法可以讓ChatGPT能夠調(diào)用外部模型，來解決實際任務(wù)。簡單來講，HuggingGPT是一個協(xié)作系統(tǒng)，并非是大模型。它的作用就是連接ChatGPT和HuggingFace，進而處理不同模態(tài)的輸入，并解決眾多復(fù)雜的人工智能任務(wù)。所以，HuggingFace社區(qū)中的每個AI模型，在HuggingGPT庫中都有相應(yīng)的模型描述，并將其融合到提示中以建立與ChatGPT的連接。隨后，HuggingGPT將ChatGPT作為大腦來確定問題的答案。到目前為止，HuggingGPT已經(jīng)圍繞ChatGPT在HuggingFace上集成了數(shù)百個模型，涵蓋了文本分類、目標檢測、語義分割、圖像生成、問答、文本到語音、文本到視頻等24個任務(wù)。實驗結(jié)果證明，HuggingGPT可以在各種形式的復(fù)雜任務(wù)上表現(xiàn)出良好的性能。

網(wǎng)友熱評

有網(wǎng)友稱，HuggingGPT類似于微軟此前提出的Visual ChatGPT，似乎他們把最初的想法擴展到了一組龐大的預(yù)訓(xùn)練模型上。

Visual ChatGPT是直接基于ChatGPT構(gòu)建，并向其注入了許多可視化模型（VFMs）。文中提出了Prompt Manage。在PM的幫助下，ChatGPT可以利用這些VFMs，并以迭代的方式接收其反饋，直到滿足用戶的要求或達到結(jié)束條件。

還有網(wǎng)友認為，這個想法確實與ChatGPT插件非常相似。以LLM為中心進行語義理解和任務(wù)規(guī)劃，可以無限提升LLM的能力邊界。通過將LLM與其他功能或領(lǐng)域?qū)＜蚁嘟Y(jié)合，我們可以創(chuàng)建更強大、更靈活的 AI 系統(tǒng)，能夠更好地適應(yīng)各種任務(wù)和需求。

這就是我一直以來對AGI的看法，人工智能模型能夠理解復(fù)雜任務(wù)，然后將較小的任務(wù)分派給其他更專業(yè)的AI模型。

就像大腦一樣，它也有不同的部分來完成特定的任務(wù)，聽起來很符合邏輯。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
30189

瀏覽量
268444
模型

模型

+關(guān)注

關(guān)注
1

文章
3175

瀏覽量
48721
ChatGPT

ChatGPT

+關(guān)注

關(guān)注
29

文章
1548

瀏覽量
7504

原文標題：炫到爆炸！HuggingGPT在線演示驚艷亮相，網(wǎng)友親測圖像生成絕了

文章出處：【微信號：玩轉(zhuǎn)VS Code，微信公眾號：玩轉(zhuǎn)VS Code】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

鼎陽科技亮相2024德國慕尼黑電子展

2024年德國慕尼黑electronica電子展于近日在德國慕尼黑盛大開幕。作為全球領(lǐng)先的通用電子測試測量儀器制造商，鼎陽科技攜眾多創(chuàng)新產(chǎn)品驚艷亮相，向全球展示了公司卓越實力與前沿技術(shù)。

發(fā)表于 11-18 09:38 ?153次閱讀

聯(lián)誠發(fā)LED屏驚艷亮相土耳其廣告展

近日，第25屆國際廣告業(yè)和數(shù)字印刷技術(shù)博覽會（簡稱 Sign Istanbul ）在土耳其伊斯坦布爾隆重舉行。聯(lián)誠發(fā)攜多款創(chuàng)新LED顯示產(chǎn)品及多領(lǐng)域的應(yīng)用解決方案驚艷亮相，為全球客戶打造沉浸式視覺盛宴，展會現(xiàn)場人流絡(luò)繹不絕，熱鬧非凡。

發(fā)表于 11-04 17:47 ?364次閱讀