精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

河套IT TALK 76: (原創) 解讀老黃與Ilya的爐邊談話系列之五——將要擁抱多模態的ChatGPT(萬字長文)

共熵服務中心 ? 來源:未知 ? 2023-05-11 20:16 ? 次閱讀

a5d8f2be-e7d0-11ed-ab56-dac502259ad0.png

a5e501e4-e7d0-11ed-ab56-dac502259ad0.png

一個月前,就在GPT 4發布的第二天,同時也是英偉達(NVIDIA)線上大會的契機,英偉達的創始人兼CEO黃仁勛("Jensen" Huang)與OpenAI的聯合創始人兼首席科學家伊爾亞-蘇茨克維(Ilya Sutskever )展開了一次信息量巨大的長達一個小時的“爐邊談話”(Fireside Chats)。期間談到了從伊爾亞-蘇茨克維早期介入神經網絡、深度學習,基于壓縮的無監督學習、強化學習、GPT的發展路徑,以及對未來的展望。相信很多人都已經看過了這次談話節目。我相信,因為其中摻雜的各種專業術語和未經展開的背景,使得無專業背景的同仁很難徹底消化理解他們談話的內容。本系列嘗試將他們完整的對話進行深度地解讀,以便大家更好地理解ChatGPT到底給我們帶來了什么樣的變革。今天,就是這個系列的第五篇:將要擁抱多模態的ChatGPT。

關聯回顧

解讀老黃與Ilya的爐邊談話系列之一——故事要從AlexNet說起

解讀老黃與Ilya的爐邊談話系列之二——信仰、準備、等待機會的涌現

解讀老黃與Ilya的爐邊談話系列之三——超越玄幻,背后是人類老師的艱辛付出

解讀老黃與Ilya的爐邊談話系列之四——人人都是ChatGPT的訓練器

讓ChatGPT自己來談一談人工智能倫理

全圖說ChatGPT的前世今生

a5ed3792-e7d0-11ed-ab56-dac502259ad0.png

a5f818e2-e7d0-11ed-ab56-dac502259ad0.png

對話譯文(05):

黃仁勛:多模態 GPT-4 具備從文本和圖像中學習,并對文本和圖像輸入做出響應的能力。首先,多模態學習的基礎是Transformer,它使得我們可以從多個模態中學習,例如把文本和圖像 token 化。在此基礎上,它還幫助我們理解多模態是如何增強對世界的認知。我的理解是,除了文本本身外,當你在訓練多模態模型時,甚至僅僅使用文本提示詞時,文本提示詞本身就可以提升文本理解。從基礎上來看,多模態為什么如此重要?重大突破是什么,以及由此產生的特征差異是什么?

Ilya Sutskever:有兩個維度可以解釋多模態學習的重要性,或者說是兩個原因讓它變得有趣。第一個原因有點謙虛,多模態是有用的,對于神經網絡來說看到多種形式的數據是有幫助的,特別是視覺數據。因為世界是非常視覺化的,人類是非常視覺化的動物。人類大腦皮層的三分之一都用于視覺,因此如果沒有視覺,盡管我們的神經網絡的效用仍然相當可觀,但效用可能不如想象的那么大。這是一個非常簡單的效用性的論點。很顯然,GPT-4 可以“看”得很好。

第二個原因是,除了從文本學習之外,我們還可以從圖像中學習這個世界的知識。這也是一個有力的論點,盡管它像看上去不是那么明確。我給你舉個例子,或者說在舉例之前,我要給出一個寬泛的說法,作為人類,我們在整個生命中只能聽到大約10億個詞。

黃仁勛:只有10億個詞?

Ilya Sutskever:是的,只有10億個詞。

黃仁勛:真令人驚訝,這不是很多。

Ilya Sutskever:是的,不是很多。

黃仁勛:它包不包括我腦海里的詞?

Ilya Sutskever:那我們權且說20億個詞好啦,你懂我的意思吧。你知道,因為10億秒等于30年。所以你可以看到,我們每秒鐘只能看到幾個詞,并且我們有一半的時間都在睡覺。我們在一生中只能獲得幾十億個詞。因此,對我們來說,獲得盡可能多的信息來源變得非常重要,我們從視覺中學到的東西要多得多。

對我們的神經網絡來說,同樣的論點也是適用的。神經網絡可以從相當多的詞中學習,原本很難從幾十億詞的文本中認知世界,可能會從數萬億詞中變得更容易。舉個例子,比如顏色,人們需要看到顏色才能理解顏色。但是神經網絡在“一生中”從沒有“看”過一張照片,如果你問它們哪些顏色彼此更相似,它知道紅色比藍色更接近橙色,它也知道藍色比黃色更接近紫色。

這是怎么實現的?一個答案是這個世界的信息,甚至是視覺的信息會慢慢通過文本傳播出去。但是它非常緩慢,不是很快速。所以當你有很多文本時,你仍然可以學習到很多東西。當然,當你加入視覺信息,并從視覺中學習知識,你就會學到額外的知識,這些知識是無法通過文本獲得的。

但我不會說,這是一個二元的關系,有些東西無法從文本中學習到。我認為這更像是一種匯率,特別是當你想學習的時候,如果你像一個人一樣從10億個詞或1億個詞中學習,那么有其他信息來源會變得重要得多。

黃仁勛:是的,你可以從圖像中學習。是不是意味著,如果我們也想了解世界的結構,就像我的手臂連接著我的肩膀,再連接我的手肘就能移動,這個世界的動畫,這個世界的物理,如果我也想了解這一點,我能只看視頻就學會嗎?

Ilya Sutskever:是的。

黃仁勛:如果我想擴展所有這些,例如,如果有人說“great”的意思,“great”可以是“great(太好了)”,“great”也可以是“great(還好)”。你知道,一個是興奮的,一個是諷刺的。像這樣的詞還有很多,比如“That's sick”,指的是“I’m sick(我生病了)”,或者“I’m sick(我惡心了)”。根據人們的語氣不同,含義也不同。那么,音頻對于模型學習也會有幫助嗎?我們會好好利用它嗎?

Ilya Sutskever:是的,我認為肯定是這樣。那么關于音頻,我們能說些什么呢?它很有用,它是一個額外的信息來源,可能不如視頻圖片那樣重要。但是,這種情況下還是有必要的。音頻的實用性,無論是在識別方面還是在生成方面。

黃仁勛:在我看到的測試中,最有趣的是你們發布的數據,GPT-3在哪些測試中表現更好?GPT-4 在哪些測試中表現更好?你認為多模態在這些測試中起了多少作用?

Ilya Sutskever:直觀的說,每當有一個測試需要理解問題的圖表時,比如說在某些數學競賽中,比如高中生的數學競賽AMC 12,很多問題可能都有圖表。因此,GPT-3.5在測試中表現很差。GPT-4 僅使用文本時的準確率可能只有2%到20%,但是當加入視覺時,它的成功率躍升至40%。因此,視覺確實做了很多工作。視覺非常出色,我認為能夠進行視覺推理和視覺交流,我們也將變得非常強大,非常棒。

從我們對世界中僅僅幾個事物的了解,發展到你可以了解整個世界,然后你可以把這個世界做視覺化的推理,視覺化的溝通?,F在是在哪里,未來又在哪里?也許在某個未來版本中,如果你問神經網絡“嘿,給我解釋一下這個”,它將不僅僅產生四個段落,而是像一個小圖表一樣,清楚地傳達給你需要知道的信息。

a5f818e2-e7d0-11ed-ab56-dac502259ad0.png

智愿君:讓我們繼續解讀老黃和Ilya爐邊談話的第五段對話,這一段還蠻聚焦的,就談了一個話題——多模態。上回,我們談到了ChatGPT本質上還是圍繞著文本展開的一個聊天機器人,盡管GPT-4有圖形識別能力,但是還沒有打開。但以上絕非是OpenAI滿意的現狀,今天我們就來聊聊多模態。

多模態其實是信息溝通通道的概念

今天的對話中一開始老黃就談到了多模態。很多人可能第一個問題就是:到底什么是多模態交互呢?

人和一個智能系統交互的時候,存在雙方相互理解的過程,也就是雙方都通過各種通道去表達,然后也都通過各種通道去分析對方的意圖。多模態是站在智能系統一方來表達,它更多強調的是智能系統通過多個通道去捕獲人和環境的信息,或者通過多個通道去呈現信息。

a6038b64-e7d0-11ed-ab56-dac502259ad0.png

從多個通道呈現信息并非是個新鮮概念,比如我們的電影就是同時有畫面和聲音的多通道呈現的。而今天聊的多模態重點說的是多模態交互的另一個方面:智能系統如何從更多個通道獲取用戶的意圖。

我們來做一下類比,例如計算機視覺就是通過攝像頭模擬人的視覺,從而幫助智能系統來感知世界。但這不是簡單的模擬,機器視覺有其獨特的、并且還在不斷高速演進中的技術優勢。比如在分辨率、景深、可見光和非可見光光譜范圍、多自由度視覺捕獲能力等方面,以及AI和大數據加持的圖像識別、海量攝像頭數據分析及挖掘能力上,都會讓計算機視覺表現出驚人的力量和生命力。

我下面列出了幾種類似的感知覺技術優勢和演進方向的表格,你可以對照著感受一下。

a6214712-e7d0-11ed-ab56-dac502259ad0.png

因為智能系統的演進速度非??欤夹g的能力邊界也在不斷提升,很多已經遠遠超過人類。所以才會有上述老黃和Ilya談話過程中,Ilya說的“GPT-4 可以“看”得很好”。

需要被刮目相看的機器視覺

視覺是如此被重視,是因為人類對整個世界的認知,也絕大多數都是通過視覺來認知的。

從生理學上來講,人眼有 700 萬視錐細胞和 1億2000萬視桿細胞。視錐細胞幫助我們看到顏色,視桿細胞幫助我們分辨明暗。我們眼睛可以分辨約一千萬種顏色(360到830納米可見光波長范圍內)。在大腦本身,致力于視覺處理的神經元數以億計,約占大腦皮層的 30%,而觸覺神經元占 8%,聽覺神經元僅占 3%。將信號從視網膜傳送到大腦的兩條視神經中的每一條都由一百萬條纖維組成;每條聽覺神經僅攜帶 30,000 個。

實驗心理學家赤瑞特拉(Treicher)通過大量的實驗證實:人類獲取的信息83%來自視覺,11%來自聽覺,這兩個加起來就有94%。還有3.5%來自嗅覺,1.5%來自觸覺,1%來自味覺。而且他還做過另外一個實驗,就是關于知識保持即記憶持久性的實驗。結果是:人們一般能記住自己閱讀內容的10%,自己聽到內容的20%,通過視覺和交流實踐獲得的記憶則高達80%。我們的眼睛看到的還會影響我們聽到的,這就是所謂的“麥格克效應”。視覺動物人類這種對視覺的偏愛,和依賴使得“一種視覺在場的形而上學,一種可稱為‘視覺中心主義’(ocularcentrism)的傳統”在人類文化的長河里順理成章地形成了。

但遺憾的是,機器視覺的感知能力和處理能力,一直發展緩慢,始終和人的視覺保持較遠的差距。但隨著深度學習和神經網絡等計算機算法的改進,以及以老黃的Nvidia為代表的GPU硬件能力的提升,使得機器視覺出現了革命性的進步。并以日新月異的速度,給我們帶來驚喜。近些年機器視覺的進步,計算機圖形處理技術的突飛猛擊,可以從每年舉行的ACM SIGGTRAPH的熱度,以及收獲的“喔”的數量上感知到在計算機視覺感知領域的前沿科技對時代的影響。

真正徹底改變這個行業的是2014年6月,當時在谷歌大腦(Google Brain)的Ian Goodfellow及其同事設計的一個機器學習框架。生成對抗網絡一般由一個生成器(生成網絡),和一個判別器(判別網絡)兩個神經網絡組成。生成器的作用是,通過學習訓練集數據的特征,在判別器的指導下,將隨機噪聲分布盡量擬合為訓練數據的真實分布,從而生成具有訓練集特征的相似數據。而判別器則負責區分輸入的數據是真實的還是生成器生成的假數據,并反饋給生成器。兩個網絡交替訓練,能力同步提高,以零和博弈的形式相互競爭,直到生成網絡生成的數據能夠以假亂真,并與與判別網絡的能力達到一定均衡。

第二年,一個來自于自非平衡態熱力學的擴散模型(Diffusion Model),也被用在圖像處理領域,獲得了非常好的效果。擴散模型是一種基于隨機過程的模型,它可以通過將噪聲向量逐步“擴散”到圖像像素上,從而生成高質量的圖像。這種模型的一個關鍵優勢是,它可以通過自適應地選擇擴散步驟的數量來控制生成圖像的細節級別。此外,擴散模型還可以用來生成高分辨率的圖像,而不像其他生成模型需要大量的訓練數據和計算資源。擴散模型可以應用于各種任務,如圖像去噪、圖像修復、超分辨率成像、圖像生成等等。例如,一個圖像生成模型,經過對自然圖像的擴散過程的反轉訓練之后,可從一張完全隨機的噪聲圖像開始逐步生成新的自然圖像。

在文本到圖像生成中,這兩種模型可以配合使用。Diffusion Model可以用來生成高質量的圖像,而GANs則可以用來提高圖像的真實性和可信度。具體來說,Diffusion Model生成的圖像可以被作為GANs的輸入,然后GANs可以通過學習這些圖像的特征來生成更加逼真的圖像。這種方法可以有效地減少Diffusion Model中可能存在的一些缺陷,并產生更加自然和逼真的圖像。

也正是在這種大背景下,OpenAI才會首次推出的給大眾體驗的產品才不是ChatGPT,而是DALL-E。這是首批引起公眾廣泛關注的文本到圖像模型之一,現在,我們體驗對是能夠生成更復雜和逼真的圖像的后繼模型 DALL-E 2。如今,關于Text-to-Image的圖像生成器,已經遍地開花,除了DALL-E之外,還有Midjourney、Stable Diffusion、Jasper Art、Starry AI、Dream by Wombo、Nightcafe、BigSleep、Artbreeder、Photosonic、Craiyon等等一系列眼花繚亂的圖像生成器,而且效果都不差。

相信,正是這些原因,老黃和Ilya在討論視覺信息的時候,才會如此興奮吧。

但是硬幣總有兩面,我們也無法忽視因為這兩個技術的采用,面臨的新的挑戰:1. 生成圖片的數字版權;2. 運用此能力的深偽技術。我們恰巧有兩篇之前的文章覆蓋了這兩個話題,有興趣的同仁,可以點擊鏈接去看一下:

《HIT 11: AI生成的作品著作權歸屬探討》

《河套IT TALK——TALK43:(原創)合成媒體的達摩克利斯之劍——深偽技術》

數字世界到底有多少可供大模型學習的信息?

在今天上面分享的這段對話中,有關一個人一生獲取的文字信息為10億個詞,這個話題Ilya和老黃還聊了不少內容。這段內容其實也會讓我們去思考,我們一生中接觸這么多字,那么互聯網上的信息有多少呢?

根據國際數據公司IDC的估計,截至2020年,全球數字宇宙的大小為44 Zettabytes(其中1 Zettabyte等于10億 Terabytes),其中文本、圖像和視頻等非結構化數據占據了絕大部分。具體來說,據IDC估計,非結構化數據占據數字宇宙的80%以上,其中視頻數據占比最高,約為60%。據統計,截至2020年,全球每天產生的文本數據量約為50萬億字節,這相當于每天產生50億部普通手機的存儲容量;而每天上傳到YouTube的視頻數據量約為500小時,相當于每分鐘上傳約300小時的視頻。

這也映射了之前說的,目前世界上大部分信息都是采用視頻和圖像來保存的。目前GPT-4等大模型,學習到的文本數據還是有限的。關于GPT-4學了多大當量的數據并不清楚,但是GPT-3學了45TB的文本數據。主要來源于:

    • Common Crawl:提供了包含超過50億份網頁數據的免費數據庫。有超過7年的網絡爬蟲數據集,包含原始網頁數據、元數據提取和文本提取。

    • Wikipedia:網絡維基百科,目前有超過1億的條目項。

    • BooksCorpus:由100萬本英文電子書組成的語料庫。

    • WebText:一個來自于互聯網的語料庫,其中包含了超過8億個網頁的文本內容。

    • OpenWebText:類似于WebText,但是包含的文本數據更加規范化和質量更高。

    • ConceptNet:一個用于語義網絡的數據庫,其中包含大量的語言學知識。

    • NewsCrawl:從新聞網站收集的大量新聞文章的集合。

    • Reddit:一個包含了大量用戶發布的信息的論壇網站。

而這些數據,也僅僅是互聯網上文本信息的一部分,當然,可以認為這也是高質量數據的一部分。為什么不學習更多的數據?我的理解,這里有復雜的原因,既有數據的可獲得性考慮,還要有大模型訓練的成本(包括計算成本和時間成本)的平衡。但未來的趨勢,一定是學習更多的數據,而且一定是多模態,多種媒體形式數據的學習?,F在大模型的訓練,已經變成了一種新的熱潮,很多企業都開始擁抱大模型,也有很多在訓練自己的大模型。Amazon和Texas A&M university 研究團隊構建的現代LLM進化樹,展示了其中部分企業的最新進展,有興趣可以看一下:

a62ca76a-e7d0-11ed-ab56-dac502259ad0.png

不同媒體形式數據Token的差別是什么?

在大模型的機器學習中,token是指在信息數據處理中的最小單位,如果是文本信息的話,通常是單詞或者子單詞。在自然語言處理任務中,一個token可以是一個單詞,也可以是一個詞根、一個詞綴或一個字符,這取決于數據預處理的方式和任務的需要。

在文本數據的預處理中,一個常見的步驟是將原始文本拆分成一個個token,這個過程稱為tokenization。在深度學習模型中,tokenization通常是將文本轉換為數字表示的第一步。每個token都被賦予一個唯一的整數編號,這個編號會作為模型輸入中的一個特征向量的一部分。

在大模型的機器學習中,tokens的處理通常涉及到詞表、嵌入矩陣等概念。這些概念都是為了將文本數據轉換為數字表示,以便于神經網絡模型進行計算和優化。

中文的Token比英文的要復雜,因為中文中沒有明確的單詞邊界。

在英文中,單詞之間通常由空格或標點符號分隔開,這使得單詞的tokenization變得相對簡單。而在中文中,單詞之間沒有空格,相鄰的中文字符也不一定組成一個單詞。因此,中文的tokenization通常需要使用一些特定的技術來處理這種情況。

一種常見的中文tokenization技術是基于中文分詞。中文分詞是將中文文本切分成一個個有意義的詞語的過程。這個過程通常會用到一些預先訓練好的分詞器或字典,通過匹配字典中的詞語或者使用統計方法來實現。

此外,在中文的tokenization中,還需要注意一些漢字之間可能存在的合并或拆分現象,以及不同語境下同一漢字可能表示不同的含義的情況。這些因素都需要考慮到,以保證中文文本的正確切分和tokenization。

除了文字之外,其他的信息,同樣在學習前,也是要tokenization技術處理的。以下是對于不同類型數據的token解釋:

    • 音頻:在音頻處理中,token通常是指音頻信號的采樣值,即將一段時間內的聲音信號離散化為一系列數字。這些數字被用于表示音頻信號,并可以作為神經網絡模型的輸入。另外,音頻的tokenization也可以基于聲音的頻率和時域信息,通過一些特征提取算法來實現。

    • 圖像:在圖像處理中,token通常是指圖像的像素值。像素是構成數字圖像的最小單位,每個像素都有一個數值,代表該像素的顏色和亮度等信息。這些像素值被用于表示圖像,并可以作為神經網絡模型的輸入。此外,也可以對圖像進行特征提取,例如使用卷積神經網絡等算法來提取圖像的特征。

    • 視頻:在視頻處理中,token通常是指視頻中的一幀圖像。視頻由一系列連續的圖像組成,每個圖像都可以作為一個token。此外,還可以對視頻進行特征提取,例如使用卷積神經網絡等算法來提取視頻的空間和時間特征。

對于非文本數據,例如圖像和音頻數據,如果直接將其全部進行tokenization,將會導致數據的體積變得非常大,并且可能丟失數據的一些關鍵信息。因此,在處理這些非文本數據時,可能需要使用一些特定的處理方法和特征提取技術,而不是直接進行tokenization。

支持AIGC的語音聊天機器人

今天分享的這段對話中,老黃和Ilya簡單提到了語音語調在大模型識別和生成的重要性。其實這挺關鍵的,想到過去幾年,非?;鸬闹悄苷Z音技術。真正的體驗是非常不好的,不僅僅需要每次溝通都要提示詞,而且對包括方言等非標準語言的理解力很差,更不要說去理解語氣語調了。而且,回答問題的方式也千篇一律,給人的感覺就是并不夠智能。大部分的使用場景成了問天氣,設鬧鐘,放歌和智能家電開關等簡單用途上了。

a658c05c-e7d0-11ed-ab56-dac502259ad0.png

未來,這些基于語音的交互智能家庭助手也應該支持類似ChatGPT的能力。ChatGPT能夠實現對復雜的自然語言理解和生成任務的處理,而這些任務也可以應用到基于語音的交互智能家庭助手中。例如,基于語音的交互智能家庭助手可以使用ChatGPT來實現更加自然、流暢的對話和問答。同時,ChatGPT還可以通過對大量語音和文本數據的學習,提高基于語音的交互智能家庭助手的語音識別和自然語言處理能力。再也不用擔心自己說的話不標準,AI不響應了,可以慢慢聊,逐漸趨近于業務需求,而且也不用刻意遵守什么AI對話語言規則,所謂的換了一種說話方式,AI就聽不懂的情況。甚至更神奇的將是,你說什么語言,AI就會按照什么語言來回應。比如你說方言,它就方言回應,你說英語,它就英語回應。要多自然,有多自然。

不過,我們還是要意識到,AIGC的語音聊天機器人,必然面臨新的挑戰:

    • 數據體積:音頻數據通常比文本和圖像數據更大,因此需要更多的存儲空間和處理能力。對于大規模音頻數據的處理,需要使用高效的計算和存儲方案。

    • 數據預處理:音頻數據需要進行預處理,以便于神經網絡的訓練和推斷。預處理包括提取特征、標準化和降噪等步驟。不同的預處理方法可能會影響模型的性能和效果。

    • 噪聲和變異性:音頻數據通常會受到噪聲和變異性的影響,例如不同的說話者、語氣和背景噪聲等。這些噪聲和變異性可能會影響模型的精度和魯棒性,需要使用合適的預處理方法和模型設計來處理。

    • 音頻模型的設計:對于不同的音頻任務,需要使用不同的模型結構和訓練方法。例如,對于語音識別任務,可以使用基于卷積神經網絡和循環神經網絡的模型,而對于語音合成任務,可以使用基于生成對抗網絡和自注意力機制的模型。

    • 訓練數據和標注:音頻數據需要進行標注,以便于模型的訓練和評估。對于語音識別任務,需要進行音素或字級別的標注,而對于語音合成任務,則需要進行音高、音調和語速等方面的標注。標注數據的質量和數量會影響模型的性能和效果。

不過,我有信心,隨著時間的推移,以上挑戰終將不是問題。隨著人工智能技術的不斷發展和普及,基于語音的交互智能家庭助手會不斷地提高自己的能力,以更好地服務用戶,而且在和人的語音對話過程中,也是自我學習提升改進的過程(也就是通過每次溝通訓練對任務的理解和表達能力,形成記憶,自主成長)。在未來,基于語音的交互智能家庭助手可能還會采用更加先進的技術和算法,例如端到端的語音識別和合成技術、基于深度強化學習的對話生成技術等,以提供更加智能化、個性化的服務。相信,不遠的將來,能更為自然和人聊天的語音機器人會很快上市。

更加值得期待的多媒體交互

老黃和Ilya今天分享談話的最后,Ilya談到了對多模態的暢想。

支持多模態輸出對ChatGPT對信息的回復,也不會簡單局限在“蹦字兒狀態了。比如如果我們在餐館見到一個菜超級好吃,就把它拍下來,輸入給ChatGPT。ChatGPT除了回復正常做菜的選料,預處理,烹飪的文本描述之外,每樣原材料、預處理的手法,以及烹調的順序和詳細過程,還會有圖片、視頻相對應,避免理解錯誤。當然,這只是理想場景,現實場景,多模態輸出未必如此賞心悅目。

一般來說,選擇合適的模態輸出需要考慮以下幾個方面:

    • 信息的類型和內容:不同類型和內容的信息適合使用不同的模態輸出。例如,當需要傳達具體的操作步驟或指示時,使用語音或視頻等模態輸出會更為直觀和有效;而當需要傳達大量的文本信息時,使用文字輸出會更為方便和快速。

    • 用戶的偏好和需求:不同的用戶有不同的偏好和需求,因此需要根據用戶的特點選擇合適的模態輸出。例如,當用戶更喜歡通過聽覺方式獲取信息時,使用語音輸出會更為合適;而當用戶更喜歡通過視覺方式獲取信息時,使用圖像或視頻輸出會更為合適。

    • 應用場景和環境:不同的應用場景和環境對模態輸出的要求也不同。例如,在嘈雜的環境中,使用語音輸出可能會受到干擾,此時可以選擇使用圖像或文字等其他模態輸出;而在需要快速操作的場景中,使用語音輸出可能更為方便。

需要注意的是,如果同時使用多個模態輸出來展示信息,可能會導致信息輸入的瓶頸或信息擁塞,從而降低溝通效果。因此,在選擇模態輸出時,需要根據具體情況綜合考慮,選擇最為合適的模態輸出方式,以提高信息傳達的效率和準確性。

在多模態輸出的場景中,如何選擇合適的模態輸出是一個需要考慮的問題。選擇合適的模態輸出,可以提高信息傳達的效率和準確性,并且可以改善用戶體驗。

a666ba2c-e7d0-11ed-ab56-dac502259ad0.png

因為機器或許在信息處理和輸出方面,速度可以靈活調整。但人類的注意力通道無法承載過多的信息輸入。人類注意力的帶寬是極為有限的,而且生物進化的緩慢速度相比于設備的增長、處理能力的提升幾乎可以被定性為停滯不前。如果一味追求多媒體的輸出,用戶會被淹沒在各種多媒體信息的海洋中中應接不暇、無所適從。因為注意力被各種多媒體透支占用,我們從之前的從容處理任務,逐漸過渡到被高負荷信息壓得喘不過氣的時代。所以,在合適的時機,合適的場景,針對合適的人,以合適的模態進行溝通,不去過多耗費用戶的注意力,快速處理完事情后用戶應立即撤回注意力做別的事情。才是最好的溝通策略。從我以前對多模態交互的理解,這個叫做平靜交互原則。

在探討AI技術決定論的前提下,注重體驗仍然是非常關鍵的因素。

a5f818e2-e7d0-11ed-ab56-dac502259ad0.png

好了,今天我們先解讀到這里。下次,我們會繼續針對黃仁勛與Ilya Sutskever的“爐邊談話”的其他部分進行解讀,敬請期待。

a5f818e2-e7d0-11ed-ab56-dac502259ad0.png

未完待續……


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 開源技術
    +關注

    關注

    0

    文章

    389

    瀏覽量

    7915
  • OpenHarmony
    +關注

    關注

    25

    文章

    3665

    瀏覽量

    16163

原文標題:河套IT TALK 76: (原創) 解讀老黃與Ilya的爐邊談話系列之五——將要擁抱多模態的ChatGPT(萬字長文)

文章出處:【微信號:開源技術服務中心,微信公眾號:共熵服務中心】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    單日獲客成本超20,國產大模型開卷200萬字以上的長文本處理

    電子發燒友網報道(文/周凱揚)隨著AGI生態的蓬勃發展,各種支持模態的大模型推陳出新,比如最近比較火的音樂大模型Suno和文生視頻大模型Sora等等。然而在傳統基于文本的大語言模型上,除了追求更快
    的頭像 發表于 03-27 00:53 ?3315次閱讀
    單日獲客成本超20<b class='flag-5'>萬</b>,國產大模型開卷200<b class='flag-5'>萬字</b>以上的<b class='flag-5'>長文</b>本處理

    利用OpenVINO部署Qwen2模態模型

    模態大模型的核心思想是將不同媒體數據(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態之間的關聯,實現更加智能化的信息處理。簡單來說,模態
    的頭像 發表于 10-18 09:39 ?330次閱讀

    NVIDIA助力企業用AI創建數據飛輪

    在與 Snowflake 首席執行官的爐邊談話中,仁勛介紹了兩家公司將如何幫助企業通過加速計算來處理數據,從而產生商業洞察。
    的頭像 發表于 10-10 09:22 ?329次閱讀

    云知聲推出山海模態大模型

    在人工智能技術的浩瀚星海中,模態交互技術正成為引領未來的新航標。繼OpenAI的GPT-4o掀起滔天巨浪后,云知聲以創新姿,推出了其匠心獨運的山海
    的頭像 發表于 08-27 15:20 ?368次閱讀

    萬字長文淺談系統穩定性建設

    流程:需求階段,研發階段,測試階段,上線階段,運維階段;整個流程中的所有參與人員:產品,研發,測試,運維人員都應關注系統的穩定性。業務的發展及系統建設過程中,穩定性就是那個1,其他的是1后面的0,沒有穩定性,就好比將
    的頭像 發表于 07-02 10:31 ?339次閱讀
    <b class='flag-5'>萬字長文</b>淺談系統穩定性建設

    OpenAI 深夜拋出王炸 “ChatGPT- 4o”, “她” 來了

    和情緒的選項 實時視頻捕捉,在與ChatGPT 交互時無需發送照片 有能力在會議和視頻通話中提供協助 發布會為其潛在影響提供了清晰的愿景。隨著企業駕馭不斷變化的技術領域,擁抱ChatGPT-4o對于實現持續增長和創新至關重要。
    發表于 05-27 15:43

    超強算法,創新引領 | 第模態系列新品

    傳統工廠在向智慧工廠轉型,面向更柔性更高效的自動化應用需求,穩石機器人在2023年末推出了全自主研發的第模態柔性系列產品,可兼容室內外場景,為智能制造集成商/行業終端,提供以一體
    的頭像 發表于 05-17 11:30 ?318次閱讀
    超強算法,創新引領 | 第<b class='flag-5'>五</b>代<b class='flag-5'>多</b><b class='flag-5'>模態</b><b class='flag-5'>系列</b>新品

    MiniMax推出“海螺AI”,支持超長文本處理

    近日,大模型公司MiniMax宣布,其全新產品“海螺AI”已正式上架。這款強大的AI工具支持高達200ktokens的上下文長度,能夠在1秒內處理近3萬字的文本。
    的頭像 發表于 05-17 09:30 ?696次閱讀

    AI快訊:華為助力金融行業加速擁抱AI 馬斯克xAI 展示首個模態模型

    AI快訊:華為助力金融行業加速擁抱AI 馬斯克xAI 展示首個模態模型 小編給大家匯總一下近期的AI資訊。 華為助力金融行業加速擁抱AI 日前在以“數創未來,智慧金融”為主題的202
    發表于 04-15 12:32 ?400次閱讀

    阿里通義千問重磅升級,免費開放1000萬字長文檔處理功能

    近日,阿里巴巴旗下的人工智能應用通義千問迎來重磅升級,宣布向所有人免費開放1000萬字長文檔處理功能,這一創新舉措使得通義千問成為全球文檔處理容量第一的AI應用。
    的頭像 發表于 03-26 11:09 ?748次閱讀

    “單純靠大模型無法實現 AGI”!萬字長文看人工智能演進

    人工智能是指讓計算機或機器具有類似于人類智能的能力,如學習、推理、解決問題和使用語言、常識、創造力、情感和道德等。
    的頭像 發表于 02-19 14:22 ?1057次閱讀
    “單純靠大模型無法實現 AGI”!<b class='flag-5'>萬字長文</b>看人工智能演進

    【國產FPGA+OMAPL138開發板體驗】(原創)6.FPGA連接ChatGPT 4

    。若要在FPGA上實現與ChatGPT4的交互,需要通過嵌入式處理器(如ARM核)運行網絡協議棧,并調用相應的API接口與ChatGPT4服務通信。 今天先寫到這里... 接上篇: 【國產
    發表于 02-14 21:58

    如何用AI聊天機器人寫出萬字長文

    如何用AI聊天機器人寫出萬字長文
    的頭像 發表于 12-26 16:25 ?1035次閱讀

    人工智能領域模態的概念和應用場景

    隨著人工智能技術的不斷發展,模態成為了一個備受關注的研究方向。模態技術旨在將不同類型的數據和信息進行融合,以實現更加準確、高效的人工智能應用。本文將詳細介紹
    的頭像 發表于 12-15 14:28 ?9266次閱讀

    大模型+模態的3種實現方法

    我們知道,預訓練LLM已經取得了諸多驚人的成就, 然而其明顯的劣勢是不支持其他模態(包括圖像、語音、視頻模態)的輸入和輸出,那么如何在預訓練LLM的基礎上引入跨模態的信息,讓其變得更強大、更通用呢?本節將介紹“大模型+
    的頭像 發表于 12-13 13:55 ?1632次閱讀
    大模型+<b class='flag-5'>多</b><b class='flag-5'>模態</b>的3種實現方法