01狂飆的Agent—Agent 2023大事記
“如果一篇論文提出了某種不同的訓(xùn)練方法,OpenAI內(nèi)部會(huì)嗤之以鼻,認(rèn)為都是我們玩剩下的。但是當(dāng)新的AI Agent論文出來(lái)時(shí),我們會(huì)十分認(rèn)真且興奮地討論。普通人、創(chuàng)業(yè)者和極客在構(gòu)建AI Agents方面相比OpenAI這樣的公司更有優(yōu)勢(shì)。” -- OpenAI聯(lián)創(chuàng)Andrej Karpathy
如果說(shuō)現(xiàn)在還有什么AI領(lǐng)域的“點(diǎn)子”能讓OpenAI為之興奮,那非Agent莫屬。從一個(gè)學(xué)界研究的概念到走入大眾視野,Agent只用了短短不到一年時(shí)間。如果大模型是未來(lái)水電煤一般的基礎(chǔ)設(shè)施,那么Agent則是未來(lái)用戶(hù)接觸、使用AI的方式。我們梳理了今年Agent狂飆突進(jìn)的重要milestone,從中也可以窺見(jiàn)它的核心發(fā)展脈絡(luò)。
2023.3.16,微軟發(fā)布Microsoft 365 Copilot,引發(fā)業(yè)界巨大反響,提示了一種基于LLM的應(yīng)用開(kāi)發(fā)范式,也即今天形成行業(yè)共識(shí)的Agent。
2023.4,以AutoGPT為代表的Autonomous Agent 熱度快速躥升,AutoGPT成為GitHub歷史上star數(shù)增長(zhǎng)最快的項(xiàng)目。同期比較受關(guān)注的類(lèi)似項(xiàng)目包括:TaskMatrix.ai,HuggingGPT, AgentGPT, Toolformer, BabyAGI等等。
2023.6,OpenAI 應(yīng)用研究主管 Lilian Weng 發(fā)布博文《LLM Powered Autonomous Agents》進(jìn)一步推動(dòng)了agent的熱度,Lilian提出Agent = 大型語(yǔ)言模型+記憶+規(guī)劃技能+工具使用。
多Agent框架相繼發(fā)布,相對(duì)于單一Agent框架能夠更好地解決復(fù)雜問(wèn)題。目前比較火的多Agent框架包括:Camel(4月發(fā)布,3.4k star), MetaGPT(8月發(fā)布,29.7k star), AutoGen(9月發(fā)布,微軟團(tuán)隊(duì),13.6k star)
2023.11.6,OpenAI DevDay,推出其官方Agent開(kāi)發(fā)框架Assistant API,賦能開(kāi)發(fā)者更加高效方便地基于GPT模型進(jìn)行的Agent開(kāi)發(fā)。
02 Agent Landscape概覽
Agent吸引了大量創(chuàng)業(yè)者投身其中,據(jù)我們不完全統(tǒng)計(jì),今年下半年在海外拿到知名創(chuàng)投機(jī)構(gòu)投資的Agent項(xiàng)目已超過(guò)20家。在此我們做個(gè)基本梳理,方便大家了解目前市場(chǎng)上的整體情況: 從創(chuàng)投行業(yè)角度,當(dāng)下LLM based Agent領(lǐng)域初創(chuàng)公司可大致分為兩類(lèi):
中間層infra
提供實(shí)用可復(fù)用的Agent框架,降低開(kāi)發(fā)Agent 的復(fù)雜度,并為Agent的合作提供機(jī)制設(shè)計(jì)。該類(lèi)項(xiàng)目主要從模塊化、適配性、協(xié)作等幾方面進(jìn)行創(chuàng)新。其中拿到知名機(jī)構(gòu)投資的代表項(xiàng)目包括:AutoGPT、Imbue、Voiceflow、Fixie AI、Reworked、Cognosys、Induced ai等。
Vertical Agent
深入某個(gè)垂直領(lǐng)域,理解該領(lǐng)域?qū)<业墓ぷ髁鳎\(yùn)用Agent 思路設(shè)計(jì)Copilot產(chǎn)品,用戶(hù)介入使 Agent思路更為可控。其中拿到知名機(jī)構(gòu)投資的代表項(xiàng)目包括:Dropzone(安全領(lǐng)域)、Middleware(大模型可觀察性領(lǐng)域)、Parcha(Fintech領(lǐng)域)、Luda(游戲領(lǐng)域)、Outbound AI(醫(yī)療領(lǐng)域)、Fine(軟件開(kāi)發(fā)領(lǐng)域)。
從Agent的互動(dòng)/工作模式角度,復(fù)旦大學(xué)自然語(yǔ)言處理團(tuán)隊(duì)(FudanNLP)在其 LLM-based Agents 綜述論文中,將Agent分成了三類(lèi):單一Agent, 多Agent以及人與Agent交互(按交互方式又分為指導(dǎo)-執(zhí)行模式和平等合作模式)。如下圖所示:
03Agent落地:場(chǎng)景和挑戰(zhàn)
本次沙龍參與者既有學(xué)界資深的AI研究員,也有富有實(shí)戰(zhàn)經(jīng)驗(yàn)的一線(xiàn)Agent創(chuàng)業(yè)者。對(duì)于圍繞Agent大家關(guān)心的若干問(wèn)題,我們進(jìn)行了深入討論,以下是本次討論的一些精彩觀點(diǎn):
Agent適合在哪些場(chǎng)景落地?
創(chuàng)業(yè)者們已經(jīng)嘗試了各種落地場(chǎng)景,總結(jié)下來(lái),以下幾點(diǎn)更契合Agent的落地。
做到比人(普通員工)好
客戶(hù)不一定要求Agent達(dá)到專(zhuān)家水平,很多場(chǎng)合只要比普通員工好就夠了。Agent PK的,實(shí)際上是月薪幾千元的員工。比如,公司IT部門(mén)要響應(yīng)業(yè)務(wù)人員的各種需求(如臨時(shí)報(bào)表)。如果提供對(duì)話(huà)式UI,通過(guò)幾輪對(duì)話(huà)讓業(yè)務(wù)人員說(shuō)明白需求,Agent來(lái)自動(dòng)生成,做到這個(gè),客戶(hù)已經(jīng)愿意買(mǎi)單了。這樣IT團(tuán)隊(duì)可以從瑣碎中解脫出來(lái),做更重要的事。
Text to SQL
Text to SQL 在企業(yè)落地上有很多案例,以上例子本質(zhì)上就是Text to SQL, 只不過(guò)多了很多新的數(shù)據(jù)來(lái)源:比如從商業(yè)化中最值錢(qián)的文檔(合同、財(cái)報(bào)、簡(jiǎn)歷、招投標(biāo)書(shū)等)中提取數(shù)據(jù)。把這些數(shù)據(jù)連同專(zhuān)家知識(shí)一起灌給大模型,把信息抽出來(lái),通過(guò)Text to SQL來(lái)回答問(wèn)題,這件事已經(jīng)很值錢(qián)了,可復(fù)制性也很強(qiáng)。
寫(xiě)代碼
幫程序員寫(xiě)代碼這個(gè)場(chǎng)景毋庸多言。一個(gè)有趣的發(fā)現(xiàn),是大模型些代碼大部分時(shí)間做的是寫(xiě)正則表達(dá)式。正則表達(dá)式是個(gè)沒(méi)多少人會(huì)寫(xiě)、但是很好用的東西。程序員調(diào)試,之前在這里經(jīng)常花很多時(shí)間,用了大模型之后發(fā)現(xiàn)很快就能解決。這帶給我們一個(gè)啟發(fā):有很多人類(lèi)不擅長(zhǎng)但AI很擅長(zhǎng)的細(xì)分領(lǐng)域,是最適合Agent去落地探索的。
解決頭部問(wèn)題是落地關(guān)鍵
我們看到在Agent領(lǐng)域有很多漂亮的Demo, 但能否將企業(yè)轉(zhuǎn)化成為真正的長(zhǎng)期付費(fèi)者,一個(gè)核心是當(dāng)這個(gè)工具真的進(jìn)入企業(yè)后,員工是不是可以真正把它用起來(lái)解決問(wèn)題。Agent肯定會(huì)有不好用的地方,關(guān)鍵是要先能把大部分員工的頭部問(wèn)題解決掉。做到這個(gè),再出現(xiàn)一些小眾長(zhǎng)尾問(wèn)題,能讓大部分用戶(hù)覺(jué)得,這是人的問(wèn)題而不是AI的問(wèn)題,就好辦了(這種情況下,人會(huì)調(diào)整自己使用Agent的方式,比如更改詢(xún)問(wèn)方式等等,通過(guò)人向AI靠攏的方式解決的一部分長(zhǎng)尾問(wèn)題)。
為什么Agent落地這么難?
目前最讓開(kāi)發(fā)者頭疼的一個(gè)問(wèn)題,是雖然很多Agent demo看起來(lái)能解各種問(wèn)題,等真正應(yīng)用在實(shí)踐中,特別是2B業(yè)務(wù)流程中,好像總是不工作。這也是為什么Agent被很多用戶(hù)戲稱(chēng)為“玩具”——Agent想要真正落地非常難,但只有解決了這個(gè)問(wèn)題才能開(kāi)啟商業(yè)化的道路。這可能是Agent領(lǐng)域最關(guān)鍵的問(wèn)題之一,圍繞Agent為何落地困難我們進(jìn)行了深入探討,總結(jié)了實(shí)踐中碰到的挑戰(zhàn)以及背后更深層的原因。
從實(shí)踐層面,影響目前Agent落地的問(wèn)題主要有如下兩方面:
API質(zhì)量差,沒(méi)有形成生態(tài)
Agent在2B領(lǐng)域落地,有些類(lèi)似ChatGPT Plugin搬到2B領(lǐng)域。但ChatGPT Plugin發(fā)布之后,實(shí)際落地的情況與預(yù)期有很大差距,我們分析背后原因在于兩個(gè):一是背后的API不夠豐富、質(zhì)量差(比如描述不清晰),二是試圖用一個(gè)模型解決所有的垂直問(wèn)題(大模型對(duì)于垂直場(chǎng)景的理解未必足夠)。第一個(gè)問(wèn)題在國(guó)內(nèi)尤其嚴(yán)重。企業(yè)服務(wù)API生態(tài)在歐美非常成熟和開(kāi)放,中國(guó)還很不完善,開(kāi)發(fā)者很難賺到錢(qián)。這些讓Agent很難真正在生產(chǎn)環(huán)境落地。
開(kāi)放場(chǎng)景 vs 封閉場(chǎng)景
Agent的落地效果與場(chǎng)景的封閉程度也很相關(guān)。一個(gè)典型的對(duì)比是Agent在法律助手 vs 出行預(yù)訂場(chǎng)景。前者場(chǎng)景不夠封閉,經(jīng)常有新知識(shí)(如新的法律法規(guī)、新的判例)出現(xiàn),API也不夠完善。要做成真正的律師“助手”還有比較大的挑戰(zhàn),比較現(xiàn)實(shí)的是做成一個(gè)幫助律師整理文檔、搜索案例的提效工具。而后者場(chǎng)景封閉(可以窮舉)、API豐富(機(jī)票、酒店等都有明確的API),在落地中的效果要好很多。最理想的落地情況,是有大量垂直領(lǐng)域數(shù)據(jù)(給到大模型做預(yù)訓(xùn)練)、場(chǎng)景封閉、問(wèn)題基本可窮舉。
而從更深層的角度剖析,我們認(rèn)為Agent之所以落地困難。背后的核心是大模型目前還缺乏解決相關(guān)應(yīng)用領(lǐng)域的“世界模型”。
04Agent成功的關(guān)鍵 ——“世界模型”
上文所謂應(yīng)用領(lǐng)域的世界模型,是指Agent落地到具體應(yīng)用場(chǎng)景,要理解當(dāng)下任務(wù)并預(yù)測(cè)未來(lái)情景,這需要超越簡(jiǎn)單的文本學(xué)習(xí),深入獲取領(lǐng)域知識(shí)、領(lǐng)域相關(guān)的私有數(shù)據(jù)以及相關(guān)任務(wù)的“過(guò)程數(shù)據(jù)”(即領(lǐng)域?qū)<沂侨绾畏纸馊蝿?wù)、產(chǎn)生結(jié)果的)。大模型在訓(xùn)練過(guò)程中,尤其缺乏“過(guò)程數(shù)據(jù)”,這讓世界模型的建立變得困難。
為什么大模型訓(xùn)練為何會(huì)缺乏“過(guò)程數(shù)據(jù)”?
1)訓(xùn)練語(yǔ)料問(wèn)題。大模型學(xué)習(xí)主要的語(yǔ)料來(lái)源是網(wǎng)絡(luò)文字。但目前語(yǔ)料中,絕大多數(shù)都是關(guān)于“What”的,關(guān)于“How"的很少。尤其在2B業(yè)務(wù)領(lǐng)域,絕大多數(shù)的成功經(jīng)驗(yàn)和失敗教訓(xùn)都不大可能被公開(kāi)分享出來(lái)。前者多為創(chuàng)造價(jià)值的商業(yè)機(jī)密,而后者則很少會(huì)被主動(dòng)分享,即使公開(kāi),也有很多美化及偏離事實(shí)的可能性,這可能會(huì)帶來(lái)大模型的錯(cuò)誤歸因。
2)即使在“私有數(shù)據(jù)”中,關(guān)于過(guò)程的數(shù)據(jù)也依然很少。大量的所謂“經(jīng)驗(yàn)”是存在在相應(yīng)崗位專(zhuān)家的大腦里的,并未以任何文字的形式被記錄下來(lái)。
舉個(gè)例子。在招聘領(lǐng)域,通常企業(yè)的用人標(biāo)準(zhǔn)會(huì)有“工作穩(wěn)定”一項(xiàng),但針對(duì)不同的崗位、不同的行業(yè)這個(gè)“工作穩(wěn)定”所對(duì)應(yīng)的標(biāo)準(zhǔn)是完全不一樣的。這些”知識(shí)”是人類(lèi)HR/獵頭腦海中的經(jīng)驗(yàn),針對(duì)崗位、公司的不同,自然就能把“工作穩(wěn)定”對(duì)應(yīng)到不同的標(biāo)準(zhǔn),有時(shí)候甚至只是一個(gè)行業(yè)的“共識(shí)”,并沒(méi)有什么成文規(guī)定。但是讓大模型來(lái)做這件事,就需要詳細(xì)地把各個(gè)行業(yè)、崗位、工種、對(duì)應(yīng)的“工作穩(wěn)定”的標(biāo)準(zhǔn)寫(xiě)下來(lái)告訴它(大模型在訓(xùn)練語(yǔ)料中幾乎很難獲得這種很少出現(xiàn)在文字/語(yǔ)料中的專(zhuān)業(yè)“知識(shí)”),否則大模型缺失了這部分的“知識(shí)”,做“工作穩(wěn)定”這一標(biāo)準(zhǔn)的篩選準(zhǔn)確率自然就低,而千千萬(wàn)萬(wàn)個(gè)這樣的“知識(shí)點(diǎn)”就構(gòu)成了一個(gè)招聘領(lǐng)域的“世界模型”。
3)缺乏大模型執(zhí)行任務(wù)過(guò)程的“標(biāo)注數(shù)據(jù)”,無(wú)法形成反饋-優(yōu)化閉環(huán)。目前大模型基于網(wǎng)絡(luò)語(yǔ)料的學(xué)習(xí),是每采取一個(gè)行動(dòng),都對(duì)應(yīng)明確的Ground Truth. 大模型基于用戶(hù)對(duì)問(wèn)題的反饋來(lái)不斷迭代升級(jí)。但Agent的問(wèn)題在于,絕大多數(shù)agent執(zhí)行到任務(wù)的最后一步,才是對(duì)用戶(hù)需求目標(biāo)的達(dá)成,因而只有在最后那一步才有標(biāo)注結(jié)果。對(duì)于其解決問(wèn)題的中間過(guò)程,很多時(shí)候Agent得不到及時(shí)的反饋——做的是否正確、是否有更優(yōu)的做法等等,這也讓Agent“自我進(jìn)化"變得緩慢。
看好掌握領(lǐng)域“世界模型”的Vertical Agent
我們判斷,各領(lǐng)域“世界模型”的建立是AI走向落地的重要一環(huán),也是AI向AGI發(fā)展的關(guān)鍵環(huán)節(jié)。現(xiàn)階段“世界模型”的缺乏,是大模型的“缺陷”也給大量做Vertical Agent的公司帶來(lái)了很大的機(jī)遇:構(gòu)建垂直領(lǐng)域的“世界模型”需要相關(guān)公司做大量的工作收集、整理領(lǐng)域知識(shí)和私有數(shù)據(jù)、理解具體業(yè)務(wù)的工作流等等,是一個(gè)相當(dāng)復(fù)雜的系統(tǒng)工程。尤其在法律、醫(yī)療、金融等數(shù)據(jù)龐雜、專(zhuān)業(yè)性極高的領(lǐng)域。一旦有Vertical Agent的公司能夠建立、掌握這些垂直行業(yè)的”世界模型“,也就擁有了在這個(gè)不確定時(shí)代極強(qiáng)的競(jìng)爭(zhēng)壁壘。我們非常看好這類(lèi)創(chuàng)業(yè)公司在未來(lái)的前景。
05Multi-Agent:為何它的效果明顯更好?
最近半年Agent領(lǐng)域一個(gè)明顯的趨勢(shì)是“Multi-Agent”框架的流行。很多開(kāi)發(fā)者發(fā)現(xiàn),當(dāng)事先給Agent設(shè)定不同的角色(如產(chǎn)品經(jīng)理、程序員、UI/UE等等),再讓這些Agents一起“協(xié)作”完成一個(gè)任務(wù)時(shí),要比AutoGPT這種單一Agent框架效果好很多,任務(wù)完成度更高。相比單一Agent,Multi-Agent除了給大模型設(shè)定了角色,好像也沒(méi)有提供更多的增量信息。為什么這個(gè)框架會(huì)明顯的有效呢?
我們認(rèn)為有如下幾點(diǎn)原因: 角色扮演有引導(dǎo)性,更容易讓它聚焦到相關(guān)的概率區(qū)間
大模型本質(zhì)是概率模型,每次輸出都不一樣。它在訓(xùn)練過(guò)程接受了豐富的語(yǔ)料,面對(duì)一個(gè)問(wèn)題時(shí),大模型有很多不同的角度和觀點(diǎn),但它自己并不知道應(yīng)該找哪一個(gè)切入。這時(shí)如果用戶(hù)給它一個(gè)角色,讓它聚焦到一個(gè)身份、一種觀點(diǎn)上去,它更容易進(jìn)入到一個(gè)與問(wèn)題相關(guān)性更高的概率空間,把其中的專(zhuān)業(yè)內(nèi)容挖掘出來(lái)。給大模型一個(gè)身份看似沒(méi)有增量信息,其實(shí)一個(gè)“角色”背后已經(jīng)隱含了很多與角色相關(guān)的信息。
讓大模型做更多的“算力消耗”,System1 vs System2
OpenAI聯(lián)創(chuàng)Andrej曾經(jīng)分享過(guò),他認(rèn)為Prompt Engineering中思維鏈(Chain of Thought)之所以有用,就是類(lèi)似“Let's think step by step“這樣的Prompt,讓大模型在輸出的時(shí)候消耗了更多的算力。這點(diǎn)跟人腦類(lèi)似,人腦在解一個(gè)復(fù)雜問(wèn)題時(shí)會(huì)消耗更多能量。而Multi-Agent正是這樣一套能讓大模型輸出更多、從而消耗更多算力的機(jī)制。大模型其實(shí)跟人腦的System1類(lèi)似,特點(diǎn)是不論用戶(hù)給它的問(wèn)題難度如何,它的思考時(shí)間(對(duì)應(yīng)背后的計(jì)算量)是一樣的。而目前在Prompt層所做的思維鏈、Multi-Agent等等工作,都為了讓大模型從System1向System2發(fā)展,越復(fù)雜的問(wèn)題思考得越久。通過(guò)Multi-Agent框架,可以讓它消耗更多的算力、做更多思維層次的計(jì)算和思考,更有可能更好地解決復(fù)雜任務(wù)。
這又引申出了許多創(chuàng)業(yè)者遇到的一個(gè)問(wèn)題:并非所有問(wèn)題都需要System2的能力,如何區(qū)分面對(duì)的問(wèn)題需要System 1還是System2解決呢?如果都用System1的方式解決,那么復(fù)雜問(wèn)題得不到很好的解決;如果都用System2的方式解決,那么又會(huì)“殺雞用牛刀”,既浪費(fèi)算力、又拉長(zhǎng)了反饋時(shí)間。最好的方式是能針對(duì)問(wèn)題做好分流。這意味著Agent需要對(duì)海量的新問(wèn)題做實(shí)時(shí)判斷,該用哪種方式解決,而這是絕大多數(shù)Agent很難做到的。目前有些創(chuàng)業(yè)者在探索先用大模型對(duì)問(wèn)題做一遍意圖識(shí)別(分類(lèi)器),再分流到不同的解決方式中去做具體執(zhí)行。但在很多垂直領(lǐng)域(如法律等),把這個(gè)“分類(lèi)器”做準(zhǔn)確的難度依然很大。
結(jié)合多個(gè)大模型的最強(qiáng)能力
前面兩個(gè)角度,是如何通過(guò)Multi-Agent激發(fā)大模型發(fā)揮能力,背后對(duì)應(yīng)的是一個(gè)能力強(qiáng)大的單一大模型。還存在另一種視角,就是Multi-Agent用來(lái)結(jié)合多個(gè)大模型的特色能力。雖然目前OpenAI在大模型領(lǐng)域“一騎絕塵”,我們也觀察到其他頭部大模型更注重在一些獨(dú)特能力上的訓(xùn)練(比如更強(qiáng)調(diào)與人類(lèi)的共情能力、更加注重alignment等)。在未來(lái),當(dāng)這些各有所長(zhǎng)的大模型都進(jìn)入生產(chǎn),Multi-Agent框架會(huì)很方便地融合各家大模型的優(yōu)勢(shì)“為我所用”。
06多模態(tài):對(duì)比大語(yǔ)言模型有哪些提升?
大語(yǔ)言模型正在向多模態(tài)大模型發(fā)展,對(duì)比大語(yǔ)言模型,它帶來(lái)的能力提升有哪些,有什么深刻的變化?對(duì)創(chuàng)業(yè)者又多了哪些機(jī)遇?
從一個(gè)簡(jiǎn)單問(wèn)題類(lèi)比說(shuō)起
我們先從討論一個(gè)簡(jiǎn)單的問(wèn)題開(kāi)始:聾子和瞎子,一個(gè)沒(méi)有聽(tīng)覺(jué),一個(gè)沒(méi)有視覺(jué),哪個(gè)智力水平高?實(shí)際上瞎子的智力水平更高。這背后的原因是語(yǔ)言比視覺(jué)對(duì)人腦來(lái)說(shuō)更加重要。視覺(jué)給我們的反饋,不如語(yǔ)言的反饋那么復(fù)雜。這是個(gè)抽象程度的問(wèn)題,語(yǔ)言比視覺(jué)抽象程度更高,人和動(dòng)物的區(qū)別是人有語(yǔ)言。所以,目前視覺(jué)等多模態(tài)模型,對(duì)于模型能力并沒(méi)有一個(gè)質(zhì)的提升。
具體解釋一下,目前的多模態(tài)模型,是通過(guò)某種connection把視覺(jué)和文字兩個(gè)模態(tài)的數(shù)據(jù)對(duì)齊 --先訓(xùn)練單模態(tài),再通過(guò)對(duì)齊,去做成多模態(tài)。它還沒(méi)有真正從預(yù)訓(xùn)練的時(shí)候,就把文字、視覺(jué)綁在一起從頭訓(xùn)練,因?yàn)楝F(xiàn)階段跨模態(tài)對(duì)齊的數(shù)據(jù)還是太少了。大家認(rèn)為可行的思路還是先訓(xùn)練單模態(tài)然后再做對(duì)齊。除了語(yǔ)言模型,目前其他模態(tài)的encoder能力和量級(jí)相比都差很遠(yuǎn)(比語(yǔ)言模型小1-2個(gè)數(shù)量級(jí))。所以現(xiàn)在這條路效率最高,一下能通過(guò)語(yǔ)言模態(tài)賦予其他模態(tài)更高級(jí)的能力。這種多個(gè)模態(tài)對(duì)齊的多模態(tài)大模型,在能力上不會(huì)有突破式的飛躍,因?yàn)楹诵哪芰σ呀?jīng)在語(yǔ)言模型里面了。
多模態(tài)帶來(lái)的好處
視覺(jué)比語(yǔ)言有更多的信息。目前大模型都是基于Transformer架構(gòu),這個(gè)架構(gòu)本身跟語(yǔ)言關(guān)系不大,它只是在處理token之間的關(guān)系,最后再把這些token折換成語(yǔ)言。從這個(gè)意義上來(lái)說(shuō),不同模態(tài)的”語(yǔ)料“之間并沒(méi)有質(zhì)的區(qū)別。因此,考慮多模態(tài)的影響,要考慮視覺(jué)中究竟包含了多少語(yǔ)言里沒(méi)有的信息。比如,視頻中有很多關(guān)于現(xiàn)實(shí)世界的“common sense"(如空間位置、重力、光影等等),在語(yǔ)言中是缺失的,這部分信息的補(bǔ)足對(duì)于建立對(duì)真實(shí)的”世界模型"是很有幫助的。這對(duì)于后續(xù)大模型在自動(dòng)駕駛、機(jī)器人等需要與真實(shí)世界互動(dòng)的場(chǎng)景中落地有很大意義。比如,聾子和瞎子能干什么不同的事情?瞎子是不能開(kāi)車(chē)的。如果GPT有了視力,是可以開(kāi)車(chē)的,無(wú)人駕駛可以靠GPT來(lái)理解周?chē)沫h(huán)境。
多模態(tài)極大增強(qiáng)了交互的輸入輸出帶寬。許多用文字很難描述、或者需要非常長(zhǎng)、復(fù)雜的文檔才能描述的關(guān)系、內(nèi)容,可以通過(guò)畫(huà)圖的形式給到大模型,輸出也是如此。這讓人機(jī)交互的輸入輸出帶寬一下大了很多倍,帶來(lái)的直接效果是大模型處理同樣任務(wù)的效果更好、效率更高,也一定程度上解決了token限制的問(wèn)題。Context輸入一下子擴(kuò)大了很多。比如,可以給大模型幾萬(wàn)行代碼對(duì)應(yīng)的架構(gòu)圖,它可以很快整理出模塊之間的關(guān)系,這是沒(méi)有多模態(tài)之前無(wú)法達(dá)到的。
07對(duì)Agent未來(lái)的幾個(gè)預(yù)判
最后分享幾個(gè)我們對(duì)Agent未來(lái)發(fā)展的預(yù)判,與大家探討:
AI Native工作流
Agent在2B領(lǐng)域落地,目前是按照人類(lèi)工作的流程切分的,沒(méi)有考慮到機(jī)器,也沒(méi)有“人機(jī)協(xié)作”的概念。只是沿用過(guò)去的流程把機(jī)器加入很可能已經(jīng)不是最優(yōu)方式——既無(wú)法發(fā)揮機(jī)器的最大效率,人類(lèi)員工也不適應(yīng)。因而做2B場(chǎng)景的Agent,需要重新思考人機(jī)協(xié)同的工作模式下,什么樣的工作流程是最優(yōu)的,再自上而下地重塑工作流。AI native的工作流應(yīng)當(dāng)是什么樣?這是個(gè)開(kāi)放性問(wèn)題,并沒(méi)有明確的答案,但這個(gè)問(wèn)題可能會(huì)定義下一代的企業(yè)級(jí)軟件,是值得現(xiàn)階段的初創(chuàng)公司去深入思考和探索的重點(diǎn)問(wèn)題。
真正的多模態(tài)
未來(lái)可以有一開(kāi)始就把多種模態(tài)的語(yǔ)料一起訓(xùn)練的多模態(tài)大模型。或者,等視覺(jué)模態(tài)encoder的能力和量級(jí)可以跟現(xiàn)在的大語(yǔ)言模型等量齊觀,用它來(lái)輔助做決策,或者兩個(gè)大模型共同做決策,可能會(huì)爆發(fā)很大的潛力,帶來(lái)突破式發(fā)展。
Agent的自我進(jìn)化
隨著AI能力的逐步增強(qiáng),未來(lái)Agent將如何演化?也許,它們可以實(shí)現(xiàn)“自我進(jìn)化”。比如,自己生產(chǎn)出新的Agent,或者設(shè)計(jì)出適合Agent協(xié)作的全新的組織結(jié)構(gòu)來(lái)完成復(fù)雜的任務(wù),就如同人類(lèi)發(fā)展出了適應(yīng)人類(lèi)社會(huì)的復(fù)雜協(xié)作模式和分工體系。這是一個(gè)很值得思考的前沿方向,背后是Agent之間的通訊及協(xié)作模式。目前這個(gè)方向的研究還非常的少,我們覺(jué)得是很值得探索的一個(gè)領(lǐng)域。
審核編輯:劉清
-
SQL
+關(guān)注
關(guān)注
1文章
759瀏覽量
44069 -
GPT
+關(guān)注
關(guān)注
0文章
351瀏覽量
15312 -
OpenAI
+關(guān)注
關(guān)注
9文章
1042瀏覽量
6404 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1548瀏覽量
7487 -
LLM
+關(guān)注
關(guān)注
0文章
272瀏覽量
306
原文標(biāo)題:Atom Capital:AI最大賽道Agent機(jī)遇全解析
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論