亚洲精品无码永久在线观看,国产精品一区久久久久久,免费a级毛片无码免费视频120软件,国产在线国偷精品免费看,国产精品99无码一区二区,天天躁日日躁狠狠躁一区,91视频一区二区

01狂飆的Agent—Agent 2023大事記

“如果一篇論文提出了某種不同的訓(xùn)練方法，OpenAI內(nèi)部會(huì)嗤之以鼻，認(rèn)為都是我們玩剩下的。但是當(dāng)新的AI Agent論文出來(lái)時(shí)，我們會(huì)十分認(rèn)真且興奮地討論。普通人、創(chuàng)業(yè)者和極客在構(gòu)建AI Agents方面相比OpenAI這樣的公司更有優(yōu)勢(shì)。” -- OpenAI聯(lián)創(chuàng)Andrej Karpathy

如果說(shuō)現(xiàn)在還有什么AI領(lǐng)域的“點(diǎn)子”能讓OpenAI為之興奮，那非Agent莫屬。從一個(gè)學(xué)界研究的概念到走入大眾視野，Agent只用了短短不到一年時(shí)間。如果大模型是未來(lái)水電煤一般的基礎(chǔ)設(shè)施，那么Agent則是未來(lái)用戶(hù)接觸、使用AI的方式。我們梳理了今年Agent狂飆突進(jìn)的重要milestone，從中也可以窺見(jiàn)它的核心發(fā)展脈絡(luò)。

2023.3.16，微軟發(fā)布Microsoft 365 Copilot，引發(fā)業(yè)界巨大反響，提示了一種基于LLM的應(yīng)用開(kāi)發(fā)范式，也即今天形成行業(yè)共識(shí)的Agent。

2023.4，以AutoGPT為代表的Autonomous Agent 熱度快速躥升，AutoGPT成為GitHub歷史上star數(shù)增長(zhǎng)最快的項(xiàng)目。同期比較受關(guān)注的類(lèi)似項(xiàng)目包括：TaskMatrix.ai，HuggingGPT, AgentGPT, Toolformer, BabyAGI等等。

2023.6，OpenAI 應(yīng)用研究主管 Lilian Weng 發(fā)布博文《LLM Powered Autonomous Agents》進(jìn)一步推動(dòng)了agent的熱度，Lilian提出Agent = 大型語(yǔ)言模型+記憶+規(guī)劃技能+工具使用。

多Agent框架相繼發(fā)布，相對(duì)于單一Agent框架能夠更好地解決復(fù)雜問(wèn)題。目前比較火的多Agent框架包括：Camel(4月發(fā)布，3.4k star), MetaGPT(8月發(fā)布，29.7k star), AutoGen(9月發(fā)布，微軟團(tuán)隊(duì)，13.6k star)

2023.11.6，OpenAI DevDay，推出其官方Agent開(kāi)發(fā)框架Assistant API，賦能開(kāi)發(fā)者更加高效方便地基于GPT模型進(jìn)行的Agent開(kāi)發(fā)。

02 Agent Landscape概覽

Agent吸引了大量創(chuàng)業(yè)者投身其中，據(jù)我們不完全統(tǒng)計(jì)，今年下半年在海外拿到知名創(chuàng)投機(jī)構(gòu)投資的Agent項(xiàng)目已超過(guò)20家。在此我們做個(gè)基本梳理，方便大家了解目前市場(chǎng)上的整體情況：從創(chuàng)投行業(yè)角度，當(dāng)下LLM based Agent領(lǐng)域初創(chuàng)公司可大致分為兩類(lèi)：

中間層infra

提供實(shí)用可復(fù)用的Agent框架，降低開(kāi)發(fā)Agent 的復(fù)雜度，并為Agent的合作提供機(jī)制設(shè)計(jì)。該類(lèi)項(xiàng)目主要從模塊化、適配性、協(xié)作等幾方面進(jìn)行創(chuàng)新。其中拿到知名機(jī)構(gòu)投資的代表項(xiàng)目包括：AutoGPT、Imbue、Voiceflow、Fixie AI、Reworked、Cognosys、Induced ai等。

Vertical Agent

深入某個(gè)垂直領(lǐng)域，理解該領(lǐng)域?qū)＜业墓ぷ髁鳎\(yùn)用Agent 思路設(shè)計(jì)Copilot產(chǎn)品，用戶(hù)介入使 Agent思路更為可控。其中拿到知名機(jī)構(gòu)投資的代表項(xiàng)目包括：Dropzone（安全領(lǐng)域）、Middleware（大模型可觀察性領(lǐng)域）、Parcha（Fintech領(lǐng)域）、Luda（游戲領(lǐng)域）、Outbound AI（醫(yī)療領(lǐng)域）、Fine（軟件開(kāi)發(fā)領(lǐng)域）。

從Agent的互動(dòng)/工作模式角度，復(fù)旦大學(xué)自然語(yǔ)言處理團(tuán)隊(duì)（FudanNLP）在其 LLM-based Agents 綜述論文中，將Agent分成了三類(lèi)：單一Agent, 多Agent以及人與Agent交互（按交互方式又分為指導(dǎo)-執(zhí)行模式和平等合作模式）。如下圖所示：

03Agent落地：場(chǎng)景和挑戰(zhàn)

本次沙龍參與者既有學(xué)界資深的AI研究員，也有富有實(shí)戰(zhàn)經(jīng)驗(yàn)的一線(xiàn)Agent創(chuàng)業(yè)者。對(duì)于圍繞Agent大家關(guān)心的若干問(wèn)題，我們進(jìn)行了深入討論，以下是本次討論的一些精彩觀點(diǎn)：

Agent適合在哪些場(chǎng)景落地？

創(chuàng)業(yè)者們已經(jīng)嘗試了各種落地場(chǎng)景，總結(jié)下來(lái)，以下幾點(diǎn)更契合Agent的落地。

做到比人（普通員工）好

客戶(hù)不一定要求Agent達(dá)到專(zhuān)家水平，很多場(chǎng)合只要比普通員工好就夠了。Agent PK的，實(shí)際上是月薪幾千元的員工。比如，公司IT部門(mén)要響應(yīng)業(yè)務(wù)人員的各種需求（如臨時(shí)報(bào)表）。如果提供對(duì)話(huà)式UI，通過(guò)幾輪對(duì)話(huà)讓業(yè)務(wù)人員說(shuō)明白需求，Agent來(lái)自動(dòng)生成，做到這個(gè)，客戶(hù)已經(jīng)愿意買(mǎi)單了。這樣IT團(tuán)隊(duì)可以從瑣碎中解脫出來(lái)，做更重要的事。

Text to SQL

Text to SQL 在企業(yè)落地上有很多案例，以上例子本質(zhì)上就是Text to SQL, 只不過(guò)多了很多新的數(shù)據(jù)來(lái)源：比如從商業(yè)化中最值錢(qián)的文檔（合同、財(cái)報(bào)、簡(jiǎn)歷、招投標(biāo)書(shū)等）中提取數(shù)據(jù)。把這些數(shù)據(jù)連同專(zhuān)家知識(shí)一起灌給大模型，把信息抽出來(lái)，通過(guò)Text to SQL來(lái)回答問(wèn)題，這件事已經(jīng)很值錢(qián)了，可復(fù)制性也很強(qiáng)。

寫(xiě)代碼

幫程序員寫(xiě)代碼這個(gè)場(chǎng)景毋庸多言。一個(gè)有趣的發(fā)現(xiàn)，是大模型些代碼大部分時(shí)間做的是寫(xiě)正則表達(dá)式。正則表達(dá)式是個(gè)沒(méi)多少人會(huì)寫(xiě)、但是很好用的東西。程序員調(diào)試，之前在這里經(jīng)常花很多時(shí)間，用了大模型之后發(fā)現(xiàn)很快就能解決。這帶給我們一個(gè)啟發(fā)：有很多人類(lèi)不擅長(zhǎng)但AI很擅長(zhǎng)的細(xì)分領(lǐng)域，是最適合Agent去落地探索的。

解決頭部問(wèn)題是落地關(guān)鍵

我們看到在Agent領(lǐng)域有很多漂亮的Demo, 但能否將企業(yè)轉(zhuǎn)化成為真正的長(zhǎng)期付費(fèi)者，一個(gè)核心是當(dāng)這個(gè)工具真的進(jìn)入企業(yè)后，員工是不是可以真正把它用起來(lái)解決問(wèn)題。Agent肯定會(huì)有不好用的地方，關(guān)鍵是要先能把大部分員工的頭部問(wèn)題解決掉。做到這個(gè)，再出現(xiàn)一些小眾長(zhǎng)尾問(wèn)題，能讓大部分用戶(hù)覺(jué)得，這是人的問(wèn)題而不是AI的問(wèn)題，就好辦了（這種情況下，人會(huì)調(diào)整自己使用Agent的方式，比如更改詢(xún)問(wèn)方式等等，通過(guò)人向AI靠攏的方式解決的一部分長(zhǎng)尾問(wèn)題）。

為什么Agent落地這么難?

目前最讓開(kāi)發(fā)者頭疼的一個(gè)問(wèn)題，是雖然很多Agent demo看起來(lái)能解各種問(wèn)題，等真正應(yīng)用在實(shí)踐中，特別是2B業(yè)務(wù)流程中，好像總是不工作。這也是為什么Agent被很多用戶(hù)戲稱(chēng)為“玩具”——Agent想要真正落地非常難，但只有解決了這個(gè)問(wèn)題才能開(kāi)啟商業(yè)化的道路。這可能是Agent領(lǐng)域最關(guān)鍵的問(wèn)題之一，圍繞Agent為何落地困難我們進(jìn)行了深入探討，總結(jié)了實(shí)踐中碰到的挑戰(zhàn)以及背后更深層的原因。

從實(shí)踐層面，影響目前Agent落地的問(wèn)題主要有如下兩方面：

API質(zhì)量差，沒(méi)有形成生態(tài)

Agent在2B領(lǐng)域落地，有些類(lèi)似ChatGPT Plugin搬到2B領(lǐng)域。但ChatGPT Plugin發(fā)布之后，實(shí)際落地的情況與預(yù)期有很大差距，我們分析背后原因在于兩個(gè)：一是背后的API不夠豐富、質(zhì)量差（比如描述不清晰），二是試圖用一個(gè)模型解決所有的垂直問(wèn)題（大模型對(duì)于垂直場(chǎng)景的理解未必足夠）。第一個(gè)問(wèn)題在國(guó)內(nèi)尤其嚴(yán)重。企業(yè)服務(wù)API生態(tài)在歐美非常成熟和開(kāi)放，中國(guó)還很不完善，開(kāi)發(fā)者很難賺到錢(qián)。這些讓Agent很難真正在生產(chǎn)環(huán)境落地。

開(kāi)放場(chǎng)景 vs 封閉場(chǎng)景

Agent的落地效果與場(chǎng)景的封閉程度也很相關(guān)。一個(gè)典型的對(duì)比是Agent在法律助手 vs 出行預(yù)訂場(chǎng)景。前者場(chǎng)景不夠封閉，經(jīng)常有新知識(shí)（如新的法律法規(guī)、新的判例）出現(xiàn)，API也不夠完善。要做成真正的律師“助手”還有比較大的挑戰(zhàn)，比較現(xiàn)實(shí)的是做成一個(gè)幫助律師整理文檔、搜索案例的提效工具。而后者場(chǎng)景封閉（可以窮舉）、API豐富（機(jī)票、酒店等都有明確的API），在落地中的效果要好很多。最理想的落地情況，是有大量垂直領(lǐng)域數(shù)據(jù)（給到大模型做預(yù)訓(xùn)練）、場(chǎng)景封閉、問(wèn)題基本可窮舉。

而從更深層的角度剖析，我們認(rèn)為Agent之所以落地困難。背后的核心是大模型目前還缺乏解決相關(guān)應(yīng)用領(lǐng)域的“世界模型”。

04Agent成功的關(guān)鍵 ——“世界模型”

上文所謂應(yīng)用領(lǐng)域的世界模型，是指Agent落地到具體應(yīng)用場(chǎng)景，要理解當(dāng)下任務(wù)并預(yù)測(cè)未來(lái)情景，這需要超越簡(jiǎn)單的文本學(xué)習(xí)，深入獲取領(lǐng)域知識(shí)、領(lǐng)域相關(guān)的私有數(shù)據(jù)以及相關(guān)任務(wù)的“過(guò)程數(shù)據(jù)”（即領(lǐng)域?qū)＜沂侨绾畏纸馊蝿?wù)、產(chǎn)生結(jié)果的）。大模型在訓(xùn)練過(guò)程中，尤其缺乏“過(guò)程數(shù)據(jù)”，這讓世界模型的建立變得困難。

為什么大模型訓(xùn)練為何會(huì)缺乏“過(guò)程數(shù)據(jù)”？

1）訓(xùn)練語(yǔ)料問(wèn)題。大模型學(xué)習(xí)主要的語(yǔ)料來(lái)源是網(wǎng)絡(luò)文字。但目前語(yǔ)料中，絕大多數(shù)都是關(guān)于“What”的，關(guān)于“How"的很少。尤其在2B業(yè)務(wù)領(lǐng)域，絕大多數(shù)的成功經(jīng)驗(yàn)和失敗教訓(xùn)都不大可能被公開(kāi)分享出來(lái)。前者多為創(chuàng)造價(jià)值的商業(yè)機(jī)密，而后者則很少會(huì)被主動(dòng)分享，即使公開(kāi)，也有很多美化及偏離事實(shí)的可能性，這可能會(huì)帶來(lái)大模型的錯(cuò)誤歸因。

2）即使在“私有數(shù)據(jù)”中，關(guān)于過(guò)程的數(shù)據(jù)也依然很少。大量的所謂“經(jīng)驗(yàn)”是存在在相應(yīng)崗位專(zhuān)家的大腦里的，并未以任何文字的形式被記錄下來(lái)。

舉個(gè)例子。在招聘領(lǐng)域，通常企業(yè)的用人標(biāo)準(zhǔn)會(huì)有“工作穩(wěn)定”一項(xiàng)，但針對(duì)不同的崗位、不同的行業(yè)這個(gè)“工作穩(wěn)定”所對(duì)應(yīng)的標(biāo)準(zhǔn)是完全不一樣的。這些”知識(shí)”是人類(lèi)HR/獵頭腦海中的經(jīng)驗(yàn)，針對(duì)崗位、公司的不同，自然就能把“工作穩(wěn)定”對(duì)應(yīng)到不同的標(biāo)準(zhǔn)，有時(shí)候甚至只是一個(gè)行業(yè)的“共識(shí)”，并沒(méi)有什么成文規(guī)定。但是讓大模型來(lái)做這件事，就需要詳細(xì)地把各個(gè)行業(yè)、崗位、工種、對(duì)應(yīng)的“工作穩(wěn)定”的標(biāo)準(zhǔn)寫(xiě)下來(lái)告訴它（大模型在訓(xùn)練語(yǔ)料中幾乎很難獲得這種很少出現(xiàn)在文字/語(yǔ)料中的專(zhuān)業(yè)“知識(shí)”），否則大模型缺失了這部分的“知識(shí)”，做“工作穩(wěn)定”這一標(biāo)準(zhǔn)的篩選準(zhǔn)確率自然就低，而千千萬(wàn)萬(wàn)個(gè)這樣的“知識(shí)點(diǎn)”就構(gòu)成了一個(gè)招聘領(lǐng)域的“世界模型”。

3）缺乏大模型執(zhí)行任務(wù)過(guò)程的“標(biāo)注數(shù)據(jù)”，無(wú)法形成反饋-優(yōu)化閉環(huán)。目前大模型基于網(wǎng)絡(luò)語(yǔ)料的學(xué)習(xí)，是每采取一個(gè)行動(dòng)，都對(duì)應(yīng)明確的Ground Truth. 大模型基于用戶(hù)對(duì)問(wèn)題的反饋來(lái)不斷迭代升級(jí)。但Agent的問(wèn)題在于，絕大多數(shù)agent執(zhí)行到任務(wù)的最后一步，才是對(duì)用戶(hù)需求目標(biāo)的達(dá)成，因而只有在最后那一步才有標(biāo)注結(jié)果。對(duì)于其解決問(wèn)題的中間過(guò)程，很多時(shí)候Agent得不到及時(shí)的反饋——做的是否正確、是否有更優(yōu)的做法等等，這也讓Agent“自我進(jìn)化"變得緩慢。

看好掌握領(lǐng)域“世界模型”的Vertical Agent

我們判斷，各領(lǐng)域“世界模型”的建立是AI走向落地的重要一環(huán)，也是AI向AGI發(fā)展的關(guān)鍵環(huán)節(jié)。現(xiàn)階段“世界模型”的缺乏，是大模型的“缺陷”也給大量做Vertical Agent的公司帶來(lái)了很大的機(jī)遇：構(gòu)建垂直領(lǐng)域的“世界模型”需要相關(guān)公司做大量的工作收集、整理領(lǐng)域知識(shí)和私有數(shù)據(jù)、理解具體業(yè)務(wù)的工作流等等，是一個(gè)相當(dāng)復(fù)雜的系統(tǒng)工程。尤其在法律、醫(yī)療、金融等數(shù)據(jù)龐雜、專(zhuān)業(yè)性極高的領(lǐng)域。一旦有Vertical Agent的公司能夠建立、掌握這些垂直行業(yè)的”世界模型“，也就擁有了在這個(gè)不確定時(shí)代極強(qiáng)的競(jìng)爭(zhēng)壁壘。我們非常看好這類(lèi)創(chuàng)業(yè)公司在未來(lái)的前景。

05Multi-Agent：為何它的效果明顯更好？

最近半年Agent領(lǐng)域一個(gè)明顯的趨勢(shì)是“Multi-Agent”框架的流行。很多開(kāi)發(fā)者發(fā)現(xiàn)，當(dāng)事先給Agent設(shè)定不同的角色（如產(chǎn)品經(jīng)理、程序員、UI/UE等等），再讓這些Agents一起“協(xié)作”完成一個(gè)任務(wù)時(shí)，要比AutoGPT這種單一Agent框架效果好很多，任務(wù)完成度更高。相比單一Agent，Multi-Agent除了給大模型設(shè)定了角色，好像也沒(méi)有提供更多的增量信息。為什么這個(gè)框架會(huì)明顯的有效呢？

我們認(rèn)為有如下幾點(diǎn)原因： 角色扮演有引導(dǎo)性，更容易讓它聚焦到相關(guān)的概率區(qū)間

大模型本質(zhì)是概率模型，每次輸出都不一樣。它在訓(xùn)練過(guò)程接受了豐富的語(yǔ)料，面對(duì)一個(gè)問(wèn)題時(shí)，大模型有很多不同的角度和觀點(diǎn)，但它自己并不知道應(yīng)該找哪一個(gè)切入。這時(shí)如果用戶(hù)給它一個(gè)角色，讓它聚焦到一個(gè)身份、一種觀點(diǎn)上去，它更容易進(jìn)入到一個(gè)與問(wèn)題相關(guān)性更高的概率空間，把其中的專(zhuān)業(yè)內(nèi)容挖掘出來(lái)。給大模型一個(gè)身份看似沒(méi)有增量信息，其實(shí)一個(gè)“角色”背后已經(jīng)隱含了很多與角色相關(guān)的信息。

讓大模型做更多的“算力消耗”，System1 vs System2

OpenAI聯(lián)創(chuàng)Andrej曾經(jīng)分享過(guò)，他認(rèn)為Prompt Engineering中思維鏈（Chain of Thought）之所以有用，就是類(lèi)似“Let's think step by step“這樣的Prompt，讓大模型在輸出的時(shí)候消耗了更多的算力。這點(diǎn)跟人腦類(lèi)似，人腦在解一個(gè)復(fù)雜問(wèn)題時(shí)會(huì)消耗更多能量。而Multi-Agent正是這樣一套能讓大模型輸出更多、從而消耗更多算力的機(jī)制。大模型其實(shí)跟人腦的System1類(lèi)似，特點(diǎn)是不論用戶(hù)給它的問(wèn)題難度如何，它的思考時(shí)間（對(duì)應(yīng)背后的計(jì)算量）是一樣的。而目前在Prompt層所做的思維鏈、Multi-Agent等等工作，都為了讓大模型從System1向System2發(fā)展，越復(fù)雜的問(wèn)題思考得越久。通過(guò)Multi-Agent框架，可以讓它消耗更多的算力、做更多思維層次的計(jì)算和思考，更有可能更好地解決復(fù)雜任務(wù)。

這又引申出了許多創(chuàng)業(yè)者遇到的一個(gè)問(wèn)題：并非所有問(wèn)題都需要System2的能力，如何區(qū)分面對(duì)的問(wèn)題需要System 1還是System2解決呢？如果都用System1的方式解決，那么復(fù)雜問(wèn)題得不到很好的解決；如果都用System2的方式解決，那么又會(huì)“殺雞用牛刀”，既浪費(fèi)算力、又拉長(zhǎng)了反饋時(shí)間。最好的方式是能針對(duì)問(wèn)題做好分流。這意味著Agent需要對(duì)海量的新問(wèn)題做實(shí)時(shí)判斷，該用哪種方式解決，而這是絕大多數(shù)Agent很難做到的。目前有些創(chuàng)業(yè)者在探索先用大模型對(duì)問(wèn)題做一遍意圖識(shí)別（分類(lèi)器），再分流到不同的解決方式中去做具體執(zhí)行。但在很多垂直領(lǐng)域（如法律等），把這個(gè)“分類(lèi)器”做準(zhǔn)確的難度依然很大。

結(jié)合多個(gè)大模型的最強(qiáng)能力

前面兩個(gè)角度，是如何通過(guò)Multi-Agent激發(fā)大模型發(fā)揮能力，背后對(duì)應(yīng)的是一個(gè)能力強(qiáng)大的單一大模型。還存在另一種視角，就是Multi-Agent用來(lái)結(jié)合多個(gè)大模型的特色能力。雖然目前OpenAI在大模型領(lǐng)域“一騎絕塵”，我們也觀察到其他頭部大模型更注重在一些獨(dú)特能力上的訓(xùn)練（比如更強(qiáng)調(diào)與人類(lèi)的共情能力、更加注重alignment等）。在未來(lái)，當(dāng)這些各有所長(zhǎng)的大模型都進(jìn)入生產(chǎn)，Multi-Agent框架會(huì)很方便地融合各家大模型的優(yōu)勢(shì)“為我所用”。

06多模態(tài)：對(duì)比大語(yǔ)言模型有哪些提升？

大語(yǔ)言模型正在向多模態(tài)大模型發(fā)展，對(duì)比大語(yǔ)言模型，它帶來(lái)的能力提升有哪些，有什么深刻的變化？對(duì)創(chuàng)業(yè)者又多了哪些機(jī)遇？

從一個(gè)簡(jiǎn)單問(wèn)題類(lèi)比說(shuō)起

我們先從討論一個(gè)簡(jiǎn)單的問(wèn)題開(kāi)始：聾子和瞎子，一個(gè)沒(méi)有聽(tīng)覺(jué)，一個(gè)沒(méi)有視覺(jué)，哪個(gè)智力水平高？實(shí)際上瞎子的智力水平更高。這背后的原因是語(yǔ)言比視覺(jué)對(duì)人腦來(lái)說(shuō)更加重要。視覺(jué)給我們的反饋，不如語(yǔ)言的反饋那么復(fù)雜。這是個(gè)抽象程度的問(wèn)題，語(yǔ)言比視覺(jué)抽象程度更高，人和動(dòng)物的區(qū)別是人有語(yǔ)言。所以，目前視覺(jué)等多模態(tài)模型，對(duì)于模型能力并沒(méi)有一個(gè)質(zhì)的提升。

具體解釋一下，目前的多模態(tài)模型，是通過(guò)某種connection把視覺(jué)和文字兩個(gè)模態(tài)的數(shù)據(jù)對(duì)齊 --先訓(xùn)練單模態(tài)，再通過(guò)對(duì)齊，去做成多模態(tài)。它還沒(méi)有真正從預(yù)訓(xùn)練的時(shí)候，就把文字、視覺(jué)綁在一起從頭訓(xùn)練，因?yàn)楝F(xiàn)階段跨模態(tài)對(duì)齊的數(shù)據(jù)還是太少了。大家認(rèn)為可行的思路還是先訓(xùn)練單模態(tài)然后再做對(duì)齊。除了語(yǔ)言模型，目前其他模態(tài)的encoder能力和量級(jí)相比都差很遠(yuǎn)（比語(yǔ)言模型小1-2個(gè)數(shù)量級(jí)）。所以現(xiàn)在這條路效率最高，一下能通過(guò)語(yǔ)言模態(tài)賦予其他模態(tài)更高級(jí)的能力。這種多個(gè)模態(tài)對(duì)齊的多模態(tài)大模型，在能力上不會(huì)有突破式的飛躍，因?yàn)楹诵哪芰σ呀?jīng)在語(yǔ)言模型里面了。

多模態(tài)帶來(lái)的好處

視覺(jué)比語(yǔ)言有更多的信息。目前大模型都是基于Transformer架構(gòu)，這個(gè)架構(gòu)本身跟語(yǔ)言關(guān)系不大，它只是在處理token之間的關(guān)系，最后再把這些token折換成語(yǔ)言。從這個(gè)意義上來(lái)說(shuō)，不同模態(tài)的”語(yǔ)料“之間并沒(méi)有質(zhì)的區(qū)別。因此，考慮多模態(tài)的影響，要考慮視覺(jué)中究竟包含了多少語(yǔ)言里沒(méi)有的信息。比如，視頻中有很多關(guān)于現(xiàn)實(shí)世界的“common sense"（如空間位置、重力、光影等等），在語(yǔ)言中是缺失的，這部分信息的補(bǔ)足對(duì)于建立對(duì)真實(shí)的”世界模型"是很有幫助的。這對(duì)于后續(xù)大模型在自動(dòng)駕駛、機(jī)器人等需要與真實(shí)世界互動(dòng)的場(chǎng)景中落地有很大意義。比如，聾子和瞎子能干什么不同的事情？瞎子是不能開(kāi)車(chē)的。如果GPT有了視力，是可以開(kāi)車(chē)的，無(wú)人駕駛可以靠GPT來(lái)理解周?chē)沫h(huán)境。

多模態(tài)極大增強(qiáng)了交互的輸入輸出帶寬。許多用文字很難描述、或者需要非常長(zhǎng)、復(fù)雜的文檔才能描述的關(guān)系、內(nèi)容，可以通過(guò)畫(huà)圖的形式給到大模型，輸出也是如此。這讓人機(jī)交互的輸入輸出帶寬一下大了很多倍，帶來(lái)的直接效果是大模型處理同樣任務(wù)的效果更好、效率更高，也一定程度上解決了token限制的問(wèn)題。Context輸入一下子擴(kuò)大了很多。比如，可以給大模型幾萬(wàn)行代碼對(duì)應(yīng)的架構(gòu)圖，它可以很快整理出模塊之間的關(guān)系，這是沒(méi)有多模態(tài)之前無(wú)法達(dá)到的。

07對(duì)Agent未來(lái)的幾個(gè)預(yù)判

最后分享幾個(gè)我們對(duì)Agent未來(lái)發(fā)展的預(yù)判，與大家探討：

AI Native工作流

Agent在2B領(lǐng)域落地，目前是按照人類(lèi)工作的流程切分的，沒(méi)有考慮到機(jī)器，也沒(méi)有“人機(jī)協(xié)作”的概念。只是沿用過(guò)去的流程把機(jī)器加入很可能已經(jīng)不是最優(yōu)方式——既無(wú)法發(fā)揮機(jī)器的最大效率，人類(lèi)員工也不適應(yīng)。因而做2B場(chǎng)景的Agent，需要重新思考人機(jī)協(xié)同的工作模式下，什么樣的工作流程是最優(yōu)的，再自上而下地重塑工作流。AI native的工作流應(yīng)當(dāng)是什么樣？這是個(gè)開(kāi)放性問(wèn)題，并沒(méi)有明確的答案，但這個(gè)問(wèn)題可能會(huì)定義下一代的企業(yè)級(jí)軟件，是值得現(xiàn)階段的初創(chuàng)公司去深入思考和探索的重點(diǎn)問(wèn)題。

真正的多模態(tài)

未來(lái)可以有一開(kāi)始就把多種模態(tài)的語(yǔ)料一起訓(xùn)練的多模態(tài)大模型。或者，等視覺(jué)模態(tài)encoder的能力和量級(jí)可以跟現(xiàn)在的大語(yǔ)言模型等量齊觀，用它來(lái)輔助做決策，或者兩個(gè)大模型共同做決策，可能會(huì)爆發(fā)很大的潛力，帶來(lái)突破式發(fā)展。

Agent的自我進(jìn)化

隨著AI能力的逐步增強(qiáng)，未來(lái)Agent將如何演化？也許，它們可以實(shí)現(xiàn)“自我進(jìn)化”。比如，自己生產(chǎn)出新的Agent，或者設(shè)計(jì)出適合Agent協(xié)作的全新的組織結(jié)構(gòu)來(lái)完成復(fù)雜的任務(wù)，就如同人類(lèi)發(fā)展出了適應(yīng)人類(lèi)社會(huì)的復(fù)雜協(xié)作模式和分工體系。這是一個(gè)很值得思考的前沿方向，背后是Agent之間的通訊及協(xié)作模式。目前這個(gè)方向的研究還非常的少，我們覺(jué)得是很值得探索的一個(gè)領(lǐng)域。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴