精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

為什么Agent落地這么難?AI最大賽道Agent機(jī)遇全解析

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:Atom Capital ? 2023-11-25 15:54 ? 次閱讀

01狂飆的Agent—Agent 2023大事記

“如果一篇論文提出了某種不同的訓(xùn)練方法,OpenAI內(nèi)部會(huì)嗤之以鼻,認(rèn)為都是我們玩剩下的。但是當(dāng)新的AI Agent論文出來(lái)時(shí),我們會(huì)十分認(rèn)真且興奮地討論。普通人、創(chuàng)業(yè)者和極客在構(gòu)建AI Agents方面相比OpenAI這樣的公司更有優(yōu)勢(shì)。” -- OpenAI聯(lián)創(chuàng)Andrej Karpathy

如果說(shuō)現(xiàn)在還有什么AI領(lǐng)域的“點(diǎn)子”能讓OpenAI為之興奮,那非Agent莫屬。從一個(gè)學(xué)界研究的概念到走入大眾視野,Agent只用了短短不到一年時(shí)間。如果大模型是未來(lái)水電煤一般的基礎(chǔ)設(shè)施,那么Agent則是未來(lái)用戶(hù)接觸、使用AI的方式。我們梳理了今年Agent狂飆突進(jìn)的重要milestone,從中也可以窺見(jiàn)它的核心發(fā)展脈絡(luò)。

2023.3.16,微軟發(fā)布Microsoft 365 Copilot,引發(fā)業(yè)界巨大反響,提示了一種基于LLM的應(yīng)用開(kāi)發(fā)范式,也即今天形成行業(yè)共識(shí)的Agent。

2023.4,以AutoGPT為代表的Autonomous Agent 熱度快速躥升,AutoGPT成為GitHub歷史上star數(shù)增長(zhǎng)最快的項(xiàng)目。同期比較受關(guān)注的類(lèi)似項(xiàng)目包括:TaskMatrix.ai,HuggingGPT, AgentGPT, Toolformer, BabyAGI等等。

2023.6,OpenAI 應(yīng)用研究主管 Lilian Weng 發(fā)布博文《LLM Powered Autonomous Agents》進(jìn)一步推動(dòng)了agent的熱度,Lilian提出Agent = 大型語(yǔ)言模型+記憶+規(guī)劃技能+工具使用。

多Agent框架相繼發(fā)布,相對(duì)于單一Agent框架能夠更好地解決復(fù)雜問(wèn)題。目前比較火的多Agent框架包括:Camel(4月發(fā)布,3.4k star), MetaGPT(8月發(fā)布,29.7k star), AutoGen(9月發(fā)布,微軟團(tuán)隊(duì),13.6k star)

2023.11.6,OpenAI DevDay,推出其官方Agent開(kāi)發(fā)框架Assistant API,賦能開(kāi)發(fā)者更加高效方便地基于GPT模型進(jìn)行的Agent開(kāi)發(fā)。

02 Agent Landscape概覽

Agent吸引了大量創(chuàng)業(yè)者投身其中,據(jù)我們不完全統(tǒng)計(jì),今年下半年在海外拿到知名創(chuàng)投機(jī)構(gòu)投資的Agent項(xiàng)目已超過(guò)20家。在此我們做個(gè)基本梳理,方便大家了解目前市場(chǎng)上的整體情況: 從創(chuàng)投行業(yè)角度,當(dāng)下LLM based Agent領(lǐng)域初創(chuàng)公司可大致分為兩類(lèi):

中間層infra

提供實(shí)用可復(fù)用的Agent框架,降低開(kāi)發(fā)Agent 的復(fù)雜度,并為Agent的合作提供機(jī)制設(shè)計(jì)。該類(lèi)項(xiàng)目主要從模塊化、適配性、協(xié)作等幾方面進(jìn)行創(chuàng)新。其中拿到知名機(jī)構(gòu)投資的代表項(xiàng)目包括:AutoGPT、Imbue、Voiceflow、Fixie AI、Reworked、Cognosys、Induced ai等。

Vertical Agent

深入某個(gè)垂直領(lǐng)域,理解該領(lǐng)域?qū)<业墓ぷ髁鳎\(yùn)用Agent 思路設(shè)計(jì)Copilot產(chǎn)品,用戶(hù)介入使 Agent思路更為可控。其中拿到知名機(jī)構(gòu)投資的代表項(xiàng)目包括:Dropzone(安全領(lǐng)域)、Middleware(大模型可觀察性領(lǐng)域)、Parcha(Fintech領(lǐng)域)、Luda(游戲領(lǐng)域)、Outbound AI(醫(yī)療領(lǐng)域)、Fine(軟件開(kāi)發(fā)領(lǐng)域)。

從Agent的互動(dòng)/工作模式角度,復(fù)旦大學(xué)自然語(yǔ)言處理團(tuán)隊(duì)(FudanNLP)在其 LLM-based Agents 綜述論文中,將Agent分成了三類(lèi):單一Agent, 多Agent以及人與Agent交互(按交互方式又分為指導(dǎo)-執(zhí)行模式和平等合作模式)。如下圖所示:

f194b90e-8ab4-11ee-939d-92fbcf53809c.png

03Agent落地:場(chǎng)景和挑戰(zhàn)

本次沙龍參與者既有學(xué)界資深的AI研究員,也有富有實(shí)戰(zhàn)經(jīng)驗(yàn)的一線(xiàn)Agent創(chuàng)業(yè)者。對(duì)于圍繞Agent大家關(guān)心的若干問(wèn)題,我們進(jìn)行了深入討論,以下是本次討論的一些精彩觀點(diǎn):

Agent適合在哪些場(chǎng)景落地?

創(chuàng)業(yè)者們已經(jīng)嘗試了各種落地場(chǎng)景,總結(jié)下來(lái),以下幾點(diǎn)更契合Agent的落地。

做到比人(普通員工)

客戶(hù)不一定要求Agent達(dá)到專(zhuān)家水平,很多場(chǎng)合只要比普通員工好就夠了。Agent PK的,實(shí)際上是月薪幾千元的員工。比如,公司IT部門(mén)要響應(yīng)業(yè)務(wù)人員的各種需求(如臨時(shí)報(bào)表)。如果提供對(duì)話(huà)式UI,通過(guò)幾輪對(duì)話(huà)讓業(yè)務(wù)人員說(shuō)明白需求,Agent來(lái)自動(dòng)生成,做到這個(gè),客戶(hù)已經(jīng)愿意買(mǎi)單了。這樣IT團(tuán)隊(duì)可以從瑣碎中解脫出來(lái),做更重要的事。

Text to SQL

Text to SQL 在企業(yè)落地上有很多案例,以上例子本質(zhì)上就是Text to SQL, 只不過(guò)多了很多新的數(shù)據(jù)來(lái)源:比如從商業(yè)化中最值錢(qián)的文檔(合同、財(cái)報(bào)、簡(jiǎn)歷、招投標(biāo)書(shū)等)中提取數(shù)據(jù)。把這些數(shù)據(jù)連同專(zhuān)家知識(shí)一起灌給大模型,把信息抽出來(lái),通過(guò)Text to SQL來(lái)回答問(wèn)題,這件事已經(jīng)很值錢(qián)了,可復(fù)制性也很強(qiáng)。

寫(xiě)代碼

程序員寫(xiě)代碼這個(gè)場(chǎng)景毋庸多言。一個(gè)有趣的發(fā)現(xiàn),是大模型些代碼大部分時(shí)間做的是寫(xiě)正則表達(dá)式。正則表達(dá)式是個(gè)沒(méi)多少人會(huì)寫(xiě)、但是很好用的東西。程序員調(diào)試,之前在這里經(jīng)常花很多時(shí)間,用了大模型之后發(fā)現(xiàn)很快就能解決。這帶給我們一個(gè)啟發(fā):有很多人類(lèi)不擅長(zhǎng)但AI很擅長(zhǎng)的細(xì)分領(lǐng)域,是最適合Agent去落地探索的。

解決頭部問(wèn)題是落地關(guān)鍵

我們看到在Agent領(lǐng)域有很多漂亮的Demo, 但能否將企業(yè)轉(zhuǎn)化成為真正的長(zhǎng)期付費(fèi)者,一個(gè)核心是當(dāng)這個(gè)工具真的進(jìn)入企業(yè)后,員工是不是可以真正把它用起來(lái)解決問(wèn)題。Agent肯定會(huì)有不好用的地方,關(guān)鍵是要先能把大部分員工的頭部問(wèn)題解決掉。做到這個(gè),再出現(xiàn)一些小眾長(zhǎng)尾問(wèn)題,能讓大部分用戶(hù)覺(jué)得,這是人的問(wèn)題而不是AI的問(wèn)題,就好辦了(這種情況下,人會(huì)調(diào)整自己使用Agent的方式,比如更改詢(xún)問(wèn)方式等等,通過(guò)人向AI靠攏的方式解決的一部分長(zhǎng)尾問(wèn)題)。

為什么Agent落地這么難?

目前最讓開(kāi)發(fā)者頭疼的一個(gè)問(wèn)題,是雖然很多Agent demo看起來(lái)能解各種問(wèn)題,等真正應(yīng)用在實(shí)踐中,特別是2B業(yè)務(wù)流程中,好像總是不工作。這也是為什么Agent被很多用戶(hù)戲稱(chēng)為“玩具”——Agent想要真正落地非常難,但只有解決了這個(gè)問(wèn)題才能開(kāi)啟商業(yè)化的道路。這可能是Agent領(lǐng)域最關(guān)鍵的問(wèn)題之一,圍繞Agent為何落地困難我們進(jìn)行了深入探討,總結(jié)了實(shí)踐中碰到的挑戰(zhàn)以及背后更深層的原因。

從實(shí)踐層面,影響目前Agent落地的問(wèn)題主要有如下兩方面:

API質(zhì)量差,沒(méi)有形成生態(tài)

Agent在2B領(lǐng)域落地,有些類(lèi)似ChatGPT Plugin搬到2B領(lǐng)域。但ChatGPT Plugin發(fā)布之后,實(shí)際落地的情況與預(yù)期有很大差距,我們分析背后原因在于兩個(gè):一是背后的API不夠豐富、質(zhì)量差(比如描述不清晰),二是試圖用一個(gè)模型解決所有的垂直問(wèn)題(大模型對(duì)于垂直場(chǎng)景的理解未必足夠)。第一個(gè)問(wèn)題在國(guó)內(nèi)尤其嚴(yán)重。企業(yè)服務(wù)API生態(tài)在歐美非常成熟和開(kāi)放,中國(guó)還很不完善,開(kāi)發(fā)者很難賺到錢(qián)。這些讓Agent很難真正在生產(chǎn)環(huán)境落地。

開(kāi)放場(chǎng)景 vs 封閉場(chǎng)景

Agent的落地效果與場(chǎng)景的封閉程度也很相關(guān)。一個(gè)典型的對(duì)比是Agent在法律助手 vs 出行預(yù)訂場(chǎng)景。前者場(chǎng)景不夠封閉,經(jīng)常有新知識(shí)(如新的法律法規(guī)、新的判例)出現(xiàn),API也不夠完善。要做成真正的律師“助手”還有比較大的挑戰(zhàn),比較現(xiàn)實(shí)的是做成一個(gè)幫助律師整理文檔、搜索案例的提效工具。而后者場(chǎng)景封閉(可以窮舉)、API豐富(機(jī)票、酒店等都有明確的API),在落地中的效果要好很多。最理想的落地情況,是有大量垂直領(lǐng)域數(shù)據(jù)(給到大模型做預(yù)訓(xùn)練)、場(chǎng)景封閉、問(wèn)題基本可窮舉。

而從更深層的角度剖析,我們認(rèn)為Agent之所以落地困難。背后的核心是大模型目前還缺乏解決相關(guān)應(yīng)用領(lǐng)域的“世界模型”。

04Agent成功的關(guān)鍵 ——“世界模型

上文所謂應(yīng)用領(lǐng)域的世界模型,是指Agent落地到具體應(yīng)用場(chǎng)景,要理解當(dāng)下任務(wù)并預(yù)測(cè)未來(lái)情景,這需要超越簡(jiǎn)單的文本學(xué)習(xí),深入獲取領(lǐng)域知識(shí)、領(lǐng)域相關(guān)的私有數(shù)據(jù)以及相關(guān)任務(wù)的“過(guò)程數(shù)據(jù)”(即領(lǐng)域?qū)<沂侨绾畏纸馊蝿?wù)、產(chǎn)生結(jié)果的)。大模型在訓(xùn)練過(guò)程中,尤其缺乏“過(guò)程數(shù)據(jù)”,這讓世界模型的建立變得困難。

為什么大模型訓(xùn)練為何會(huì)缺乏“過(guò)程數(shù)據(jù)”?

1)訓(xùn)練語(yǔ)料問(wèn)題。大模型學(xué)習(xí)主要的語(yǔ)料來(lái)源是網(wǎng)絡(luò)文字。但目前語(yǔ)料中,絕大多數(shù)都是關(guān)于“What”的,關(guān)于“How"的很少。尤其在2B業(yè)務(wù)領(lǐng)域,絕大多數(shù)的成功經(jīng)驗(yàn)和失敗教訓(xùn)都不大可能被公開(kāi)分享出來(lái)。前者多為創(chuàng)造價(jià)值的商業(yè)機(jī)密,而后者則很少會(huì)被主動(dòng)分享,即使公開(kāi),也有很多美化及偏離事實(shí)的可能性,這可能會(huì)帶來(lái)大模型的錯(cuò)誤歸因。

2)即使在“私有數(shù)據(jù)”中,關(guān)于過(guò)程的數(shù)據(jù)也依然很少。大量的所謂“經(jīng)驗(yàn)”是存在在相應(yīng)崗位專(zhuān)家的大腦里的,并未以任何文字的形式被記錄下來(lái)。

舉個(gè)例子。在招聘領(lǐng)域,通常企業(yè)的用人標(biāo)準(zhǔn)會(huì)有“工作穩(wěn)定”一項(xiàng),但針對(duì)不同的崗位、不同的行業(yè)這個(gè)“工作穩(wěn)定”所對(duì)應(yīng)的標(biāo)準(zhǔn)是完全不一樣的。這些”知識(shí)”是人類(lèi)HR/獵頭腦海中的經(jīng)驗(yàn),針對(duì)崗位、公司的不同,自然就能把“工作穩(wěn)定”對(duì)應(yīng)到不同的標(biāo)準(zhǔn),有時(shí)候甚至只是一個(gè)行業(yè)的“共識(shí)”,并沒(méi)有什么成文規(guī)定。但是讓大模型來(lái)做這件事,就需要詳細(xì)地把各個(gè)行業(yè)、崗位、工種、對(duì)應(yīng)的“工作穩(wěn)定”的標(biāo)準(zhǔn)寫(xiě)下來(lái)告訴它(大模型在訓(xùn)練語(yǔ)料中幾乎很難獲得這種很少出現(xiàn)在文字/語(yǔ)料中的專(zhuān)業(yè)“知識(shí)”),否則大模型缺失了這部分的“知識(shí)”,做“工作穩(wěn)定”這一標(biāo)準(zhǔn)的篩選準(zhǔn)確率自然就低,而千千萬(wàn)萬(wàn)個(gè)這樣的“知識(shí)點(diǎn)”就構(gòu)成了一個(gè)招聘領(lǐng)域的“世界模型”。

3)缺乏大模型執(zhí)行任務(wù)過(guò)程的“標(biāo)注數(shù)據(jù)”,無(wú)法形成反饋-優(yōu)化閉環(huán)。目前大模型基于網(wǎng)絡(luò)語(yǔ)料的學(xué)習(xí),是每采取一個(gè)行動(dòng),都對(duì)應(yīng)明確的Ground Truth. 大模型基于用戶(hù)對(duì)問(wèn)題的反饋來(lái)不斷迭代升級(jí)。但Agent的問(wèn)題在于,絕大多數(shù)agent執(zhí)行到任務(wù)的最后一步,才是對(duì)用戶(hù)需求目標(biāo)的達(dá)成,因而只有在最后那一步才有標(biāo)注結(jié)果。對(duì)于其解決問(wèn)題的中間過(guò)程,很多時(shí)候Agent得不到及時(shí)的反饋——做的是否正確、是否有更優(yōu)的做法等等,這也讓Agent“自我進(jìn)化"變得緩慢。

看好掌握領(lǐng)域“世界模型”的Vertical Agent

我們判斷,各領(lǐng)域“世界模型”的建立是AI走向落地的重要一環(huán),也是AI向AGI發(fā)展的關(guān)鍵環(huán)節(jié)。現(xiàn)階段“世界模型”的缺乏,是大模型的“缺陷”也給大量做Vertical Agent的公司帶來(lái)了很大的機(jī)遇:構(gòu)建垂直領(lǐng)域的“世界模型”需要相關(guān)公司做大量的工作收集、整理領(lǐng)域知識(shí)和私有數(shù)據(jù)、理解具體業(yè)務(wù)的工作流等等,是一個(gè)相當(dāng)復(fù)雜的系統(tǒng)工程。尤其在法律、醫(yī)療、金融等數(shù)據(jù)龐雜、專(zhuān)業(yè)性極高的領(lǐng)域。一旦有Vertical Agent的公司能夠建立、掌握這些垂直行業(yè)的”世界模型“,也就擁有了在這個(gè)不確定時(shí)代極強(qiáng)的競(jìng)爭(zhēng)壁壘。我們非常看好這類(lèi)創(chuàng)業(yè)公司在未來(lái)的前景。

05Multi-Agent:為何它的效果明顯更好?

最近半年Agent領(lǐng)域一個(gè)明顯的趨勢(shì)是“Multi-Agent”框架的流行。很多開(kāi)發(fā)者發(fā)現(xiàn),當(dāng)事先給Agent設(shè)定不同的角色(如產(chǎn)品經(jīng)理、程序員、UI/UE等等),再讓這些Agents一起“協(xié)作”完成一個(gè)任務(wù)時(shí),要比AutoGPT這種單一Agent框架效果好很多,任務(wù)完成度更高。相比單一Agent,Multi-Agent除了給大模型設(shè)定了角色,好像也沒(méi)有提供更多的增量信息。為什么這個(gè)框架會(huì)明顯的有效呢?

我們認(rèn)為有如下幾點(diǎn)原因: 角色扮演有引導(dǎo)性,更容易讓它聚焦到相關(guān)的概率區(qū)間

大模型本質(zhì)是概率模型,每次輸出都不一樣。它在訓(xùn)練過(guò)程接受了豐富的語(yǔ)料,面對(duì)一個(gè)問(wèn)題時(shí),大模型有很多不同的角度和觀點(diǎn),但它自己并不知道應(yīng)該找哪一個(gè)切入。這時(shí)如果用戶(hù)給它一個(gè)角色,讓它聚焦到一個(gè)身份、一種觀點(diǎn)上去,它更容易進(jìn)入到一個(gè)與問(wèn)題相關(guān)性更高的概率空間,把其中的專(zhuān)業(yè)內(nèi)容挖掘出來(lái)。給大模型一個(gè)身份看似沒(méi)有增量信息,其實(shí)一個(gè)“角色”背后已經(jīng)隱含了很多與角色相關(guān)的信息。

讓大模型做更多的“算力消耗”,System1 vs System2

OpenAI聯(lián)創(chuàng)Andrej曾經(jīng)分享過(guò),他認(rèn)為Prompt Engineering中思維鏈(Chain of Thought)之所以有用,就是類(lèi)似“Let's think step by step“這樣的Prompt,讓大模型在輸出的時(shí)候消耗了更多的算力。這點(diǎn)跟人腦類(lèi)似,人腦在解一個(gè)復(fù)雜問(wèn)題時(shí)會(huì)消耗更多能量。而Multi-Agent正是這樣一套能讓大模型輸出更多、從而消耗更多算力的機(jī)制。大模型其實(shí)跟人腦的System1類(lèi)似,特點(diǎn)是不論用戶(hù)給它的問(wèn)題難度如何,它的思考時(shí)間(對(duì)應(yīng)背后的計(jì)算量)是一樣的。而目前在Prompt層所做的思維鏈、Multi-Agent等等工作,都為了讓大模型從System1向System2發(fā)展,越復(fù)雜的問(wèn)題思考得越久。通過(guò)Multi-Agent框架,可以讓它消耗更多的算力、做更多思維層次的計(jì)算和思考,更有可能更好地解決復(fù)雜任務(wù)。

這又引申出了許多創(chuàng)業(yè)者遇到的一個(gè)問(wèn)題:并非所有問(wèn)題都需要System2的能力,如何區(qū)分面對(duì)的問(wèn)題需要System 1還是System2解決呢?如果都用System1的方式解決,那么復(fù)雜問(wèn)題得不到很好的解決;如果都用System2的方式解決,那么又會(huì)“殺雞用牛刀”,既浪費(fèi)算力、又拉長(zhǎng)了反饋時(shí)間。最好的方式是能針對(duì)問(wèn)題做好分流。這意味著Agent需要對(duì)海量的新問(wèn)題做實(shí)時(shí)判斷,該用哪種方式解決,而這是絕大多數(shù)Agent很難做到的。目前有些創(chuàng)業(yè)者在探索先用大模型對(duì)問(wèn)題做一遍意圖識(shí)別(分類(lèi)器),再分流到不同的解決方式中去做具體執(zhí)行。但在很多垂直領(lǐng)域(如法律等),把這個(gè)“分類(lèi)器”做準(zhǔn)確的難度依然很大。

結(jié)合多個(gè)大模型的最強(qiáng)能力

前面兩個(gè)角度,是如何通過(guò)Multi-Agent激發(fā)大模型發(fā)揮能力,背后對(duì)應(yīng)的是一個(gè)能力強(qiáng)大的單一大模型。還存在另一種視角,就是Multi-Agent用來(lái)結(jié)合多個(gè)大模型的特色能力。雖然目前OpenAI在大模型領(lǐng)域“一騎絕塵”,我們也觀察到其他頭部大模型更注重在一些獨(dú)特能力上的訓(xùn)練(比如更強(qiáng)調(diào)與人類(lèi)的共情能力、更加注重alignment等)。在未來(lái),當(dāng)這些各有所長(zhǎng)的大模型都進(jìn)入生產(chǎn),Multi-Agent框架會(huì)很方便地融合各家大模型的優(yōu)勢(shì)“為我所用”。

06多模態(tài):對(duì)比大語(yǔ)言模型有哪些提升?

大語(yǔ)言模型正在向多模態(tài)大模型發(fā)展,對(duì)比大語(yǔ)言模型,它帶來(lái)的能力提升有哪些,有什么深刻的變化?對(duì)創(chuàng)業(yè)者又多了哪些機(jī)遇?

從一個(gè)簡(jiǎn)單問(wèn)題類(lèi)比說(shuō)起

我們先從討論一個(gè)簡(jiǎn)單的問(wèn)題開(kāi)始:聾子和瞎子,一個(gè)沒(méi)有聽(tīng)覺(jué),一個(gè)沒(méi)有視覺(jué),哪個(gè)智力水平高?實(shí)際上瞎子的智力水平更高。這背后的原因是語(yǔ)言比視覺(jué)對(duì)人腦來(lái)說(shuō)更加重要。視覺(jué)給我們的反饋,不如語(yǔ)言的反饋那么復(fù)雜。這是個(gè)抽象程度的問(wèn)題,語(yǔ)言比視覺(jué)抽象程度更高,人和動(dòng)物的區(qū)別是人有語(yǔ)言。所以,目前視覺(jué)等多模態(tài)模型,對(duì)于模型能力并沒(méi)有一個(gè)質(zhì)的提升。

具體解釋一下,目前的多模態(tài)模型,是通過(guò)某種connection把視覺(jué)和文字兩個(gè)模態(tài)的數(shù)據(jù)對(duì)齊 --先訓(xùn)練單模態(tài),再通過(guò)對(duì)齊,去做成多模態(tài)。它還沒(méi)有真正從預(yù)訓(xùn)練的時(shí)候,就把文字、視覺(jué)綁在一起從頭訓(xùn)練,因?yàn)楝F(xiàn)階段跨模態(tài)對(duì)齊的數(shù)據(jù)還是太少了。大家認(rèn)為可行的思路還是先訓(xùn)練單模態(tài)然后再做對(duì)齊。除了語(yǔ)言模型,目前其他模態(tài)的encoder能力和量級(jí)相比都差很遠(yuǎn)(比語(yǔ)言模型小1-2個(gè)數(shù)量級(jí))。所以現(xiàn)在這條路效率最高,一下能通過(guò)語(yǔ)言模態(tài)賦予其他模態(tài)更高級(jí)的能力。這種多個(gè)模態(tài)對(duì)齊的多模態(tài)大模型,在能力上不會(huì)有突破式的飛躍,因?yàn)楹诵哪芰σ呀?jīng)在語(yǔ)言模型里面了。

多模態(tài)帶來(lái)的好處

視覺(jué)比語(yǔ)言有更多的信息。目前大模型都是基于Transformer架構(gòu),這個(gè)架構(gòu)本身跟語(yǔ)言關(guān)系不大,它只是在處理token之間的關(guān)系,最后再把這些token折換成語(yǔ)言。從這個(gè)意義上來(lái)說(shuō),不同模態(tài)的”語(yǔ)料“之間并沒(méi)有質(zhì)的區(qū)別。因此,考慮多模態(tài)的影響,要考慮視覺(jué)中究竟包含了多少語(yǔ)言里沒(méi)有的信息。比如,視頻中有很多關(guān)于現(xiàn)實(shí)世界的“common sense"(如空間位置、重力、光影等等),在語(yǔ)言中是缺失的,這部分信息的補(bǔ)足對(duì)于建立對(duì)真實(shí)的”世界模型"是很有幫助的。這對(duì)于后續(xù)大模型在自動(dòng)駕駛機(jī)器人等需要與真實(shí)世界互動(dòng)的場(chǎng)景中落地有很大意義。比如,聾子和瞎子能干什么不同的事情?瞎子是不能開(kāi)車(chē)的。如果GPT有了視力,是可以開(kāi)車(chē)的,無(wú)人駕駛可以靠GPT來(lái)理解周?chē)沫h(huán)境。

多模態(tài)極大增強(qiáng)了交互的輸入輸出帶寬。許多用文字很難描述、或者需要非常長(zhǎng)、復(fù)雜的文檔才能描述的關(guān)系、內(nèi)容,可以通過(guò)畫(huà)圖的形式給到大模型,輸出也是如此。這讓人機(jī)交互的輸入輸出帶寬一下大了很多倍,帶來(lái)的直接效果是大模型處理同樣任務(wù)的效果更好、效率更高,也一定程度上解決了token限制的問(wèn)題。Context輸入一下子擴(kuò)大了很多。比如,可以給大模型幾萬(wàn)行代碼對(duì)應(yīng)的架構(gòu)圖,它可以很快整理出模塊之間的關(guān)系,這是沒(méi)有多模態(tài)之前無(wú)法達(dá)到的。

07對(duì)Agent未來(lái)的幾個(gè)預(yù)判

最后分享幾個(gè)我們對(duì)Agent未來(lái)發(fā)展的預(yù)判,與大家探討:

AI Native工作流

Agent在2B領(lǐng)域落地,目前是按照人類(lèi)工作的流程切分的,沒(méi)有考慮到機(jī)器,也沒(méi)有“人機(jī)協(xié)作”的概念。只是沿用過(guò)去的流程把機(jī)器加入很可能已經(jīng)不是最優(yōu)方式——既無(wú)法發(fā)揮機(jī)器的最大效率,人類(lèi)員工也不適應(yīng)。因而做2B場(chǎng)景的Agent,需要重新思考人機(jī)協(xié)同的工作模式下,什么樣的工作流程是最優(yōu)的,再自上而下地重塑工作流。AI native的工作流應(yīng)當(dāng)是什么樣?這是個(gè)開(kāi)放性問(wèn)題,并沒(méi)有明確的答案,但這個(gè)問(wèn)題可能會(huì)定義下一代的企業(yè)級(jí)軟件,是值得現(xiàn)階段的初創(chuàng)公司去深入思考和探索的重點(diǎn)問(wèn)題。

真正的多模態(tài)

未來(lái)可以有一開(kāi)始就把多種模態(tài)的語(yǔ)料一起訓(xùn)練的多模態(tài)大模型。或者,等視覺(jué)模態(tài)encoder的能力和量級(jí)可以跟現(xiàn)在的大語(yǔ)言模型等量齊觀,用它來(lái)輔助做決策,或者兩個(gè)大模型共同做決策,可能會(huì)爆發(fā)很大的潛力,帶來(lái)突破式發(fā)展。

Agent的自我進(jìn)化

隨著AI能力的逐步增強(qiáng),未來(lái)Agent將如何演化?也許,它們可以實(shí)現(xiàn)“自我進(jìn)化”。比如,自己生產(chǎn)出新的Agent,或者設(shè)計(jì)出適合Agent協(xié)作的全新的組織結(jié)構(gòu)來(lái)完成復(fù)雜的任務(wù),就如同人類(lèi)發(fā)展出了適應(yīng)人類(lèi)社會(huì)的復(fù)雜協(xié)作模式和分工體系。這是一個(gè)很值得思考的前沿方向,背后是Agent之間的通訊及協(xié)作模式。目前這個(gè)方向的研究還非常的少,我們覺(jué)得是很值得探索的一個(gè)領(lǐng)域。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • SQL
    SQL
    +關(guān)注

    關(guān)注

    1

    文章

    759

    瀏覽量

    44069
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    351

    瀏覽量

    15312
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1042

    瀏覽量

    6404
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1548

    瀏覽量

    7487
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    0

    文章

    272

    瀏覽量

    306

原文標(biāo)題:Atom Capital:AI最大賽道Agent機(jī)遇全解析

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    NVIDIA NIM Agent Blueprint加速企業(yè)級(jí)AI應(yīng)用落地

    在生成式 AI 時(shí)代,每個(gè)企業(yè)都在嘗試構(gòu)建自己的 AI 應(yīng)用,來(lái)賦能企業(yè)提高業(yè)務(wù)能力,提高盈利預(yù)期,提高生產(chǎn)效率。
    的頭像 發(fā)表于 11-13 11:35 ?250次閱讀

    阿里國(guó)際站首推流程AI產(chǎn)品:AI生意助手2.0

    AI Agent,分別覆蓋發(fā)品、接待、營(yíng)銷(xiāo)和合規(guī)四大領(lǐng)域。這些AI Agent能夠?qū)崿F(xiàn)對(duì)中小企業(yè)外貿(mào)經(jīng)營(yíng)流程的托管,從而顯著提升工作效率
    的頭像 發(fā)表于 10-29 10:22 ?253次閱讀

    微軟Dynamics365集成10大自主AI Agent,引領(lǐng)智能自動(dòng)化新時(shí)代

    近日,微軟宣布在Dynamics365中集成了10個(gè)全新的自主AI Agent,這一創(chuàng)新舉措將為企業(yè)帶來(lái)前所未有的智能自動(dòng)化工作模式。這些AI Agent具備強(qiáng)大的自主學(xué)習(xí)能力,可以高
    的頭像 發(fā)表于 10-23 11:25 ?314次閱讀

    定義AI Agent四大核心能力,榮耀I(xiàn)FA劇透端側(cè)AI創(chuàng)新進(jìn)展

    Agent(即智能體)相關(guān)創(chuàng)新成果,并面向全球發(fā)布行業(yè)首個(gè)跨應(yīng)用開(kāi)放生態(tài)智能體,同時(shí)宣布榮耀AI Agent將在下一代榮耀全能旗艦榮耀Magic7系列
    的頭像 發(fā)表于 09-10 11:42 ?227次閱讀
    定義<b class='flag-5'>AI</b> <b class='flag-5'>Agent</b>四大核心能力,榮耀I(xiàn)FA劇透端側(cè)<b class='flag-5'>AI</b>創(chuàng)新進(jìn)展

    NVIDIA 攜手全球合作伙伴推出 NIM Agent Blueprints,助力企業(yè)打造屬于自己的 AI

    可定制工作流目錄加快核心生成式 AI 用例的部署速度。首批用例包括客戶(hù)服務(wù)、藥物研發(fā)和 PDF 數(shù)據(jù)提取,未來(lái)將加入更多用例 企業(yè)可以使用 NIM Agent Blueprints 以及
    發(fā)表于 08-28 10:10 ?203次閱讀
    NVIDIA 攜手全球合作伙伴推出 NIM <b class='flag-5'>Agent</b> Blueprints,助力企業(yè)打造屬于自己的 <b class='flag-5'>AI</b>

    基于Qwen-Agent與OpenVINO構(gòu)建本地AI智能體

    Qwen2 是阿里巴巴集團(tuán) Qwen 團(tuán)隊(duì)研發(fā)的大語(yǔ)言模型和大型多模態(tài)模型系列。Qwen2 具備自然語(yǔ)言理解、文本生成、視覺(jué)理解、音頻理解、工具使用、角色扮演、作為 AI Agent 進(jìn)行互動(dòng)等多種能力。
    的頭像 發(fā)表于 07-26 09:54 ?724次閱讀
    基于Qwen-<b class='flag-5'>Agent</b>與OpenVINO構(gòu)建本地<b class='flag-5'>AI</b>智能體

    艾為電子榮獲釘釘AI助理創(chuàng)造大賽企業(yè)賽道二等獎(jiǎng)

    AI-Agent能力,以AI為大腦,打通調(diào)音業(yè)務(wù)流和數(shù)據(jù)流,并結(jié)合國(guó)民神仙算法awinicSKTune,實(shí)現(xiàn)“用戶(hù)一句話(huà),AI落地”的
    的頭像 發(fā)表于 05-08 21:24 ?970次閱讀
    艾為電子榮獲釘釘<b class='flag-5'>AI</b>助理創(chuàng)造<b class='flag-5'>大賽</b>企業(yè)<b class='flag-5'>賽道</b>二等獎(jiǎng)

    微軟推出首個(gè)專(zhuān)為Windows定制的Agent

    隨著人工智能技術(shù)的飛速發(fā)展,全球科技巨頭紛紛在這一領(lǐng)域布局。OpenAI以其強(qiáng)大的技術(shù)實(shí)力在視頻領(lǐng)域掀起了一場(chǎng)革命,而微軟則悄然對(duì)傳統(tǒng)用戶(hù)界面發(fā)起了挑戰(zhàn)。近日,微軟最新發(fā)布了一款名為UFO(UI-Focused Agent)的Agent框架,旨在構(gòu)建更智能、更直觀的用戶(hù)界
    的頭像 發(fā)表于 02-19 11:41 ?799次閱讀

    微軟發(fā)布Agent框架UFO,引領(lǐng)UI交互新紀(jì)元

    微軟近日宣布推出全新的Agent框架——UFO(UI-Focused Agent),旨在構(gòu)建更智能、更直觀的用戶(hù)界面交互體驗(yàn)。該框架基于OpenAI的GPT-4V圖像識(shí)別模型開(kāi)發(fā),專(zhuān)為Windows操作系統(tǒng)上的應(yīng)用程序設(shè)計(jì),能夠迅速理解和執(zhí)行用戶(hù)的自然語(yǔ)言請(qǐng)求。
    的頭像 發(fā)表于 02-19 11:15 ?1126次閱讀

    阿里發(fā)布手機(jī)操作智能體框架Mobile-Agent

    阿里巴巴與北京交通大學(xué)的聯(lián)合團(tuán)隊(duì)近日在學(xué)術(shù)界引起了廣泛關(guān)注,因?yàn)樗麄児餐瞥隽艘豢钊碌氖謾C(jī)操作智能體框架——Mobile-Agent。這款框架旨在為手機(jī)用戶(hù)提供更高效、便捷的操作體驗(yàn),引領(lǐng)手機(jī)操作方式的全新革命。
    的頭像 發(fā)表于 02-05 10:41 ?1456次閱讀

    谷歌DeepMind資深AI研究員創(chuàng)辦AI Agent創(chuàng)企

    近日,剛從谷歌DeepMind離職的資深AI研究員Ioannis Antonoglou宣布創(chuàng)辦了一家名為“AI Agent”的創(chuàng)企。Ioannis Antonoglou常駐倫敦,此前曾擔(dān)任谷歌DeepMind的首席開(kāi)發(fā)人員,自去
    的頭像 發(fā)表于 02-04 10:02 ?745次閱讀

    AI Agent爆發(fā)在即!深剖AI Agent技術(shù)原理及發(fā)展趨勢(shì)

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)AI Agent指人工智能代理,是一種能夠感知環(huán)境、進(jìn)行決策和執(zhí)行動(dòng)作的智能實(shí)體。AI Agent通常基于機(jī)器學(xué)習(xí)和人工智能技術(shù),具備自主性和自適應(yīng)性,在
    的頭像 發(fā)表于 01-12 01:01 ?3835次閱讀

    AGI時(shí)代的奠基石:Agent+算力+大模型是構(gòu)建AI未來(lái)的三駕馬車(chē)嗎?

    AI Agent的訓(xùn)練離不開(kāi)算力,服務(wù)器作為一個(gè)強(qiáng)大的計(jì)算中心,為AI Agent提供算力基礎(chǔ),支持其進(jìn)行復(fù)雜計(jì)算和處理大規(guī)模數(shù)據(jù)的任務(wù),包括模型訓(xùn)練、推理和處理大規(guī)模數(shù)據(jù)集。
    的頭像 發(fā)表于 12-21 13:34 ?1143次閱讀
    AGI時(shí)代的奠基石:<b class='flag-5'>Agent</b>+算力+大模型是構(gòu)建<b class='flag-5'>AI</b>未來(lái)的三駕馬車(chē)嗎?

    解析AI Agent的發(fā)展現(xiàn)狀和技術(shù)難點(diǎn)

    AI Agent 這項(xiàng)技術(shù)可以說(shuō)是建立在大語(yǔ)言模型之上的一種全新技術(shù)。我們擁有了大語(yǔ)言模型之后,大家發(fā)現(xiàn)除了微調(diào)之外,還可以進(jìn)行所謂的上下文學(xué)習(xí)。于是,引入了一個(gè)新的概念,即在處理問(wèn)題時(shí)的“提示工程”。
    的頭像 發(fā)表于 12-05 15:33 ?1190次閱讀

    人工智能:2023年AIGC產(chǎn)業(yè)觀察

    大模型落地面臨挑戰(zhàn)與機(jī)遇,行業(yè)共同關(guān)注放大模型能力的有效途徑。當(dāng)大模型參數(shù)量普遍達(dá)到一定水平,在邊際效用遞減的規(guī)律下,將有更多的方式來(lái)提升模型的能力和效用,比如微調(diào)、提示工程、搜索增強(qiáng)生成、AI
    的頭像 發(fā)表于 12-04 16:18 ?670次閱讀
    人工智能:2023年AIGC產(chǎn)業(yè)觀察