作者:張宏江 ?
繼ChatGPT之后,Sora模型的出現再次激發了各行各業對AI的熱情。面對術語的日新月異,個人和企業應用的紛繁涌現,以及商業模式的持續重構,大模型能夠展現出驚人的能力并迅速影響社會,這背后有著更深刻的原因。在近日舉辦的“亞布力中國企業家論壇年會”上,智源研究院學術顧問委員會主任張宏江發表了閉幕式演講,分享了他對大模型技術發展的八點觀察。
第一,大模型取得突破的核心是Scaling Law
2017年問世的Transformer架構,是大模型取得突破的技術基礎,以此為代表的一系列技術創新,奠定了人工智能“算力+數據+算法”結合的發展路線,引領人工智能從1.0時代,跨入了 2.0時代。未來我們還將見證,人工智能將繼續沿續這一路徑發展,走向通用人工智能的宏偉目標。而大模型的成功,不單是算法創新的勝利,更是系統研究的偉大進步。
在大模型的發展史上,Scaling Law(規模律)發揮了核心作用,它是推動模型性能持續提升的主要動力。Scaling Law揭示了這樣一個現象:較小的語言模型只能解決自然語言處理(NLP)中的部分問題,但隨著模型規模擴大——參數數量增加至數十億甚至數百億,曾經在NLP領域中的棘手難題往往能得到有效解決。這一規律不僅已被現實證實,而且預計將在未來繼續引領技術突破。
圖1 Scaling Law——規模的魔力,以PaLM為例,規模擴大至5400億參數,模型性能突飛猛進
當模型規模較小時,各方面性能隨參數的提升趨勢較為平緩;隨著模型規模不斷擴大并超過某個拐點,其性能隨參數增加而陡然上升。這就是模型規模擴大帶來的能力涌現,也是過去數年間研究人員不懈追求擴大模型規模的重要原因。此外,數據規模和質量也至關重要——研究者要重視數據的規模,而同樣規模的數據,高質量的數據會訓練出更好的模型。
圖2 a. 當模型參數規模增大時精度預期也會改善。b. 參數規模增速:2018年以來,每4.2個月實現翻番
第二,大模型是新的操作系統和計算體系
在傳統的計算機使用中,人輸入數據,計算機進行運算并輸出結果,這構成了計算機與人交互的本質。今天的大模型以更簡易、更便捷的方式實現了上述功能——人們不再需要編程或打字,只需與GPT進行交流,它就能按照人們的想法執行命令,這表明大模型已經起到了“操作系統”的作用。
作為操作系統,模型簡化了人們調用應用程序的過程。正如微信小程序幫助人們減省了在App Store下載應用的過程,大模型甚至省去了搜索小程序的過程。例如,人們只需告訴大模型,畫一個亞布力的美景,它就可以畫出亞布力各種角度的美景,甚至生成視頻。因此隨著大模型的應用日益廣泛,App這種形態可能會消失,甚至連小程序也會被淘汰。
從另一個角度看,大模型作為一種新的操作系統,也給計算體系帶來了巨大的轉變,即從原來的以CPU為核心轉變為以GPU并行處理為核心。這種體系轉變會帶來新的核心技術和新的玩家。近日英偉達發布財報后,股票上漲了15%,也印證了過去CPU時代的Wintel體系會被當今的大模型和GPU體系所取代。
圖3 大模型是新的操作系統,計算體系從CPU為核心轉變為GPU為核心
第三,大模型作為新的平臺,會帶來新的生態
大模型正在重塑計算生態。傳統計算生態的基礎設施層是芯片,模型則建立在云平臺之上。如今,AI領域的許多玩家通過云服務調用大模型的API,這種做法昭示著大模型作為一種平臺、一種服務的特性。
這就是為什么OpenAI每發布一個新功能,上線一組新代理,做大模型應用的廠家就會擔心自己的業務被它“吸進去”,正如當初微軟Windows對軟件廠商業務帶來的威脅和挑戰。這種擔心印證了模型即平臺、模型即應用、模型即產品。
圖4 大模型:新平臺,新生態
未來,大模型作為一個平臺必將重新賦能所有應用,迫使人們重寫過去的軟件。這就是今天的互聯網公司紛紛投入大量資源開發自己的大模型的原因,因為在未來,沒有大模型的互聯網公司將不再被視為平臺公司。這也是亞馬遜顯示出落伍跡象,市值被后起之秀超越的原因所在。
第四,大模型性能是大規模商業落地的關鍵
隨著大模型熱度日益高漲,許多人嘗試從應用出發做一個垂直小模型,但這種做法行不通。如果模型的能力不足以支撐大規模應用場景,其流行可能僅是曇花一現,之后便會面臨用戶數量的急劇下降。就像30年前蘋果公司推出一個名為“牛頓”的小型Pad產品,彼時被認為具有革命性,但很快人們就發現,它的手寫和語音識別兩個關鍵技術都都無法支撐新設備,因此該產品很快被撤掉了。
圖5 大模型性能是大規模商業落地的關鍵
今天的大模型在智能客服、文本生產、辦公Copilot等場景均呈現出廣泛的應用潛力,但是如果大模型在執行任務時錯誤率過高,或者幻覺(hallucination)問題始終難以解決,很快就會走向用戶大量流失帶來的波谷,基于大模型的應用層也會變得差強人意,由此衍生的商業模式終將難以為繼。因此,持續改善大模型性能是實現大規模商業落地的關鍵。
第五,大模型將同時推動存量和新增應用
隨著大模型能力的迅猛發展和持續突破,許多此前計算機僅能勉強輔助的工作,如今大模型已經可以勝任。ChatGPT發布一年多以來,大模型在辦公、視頻生成、醫療等各類應用場景下的生產效率已經得到了大幅提升,進展速度遠超AI 1.0時代。未來,我們將見證大模型推動一系列原生應用快速落地并創造價值。
這些原生應用何時會產生,能否抓住投資機會,是讓投資者和從業者倍感焦慮的問題。回顧歷史,無論PC時代還是移動互聯網時代,在技術快速迭代和平緩發展的時期,都曾涌現出極具潛力的產品。大模型時代的情況也會與此類似,因而不必過分焦慮,市場參與者一方面要快速消化大模型所帶來的種種沖擊;另一方面,應該專注于自己現有的業務,看一看當大模型性能成熟時,這些業務會發生多么大的改變。
圖6 大模型將同時推動存量和新增應用
大模型不僅會催生一系列原生應用和AI創業公司,同時也將推動存量市場的增值和發展。正如從PC互聯網轉移到移動互聯網的過程中,存量巨頭的市值增長,遠大于新生公司的市值總和。
放眼未來,我們有理由相信,大模型帶來的效率提升必將賦能新的應用場景,同時推動存量市場的增長與原生應用的創收,從而帶來整體市值的增長。此外,AI時代原生應用的核心特征,是人與機器的自然交互,因此大模型本身即是AI時代最大的原生應用,我們可以期待這一超級應用的出現。
第六,多模態大模型是AGI的終極模型
隨著Sora模型的出圈,多模態模型開始引燃各行各業。不同于傳統語言模型僅將語料作為token,多模態模型的訓練方式是將視頻、語音和圖像等多模態數據作為token,訓練出能夠理解物理世界的大模型。
請Sora根據描述生成一段SUV在山路上行進的畫面,結果令人震撼,車在山路上的奔馳能夠完全遵守交通規則,拐彎也輕松自如,在沒有路徑圖和3D建模的情況下,模型完全靠“自學”模擬了這一影像。這需要模型對于物理世界的理解,可以說Sora的出現,意味著能夠理解、描述和模擬現實世界的“世界模型”取得了突破,也讓我們對于走向AGI更有信心。
文生視頻是Sora最令人驚嘆和備受矚目的功能,但事實上多模態模型的能力范疇不止于文生圖、文生視頻,更包括對圖片或視頻的理解和闡釋——多模態模型應同時具備正向的生成與反向的理解能力。誠如美國物理學家理查德·費曼的箴言所揭示:“What I cannot create, I do not understand”。只有大模型真正理解物理世界,才能更好地創造和模擬。
如何訓練這樣的模型?打個比方,飛行員學習駕駛飛機需要先在模擬駕駛艙中訓練很長的時間,模擬駕駛艙是由空間模型和飛機動力學模擬形成,飛行員先從模擬的數據中學習一切操作再應用到現實駕駛當中。同樣的道理,我們可以通過觀察和描述物理世界產生新的訓練數據,從而訓練出能夠理解和模擬物理世界的大模型。
按照這個邏輯,談及未來應用,多模態大模型很可能重新改寫自動駕駛系統。過去,所有自動駕駛公司每到一個新的城市,必須花費3到6個月時間重新掃描這個城市的所有街道,未來這項工作可以由多模態大模型代勞。
第七,多模態大模型驅動通用機器——從簡單指令到自我規劃
除了語言模型和多模態大模型,以機器人為核心的具身模型也是當今研究的重點方向。通過多模態模型和機器人的結合,能夠增強機器人理解和描述周邊世界的能力,從而使其能夠自主地做出行動,這就是通用機器人的未來。
例如,在訓練機械手打開微波爐的任務中,傳統機械手可能難以應對微波爐門鎖的操作。而引入多模態大模型后,機械手可以通過與模型的交互,學習操作手冊,從而掌握打開微波爐前需要先按下解鎖按鈕的步驟。從這個角度講,未來的機器人不僅能夠執行已經被訓練的任務,還可以通過大模型的加持,完成之前沒有經過訓練,但是能夠通過自主學習理解的任務。在大模型的帶動下,機器人將完成從簡單指令到自我規劃的能力躍遷,這個過程讓研究者看到了實現通用機器人的可能性。
圖9 ?多模態大模型驅動通用機器: 從簡單指令到自我規劃
第八,“奇點”來臨,未來將是自主智能的世界
隨著語言模型、視覺模型和機器人具身模型的日臻成熟,人們對實現通用機器人的預期時間,已經由超過十年縮減至五年以內,我們不久后將見證下一代自主行動系統的誕生。
三十年前,當“深藍”擊敗俄羅斯棋王卡斯帕羅夫,他意識到計算機能夠幫助人類提升棋藝——這是人工智能的Copilot階段。當技術進化到AlphaZero,計算機不再使用人類的棋譜,而是按照自己的算法、規則和目標函數來下棋,能夠使用人類大師無法理解的招數出奇制勝。在AI面前,人類兩千年的智慧積淀已經顯得微不足道。人類很難再在棋類贏AlphaZero,這表明Copilot會隨著AI技術的發展而被取代。
圖10 歷史來看,Copilot將會被迅速替代
AlphaZero的出現還表明,在部分應用場景中,機器已經有了上帝視角——人類只看到一個小山丘或山谷,而“上帝”則看到了整個地貌。
在《奇點來臨》一書中,“奇點”(Singularity)一詞是指當技術發展的速度超過了人類的平均學習能力時,機器能夠比人類更好地完成新任務,任何需要平均IQ、平均技能的任務會被機器所取代。如今大模型所具備的極強的學習與推理能力,昭示著“奇點”即將到來。
圖11 奇點即將來臨?
展望未來,企業提高生產力和實現業務增長可能將不再依賴雇傭更多或更強能力的員工,而是購買更多算力和使用更強大的自主智能體。這可能是我們即將迎接的未來,一個我們必須去想象的未來。正如《未來簡史》作者所說,未來的世界可能只有3%的神人,而剩下的97%將是閑人。今天,大模型已經讓我們看到了這個未來的可能性。
審核編輯:黃飛
評論
查看更多