中國大模型應用,正在進入“可觀測期”。
《中國大模型中標項目監(jiān)測報告(2024年5月)》中顯示,截至5月,中國大模型的相關中標金額已經(jīng)超過2023年全部中標項目的披露金額。
在大模型全面落地四處開花的同時,大模型正擺脫“不可觀測”狀態(tài),過去由于大量大模型應用在B端,信息相對封閉,對于產(chǎn)業(yè)來說,他們很難清晰獲知大模型技術水平、擅長領域、落地能力,無形中增加了智慧化轉型的決策成本。
隨著大模型技術評測體系的逐漸成熟,我們仿佛擁有了天文望遠鏡,可以在群星閃耀中,找到那顆最耀眼的星。
最近,國際權威機構IDC發(fā)布了《中國大模型市場主流產(chǎn)品評估,2024》,智源研究院打造的FlagEval天秤大模型評測平臺也發(fā)布了最新一期模型評測排行榜單,兩項評測中百度文心大模型實現(xiàn)了雙榜奪魁。
“望遠鏡”背后技術評價機制
我們可以簡單看看,這兩架“天文望遠鏡”分別采用了哪些評價機制。
IDC的評估分為基礎能力和應用能力,其中基礎方面涉及問答、推理、創(chuàng)作、數(shù)學、代碼等能力,應用方面既考驗toC通用場景,也考驗金融、零售、法律等toB細分場景。
盡管有GPT-4這樣的有力對手,文心一言仍然在七大維度全面領先。
智源研究院打造的FlagEval天秤大模型測評平臺發(fā)布于2023年,面向視頻、語音、多模態(tài)等多個領域,在FlagEval大語言模型評測體系當前包含6大評測任務,近30個評測數(shù)據(jù)集,超10萬道評測題目。
在閉源對話模型榜單中,文心大模型4.0以89.72的綜合評分排名第一,OpenAI的GPT-4o等位列其后。
可見不論是從全領域能力角度進行評估,還是考察至關重要的大語言水平,文心一言毫無疑問都是中文大模型的榜首,是星海中光芒最耀眼的一顆。
技術之光
抬頭仰望星空時,我們看到的,其實是星星幾年,甚至幾十幾百年以前留下的掠影。
同樣,想要讓大模型從“不可觀測”變?yōu)椤翱捎^測”,除了對當下的技術能力進行評測,我們也要回溯光芒的源頭,也就是大模型的技術內(nèi)核。
從文心大模型來看,這種技術之光可以分為兩個層面:
第一層,是技術投入的“原生光芒”。
百度對于深度學習的探索挖掘,包括對AI技術的應用,已經(jīng)有十數(shù)年之久。在大模型熱還未被掀起的2019年,百度就打造了第一代文心大模型體系,從而才有了建立在文心大模型之上的文心一言。
如今經(jīng)過數(shù)次迭代,文心大模型在理解、生成、邏輯、記憶四大能力讓其他廠商難以望其項背。IDC報告中就顯示,在數(shù)學類和代碼類等考驗模型邏輯、推理等能力的評測中,百度文心大模型體現(xiàn)出了強大的體系化思維、邏輯思維和抽象思維能力。
能力迭代背后,是文心大模型有條不紊的全面技術布局。
比如通過文心飛槳的聯(lián)合調(diào)優(yōu),通過高效算力和自研框架來提升大模型的訓練效率,增加技術的迭代速度。
又比如面對近年來爆火的智能體Agent技術,文心大模型第一時間推出了文心智能體平臺。在基礎模型能力上疊加思考增強訓練,以基礎模型+思考模型的形式,讓大模型更接近于人類的學習、理解和執(zhí)行模式。
像百度自己,就通過這種模式打造了代碼智能體和智能代碼助手Comate,目前Comate生成代碼整體采納率已達46%,新增代碼中生成比例已達27%。IDC的報告中我們也能發(fā)現(xiàn),在代碼類所有6個細分維度中,百度均入圍優(yōu)勢廠商。
對于技術研發(fā)的深埋與前瞻,讓這顆星體源源不斷的釋放著創(chuàng)新之火,點亮宇宙的一隅。
第二層,是產(chǎn)業(yè)協(xié)作的“折射光芒”。
文心大模型能力的來源,除了自身的研發(fā)投入,還有廣泛的產(chǎn)業(yè)實踐。
截至目前,文心一言累計用戶規(guī)模已達2億,日均調(diào)用量也達到了2億。這一數(shù)字在同類生成式AI產(chǎn)品中一騎絕塵。
在toB領域,百度一方面將文心大模型全面落地于自身業(yè)務中,如搜索、地圖、信息流。同時百度智能云還推出了千帆大模型平臺,打造一站式企業(yè)級大模型開發(fā)平臺。不久前,文心大模型還對外免費開放了ERNIE Speed、ERNIE Lite兩款主力模型。
在不斷對外開放的過程中,文心大模型的調(diào)用量呈幾何式增長,合作伙伴與案例也越來越多。從國家電網(wǎng)、南方電網(wǎng)、中國航天這樣的國之重器,到金融保險領域的浦發(fā)銀行、泰康保險,再到終端領域的榮耀、三星,媒體領域汽車之家……在不斷與合作伙伴共建行業(yè)大模型的過程中,文心大模型已經(jīng)實現(xiàn)了中國最為廣泛的產(chǎn)業(yè)落地規(guī)模。
在廣泛的產(chǎn)業(yè)合作中,文心大模型得以被真實應用場景滋養(yǎng),不斷從中發(fā)掘細節(jié)需求,進而針對性地提升技術能力。
舉例來說,在大量的實踐中百度得以發(fā)掘,大模型落地過程中,效果、效率和成本都是重要考量。因此,推出了多模型推理技術來提升推理效率,以降低落地成本。
有對周圍產(chǎn)業(yè)伙伴光芒的“折射”,我們觀測到的星光可以更加立體。文心大模型的成就不僅僅來自機構評測的認可,更來自一個個堅實的落地案例。
大模型星光如何照耀產(chǎn)業(yè)星球
當我們望見星光時,它正在向軌道更遠處運行著,從大模型元年,走入了大模型落地元年。
《中國大模型中標項目監(jiān)測報告(2024年5月)》中顯示,今年5月份大模型中標項目數(shù)量創(chuàng)下了新高。毫無疑問,隨著大模型“不可觀測性”逐漸褪去,產(chǎn)業(yè)對于大模型的需求,正在進入井噴狀態(tài)。需求暴漲的情況下,大模型要如何站穩(wěn)潮頭,真正在行業(yè)領域站穩(wěn)腳跟?以文心大模型為例,縱觀文心大模型近一年來的動作,仿佛是一場星際旅行,不斷從遙遠的技術天空貼近我們所在的應用星球。
文心大模型留下了技術的軌跡,通過不斷的研發(fā),讓大模型更加貼近AGI,在能力層面更適應應用領域的復雜任務。
文心大模型也留下了普惠的軌跡,主力模型的免費開放,落地成本的不斷降低,都讓大模型更加易用,讓更多產(chǎn)業(yè)伙伴加入行業(yè)大模型的聯(lián)合創(chuàng)新中。
文心大模型還留下了生態(tài)的軌跡,百度對于開發(fā)者生態(tài)的建設持之以恒,目前已在全國最大AI社區(qū)“星河社區(qū)”中打造了大模型板塊,也推出了智能體平臺這樣降低大模型應用研發(fā)門檻的工具。開發(fā)生態(tài)的繁榮,讓文心具備更多引力,加速向產(chǎn)業(yè)目標行駛而去。
有了這三道清晰的軌跡,我們也就能夠望見文心,包括整體中國大模型的未來將如何到來。
星移斗轉中,產(chǎn)業(yè)對于大模型能力與價值的認知正在逐漸清晰。
-
AI
+關注
關注
87文章
30106瀏覽量
268398 -
文心一言
+關注
關注
0文章
123瀏覽量
1256 -
大模型
+關注
關注
2文章
2322瀏覽量
2479
發(fā)布評論請先 登錄
相關推薦
評論