近期,大模型開源開放評測體系司南(OpenCompass 2.0)公布了2024年4月大語言模型最新評測榜單,智譜AI的GLM-4繼續保持國產大模型第一的領先身位。
大模型開源開放評測體系司南(OpenCompass 2.0)由上海人工智能實驗室發布。其月度榜單從基礎能力和綜合能力的設計出發,構建了一套高質量的中英文雙語評測基準體系,對主流開源模型和商業API模型進行了全面評測分析。評測榜單涉及的大語言模型和多模態大模型超過150個,更有包括Meta、阿里巴巴、騰訊、百度等30余家國內外企業和科研機構采用OpenCompass助力開展技術研發。
在4月客觀評測榜單中,OpenCompass基于語言、知識、推理、數學、代碼、智能體六個維度構建了15000余道高質量中英文雙語問題,并引入OpenCompass團隊首創的循環評估 (Circular Evalution) 策略,系統性分析了國內外大模型的客觀性能。其中,GLM-4位列第四名,僅次于GPT-4-Turbo系列與Claude3-Opus,成為國內大模型客觀評測月度總榜第一名。在語言維度方面,GLM-4分數達到57.7分表現突出,超過GPT-4-Turbo系列與Claude3-Opus。在知識維度上,GLM-4得到68.9分,超過第二名的GPT-4-Turbo-1106,與第三名Claude3-Opus不相上下。
值得一提的是,GLM-4此前便長期占據OpenCompass 2.0榜單前列,并多次在權威榜單與全球頂級大模型一較高下。清華《SuperBench大模型綜合能力評測報告》顯示,GLM-4在語義理解等方面的能力表現超過了GPT-4-Turbo等國際一流模型,在代碼、智能體等方面,排名國內第一。在SuperCLUE-Fin(SC-Fin)中文原生金融大模型測評基準中,GLM-4斬獲一項A+及多項A級評價,在國內大模型中排名第一。
據了解,GLM-4是由智譜AI于今年1月推出的新一代基座大模型。GLM-4整體性能逼近GPT-4,它可以支持更長的上下文,具備更強的多模態能力。同時,它的推理速度更快,支持更高的并發,大大降低推理成本。依托GLM-4 All Tools能力,GLM-4智能體能夠實現自主根據用戶意圖,自動理解、規劃復雜指令,自由調用網頁瀏覽器、Code Interpreter代碼解釋器和多模態文生圖大模型以完成復雜任務。
開發者可以通過智譜AI大模型開放平臺bigmodel.cn接入GLM-4模型開放API,便捷高效地體驗GLM-4的強大能力。
審核編輯 黃宇
-
API
+關注
關注
2文章
1487瀏覽量
61833 -
AI
+關注
關注
87文章
30239瀏覽量
268483 -
開源
+關注
關注
3文章
3256瀏覽量
42420 -
大模型
+關注
關注
2文章
2339瀏覽量
2501
發布評論請先 登錄
相關推薦
評論