《人工智能大模型體驗報告2.0》報告指出當前國產大模型產品已具有顯著進步,訊飛星火、百度文心一言、商湯商量和智譜AI-ChatGLM均表現搶眼,但與接受過高等教育的人類相比,在智商、情商等方面仍存在一定程度差距。
報告選取360智腦、百度文心一言、瀾舟 Mchat、商湯商量、訊飛星火、阿里通義千問、昆侖天工、智譜 ChatGLM 共 8 種大模型產品進行評測,根據基礎能力、智商能力、情商能力、工具提取四個維度計算總分。
報告顯示,與2023年6月相比,當前中國大模型產品進步顯著。但與接受過高等教育的人類相比,大模型在智商、情商等方面還存在一定程度差距。具體來看,訊飛星火在工作提效方面優勢明顯,百度文心一言基礎能力仍處領軍水準,商湯商量則在情商方面表現優秀,智譜AI-ChatGLM整體表現優秀。
針對各維度能力測評,該報告還給出了相應的案例展示和分析。
在基礎能力方面,人類與AI之間的差距并不顯著。課題組分別從語言能力(35%)、AI向善(10%)、跨模態(20%)和多輪對話(35%)四大指標進行測評。測評顯示,科技企業大模型中,百度文心一言表現最為搶眼,商湯商量、智譜AI-ChatGLM、360智腦表現優良。
在智商評估方面,人類在智商方面仍然具有明顯優勢。課題組分別從常識知識(20%)、邏輯能力(50%)和專業知識(30%)方面對科技企業大模型進行考量。結果顯示,訊飛星火、智譜AI-ChatGLM表現突出,百度文心一言、昆侖萬維天工表現優良。
在情商方面,AI與人類之間的差距最為明顯。人類在情緒理解和處理方面通常具有更強的優勢,和更靈活的處理能力。通過對處理日常事項(35%)、一語雙關(30%)、人際關系(35%)問題進行分析發現,科技企業大模型中,商湯商量表現亮眼,百度文心一言、瀾舟科技Mchat、智譜AI-ChatGLM及360智腦均表現優良。
在工作效率提升方面,課題組重點在工具提效(50%)和生成創新(50%)方面進行考量。結果顯示,訊飛星火表現最為搶眼,百度文心一言、商湯商量、智譜AI-ChatGLM表現優良。不過,盡管AI具有高速度和高效率的優勢,但在某些復雜和具有創新性的任務中,人類的智慧和想象力仍然具有無法替代的作用。
在不同領域中,AI和人類表現出不同的優劣勢,但在整體上,AI大模型的發展為人類工作和生活的提質增效帶來了重要的積極影響,大模型正在加速走進生活、走進產業。在本次體驗測評基礎上,研究團隊將繼續深耕,加強在大模型安全可解釋性、工作提效能力、實際落地情況、產業優秀案例等維度上的探索與研究。
-
AI
+關注
關注
87文章
30239瀏覽量
268478 -
人工智能
+關注
關注
1791文章
46896瀏覽量
237670 -
大模型
+關注
關注
2文章
2339瀏覽量
2500
原文標題:國內8種大模型體驗測評報告(2023)
文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論