近日聯想集團董事長兼首席執行官楊元慶在媒體溝通會上表示,隨著人工智能的發展,尤其是AIGC的爆發會促進智能設備的升級。他認為,今年還不會有太大的影響,明年一定是革命性的影響,促進電腦的升級換代,他預計到明年可以見到AI的手機和電腦。
隨著OPEN AI推出ChatGPT以來,行業一直在試圖突破大模型在單個強大的消費類GPU上運行的限制。
通常,運行GPT-3需要多個數據中心級英偉達A100 GPU。但是META、谷歌和微軟等科技大公司為了推動終端產品市場的發展,在端運行大模型的研發項目陸續出臺。
最早是META2月份發布的LLaMA引起了轟動,因為它可以在單個強大的消費類GPU上運行?,F在,通過一種被稱為量化的技術來進行優化、使模型縮小后,LLaMA可以在配備M1芯片的蘋果電腦或較小的英偉達消費級GPU上運行。LLaMA是一個參數大小范圍從7B到65B的大型語言模型(“B”是指“十億參數”,是存儲在矩陣中的浮點數,表示模型“知道”的內容)。LLaMA較小尺寸的模型在輸出質量和速度方面可以與GPT-3相媲美。
時隔半年后,Meta AI在周二發布了最新一代開源大模型Llama 2。相較于今年2月發布的Llama 1,訓練所用的token翻了一倍至2萬億,同時對于使用大模型最重要的上下文長度限制,Llama 2也翻了一倍。Llama 2包含了70億、130億和700億參數的模型。Meta同樣在周二宣布,與微軟云服務Azure合作,向全球開發者首發基于Llama 2模型的云服務。另外,Meta也與高通宣布,Llama 2將能夠在高通芯片上運行,打破市場上英偉達、AMD處理器對AI產業的壟斷。
而另一巨頭谷歌在5月11日召開 的“2023 Google I/O”技術大會上,谷歌首席執行官Sundar Pichai介紹了最新發布的大語言模型PaLM 2,主要功能包括支持100多種語言、具備邏輯推理、代碼生成等,基本上與ChatGPT的最新模型GPT-4類似,PaLM 2提供了Gecko、Otter、Bison和Unicorn四種模型。其中,Gecko非常非常輕巧,可以在移動設備端運行快速運行(手機、Pad等),即便是離線狀態也能與應用程序進行交互。谷歌希望開發者通過Gecko模型,加速生成式AI在移動端的開發進程。
PaLM 2采用了一種“計算最優縮放”技術,能在最小的參數實現最大的性能,也就是說開發者可以用最少的算力資源,開發強大的生成式AI應用。AI 大模型的加入,讓 Android 14成為真正內置 AI 大模型的操作系統。
其實國內早在3月份元語智能團隊又開源了一個ChatYuan系列大模型:ChatYuan-large-v2,支持在單張消費級顯卡、PC甚至手機上進行推理使用。ChatYuan-large-v2是ChatYuan系列中以輕量化實現高質量效果的代表模型,僅僅通過0.7B參數量可以實現業界10B模型的基礎效果,并且大大降低了推理成本,提高了使用效率。用戶可以在消費級顯卡、 PC甚至手機上進行推理(INT4 最低只需 400M )。同時,為了更好的提升使用體驗,團隊已經封裝了工具,Chatyuan-large-v2實現了本地可運行,下載后可以直接在本地使用h5版本,進行網頁交互。
智能手機產業積極擁抱端側AI大模型
智能手機的算力早已經超出很多消費電子終端產品,包括平板電腦、筆記本電腦、甚至PC產品,甚至很多芯片廠商的CPUGPU產品設計,已完成兼容了智能手機、平板電腦、筆記本電腦、PC產品、ARVRMR智能手表智能機器人等所有能接入物聯網的硬件平臺產品。
作為推動智能手機等物聯網物種進化的先進技術,與單純在云端部署生成式 AI 應用和服務相比,端側部署生成式 AI 在節約服務器成本、保護用戶信息安全、提升實時性和實現個性化用戶體驗等方面帶來了更加廣闊的應用前景。
在設備上使用生成式AI有很多好處,比如所搜索記錄和個人數據是保密的,不會通過遠程服務器中轉。本地AI也比云端更快,而且可以在飛機上等缺少移動網絡服務的地區工作。因此端側AI大模型在包括智能手機在內的物聯網行業一直有著巨大的需求。
早在今年2月份,高通就已經發布了全球首個運行在安卓手機上的圖片生成軟件Stable Diffusion的終端演示,該手機搭載了驍龍8 Gen2芯片。
目前高通等芯片廠商,正在針對AI大模型端側部署研發專用的芯片。目前,高通正在將AIGC嵌入下一代高端芯片驍龍8 Gen3中,該芯片將于今年10月底在夏威夷舉行的高通驍龍峰會上首次亮相。
在Asghar的實驗室中,高通芯片能夠處理70億個參數的AI模型,雖然遠遠低于OpenAI GPT-3模型的1750億個參數,但應該適合移動搜索。
高通表示,本年度將能夠支持參數達100億的生成式AI模型在手機上運行,這意味著未來大多數的用例將能夠完全依靠手機端就能夠完成。高通在技術層面已經做好了準備。
100億-150億參數級別的模型可以覆蓋絕大多數生成式AI的用例。如果終端已經可以支持這一參數級別,那么運算可全部在終端上進行,無需云端處理運算。屆時包括智能手機在內的消費電子產品和其它物聯網終端產品會擁有非常豐富的使用場景,會成為真正的個人助理。
高通AI引擎由多個硬件和軟件組件組成,用于在驍龍移動平臺上為終端側AI推理加速。它采用異構計算架構,包括高通Hexagon處理器、Adreno GPU、Kryo CPU和傳感器中樞,共同支持在終端上運行AI應用程序。
在2023年世界人工智能大會上,高通展示了全球首個在終端側運行生成式AI(AIGC)模型Stable Diffusion的技術演示,和全球最快的終端側語言-視覺模型(LVM)ControlNet運行演示。這兩款模型的參數量已經達到10億-15億,僅在十幾秒內就能夠完成一系列推理,根據輸入的文字或圖片生成全新的AI圖像。
高通認為在數據產生的地方直接進行高效推理才是大趨勢。而數據產生的地方正是在端側,比如手機端或電腦端。在高通AI軟件棧(Qualcomm AI Stack)的幫助下,手機端的能力更是可以在其他設備端實現復制,如PC、AR/VR、汽車和物聯網IoT設備。
同時另一智能移動產品芯片巨頭聯發科也在近期宣布聯合百度發起飛槳和文心大模型硬件生態共創計劃,共同推進聯發科硬件平臺與飛槳和文心大模型適配。本月聯發科還宣布運用Meta LIama 2大語言模型和聯發科先進的AI處理器(APU)以及完整的AI開發平臺(NeuroPilot),建立完整的終端側AI計算生態,賦能終端設備生成式AI應用。
聯發科與百度合作已久,雙方合作完成了 Paddle Lite 輕量化推理引擎基于 MediaTek NeuroPilot 人工智能通用軟件平臺的適配。NeuroPilot 是 MediaTek 為開發者提供的基于本地端側的 AI 運算解決方案,它為內建 CPU、GPU 和 APU(獨立AI 處理器)等異構運算單元的 MediaTek SoC 平臺提供完整且強大的軟件解決方案。
聯發科將于年末推出新一代旗艦移動芯片,將采用針對Llama 2模型而優化的軟件棧(NeuroPilot),與搭配支持Transformer模型做骨干網絡加速的升級版AI處理器(APU),可減少動態隨機存取內存(DRAM)的讀寫消耗和帶寬占用,進一步強化大語言模型和生成式AI應用的性能,助力開發者打造令人驚艷的AI應用,加速終端設備AI應用落地發展,持續為智能手機、汽車、智能家居、物聯網等終端設備用戶帶來振奮人心的生成式AI應用體驗。
智能手機廠商聞AI大模型起舞
近年來手機產業發展進入創新瓶頸期,手機廠商正試圖尋找新的差異化出路。特別今年以來,隨著ChatGPT的橫空出世和全民級應用發展趨勢,眾多手機廠商紛紛入局AI大模型賽道,除谷歌外,榮耀、OPPO、vivo、小米、華為等國產手機巨頭。
據業內人士表示,榮耀已經把AI大模型引入端側,賦能YOYO智慧助手,打造更加個人化、人性化,隱私保護更周全的端側個人模型;小米將小愛同學升級大模型,小米手機端側大模型已初步跑通;OPPO、vivo 也計劃在系統中整合AI 大模型能力。
8月4日,華為對外發布HarmonyOS 4,將AI大模型能力內置在了系統底層。HarmonyOS 4由華為盤古大模型提供底層支持,希望給用戶帶來智慧終端交互、高階生產力效率、個性化服務的全新AI體驗變革。
在8月14日晚舉辦的小米年度演講中,雷軍表示,小米AI大模型最新一個13億參數大模型已經成功在手機本地跑通,部分場景可以媲美60億參數模型在云端運行結果。小米旗下人工智能助手小愛同學已開始升級AI大模型能力,正在開啟邀請測試。
而OPPO推出了基于 AndesGPT 打造的全新小布助手也即將開啟大型體驗活動。據介紹, AndesGPT 是 OPPO 安第斯智能云團隊打造的基于混合云架構的生成式大語言模型,升級后的小布助手將具備 AI 大模型能力,擁有更強的語義理解對話能力。此外,vivo將在今年10月左右推出新的OriginOS 4.0系統,新系統將內置AI大模型。
INT4量化技術讓端模型進化成通用智能體
量化(quantization)和定點數計算取得了不錯的成果。一方面是節省了空間,另外硬件定點數的計算效率也通常更高。
模型參數可以采用32位/比特浮點(FP32)格式表示,但不如以定點(fixed point)格式表示,因為這幾乎沒有精度損失,甚至更高,但計算量卻較低。定點數量化模型的位/比特越小,模型存儲越小,執行加速越大,這種策略不僅可以減少占用的內存,還可以減少與計算相關的功耗。
在CPU和DSP上對量化網絡延遲進行基準測試:與CPU浮點數相比,量化模型實現的速度提高了2-3倍;具有定點數SIMD功能的專用處理器(例如帶HVX的Qualcomm QDSP)提速高達10倍。
現在人們已經證明,FP32訓練的參數可以改成4位/比特整數(INT4)做推理,沒有顯著精度損失,甚至訓練時候采用INT4也可以。與服務器上訓練的模型一般采用32位浮點運算(FP32)不同,端側大模型端基本上采用INT4計算,大大提高了端側的處理能力。
在量化技術的支持下,支持INT4計算的端側AI大模型很快會成功運用到智能手機上,未來也將很快延伸到與智能手機芯片平臺相關的其它物聯終端產業,如電腦、汽車電子、機器人、智能家居等,端側AI大模型將引領包括智能手機在內的物聯網終端產品,加入到AI進化的下一場產業革命中。
業內人士表示,受限能耗、系統性能、模型迭代效率,邊際效益遞減等因素,模型的規模增長不會像過去幾年一樣高速,而是朝更高效的模型結構(e.g. Sparse Activation),訓練方式(Self-supervise),更高效的部署(e.g. Distillation)發展。
模型的感知和記憶能力會快速、全面超過人類水平,并且固化下來,形成通用化的應用場景。而模型的動態決策能力,復雜場景的應變能力還有較大的發展空間。模型的可解釋性、可控性短期可能不會有比較大的突破,但是大的研究機構會持續投入,并形成一些差異化的競爭力。
在虛擬世界(或者說是現在比較火的元宇宙),未來5~10年可能會先出現比較通用的智能體。原因是基于強化學習的相關技術在虛擬世界有較低的迭代成本和安全顧慮。
-
智能手機
+關注
關注
66文章
18444瀏覽量
179893 -
AI
+關注
關注
87文章
30239瀏覽量
268479 -
人工智能
+關注
關注
1791文章
46896瀏覽量
237670 -
大模型
+關注
關注
2文章
2339瀏覽量
2501
原文標題:端側大模型到通用智能體——智能手機AI進化的下一場革命(一)
文章出處:【微信號:AIOT大數據,微信公眾號:AIOT大數據】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論