Siri和OK Google是最早實(shí)現(xiàn)語(yǔ)音控制的應(yīng)用程序,這著實(shí)為我們帶來(lái)了很多樂(lè)趣;但很快我們便意識(shí)到,必須仔細(xì)說(shuō)出請(qǐng)求才能獲得實(shí)用回答。
就現(xiàn)在所見(jiàn),ChatGPT理解程度高,使用起來(lái)更容易,但直到最近,其功能還僅限于通過(guò)基于云的應(yīng)用程序進(jìn)行文本互動(dòng)。現(xiàn)如今,ChatGPT是大勢(shì)所趨,手機(jī)幾乎人人必備,促使著針對(duì)ChatGPT(手機(jī)版)的transformer網(wǎng)絡(luò)盡快推出,讓每個(gè)擁有手機(jī)的人都能感受到大語(yǔ)言模型的威力。
在此方面面臨的一個(gè)明顯挑戰(zhàn)是,我們所知的 ChatGPT依賴(lài)于數(shù)萬(wàn)億個(gè)參數(shù)。而這種規(guī)模的transformer網(wǎng)絡(luò)只能在云端運(yùn)行。有人建議采用混合模式,即先由手機(jī)或其他應(yīng)用程序負(fù)責(zé)完成部分簡(jiǎn)單工作,再連接到云端進(jìn)行更為繁重的推理。然而,普通手機(jī)用戶(hù)可能無(wú)法接受混合解決方案與生俱來(lái)的長(zhǎng)時(shí)間延遲和隱私風(fēng)險(xiǎn)問(wèn)題。因此,更好的方法是,直接在手機(jī)上處理大部分或全部transformer網(wǎng)絡(luò)工作,只在需要時(shí)將偶爾出現(xiàn)的匿名搜索請(qǐng)求轉(zhuǎn)至云端處理。
縮減網(wǎng)絡(luò)大小
如何在手持設(shè)備上安裝龐大的transformer網(wǎng)絡(luò)?Google DeepMind在檢索transformer方面取得了重大突破。其RETRO transformer網(wǎng)絡(luò)運(yùn)行時(shí)的大小只有 LLM transformer的百分之幾,因?yàn)榍罢叩哪P蛥?shù)中不包含具體數(shù)據(jù)。只保留了基本的語(yǔ)言對(duì)話技能,但在理解水平上仍可與GPT3相媲美。如此將網(wǎng)絡(luò)大小縮減到了約80億個(gè)參數(shù)。
CEVA在預(yù)處理時(shí)進(jìn)一步縮減此網(wǎng)絡(luò)大小,將對(duì)感興趣領(lǐng)域提示的準(zhǔn)確度幾乎沒(méi)有影響的參數(shù)歸零,進(jìn)行再訓(xùn)練。仔細(xì)利用這一功能可以大大加快transformer網(wǎng)絡(luò)分析的速度。
準(zhǔn)備邊緣模型的第二步是壓縮,CEVA對(duì)此非常熟悉,并在支持檢索transformer方面做得更好。我們充分利用NeuPro-M架構(gòu)進(jìn)行再訓(xùn)練,大力推進(jìn)此步驟,促使廣泛的混合定點(diǎn)精度和低精度選項(xiàng)降到4位,未來(lái)甚至還能降到2位。
通過(guò)使用這些技術(shù),我們可以將現(xiàn)有檢索transformer壓縮至最低1/20(較現(xiàn)在而言),盡管其相較LLM而言已經(jīng)壓縮了很多。將這種壓縮剪枝應(yīng)用于RETRO模型縮減后,可以產(chǎn)生巨大縮減,將萬(wàn)億參數(shù)模型轉(zhuǎn)換為十億參數(shù)模型,進(jìn)而有望實(shí)現(xiàn)ChatGPT(移動(dòng)版)。
NeuPro-M AI核心
當(dāng)然,僅僅適合的transformer網(wǎng)絡(luò)是不夠的。它還需要運(yùn)行得足夠快,才能滿足用戶(hù)對(duì)響應(yīng)時(shí)間的期望。而這一點(diǎn)可以通過(guò)專(zhuān)為L(zhǎng)LM應(yīng)用程序優(yōu)化的NeuPro-M NPU IP多引擎架構(gòu)實(shí)現(xiàn)。在此流程中,首先要做到的是由真正的稀疏引擎來(lái)進(jìn)行管理,且這一步舉足輕重。稀疏引擎管理可跳過(guò)權(quán)重或數(shù)據(jù)為零的冗余操作,提高吞吐量,這是需要注意的一點(diǎn)。而在預(yù)處理時(shí)縮減之后,會(huì)出現(xiàn)大量歸零參數(shù),盡管這些參數(shù)分布不均勻。對(duì)于這種非結(jié)構(gòu)化稀疏引擎,每個(gè)NeuPro-M處理器內(nèi)核中的專(zhuān)用稀疏引擎可發(fā)揮4倍性能優(yōu)勢(shì)(與傳統(tǒng)稀疏引擎相比),并相應(yīng)地降低功耗。
鑒于transformer架構(gòu)可以分解為可并行實(shí)現(xiàn)的離散正交運(yùn)算,下一優(yōu)化應(yīng)運(yùn)而生。此時(shí),可以利用 NeuPro-M多核架構(gòu)支持多達(dá)8個(gè)內(nèi)核。transformer中 query、key和value三個(gè)向量的計(jì)算會(huì)在引擎中分批進(jìn)行,在共享公共二級(jí)緩存的多個(gè)內(nèi)核并行處理。并行處理不僅有利于attention步驟,還有利于softmax步驟,以及計(jì)算attention函數(shù)之后的歸一化函數(shù)。在傳統(tǒng)的人工智能系統(tǒng)中,softmax可能是遏制性能提升的重大瓶頸。在NeuPro-M中,attention和softmax可以并行實(shí)現(xiàn),因此softmax對(duì)于吞吐時(shí)間的增加幾乎可以忽略不計(jì)。NeuPro-M在transformer計(jì)算中實(shí)現(xiàn)大規(guī)模并行處理如下圖所示。
▲transformer計(jì)算中的可擴(kuò)展并行化
NeuPro-M架構(gòu)包括特殊支持,最大限度地提高芯片吞吐量,線程之間幾乎沒(méi)有停滯,進(jìn)一步簡(jiǎn)化這些流中的高度并行性以及線程之間的數(shù)據(jù)共享。
為ChatGPT(移動(dòng)版)構(gòu)建語(yǔ)音界面
完成最難的部分后,在前端添加語(yǔ)音識(shí)別和在后端添加文本轉(zhuǎn)語(yǔ)音,便可以通過(guò)額外相對(duì)簡(jiǎn)單的transformer網(wǎng)絡(luò)實(shí)現(xiàn)。將我們的ClearVox語(yǔ)音處理前端軟件連接到語(yǔ)音識(shí)別transformer,以輸入提示,并接受引導(dǎo),確定主transformer應(yīng)執(zhí)行哪一組精煉提示。必要時(shí),可從互聯(lián)網(wǎng)上檢索查詢(xún)相關(guān)文檔。最后,使用文本轉(zhuǎn)語(yǔ)音transformer對(duì)下載的回復(fù)或文件進(jìn)行語(yǔ)音處理?,F(xiàn)在來(lái)說(shuō),完全在手機(jī)上運(yùn)行,且具有完全基于語(yǔ)音的 ChatGPT功能界面便是ChatGPT(移動(dòng)版)的不同之處。
更廣泛的應(yīng)用
NeuPro-M平臺(tái)并不局限于ChatGPT(移動(dòng)版)這樣的GPT類(lèi)應(yīng)用。它可以同樣應(yīng)用于任何生成式方法。例如,您可以使用穩(wěn)定的擴(kuò)散transformer生成圖像、視頻或任何其他人工生成或修改的體驗(yàn)。NeuPro-M解決方案在transformer網(wǎng)絡(luò)建模方面非常通用。
審核編輯:彭菁
-
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
7518瀏覽量
88632 -
手持設(shè)備
+關(guān)注
關(guān)注
0文章
45瀏覽量
24016 -
應(yīng)用程序
+關(guān)注
關(guān)注
37文章
3243瀏覽量
57603 -
Transformer
+關(guān)注
關(guān)注
0文章
141瀏覽量
5982
原文標(biāo)題:針對(duì)ChatGPT(手機(jī)版)的優(yōu)化版Transformer網(wǎng)絡(luò)
文章出處:【微信號(hào):CEVA-IP,微信公眾號(hào):CEVA】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論