每個人都會同意高質(zhì)量、高可靠性和低延遲的閃存對于 AI 芯片和應(yīng)用程序的重要性。為不同的應(yīng)用找到性能、功耗、安全性、可靠性和高效率之間的適當(dāng)平衡至關(guān)重要。成本雖然很重要,但不應(yīng)該是最重要的考慮因素。
2016 年 3 月,谷歌的 AlphaGo 在圍棋比賽中以 4:1 的優(yōu)勢戰(zhàn)勝了 來自韓國的名譽9段棋手李世石,創(chuàng)造了歷史。圍棋起源于3000多年前的中國,是一種高度復(fù)雜的游戲,需要多層戰(zhàn)略思維。隨后,谷歌的AlphaStar在2018年底的《星際爭霸II》中與兩位世界頂級游戲玩家較量,最終以兩場5:0的比分擊敗了對手。雖然早在 1997 年,IBM 開發(fā)的計算機程序“深藍”就擊敗了當(dāng)時的國際象棋大師加里·卡斯帕羅夫,但考慮到國際象棋的難度遠低于圍棋,AlphaGo 的勝利在某種程度上被稱為“ AI時代的真正到來。
人工智能的起源
從 1955 年到 1956 年,達特茅斯學(xué)院的助理教授約翰麥卡錫被公認為人工智能之父。哈佛大學(xué)的 Marvin Minsky、IBM 的 Claude Shannon 和美國貝爾實驗室的 Nathaniel Rochester 共同創(chuàng)造了人工智能 (AI) 的概念,他說:“如果機器可以使用不同的語言來形成抽象或概念,那么現(xiàn)在就可以解決各種問題為人類保留,并通過自主學(xué)習(xí)提高自己,我們稱之為人工智能。”
牛津詞典將人工智能定義為“能夠執(zhí)行通常需要人類智能的任務(wù)的計算機系統(tǒng)的理論和開發(fā),例如視覺感知、語音識別、決策和語言之間的翻譯。”
隨著系統(tǒng)的發(fā)展,人工智能技術(shù)將應(yīng)用于更多的物聯(lián)網(wǎng)應(yīng)用,如傳感、智能手機、網(wǎng)絡(luò)搜索、人臉或車牌識別、智能電表、工業(yè)控制和自動駕駛。
在自動駕駛領(lǐng)域,美國已經(jīng)進行了 4 級測試(這被認為是完全自動駕駛,盡管人類駕駛員仍然可以請求控制)。5級(真正的自動駕駛,汽車完成所有駕駛,沒有駕駛艙)自動駕駛指日可待,我們不僅要依靠交通法規(guī),還要依靠人工智能算法的開發(fā)人員來確保車輛和行人的安全。
據(jù)國際數(shù)據(jù)公司(IDC)統(tǒng)計,預(yù)計到2024年,全球人工智能服務(wù)占比將上升至18.4%,市值約為378億美元。這包括針對定制平臺的定制應(yīng)用程序和相關(guān)支持和服務(wù),例如深度學(xué)習(xí)架構(gòu)、卷積神經(jīng)網(wǎng)絡(luò)(一類人工神經(jīng)網(wǎng)絡(luò),最常用于分析視覺圖像)和人工智能相關(guān)芯片(CPU、GPU、FPGA ,TPU,ASIC)僅舉幾例。
IDC 還預(yù)測,全球數(shù)據(jù)存儲量將從 2018 年的 33ZB 飆升至 2025 年的 175ZB,其中超過 50% 將來自物聯(lián)網(wǎng)設(shè)備。
考慮到到 2025 年全球?qū)⒉渴鸺s 140 億臺 IoT 設(shè)備,我們顯著增加云中的計算單元數(shù)量和計算能力以應(yīng)對海量數(shù)據(jù)增長不是最重要的嗎?
好吧,簡短的回答是否定的。它沒有考慮從端點到云端的數(shù)據(jù)傳輸鏈中的帶寬和延遲等真正挑戰(zhàn),這就是“邊緣計算”如此迅速興起的原因。
無需增加帶寬和服務(wù)器數(shù)量即可應(yīng)對物聯(lián)網(wǎng)設(shè)備的快速增長。最好將應(yīng)用程序移動到端點設(shè)備,這樣就無需將所有數(shù)據(jù)發(fā)送到云端進行處理、傳輸、存儲和分析。例如,在工業(yè)自動化應(yīng)用中,數(shù)據(jù)存儲距離影響效率——5G移動設(shè)備制造商如果不加強端點人工智能和改革計算存儲架構(gòu),可能會遇到嚴重的電池壽命問題。
安全是另一個重要問題,尤其是在萬物互聯(lián) (IoE) 時代,機密信息、數(shù)據(jù)泄露或黑客事件屢見不鮮。在邊緣進行計算可以最大限度地減少數(shù)據(jù)在“云-管道-端點”路徑中傳輸?shù)拇螖?shù),在這種情況下,在確保數(shù)據(jù)和網(wǎng)絡(luò)安全的同時降低功耗和系統(tǒng)總擁有成本。
比較人工智能芯片
AI技術(shù)分為兩類;訓(xùn)練和推理。訓(xùn)練由 CPU、GPU 和 TPU 在云端執(zhí)行,以不斷增加用于構(gòu)建數(shù)據(jù)模型的數(shù)據(jù)庫資源。推理依賴于訓(xùn)練好的數(shù)據(jù)模型,更適合完成邊緣設(shè)備和特定應(yīng)用。它通常由ASIC和FPGA芯片處理。
人工智能相關(guān)芯片包括 CPU、GPU、FPGA、TPU 和 ASIC。為了了解這些芯片之間的比較,這里重點比較了 5 個關(guān)鍵因素。這些是:
計算
靈活性
兼容性,
力量
成本。
- 中央處理器
CPU開發(fā)的計算能力強,軟硬件兼容性首屈一指。但是由于馮諾依曼架構(gòu)的限制,數(shù)據(jù)需要在內(nèi)存和處理器之間來回傳輸。與其他解決方案相比,這限制了平均處理速度以及在功耗和成本方面推動自身發(fā)展的能力。
- 圖形處理器
由于采用了計算統(tǒng)一設(shè)備架構(gòu),例如英偉達的 GPU 可以主觀地讀取內(nèi)存位置并通過共享虛擬內(nèi)存來提高計算能力。平均計算能力超過 CPU 數(shù)百甚至數(shù)千倍。
GPU 發(fā)展起來具有良好的軟硬件兼容性,但在功耗和成本效率方面需要改進。對硬件(例如額外的冷卻系統(tǒng))的投資對于減少任何熱量問題也至關(guān)重要。
- ASIC
ASIC 芯片專為特定應(yīng)用而設(shè)計。它們的計算能力、整體功耗和成本效率可以在驗證和調(diào)整后進行優(yōu)化。
- FPGA
FPGA的軟硬件兼容性值得稱道,即使整體計算能力、成本效率和功耗都不是最好的。對于開發(fā)者來說,從 FPGA 開始開發(fā) AI 芯片仍然是一個好主意。
突破馮諾依曼建筑的界限
被傳統(tǒng)計算設(shè)備廣泛采用的馮諾依曼架構(gòu)并沒有將計算和存儲分開,而是更側(cè)重于計算。處理器和內(nèi)存之間無休止的數(shù)據(jù)傳輸消耗了大約 80% 的時間和功率。學(xué)術(shù)界已經(jīng)提出了許多不同的方法來解決這個問題——通過光互連和 2.5D/3D 堆疊實現(xiàn)高帶寬數(shù)據(jù)通信。通過增加高速緩存層的數(shù)量和接近數(shù)據(jù)的存儲(例如高密度片上存儲)來減少內(nèi)存訪問延遲和功耗。
但是人腦中的計算和存儲有什么區(qū)別嗎?我們是否使用左半球進行計算而右半球用于存儲?明顯不是。人腦的計算和存儲在同一個地方進行,無需數(shù)據(jù)遷移。
那么,學(xué)術(shù)界和工業(yè)界都渴望找到一種類似于人腦結(jié)構(gòu)的新架構(gòu),能夠?qū)⒂嬎愫痛鎯τ袡C地結(jié)合起來,也就不足為奇了。解決方案是“計算存儲設(shè)備”,直接使用存儲單元進行計算,或者將計算單元分類,使它們對應(yīng)不同的存儲單元——最大限度地減少數(shù)據(jù)遷移帶來的功耗。
存儲行業(yè)的一些制造商已經(jīng)探索了不同的選擇。例如,非易失性存儲器(NVM)存儲數(shù)模轉(zhuǎn)換器產(chǎn)生的模擬信號并輸出計算能力。同時,輸入電壓和輸出電流在NVM中起到可變電阻的作用,模擬電流信號通過模數(shù)轉(zhuǎn)換器轉(zhuǎn)換為數(shù)字信號。這樣就完成了從數(shù)字信號輸入到數(shù)字信號輸出的轉(zhuǎn)換過程。這種做法最大的優(yōu)勢是可以充分利用成熟的20/28nm CMOS工藝,而不是像CPU/GPU那樣追求昂貴的7nm/5nm先進工藝。
隨著成本和功耗的降低,延遲得到了顯著改善,這對于無人機、智能機器人、自動駕駛、安防監(jiān)控等應(yīng)用至關(guān)重要。
一般來說,端點推理過程的計算復(fù)雜度較低,涉及的任務(wù)相對固定。硬件加速功能對通用性要求不高,無需頻繁更改架構(gòu)。這更適合內(nèi)存計算的實現(xiàn)。相關(guān)統(tǒng)計顯示,2017年之前,人工智能無論是訓(xùn)練還是參考,都是在云端完成的;但到 2023 年,邊緣端設(shè)備/芯片上的 AI 參考將占據(jù)一半以上的市場份額,總計 20-300 億美元。對于 IC 制造商來說,這是一個巨大的市場。
人工智能需要什么樣的閃存?
每個人都會同意高質(zhì)量、高可靠性和低延遲的閃存對于 AI 芯片和應(yīng)用程序的重要性。為不同的應(yīng)用找到性能、功耗、安全性、可靠性和高效率之間的適當(dāng)平衡至關(guān)重要。成本雖然很重要,但不應(yīng)該是最重要的考慮因素。
審核編輯:郭婷
評論
查看更多