翻譯自——EEtimes
近期,一種用光子張量處理器代替GPU來進行機器學習的神經網絡計算的新方法表明,在處理光學數據傳輸的性能上可以提高2-3階。這也表明光子處理器具有增強電子系統的潛力,并可能在5G網絡邊緣設備中表現強勁。
美國喬治華盛頓大學電子和計算機工程系的Mario Miscuglio和Volker Sorger在《應用物理評論雜志》上發表了一篇論文,題為《基于光子的處理單元使更復雜的機器學習成為可能》。
在他們的方法中,光子張量核并行執行矩陣乘法,這提高了深度學習的速度和效率。在機器學習中,神經網絡被訓練來學習如何在不可見的數據上執行無監督的決策和分類任務。一旦神經網絡對數據進行了訓練,它就可以產生一種推斷,從而對對象和模式進行識別和分類,并在數據中找到一個特征。
光子TPU并行存儲和處理數據,具有電光互連的特點,可以有效地讀寫光存儲器,并與其他架構進行接口。
作者之一Mario Miscuglio表示:“我們發現集成了高效光存儲的集成光子平臺可以獲得與張量處理單元相同的操作,但它們只消耗一小部分的功率,并具有更高的吞吐量,如果經過適當的訓練,可以用于以光速進行推理。”
大多數神經網絡旨在模仿人類大腦的多層相互連接的神經元。表示這些網絡的一種有效方法是將矩陣和向量相乘的復合函數。這種表示方式允許通過專門用于向量化操作(如矩陣乘法)的架構來執行并行操作。
(a)光子張量核(PTC)由一個16點積引擎組成,內在獨立地逐列逐行逐點乘法和累加。點積引擎執行兩個向量之間的乘法。輸入矩陣的第i行由由高速(如馬赫-曾德爾)調制器調制的波分復用信號給出。通過適當設置核矩陣的權值狀態,將核矩陣的第j列加載到光子存儲器中。利用光-物質與相變存儲器的相互作用,利用微環諧振器(MRR)對輸入信號進行頻譜濾波,并采用看似量子化的電吸收方案進行加權。(例如調幅),從而執行按元素進行的乘法。使用光檢測器將元素式乘法非相干求和,這相當于MAC操作(Dij)。
任務越智能化,預測精度就越高,網絡就越復雜。這樣的網絡需要更大的計算量和更大的處理能力。當前適合于深度學習的數字處理器,如圖形處理單元(GPU)或張量處理單元(TPU),由于所需的功率以及處理器和存儲器之間電子數據的緩慢傳輸,在執行更復雜、更精確的操作方面受到了限制。
研究人員表明,他們的TPU性能可以比電子TPU高出2-3個數量級。對于計算節點分布式網絡和在網絡邊緣(如5G)執行高吞吐量智能任務的引擎來說,光子可能是一個理想的匹配。在網絡邊緣,數據信號可能已經以來自監控攝像機、光學傳感器和其他來源的光子的形式存在。
Miscuglio:“光子專用處理器可以節省大量的能源,提高響應時間并減少數據中心的流量。”對于終端用戶來說,這意味著處理數據的速度要快得多,因為數據的很大一部分是預處理的,這意味著只需要將其余部分數據發送到云或數據中心。
光與電的較量
本文給出了利用光路完成機器學習任務的實例。在大多數神經網絡(NNs)中,每一個神經元和每一層,以及網絡的互連,都是訓練網絡的關鍵。根據訓練,在其連通層中,神經網絡強烈依賴于向量矩陣的數學運算,其中輸入數據和權重的大矩陣根據訓練相乘。復雜的、多層的深層神經網絡需要大量的帶寬和低延遲,以滿足執行大矩陣乘法所需的大量操作,而不犧牲效率和速度。
那么如何有效地將這些矩陣相乘呢?對于通用處理器,矩陣操作在需要連續訪問緩存內存的情況下串行進行,從而產生馮·諾依曼瓶頸[1]。而GPU和TPU等特殊的架構,有助于減少這些馮·諾依曼瓶頸的影響,使一些有效的機器學習模型成為可能。
與CPU相比,GPU和TPU意義重大,但是當用它們來實現深度神經網絡對大型2維數據集(如圖像)執行推斷時,可能會耗電,并且需要更長的計算運行時間(大于幾十毫秒)。對于不那么復雜的推理任務來說,更小的矩陣乘法仍然受到不可忽略的延遲挑戰,主要是由于各種內存層次的訪問開銷和GPU中執行每條指令的延遲。
作者建議,在這種情況下,有必要探索和重新研發當前邏輯計算平臺的操作范式,在這種邏輯計算平臺中,矩陣代數依賴于對內存的連續訪問。在這方面,光的波動性質和相關的固有操作,如干涉和衍射,可以在提高計算吞吐量和同時降低神經形態平臺的功耗方面發揮重要作用。
他們建議未來的技術應該在其隨時間變化的輸入信號所在的領域執行計算任務,并利用其內在的物理操作。在這個觀點中,光子是計算節點分布式網絡和在網絡邊緣(如5G)對大數據執行智能任務的引擎的理想匹配,其中數據信號可能已經以光子的形式存在(如監控攝像頭、光學傳感器等),從而預先過濾和智能調節允許向下游流向數據中心和云系統的數據流量。
在這里,他們探索了利用光子張量核(PTC)的方法,該方法能夠與訓練好的核進行一次性的4乘4矩陣的(非迭代的)和完全被動的乘法和積累。換句話說,一旦NN被訓練,權重被存儲在一個4位的多層光子存儲器中,直接在芯片上實現,而不需要額外的電光電路或芯片外DRAM。該光子存儲器具有低損耗、相變、納米光子電路的特點,其基礎是將G2Sb2Se5的導線沉積在一個平面波導上,可以使用電熱開關進行更新,并且可以完全通過光學讀取。電熱開關是由夾住相變存儲器(PCM)導線的鎢加熱電極實現。
作者表示,這項工作代表了實現并行存儲數據和處理的光子張量處理器的第一種方法,與提供實時分析的最先進的硬件加速器相比,它可以將相乘累積(MAC)操作的數量提高幾個數量級,同時顯著降低功耗和延遲。
與依賴邏輯門的數字電子學不同,在集成光子學中,乘法、積累和更一般的線性代數運算可以固有地、非迭代地執行,得益于信號的電磁特性和有效的光物質相互作用所提供的內在并行性。在這方面,集成光子學是一個理想的平臺,映射特定的復雜操作一對一到硬件,在某些情況下算法,實現時間復雜度。
審核編輯:符乾江
-
AI
+關注
關注
87文章
30155瀏覽量
268425 -
ML
+關注
關注
0文章
146瀏覽量
34607 -
5G
+關注
關注
1353文章
48369瀏覽量
563395
發布評論請先 登錄
相關推薦
評論