電子發燒友網報道(文/梁浩斌)隨著納米制程的不斷往前推進,延續近50年的摩爾定律已經日漸式微。AI、5G、物聯網等新興領域的蓬勃發展帶動了全球數據的爆炸式增長,對算力的需求增速遠高于摩爾定律所預測的算力供給增速,傳統的電子芯片只能通過增大面積與功耗來完成更多的計算,已逐漸無法滿足日益增長的數據處理與節能要求。
在探索超越摩爾定律的路上,先進制程已經開始發揮作用,與此同時,由于具備高通量、低延時、低功耗的特性,用光代替電解決部分計算的也是突破現有瓶頸的途徑之一。而此前一直只存在于實驗室的光子芯片,最近有了新的進展。
近日,曦智科技(Lightelligence)發布了其最新高性能光子計算處理器——PACE(Photonic Arithmetic Computing Engine,光子計算引擎)。
曦智科技創始人兼首席執行官沈亦晨博士表示:“PACE的發布具有里程碑式的意義:它成功驗證了光子計算的優越性,為集成電路產業提供了新的發展路徑。”
曦智科技成立于2017年,成立4年以來,公司總融資額已經超過10億人民幣,在波士頓、上海、杭州、南京等地均設立了辦公室及實驗室,全球員工接近200人,中國員工超過100人。核心研發團隊來自麻省理工學院,70%的芯片設計師擁有十年以上半導體從業經驗。
2017年,沈亦晨博士以第一作者和通訊作者的身份在《自然-光子》雜志發表封面論文,開創性地提出了光子人工智能計算的新路徑。也正是由于這篇論文,在后來吸引了十多家初創公司相繼建立。
2019年4月,曦智科技推出了全球首款光子芯片原型板卡,成功將當時占據半個實驗室的整個光子計算系統集成到了常規大小的板卡上,驗證了以光子替代電子進行高性能計算的開創性想法。當時的原型板卡上集成了100個光子器件,運行系統時鐘僅有100kHz。
兩年后的今天,這次發布的PACE已經集成了10000個光子器件,運行系統時鐘更是達到了1GHz。跨越幾個數量級的性能提升,他們是如何做到的?
電子芯片現存的三大瓶頸
自2012年以來,神經網絡和計算模型的大小就開始爆炸性增長,平均每3到4個月,計算模型的大小就會翻一倍。但持續增長的模型,明顯受到算力底層的限制,制約了人工智能的進一步發展。
沈亦晨博士認為,目前電子芯片的發展遇到了三個主要瓶頸:算力、數據傳輸和存儲。其中,算力瓶頸主要來源于隨著制程工藝接近物理極限導致的摩爾定律失效,以及功耗和發熱問題。
隨著晶體管尺寸越來越小,晶體管上的電子隧穿現象也愈發嚴重,因此即使將晶體管做得更小,單個晶體管在進行運算時的功耗也無法進一步降低。在這樣的前提下,業界有兩種解決路徑,單芯片面積增加或多芯片互聯。
但隨著面積增大,需要更長的銅導線進行數據傳輸,而銅導線的發熱量和損耗與長度成正比,即芯片面積越大,發熱越大、功耗越高。
同樣,多芯片互聯同樣存在一些問題。首先片間互聯帶寬有限,即互聯效率低,其次銅導線依然會造成系統功耗提高,比如通過電將100個芯片或板卡互聯后,算力可能只比單個板卡提高10倍左右。
因此,沈亦晨博士認為,光是最適合解決這些困境的底層技術方式。“首先,在數據搬運上面,光已在光通信領域充分證明其領先性和優勢了。目前所有的長距離通信,包括數據中心里服務器和服務器之間的數據都是通過光纖代替銅導線進行的。我們也認為,光進入到芯片去幫助運算是一個必然的方向。”
曦智光子計算的三個主要技術
前面說到光是解決目前電子芯片算力、數據傳輸和存儲三大瓶頸的底層技術方式。而從大數據、人工智能等應用角度去看,越來越多的算力需求是來自于線性運算,而曦智發明的用光高效做線性計算的方式,就是光芯片的重要優勢之一。
曦智將其技術分為三個部分:oMAC(通過光來做矩陣的乘積累加運算)、oNOC(片上光網絡)、片間的光網絡。據沈亦晨博士介紹,oMAC是一種模擬計算,通過光模擬信號代替傳統電子進行數據處理,數據可以加載在光的強度或者相位上面,通過在波導里的傳播相互干涉,同時進行運算。主要實現的方法是采用和現在電芯片制備工藝CMOS兼容的硅光工藝平臺,用光電協同設計來進行光的矩陣乘法。
這里的優勢是,首先,光的矩陣乘法并行能力更強,它能以更高的通量進行運算。同時,它的能效可以媲美甚至優于現在的電子芯片,因為光在做傳播的時候本身不會發熱。另外,它完成一個矩陣運算所要花的時間少,也就是延時遠遠低于電芯片的延時。最后,硅光的工藝對于工藝制程的要求相當低,比如65或者45納米的CMOS工藝線就可以滿足現在光芯片、光計算所有的要求。硅光未來技術迭代不會需要對制程有特別的要求,更多是從其他方面進行技術迭代,比如主頻、波長數量還有不同的模式。
而oNOC也就是片上光網絡,主要通過用波導代替銅導線的方式,在片上進行數據傳輸,包括實現片與片之間的光通信。還有比較大芯片上光的總線的通信,在光芯片上構建一個固定通信網絡拓撲,通過光相連,實現基于片上光網絡的數據交互。最后,采用一些波分復用的方式來傳播數據,優勢是帶寬更大,能耗更低,延時會遠遠優于銅導線,并且對距離不敏感。
最后的片間光網絡即將上述片上光網絡進一步拓展到多個板卡、更多服務器之間。通過光纖將芯片和芯片直接互聯起來,芯片之間數據通過光來傳輸。
全球唯一展示光子優勢,PACE超3080百倍!
曦智認為,光電混合計算最重要的技術演進的點,就是不斷增加單個光芯片上的器件集成度。實際上,從最早的4x4乘法器,到64x64乘法器,再到目前光電混合2.5D封裝,曦智在四年時間里,已經實現一萬個光器件集成在一塊芯片上。
也正因為集成度上的突破,PACE是曦智科技目前可以對外展示最新的可運作的計算處理器,是目前已知全球集成度最高的光子芯片,同時也是全球第一個展示出光子優勢的計算系統,能夠在一些有商業化應用前景的算法上,比目前電子芯片提高數量級的優勢。
那么光子計算的優勢在什么領域能體現出來?NP-Complete Problem(多項式復雜程度非確定性問題,NPC)可以說是目前全球最難以高效解決的數學問題,比如生物信息里蛋白質結構的預測、物流交通調度、芯片設計、材料研發等都會應用到。但目前NPC沒有多項式算法,只能用窮舉法逐個檢驗最終得到答案。但如果我們能夠有效解決其中一個問題,它也可以被映射到其他問題上去。
而由于光子芯片的特性,PACE可以通過重復矩陣乘法和巧妙利用受控噪聲組成的緊密回環來實現低延遲,于是在進行NPC問題的計算時,PACE就可以相比GPU快上百倍。所以,PCAE在解決NPC問題上有比較多的商業應用前景。
據了解,與英偉達RTX3080 GPU相比,在同時運行一樣的循環神經網絡算法時,PACE所需時間只有3080的1%不到。
采用光電混合結構,基于現有生態打造
實際上,PACE的結構由光芯片和電芯片這兩部分組成。電芯片上主要做數據的存儲,以及數模混合的調度,光芯片上主要做數據的計算。這里可以理解為光芯片只是一個底層的硬件支持,而信息轉換和軟件相關的都采用電芯片進行數字處理,所有指令、編譯、軟件,都會在數字電芯片上。所以與現有的數字芯片生態一樣,只是在底層計算端換成了光芯片。
作為光電混合的設計的芯片,可能有人會擔心在工藝上難以大規模量產。實際上,沈亦晨表示,硅光芯片采用的是CMOS工藝,這一點能解決90%最核心的問題。由于基本采用硅基的CMOS工藝,在電學、熱學,包括仿真上都有相當成熟的軟件可以直接使用。
而封裝層面,PACE上采用了芯片堆疊,也就是類似于HBM的2.5D、3D封裝方案。目前唯一不同的是,封裝方案上需要增加一個接口,將光源導入光芯片中。
光芯片商業化還有多遠?
在談到這項技術的商業前景時,沈亦晨博士向記者強調,光計算并不是只有光芯片,在可預見的未來里,都將會是和電子芯片深度結合的光電混合計算。光芯片相比于電芯片,它更多是承接主要任務的處理器,主要承接的是線性計算和數據網絡這兩個部分。但由電芯片發出指令的一個好處是它和目前現有的市場環境、軟件環境都是兼容的。
另外要注意的是,目前曦智的光電混合芯片,還不能用于消費者熟知的領域,比如PC、手機、編解碼芯片等,同時這也不是曦智科技考慮的范疇。而曦智科技在應用場景的選擇上,會先切入大數據,包括云計算、智能駕駛、金融上的量化交易、生物藥物研發等場景。
沈亦晨表示,作為一項顛覆性的技術,本身一定需要經歷漫長的商業化過程。他透露,在第一階段也就是2022年開始的一到三年內,對于算力、延時等痛點特別強的應用場景開始落地,包括金融、大模型云服務、非AI的方向的優化、高性能運算等。
而第二個階段會隨著產品落地,在不同應用場景體現光計算優勢后,將會投入更大規模團隊做人工智能訓練的市場。
第三階段曦智將會延伸到GPU,包括車載芯片等市場。
“這些都是我們覺得對于算力需求非常大的,但是需要一個更成熟的硬件、軟件體系和進一步切入的市場。”因此沈亦晨認為,技術商業化會是一個相當漫長的過程,需要不斷地去改變、嘗試不同應用場景和行業。
原文標題:跨入光子時代?曦智科技發布光子計算處理器,運行特定算法性能超3080百倍!
文章出處:【微信公眾號:電子發燒友網】歡迎添加關注!文章轉載請注明出處。
-
處理器
+關注
關注
68文章
19166瀏覽量
229151 -
芯片
+關注
關注
453文章
50417瀏覽量
421853 -
物聯網
+關注
關注
2903文章
44279瀏覽量
371300
原文標題:?跨入光子時代?曦智科技發布光子計算處理器,運行特定算法性能超3080百倍!
文章出處:【微信號:elecfans,微信公眾號:電子發燒友網】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論