隨著大模型時代的到來,AI算力逐漸變成重要的戰略資源,對現有AI芯片也提出了前所未有的挑戰:大算力的需求、高吞吐量與低延時、高效內存管理、能耗等等。
存算一體架構是可能有效解決當前芯片瓶頸的路徑之一,通過將數據存儲與處理單元集成,顯著減少了數據在芯片內部的傳輸,降低延遲和能耗,提高計算速度。
此外,針對大模型的特定需求,芯片設計也在不斷創新,以更好地支持并行處理和高效率的數據流動。這些技術發展不僅對推動人工智能領域的進步至關重要,也為芯片設計和制造業帶來了新的機遇和挑戰。
Q1?當前主流的大模型對于底層推理芯片提出了哪些挑戰?
1、算力需求:由于大模型計算量的提升,對算力的需求也飛速增長。考慮到芯片光罩面積的限制,一方面需要通過電路優化提升算力密度,另一方面需要通過先進集成等手段突破芯片面積的限制。
2、高吞吐量與低延時:大模型推理分為prefill和decoding兩個階段,兩階段的推理延遲分別影響用戶得到首個token的延遲(time to first token,TTFT)和生成階段逐token的輸出延遲(time per output token,TPOT),優化兩個階段的延遲可以提升用戶在使用推理服務時的體驗。由于prefill階段需要在單次推理處理完整的prompt輸入,是計算密集的,所以prefill階段需要通過提升芯片的算力來降低延遲。另一方面,decoding階段中,每個請求只處理一個token,是訪存密集的,因此需要提升芯片的訪存帶寬來降低延遲。
3、高效內存管理:在提供大模型推理服務時,不同用戶的請求到達時間,prompt長度,以及生成長度均不相同,所以在動態batching時不同請求間的KV Cache長度往往不同,從而導致KV Cache的碎片化問題。因此,諸如vLLM等優化KV Cache的碎片化問題的內存管理方案被提出,從而顯著提升GPU上的內存利用率。
4、能耗:對于每個sequence的生成,decoding階段每次只處理單個token,從而導致在生成的過程中需要反復搬運權重到片上緩存,產生高訪存能耗。
5、可編程性與靈活性:隨著深度學習和人工智能領域快速發展,新的算法和模型不斷涌現。芯片應具有一定的可編程性和靈活性,以適應這些變化,不僅僅針對當前的算法進行優化。
Q2?大模型時代的需求,存算一體芯片會是更優解嗎?
1、存算一體的優勢與大模型需求的契合點:CIM(Computing in Memory)具備高計算密度、高計算能效的優勢,適合大模型Prefill階段的處理。在同樣芯片面積限制下,有望提供超過當前GPU的算力。另外,對圖片、視頻等領域生成模型,算力的需求將進一步上升,CIM高算力密度的優勢可以進一步發揮。
2、方向一:近存路線:基于DRAM的近存計算架構能夠處理decoding階段訪存密集的矩陣向量乘法操作。通過在DRAM的bank附近放置處理單元,它們可以減少搬運權重的能耗,并且通過近bank處理單元的并行計算提升訪存帶寬,從而獲得推理加速。但是由于DRAM的工藝限制,近存處理單元的算力較弱,無法高效處理prefill階段的計算密集算子,因此往往需要與GPU配合工作,完成整個推理流程。
3、方向二:近存+存算路線:CIM+PIM的混合異構方案,可以同時滿足Prefill高算力和Decode高存儲帶寬和容量的需求,實現優勢互補,超過當前的同構方案。
未來,隨著技術進步和創新設計的不斷涌現,芯片技術將進一步突破現有極限,實現更低的能耗和更高的計算性能。存算一體技術也將為芯片行業提供更多創新發展路徑。
-
人工智能
+關注
關注
1791文章
46859瀏覽量
237571 -
存算一體
+關注
關注
0文章
100瀏覽量
4288 -
大模型
+關注
關注
2文章
2328瀏覽量
2483
原文標題:存算十問|(十):面向大模型時代,存算一體是更優解嗎?
文章出處:【微信號:后摩智能,微信公眾號:后摩智能】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論