繞開CPU和內存,你瀏覽的內容或來自SSD的推薦
相信不少人都還記得今年AI芯片公司Esperanto發布的千核RISC-V處理器ET-SoC-1,隨著這款7nm的芯片于第二季度成功流片返回后,Esperanto得以在芯片上運行代碼,以及嘗試新的應用方向,其中之一就是AI-SSD。在近期舉辦的三星Foundry活動上,Esperanto公開了自己AI-SSD的概念模型。
個性化推薦系統的挑戰
在我們刷短視頻、聽歌和瀏覽社交網絡時,一部分內容來自于我們已經關注的用戶,但絕大多數來自于推薦系統的推送。推薦系統的準確程度很大程度決定了軟件的用戶體驗,也是如今互聯網經濟系統的命脈。但這類推薦也往往是服務器上消耗最大的AI處理負載,優化推薦系統可以提高推薦系統的速度,減少在服務器上的成本。
DLRM深度學習推薦模型 / Meta
談到推薦系統就不得不談到嵌入,嵌入是當下推薦系統中關鍵的組成部分。盡管每家都有著不同的推薦模型,但或多或少都是采用查找嵌入表的方法來實現分類特征的處理。在這個過程中,嵌入表存儲在DRAM中,而CPU對嵌入表進行操作,這就對內存帶寬和內存容量提出了雙重挑戰。
在內存帶寬上,像美團和騰訊等廠商紛紛采用多GPU加速的方式,充分利用GPU的帶寬,但這種方式依然需要多個GPU或多個服務器的支持才能解決容量問題。固然廠商也可以選擇像HBM這種大帶寬的內存方案,但帶來的成本提升也是巨大的。
根據Meta給出的說法,在Facebook社交網站的個性化推薦系統中,大規模的嵌入表可達到百萬行以上,導致推薦模型的大小達到10GB左右,一個神經推薦模型中所有嵌入表甚至需要TB級別以上的空間。比如Meta旗下的Instagram已經在開發10TB的推薦模型,而百度的廣告排名模型也達到了10TB。這種級別的容量需求對硬盤來說或許足夠,但對于內存來說過于奢侈了。
因此為了解決容量問題,不少人也提出了SSD的存儲解決方案,目前傳統的SSD雖然可以毫不費力地存儲下大規模推薦系統,但讀取延遲和帶寬都要更差一籌,從而顯著降低推理的性能。
專為推薦而生的SSD
Esperanto與三星合作開發出了一種AI-SSD的概念模型,來研究將所有嵌入表處理全部移到SSD內部會有怎么樣的影響,從而省去推薦系統中經過CPU和DRAM的環節。三星展示了使用Esperanto的ET-SoC-1芯片與其PM9A3 SSD結合的成果。
在AI-SSD中,所有嵌入表都被存儲在SSD里,CPU負責所有的用戶數據輸入和深度神經網絡,而SSD內部的ET-SoC-1負責嵌入表的查詢和交互運算。此外由于選擇了這種存內計算的方式,最小化了PCIe鏈路上的數據傳輸,降低了讀寫的高延遲,最終的分類數據直接交給CPU生成推薦結果。
AI-SSD帶寬性能測試結果 / Esperanto
測試環節中,Esperanto選用了Meta的開源推薦模型DLRM,將AI-SSD與傳統的CPU-SSD方式進行對比。在不同的模型配置下,AI-SSD實現了10到100倍的讀取帶寬提升,而且帶寬隨著使用核心數的上升還能繼續線性提升。
要知道在這次測試中,Esperanto最多只用到了四個子節點(Minion Shire),每個節點只有32個核心。而一整個ET-SoC-1有34個子節點1088顆核心,如果所有計算單元全部用于SSD的話,提升幅度將達到數百倍以上,十分適合數據中心級別的SSD產品。而ET-SoC-1的擴展性也可以讓它縮減核心數,用于一些邊緣端的推薦系統。
拿計算換空間
不過即便用上了AI-SSD,這也是一種增加硬件成本的路線,除了不差錢的大公司會利用這種產品外,一些小的互聯網應用可能并不會直接選擇更換SSD的方式,如此一來,也就只有繼續優化推薦模型一途。
佐治亞理工學院和Meta的研究院為DLRM提出了一種張量訓練壓縮的方式,名為TT-Rec。該方法通過將嵌入表分為多個小矩陣相乘的方式進行壓縮,進一步降低嵌入表的大小,不過這多出來的計算是肯定躲不掉的額外消耗,好在其評估結果足夠優秀。
在Kaggle和Terabyte數據集的測試訓練下,TT-Rec分別將數據從2.16GB和12.57GB壓縮至18.36MB和0.11GB,整體的大小壓縮均在百倍以上,甚至可以做到幾乎沒有精度損失。而多出來的運算則反映到了訓練時間上,分別增加了14.3%和13.9%。因此在實際使用中,必須對內存容量、模型精度和訓練時間做出一定的取舍。
小結
盡管從推薦系統配置的角度來說,仍有不少可選的解決方案,但存算一體方面的研究已經全面鋪開了。存儲市場正在迅速與計算市場發生重疊,像三星、西數和希捷等存儲廠商紛紛開始了這塊的布局,傳統的馮諾依曼架構也將被近數據處理替代。
相信不少人都還記得今年AI芯片公司Esperanto發布的千核RISC-V處理器ET-SoC-1,隨著這款7nm的芯片于第二季度成功流片返回后,Esperanto得以在芯片上運行代碼,以及嘗試新的應用方向,其中之一就是AI-SSD。在近期舉辦的三星Foundry活動上,Esperanto公開了自己AI-SSD的概念模型。
個性化推薦系統的挑戰
在我們刷短視頻、聽歌和瀏覽社交網絡時,一部分內容來自于我們已經關注的用戶,但絕大多數來自于推薦系統的推送。推薦系統的準確程度很大程度決定了軟件的用戶體驗,也是如今互聯網經濟系統的命脈。但這類推薦也往往是服務器上消耗最大的AI處理負載,優化推薦系統可以提高推薦系統的速度,減少在服務器上的成本。
DLRM深度學習推薦模型 / Meta
談到推薦系統就不得不談到嵌入,嵌入是當下推薦系統中關鍵的組成部分。盡管每家都有著不同的推薦模型,但或多或少都是采用查找嵌入表的方法來實現分類特征的處理。在這個過程中,嵌入表存儲在DRAM中,而CPU對嵌入表進行操作,這就對內存帶寬和內存容量提出了雙重挑戰。
在內存帶寬上,像美團和騰訊等廠商紛紛采用多GPU加速的方式,充分利用GPU的帶寬,但這種方式依然需要多個GPU或多個服務器的支持才能解決容量問題。固然廠商也可以選擇像HBM這種大帶寬的內存方案,但帶來的成本提升也是巨大的。
根據Meta給出的說法,在Facebook社交網站的個性化推薦系統中,大規模的嵌入表可達到百萬行以上,導致推薦模型的大小達到10GB左右,一個神經推薦模型中所有嵌入表甚至需要TB級別以上的空間。比如Meta旗下的Instagram已經在開發10TB的推薦模型,而百度的廣告排名模型也達到了10TB。這種級別的容量需求對硬盤來說或許足夠,但對于內存來說過于奢侈了。
因此為了解決容量問題,不少人也提出了SSD的存儲解決方案,目前傳統的SSD雖然可以毫不費力地存儲下大規模推薦系統,但讀取延遲和帶寬都要更差一籌,從而顯著降低推理的性能。
專為推薦而生的SSD
Esperanto與三星合作開發出了一種AI-SSD的概念模型,來研究將所有嵌入表處理全部移到SSD內部會有怎么樣的影響,從而省去推薦系統中經過CPU和DRAM的環節。三星展示了使用Esperanto的ET-SoC-1芯片與其PM9A3 SSD結合的成果。
在AI-SSD中,所有嵌入表都被存儲在SSD里,CPU負責所有的用戶數據輸入和深度神經網絡,而SSD內部的ET-SoC-1負責嵌入表的查詢和交互運算。此外由于選擇了這種存內計算的方式,最小化了PCIe鏈路上的數據傳輸,降低了讀寫的高延遲,最終的分類數據直接交給CPU生成推薦結果。
AI-SSD帶寬性能測試結果 / Esperanto
測試環節中,Esperanto選用了Meta的開源推薦模型DLRM,將AI-SSD與傳統的CPU-SSD方式進行對比。在不同的模型配置下,AI-SSD實現了10到100倍的讀取帶寬提升,而且帶寬隨著使用核心數的上升還能繼續線性提升。
要知道在這次測試中,Esperanto最多只用到了四個子節點(Minion Shire),每個節點只有32個核心。而一整個ET-SoC-1有34個子節點1088顆核心,如果所有計算單元全部用于SSD的話,提升幅度將達到數百倍以上,十分適合數據中心級別的SSD產品。而ET-SoC-1的擴展性也可以讓它縮減核心數,用于一些邊緣端的推薦系統。
拿計算換空間
不過即便用上了AI-SSD,這也是一種增加硬件成本的路線,除了不差錢的大公司會利用這種產品外,一些小的互聯網應用可能并不會直接選擇更換SSD的方式,如此一來,也就只有繼續優化推薦模型一途。
佐治亞理工學院和Meta的研究院為DLRM提出了一種張量訓練壓縮的方式,名為TT-Rec。該方法通過將嵌入表分為多個小矩陣相乘的方式進行壓縮,進一步降低嵌入表的大小,不過這多出來的計算是肯定躲不掉的額外消耗,好在其評估結果足夠優秀。
在Kaggle和Terabyte數據集的測試訓練下,TT-Rec分別將數據從2.16GB和12.57GB壓縮至18.36MB和0.11GB,整體的大小壓縮均在百倍以上,甚至可以做到幾乎沒有精度損失。而多出來的運算則反映到了訓練時間上,分別增加了14.3%和13.9%。因此在實際使用中,必須對內存容量、模型精度和訓練時間做出一定的取舍。
小結
盡管從推薦系統配置的角度來說,仍有不少可選的解決方案,但存算一體方面的研究已經全面鋪開了。存儲市場正在迅速與計算市場發生重疊,像三星、西數和希捷等存儲廠商紛紛開始了這塊的布局,傳統的馮諾依曼架構也將被近數據處理替代。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
SSD
+關注
關注
20文章
2851瀏覽量
117253 -
AI
+關注
關注
87文章
30239瀏覽量
268484
發布評論請先 登錄
相關推薦
北橋芯片負責與cpu的聯系并控制內存嗎
北橋芯片,也被稱為內存控制器或系統控制器,是計算機主板上的一個重要組成部分。它負責管理CPU、內存、以及其他系統組件之間的數據傳輸和通信。 1. 北橋芯片的定義和功能 北橋芯片是主板上負責高速
主板內存故障燈亮會是cpu的問題嗎
主板內存故障燈亮并不一定是CPU的問題,但CPU與內存之間的交互確實可能影響這一故障現象。以下是對主板內存故障燈亮可能原因的分析: 一、
主板自檢cpu和內存燈一直來回閃
當你遇到主板自檢時CPU和內存燈一直來回閃爍的情況,這通常意味著硬件檢測過程中存在問題。這個問題可能涉及到多個方面,包括硬件故障、BIOS設置錯誤、兼容性問題等。 1. 硬件故障 1.1 CPU故障
什么是CPU緩存?它有哪些作用?
CPU緩存(Cache Memory)是計算機系統中一個至關重要的組成部分,它位于CPU與內存之間,作為兩者之間的臨時存儲器。CPU緩存的主要作用是減少
內存、存儲系統和CPU的區別
在計算機系統中,內存、存儲系統和CPU是三個至關重要的組件,它們各自承擔著不同的職責,共同協作以完成數據處理和運算任務。以下是對這三者之間區別的詳細闡述。
Mozilla啟動安卓版火狐Firefox瀏覽器性能調查程序
來自用戶的反饋顯示,安卓版 Firefox 瀏覽器啟用遙感測量后,可能會影響網站加載和瀏覽器啟動速度。以 CNN 網站為例,測試數據表明,啟用遙感測量后,CPU 加載頁面的時間延長了
谷歌Chrome瀏覽器將提供激進的內存節省方案
谷歌Chrome瀏覽器自推出以來因過度消耗內存而廣受詬病,因此,近日谷歌已上線“內存使用情況”工具,供用戶查看當前標簽頁面所占內存容量(MB)。如今,谷歌計劃實施更為高效的
【鴻蒙】webview內存泄漏問題的分析報告
1 關鍵字 webview;內存泄漏 2 問題描述 問題現象:在 3.1release 版本和 3.2bete1 版本中,在 RK3568 上使用 etsWeb 和其他瀏覽器時,webview 所占
如何通過瀏覽器訪問Web頁面進行固件更新的方法?
如果電腦沒有安裝 TIA PORTAL 軟件,但是 CPU 之前激活了 Web 服務器功能,可以通過電腦聯網 CPU,然后打開瀏覽器瀏覽到 CPU
求助,為什么 \" ld.w \" 導致某些內存內容被修改?
; 指令執行后,一些內存內容被更改。 這很難理解。 有人遇到過類似的問題嗎。 以下是我的情況,
1) 在執行 " ld.w 之前 " 指令,來自
發表于 01-26 07:35
評論