在第二屆中國計算機學會芯片大會上,中科馭數與中國科學院計算技術研究所處理器芯片全國重點實驗室共同完成的一項成果《GRACE: An End-to-End Graph Processing Accelerator on FPGA with Graph Reordering Engine》獲得“CCF芯片大會最佳論文獎”。該項工作由鄢貴海研究員指導完成,論文第一作者是博士研究生樊海爽,論文的其他作者為蒙睿、孫啟楚、吳婧雅、盧文巖、李曉維。
GRACE提出一種利用FPGA加速器圖預處理及圖計算全流程的全卸載方法,解決了其他方法中的預處理瓶頸問題,提高了圖計算的端到端處理速度。
圖數據在芯片設計、社交網絡分析等應用中發揮著重要作用。隨著現實生活中圖頂點數量的迅速增加以及圖數據不規則的內存訪問模式,現有的基于CPU和GPU的大規模圖處理框架在優化緩存使用方面遇到了挑戰。為了解決這一問題,通常利用圖重排序的方法改善圖的局部性,但這會帶來顯著的開銷導致未能實現顯著的端到端性能提升。盡管已有許多基于FPGA的圖處理加速器,但要實現高吞吐量通常需要在CPU上進行復雜的圖預處理。因此,構建一個高效的端到端圖處理系統仍然具有挑戰性。
基于此,本文提出了一種基于FPGA的端到端圖處理加速器GRACE,它的核心結構包括圖重排序引擎和基于Pull模式的頂點中心編程模型(Pull-based Vertex-Centric Programming Model, PL-VCPM)引擎。
本文采用的主要優化方法包括:首先,GRACE采用定制的高度頂點緩存(High-Degree Vertex Cache, HDC)來提高內存訪問效率;其次,GRACE定制了高效的圖重排序引擎以完成圖預處理;第三,GRACE采用了圖剪枝策略,以消除圖處理中的激活和計算冗余;最后,GRACE引入了圖沖突板(Graph Conflict Board, GCB)以解決數據沖突,并通過多端口緩存提高并行效率。
實驗結果表明,本文所提出的GRACE的端到端處理性能在多個圖算法和數據集上平均為通用CPU的10倍、GPU的2.3倍,超過現有基于FPGA加速器方法的34倍,展現出卓越的端到端處理效果。
實驗平臺利用中科馭數自研的數據網絡應用開發平臺“開物K-Machine”,模擬了端到端的圖像處理環境。開物平臺擁有功能完善的基礎組件、簡單高效編程、靈活可擴展、豐富的外圍接口,旨在簡化數據網絡領域的開發流程,可以幫助開發研究人員實現開箱即用,一鍵部署,打通DPU算力的最后一公里,確保用戶的每一行代碼都能直接轉化為核心創新。
-
加速器
+關注
關注
2文章
785瀏覽量
37151 -
計算機
+關注
關注
19文章
7174瀏覽量
87158 -
中科馭數
+關注
關注
0文章
110瀏覽量
3945
原文標題:CCF Chip 2024,最佳論文獎!
文章出處:【微信號:yusurtech,微信公眾號:馭數科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論