無論電子設備被吹捧為多么新、多么快速或高性能,在用戶的請求和設備的響應之間總是存在輕微的、幾乎無法察覺的延遲。那就是內存以 80% 或更低的效率工作。當然,用戶仍然認為該設備速度極快,但工程組知道驅動該設備的片上系統 (SoC) 設計的性能可能會更好——實際上要好得多。
處理器和內存之間的高效、流線型通信是每個工程團隊的夢想。這一夢想被當今 SoC 的高度集成特性所阻撓,它由許多不同的客戶端組成,每個客戶端都向內存子系統生成不同類型的請求流,可能需要數百個時鐘周期的延遲才能訪問。即使是具有多線程能力的單個客戶端運行用于鏈表處理的指針追蹤代碼,也會產生隨機的客戶端請求流,并且似乎幾乎沒有引用位置。這使得無法從內存子系統或與處理器的有效通信中獲得最佳性能。
所需要的是一種簡化的方式來收集和處理這些明顯隨機的請求信息,以創建一個虛擬的參考位置,以實現更好的決策和更高的效率。一項新技術——實際上是嵌入在 SoC 中的知識產權 (IP) 塊——已準備好做到這一點。它管理廣泛不同的請求流,以創建一個虛擬的參考位置,使請求看起來更線性。實施此類技術可提高內存帶寬,并讓 SoC 從其內存子系統中提取最佳性能。
不要與內存調度程序混淆,IP 是一個內存預取引擎,它通過將相似的請求組合在一起來與內存調度程序一起工作。它分析來自客戶端的多個并發請求流,并確定哪些請求應該優化或預取,哪些不應該。結果是高命中率和超低錯誤獲取率。
一旦客戶端請求被優化,它就會存儲在請求優化緩沖區(一個保存優化客戶端請求的小型微緩存)中,直到客戶端需要它為止。緩沖區為多個客戶端接口中的任何一個提供非阻塞接口,以使峰值響應帶寬超過內存子系統的帶寬并減少平均內存延遲。
支持 AXI 和 OCP 協議的多客戶端接口可以管理多達 16 個客戶端,由設計人員在配置技術時指定。配置工具將自動構建指定數量的客戶端接口,每個接口獨立運行并能夠支持并發操作。這允許 IP 為從請求優化緩沖區發出的任何響應發出多個并發客戶端請求。因此,IP 提供的峰值突發帶寬比底層內存子系統提供的更高。基準測試顯示,IP 將讀取延遲從 71% 降低到 78%。
每個工程組的夢想是減少內存的延遲,以提高 SoC 中實現的每個系統組件的性能,從而在不增加功耗的情況下實現更快的設計。所有電子設備都可以從改進的內存子系統中受益,現在有一種使用 IP 塊的有效方法。不再落后!
審核編輯:郭婷
-
處理器
+關注
關注
68文章
19169瀏覽量
229155 -
soc
+關注
關注
38文章
4122瀏覽量
217950
發布評論請先 登錄
相關推薦
評論