XAPP1206:利用NEON提高ZYNQ-7000 AP SOC上的軟件性能
一般來說,CPU需要一個接一個地執行指令和進程數據。設計人員通常使用高時鐘頻率來實現高性能,但是半導體技術在此項技術上存在極限。并行計算是下一個提高CPU數據處理能力的典型策略。單指令多數據(SIMD)技術使得在一個或幾個CPU周期內處理多個數據成為可能。NEON是賽靈思Zynq-7000 All Programmable SoC所采用的雙核ARM Cortex-A9處理器中的高級SIMD引擎。NEON專門用來對大數據集進行并行數據計算,有效利用該技術可以提高設計的軟件性能。
在本應用指南中,作者Haoliang Qin介紹了四種利用Cortex-A9處理器內核上的NEON 提高軟件性能和緩存效率的方法,這四種方法分別是:優化匯編碼、使用NEON intrinsics、使用針對NEON優化的函數庫以及使用針對編譯器優化的自動向量化。此外,他還詳細介紹了改善CPU、緩存和主存儲器之間數據交換的方法。
軟件優化是一個復雜的話題。Qin表示,要實現最佳硬件性能,必須同時使用所有這些技術,并在它們之間取得最佳平衡。
XAPP1208:邏輯中的BITSLIP
賽靈思UltraScale器件中的I/O邏輯是指位于I/O緩沖器和通用互聯之間的專用I/O處理組件。相對此前器件系列而言,UltraScale器件中的I/O邏輯設置可提供更快速的I/O處理、更低的抖動以及更多的功能。但是,它省略了7系列和Virtex-6 FPGAI/O邏輯中的一些可用功能,如Bitslip。
由Marc Defossez撰寫的本應用指南介紹了在通用互聯中實現的可用在UltraScale器件及此前器件架構中的Bitslip解決方案。本參考設計實現了Bitslip功能,并通過若干附加選項擴展了基本功能。
Bitslip參考設計執行的功能與7 系列和Virtex-6 FPGA的ISERDES中嵌入的固有Bitslip功能相同,但是,該參考設計提供的一些額外選項是基于7 系列和Virtex-6 FPGA器件的解決方案中所沒有的,因而超越了后者。當這個設計中的功能需要用在7系列或Virtex-6 FPGA設計中時,必須使用通用互聯。因此,Bitslip參考設計可滿足先前器件系列中Bitslip的要求和目標。
XAPP1203:在ZYNQ-7000 AP SOC上實現信號處理IP,以對XADC采樣進行后處理
本應用指南是白皮書《在賽靈思All Programmable器件中有效實現模擬信號處理功能》(WP442)的后續配套文章,給出了簡單易用的設計流程,以便利用賽靈思All Programmable抽象在賽靈思FPGA和All Programmable SoC中實現模擬信號處理功能。作者Mrinal J. Sarmah和Cathal Murphy在書中詳細描述了如何利用白皮書中介紹的概念在Zynq-7000 All Programmable SoC上輕松構建信號處理IP核與完整的混合信號系統。
本應用指南演示了如何對來自模數轉換器的采樣進行后處理,以便以低成本方式濾除環境噪聲。所用的設計模塊是基于DSP模塊(支持標準AXI接口)的輕量級解決方案。讀者可在他們自己的設計中重用這些IP核,并作為XADC采樣的后處理方法。基于Vivado IP Integrator的設計流程可在基于原理圖的環境下簡化重用過程,使設計人員在該環境下不必處理底層RTL。
XAPP1205:利用ZYNQ-7000 ALL PROGRAMMABLE SOC和IP INTEGRATOR設計高性能視頻系統
對于賽靈思Zynq-7000 All Programmable SoC這樣的高端處理平臺,客戶希望充分利用器件中的處理系統(PS)和可用的定制外設。針對該理念的實例為一種具有多條視頻流水線的系統,其中,在處理器訪問存儲器的同時,可將現場視頻流寫入存儲器(輸入),將存儲器的內容送到現場視頻流(輸出)。由James Lucero和Bob Slous撰寫的本應用指南涵蓋相應設計原則,以便從Zynq SoC存儲器接口、可編程邏輯(PL)中實現的AXI主接口以及ARM Cortex-A9處理器中獲得高性能。.
對于視頻流,最差情況時延要確保不丟失或破壞數據幀。為了在PL中提供具有更低時延的高速AXI主接口,并直接訪問Zynq-7000 SoC存儲器接口,需要連接到高性能(HP)接口。Zynq SoC包含四個HP接口,均為針對高吞吐量而設計的64位或32位AXI3從接口。
該設計使用四個AXI視頻直接存儲器訪問(VDMA)內核同步移動8個視頻流(4個發送視頻流和4個接收視頻流),所有視頻流均為1920 x 1080p格式,60Hz刷新率,每像素多達24個數據位。每個AXI視頻DMA內核均采用視頻定時控制器(VTC)內核建立必要的視頻定時信號,內核由視頻測試模式發生器(TPG)驅動。每個AXI視頻DMA內核讀取的數據被送到一個共用的視頻屏幕顯示(OSD)內核,該內核可將多個視頻流多路復用或重疊為單個輸出視頻流。板載HDMI視頻顯示接口由視頻屏幕顯示內核的輸出和附加的IP核驅動。
該設計采用AXI性能監視器內核捕捉性能數據。所有4個AXI視頻DMA內核都通過AXI互聯連接到4個獨立的HP接口,并受Cortex-A9處理器的控制。該系統使用70%的存儲器控制器帶寬。該參考設計適用于Zynq SoC ZC702評估板。
XAPP1091:在KINTEX-7 FPGA中實現實時視頻引擎2.0
在廣播視頻領域,不同格式的視頻內容流經過采集、處理、分配和使用等不同操作。為了正確存檔、分配和顯示內容,視頻信號經常需要通過適當的格式轉換進行正確處理。例如,為了在全高清(FHD)LCD屏幕上正確顯示NTSC/PAL信號,必須執行一系列去隔行、縮放、色度上采樣、顏色校正以及α混合操作。
本應用指南利用最新的賽靈思Kintex-7 FPGA架構提供真正可擴展的視頻處理器參考設計,以滿足多數據流/多流水線視頻處理需求。作者Bob Feng和Kavoos Hedayati針對的是多畫面監控器顯示器、視頻開關和多通道視頻路由器以及多數據流上變頻器和下變頻器等應用。
XAPP1095:在賽靈思ZYNQ-7000 ALL PROGRAMMABLE SOC中實現實時視頻引擎2.1
另一個以視頻為導向的應用指南利用最新的Zynq-7000 All Programmable SoC架構提供真正可擴展的視頻處理器參考設計,以滿足多數據流/多流水線視頻處理需求。此外,它還提供用以創建差異化內容的圖形渲染功能。該設計針對的是多畫面監控器顯示器、視頻開關和多通道視頻路由器以及多數據流上變頻器和下變頻器等應用。
作者Bob Feng表示,他們的目標是提供針對多種視頻應用的高度可論證的廣播質量視頻處理參考設計。實時視頻引擎參考設計2.1版本(RTVE 2.1)可提供一種在Linux v3.3下使用API的圖形渲染平臺,具有Qt圖形環境并可執行可擴展的視頻處理功能。
TIPS:文中文檔下載方式,請登錄China.xilinx.com,在搜索欄直接以文件編號為關鍵詞進行搜索,比如“XAPP1095”。
---> END <---
-
cpu
+關注
關注
68文章
10824瀏覽量
211137 -
模擬信號
+關注
關注
8文章
1116瀏覽量
52393 -
高性能
+關注
關注
0文章
156瀏覽量
20384
發布評論請先 登錄
相關推薦
評論