精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

數學運算在FPGA中的實現方式

FPGA設計論壇 ? 來源:FPGA設計論壇 ? 作者:FPGA設計論壇 ? 2022-10-31 14:48 ? 次閱讀

一、前言

FPGA以擅長高速并行數據處理而聞名,從有線/無線通信到圖像處理中各種DSP算法,再到現今火爆的AI應用,都離不開卷積、濾波、變換等基本的數學運算。但由于FPGA的硬件結構和開發特性使得其對很多算法不友好,之前本人零散地總結和轉載了些基本的數學運算在FPGA中的實現方式,今天做一個系統的總結歸納。

二、FPGA中的加減乘除

1.硬件資源

Xilinx 7系列的FPGA中有DSP Slice ,叫做“DSP48E1”這一專用硬件資源,這是一個功能強大的計算單元,單就用于基本運算的部分有加減單元和乘法器。詳見參考文獻1.

e05f2f74-58d4-11ed-a3b6-dac502259ad0.png

因此可以直接用HDL語言中的加、減、乘符號實現變量與常量間運算操作以及變量與變量間操作。而四則運算中的除法沒有基本的邏輯計算單元可以對應,因此計算除法需要調用除法器IP核。

2.確認數據的表示范圍

有符號數:(補碼)-2^(N-1) ~ 2^(N-1)-1 如N = 8,則表示范圍是:-128 ~ 127.

無符號數:0~2^N-1 如N = 8,則表示范圍是:0~255.

定點數:2Q13 范圍是:-4~4-2^(-13) 精度是:2^(-13)

3.結果有效位寬

首先討論結果位寬問題。在FPGA中往往采用定點運算替代浮點運算來降低硬件資源占用率和計算延遲,其中的精髓就是精度與資源的權衡。若按照保留計算結果的全部精度,N bit數與Mbit數相加結果需要N+1bit(N>M)。N bit數與M bit數相乘之積需要N+M bit。而減法可以轉化為加法,除法則轉換為乘法和加減法的組合。如果操作數是定點小數,則在滿足以上準則的前提下,A與B相加(A小數點位數>B小數點位數),結果小數點位數與A相同;A與B相乘(小數點位數分別為p和q),結果小數點位數是p+q。

4.定點運算步驟

然而(話鋒一轉),在大多數場合下,不需要以上這么多位來保留計算結果,因為我們在進行數學運算時,已經知道輸入數據的大致范圍,一個數除以1000和除以1結果數據所需最小位寬能一樣么?加減運算的操作步驟是先對齊小數點位數,后加減。而乘法是先計算后取小數點。這實際上與十進制運算一致,我們看看具體的計算步驟:

整數之間加減以及乘法的統一步驟:預估結果位寬N --> 按照結果位寬擴展操作數符號位以防止溢出 --> 運算取低N位。

定點小數加減運算步驟:預估結果位寬N --> 得到結果小數點后位數 --> 對齊操作數整數位和小數位,確定擴展位寬M(M≥N) --> 加減運算取低M位。

定點小數乘法運算步驟:預估結果位寬N --> 得到結果小數點后位數 --> 擴展操作數位寬 --> 相乘取低N位

變量與常量運算化簡

以上討論的均是兩變量之間的運算規則,當然結果位寬及格式準則是適用的。變量與常量的運算的優勢在于,可以將乘除法轉換成加減以及移位運算實現,從而降低計算復雜度和延遲。當常數項C為2的整數次冪(C = 2^p),則乘C等于變量左移p位,除以C等于變量右移p位。幾個在書中看到的幾個簡單示例:A16 = A <<4  A20 = A<<4 + A<<2.  A除以2 = A >>1A除以3 = A*(0.25+0.0625+0.0156) = A>>2+A>>4+A>>6A除以5 = A*(0.125+0.0625+0.0156) = A>>3 + A>>4 + A>>6.其中乘法完全等價對應的移位相加操作,而除法的移位代替會損失精度。

三、如何計算特殊函數

FPGA內部的DSP Slice可以直接進行最基本的加法和乘法運算,但是對于其他比如對數、指數、三角函數、開根號等特殊函數就無能為力了。這時需要借助算法對這些特殊函數進行變換和簡化。FPGA實現復雜函數的常用手段一個是級數展開,再一個就是CORDIC算法。關于CORDIC的理論知識和具體內容詳見參考文獻2,這里主要闡述CORDIC的IP核調用以及應用示例。CORDIC算法就是通過一定的手段,將很多復雜的特殊函數變為相加移位運算,這一點對于硬件芯片實現來說非常友好。CORDIC分為旋轉模式和矢量模式,配合圓周坐標、線性坐標和雙曲線坐標會有六種組合,具體見下表:
e081e92e-58d4-11ed-a3b6-dac502259ad0.png

從表中發現,基本的乘除法、三角函數、反三角函數、雙曲函數、反雙曲函數、開根號都能夠直接求得,那其他函數怎么辦?

e0bbe1f6-58d4-11ed-a3b6-dac502259ad0.png

常見的函數計算需求基本都能滿足,雖上述變換式對自變量定義域有限制,但同樣可以分析輸入數據的取值范圍并利用簡單的數學變換得到想要的結果。Xilinx同時提供了浮點IP核以及CORDIC IP核,前者調用簡單但占用資源大,延遲高,因此利用CORDIC算法計算函數是個較好的選擇。

四、CORDIC計算e^x Demo

算法仿真分析

要計算ex數值需要讓CORDIC工作在雙曲坐標的旋轉模式下,通過ex = sinhx+coshx關系式間接求得。首先看下sinh和cosh函數的曲線,有個直觀認識。
e0e32a36-58d4-11ed-a3b6-dac502259ad0.png
e100147a-58d4-11ed-a3b6-dac502259ad0.png

我們用MATLAB毫不費力地驗證一下公式正確性:
e12678ae-58d4-11ed-a3b6-dac502259ad0.png

在設計后也同樣要借助MATLAB進行仿真驗證。

CORDIC IP核

現在通過查看user guide得知CORDIC IP核的接口及主要特性。

e15259c4-58d4-11ed-a3b6-dac502259ad0.png

接口包括輸入笛卡爾數據輸入通道、相位輸入通道、全局信號以及數據輸出通道。該IP核有兩種結構:串行和并行,可根據數據吞吐量需求選擇,并行結構可以每個時鐘輸出一個計算結果。如果計算sinh和cosh,要向phase通道輸入相位信息,X_OUT是cosh(phase),Y_OUT是sinh(phase).輸入phase必須滿足數據范圍,否則出現不可預計結果。輸出幀結構及數據范圍如下:

e1758a5c-58d4-11ed-a3b6-dac502259ad0.png

其中輸入數據格式為2QN,輸出則是1QN。由于均是有符號數,也就是輸入整數部分3bit,輸出整數部分2bit。接下來對IP核進行配置,重點是第一頁,此處將其配置為計算sinh和cosh模式,采用并行優化的流水線結構。相位以角度為單位,輸入輸出位寬設置成16bit。
e193d714-58d4-11ed-a3b6-dac502259ad0.png

3.HDL代碼設計及仿真驗證

設計代碼:

1 `timescale 1ns / 1ps
2
3 module cordic_ex#(parameter DIN_W = 16,
4 DOUT_W = 16)
5 (
6 input clk,
7 input [DIN_W-1:0] din,//2Q13
8 input din_vld,
9
10 output reg [DOUT_W+1-1:0] dout = 0,//2Q14
11 output reg dout_vld = 0
12 );
13
14
15 wire [DOUT_W2-1 : 0] m_axis_dout_tdata;
16 wire m_axis_dout_tvalid;
17 wire signed [DOUT_W-1:0] sinh,cosh;
18
19 // ex = sinhx + coshx <1Q14+1Q14 = 2Q14>
20 always @(posedge clk)begin
21 dout <= sinh + cosh;
22 end
23
24 assign sinh = m_axis_dout_tdata[DOUT_W2-1 -:DOUT_W];
25 assign cosh = m_axis_dout_tdata[DOUT_W-1 -:DOUT_W];
26
27 always @(posedge clk)begin
28 if(m_axis_dout_tvalid)begin
29 dout_vld <= 1’b1;
30 end
31 else
32 dout_vld <= 0;
33 end
34
35 cordic_0 cordic_cosh_sinh (
36 .aclk(clk), // input wire aclk
37 .s_axis_phase_tvalid(din_vld), // input wire s_axis_phase_tvalid
38 .s_axis_phase_tdata(din), // input wire [15 : 0] s_axis_phase_tdata
39 .m_axis_dout_tvalid(m_axis_dout_tvalid), // output wire m_axis_dout_tvalid
40 .m_axis_dout_tdata(m_axis_dout_tdata) // output wire [31 : 0] m_axis_dout_tdata
41 );
42
43 endmodule
cordic_ex
用MATLAB產生兩組數據,并將角度值定點化后作為設計模塊數據激勵:

testbench:

1 `timescale 1ns / 1ps
2
3 module cordic_ex_tb();
4
5 parameter CYC = 20;
6
7 reg clk;
8 reg [16-1:0] din;
9 reg din_vld;
10
11 wire signed [17-1:0] dout;
12 wire dout_vld;
13
14 cordic_ex#(.DIN_W(16),
15 .DOUT_W(16))
16 uut(
17 .clk (clk) ,
18 .din (din) ,//2Q13
19 .din_vld (din_vld) ,
20 .dout (dout) ,//2Q14
21 .dout_vld (dout_vld)
22 );
23
24 initial begin
25 clk = 1;
26 forever #(CYC/2) clk = ~clk;
27 end
28
29 initial begin
30 #1;
31 din = 0;
32 din_vld = 0;
33 #(CYC10);
34
35 din_vld = 1;
36 din = 16’b0001010000011011;//pi * 1/5
37 #(CYC1);
38 din = 16’b1110011011011110;//-pi * 1/4
39 #5;
40 $stop;
41 end
42
43 endmodule
cordic_ex_tb
仿真結果:
e1e2004c-58d4-11ed-a3b6-dac502259ad0.png

仿真波形表明,計算結果與MATLAB浮點運算相近,滿足一般計算需求。若想提高精度,可以增加CORDIC輸出數據位寬。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • FPGA
    +關注

    關注

    1626

    文章

    21678

    瀏覽量

    602037
  • 無線通信
    +關注

    關注

    58

    文章

    4526

    瀏覽量

    143426
  • 硬件
    +關注

    關注

    11

    文章

    3260

    瀏覽量

    66132

原文標題:深度學習FPGA實現數據計算

文章出處:【微信號:gh_9d70b445f494,微信公眾號:FPGA設計論壇】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    鼎陽示波器功能之數學運算

    示波器參數測量,3種方式進行了講解,本次,博宇訊銘講解:鼎陽示波器功能之數學運算。讓我們一起來學習一下吧。數學運算概述運算的算子包括:加法(+)、減法(-)、乘法(*)、除法(/)、恒
    發表于 05-10 13:37

    如何在GCC為具有FPU的Cortex M4啟用硬件浮點數學運算呢?

    如何在GCC為具有FPU的Cortex M4啟用硬件浮點數學運算呢?
    發表于 08-26 14:43

    基本數學運算庫VHDL代碼

    包括各種用VHDL語言描述的基本數學運算單元,瑞典聯邦技術研究院(ETH)提供
    發表于 05-20 11:12 ?30次下載

    基本數學運算庫 -包括各種用VHDL語言描述的基本數學運算

    基本數學運算庫 包括各種用VHDL語言描述的基本數學運算單元 VHDL Library of Arithmetic Units, Version 1.0=============================== Installation:   1) U
    發表于 06-14 09:25 ?45次下載

    GE FANUC PLC的數學運算功能

    GE FANUC PLC 提供以下數學運算功能:一、四則運算和求余四則運算的梯形圖及語法基本類似現,以加法指令為例:梯形圖:注釋:1.在I1 端為被加數,I2 端為加數,Q
    發表于 11-14 10:51 ?24次下載

    CCS及DSP基本數學運算實驗

    CCS及DSP基本數學運算實驗 在DSP編程過程,數以二進制,十進制,與十六制表示均可.在定點DSP的運算...在CCS使用及DSP的基本數學運算的實驗
    發表于 04-06 14:10 ?50次下載

    乘除法和開方運算FPGA串行實現

    高精度的乘除法和開方等數學運算在FPGA實現往往要消耗大量專用乘法器和邏輯資源。在資源敏感而計算時延要求較低的應用,以處理時間換取資源的
    發表于 07-28 18:05 ?37次下載

    基于GPU的數學形態學運算并行加速研究

    數學形態學運算是一種高度并行的運算,其計算量大而又如此廣泛地應用于對實時性要求較高的諸多重要領域。為了提高數學形態學運算的速度,提出了一種基
    發表于 10-25 16:55 ?55次下載
    基于GPU的<b class='flag-5'>數學</b>形態<b class='flag-5'>學運算</b>并行加速研究

    改進的形態學運算在聲納圖像生成的應用_李莉

    改進的形態學運算在聲納圖像生成的應用_李莉
    發表于 03-19 11:30 ?1次下載

    簡單的數學運算計算數學函數的方法CORDIC的詳細資料概述

    CORDIC是在一個稱為二進制搜索的循環中使用更簡單的數學運算來計算數學函數的方法。最常用的CORDIC用于計算AtAN2(角度)和點的斜邊(距離)。CORDIC還可以用來計算其他數學函數,如Sin和CoS。
    發表于 05-31 11:18 ?12次下載
    簡單的<b class='flag-5'>數學運算計算數學</b>函數的方法CORDIC的詳細資料概述

    FPGA浮點運算定標實現方法

    有些FPGA是不能直接對浮點數進行操作的,只能采用定點數進行數值運算。對于FPGA而言,參與數學運算的書就是16位的整型數,但如果
    的頭像 發表于 08-12 09:53 ?4820次閱讀

    Python中常見的數學運算方法

    Python 是一種面向對象、解釋型、交互式的高級編程語言。它支持各種數學運算,包括基本算術運算、比較運算、邏輯運算等。
    的頭像 發表于 04-21 16:51 ?5578次閱讀

    如何在FPGA中進行簡單和復雜的數學運算?

    由于FPGA可以對算法進行并行化,所以FPGA 非常適合在可編程邏輯實現數學運算。
    發表于 05-15 11:29 ?3049次閱讀
    如何在<b class='flag-5'>FPGA</b>中進行簡單和復雜的<b class='flag-5'>數學運算</b>?

    利用FPGA進行基本運算及特殊函數定點運算

    的硬件結構和開發特性使得其對很多算法不友好,之前本人零散地總結和轉載了些基本的數學運算在FPGA實現方式,今天做一個系統的總結歸納。 二
    的頭像 發表于 07-19 14:25 ?1802次閱讀
    利用<b class='flag-5'>FPGA</b>進行基本<b class='flag-5'>運算</b>及特殊函數定點<b class='flag-5'>運算</b>

    C語言中關于數學運算的相關知識

    數學運算的主要目的是進行數值計算,這其實可以衍生出很多應用,如模數/數模轉換、數據處理、尋址、控制算法實現等。
    的頭像 發表于 11-08 10:04 ?721次閱讀
    C語言中關于<b class='flag-5'>數學運算</b>的相關知識