国产精品爽爽V在线观看无码_精品无码一区在线观看_一本狠狠色丁香婷婷综合久久

1.簡介

讀過上一篇文章“ARM NEON快速上手指南”之后，相信你已經對ARM NEON編程有了基本的認識。但在真正利用ARM NEON優化程序性能時，還有很多編程技巧和注意事項。本文將結合本人的一些開發經歷，介紹NEON編程中的一些常見優化技巧，希望能對用戶在NEON實際開發中有些借鑒意義。

2.NEON優化技術

在利用NEON優化程序時，有下述幾項比較通用的優化技巧。

2.1 降低數據依賴性

在ARM v7-A NEON指令通常需要3～9個指令周期，NEON指令比ARM指令需要更多周期數。因此，為了減少指令延時，最好避免將當前指令的目的寄存器當作下條指令的源寄存器。如下例所示：

// C代碼
float SumSquareError_C(const float* src_a, const float* src_b, int count) 
{
  float sse = 0u;
  int i;
  for (i = 0; i < count; ++i) {
    float diff = src_a[i] - src_b[i];
    sse += (float)(diff * diff);
  }
  return sse;
}

// NEON實現一
float SumSquareError_NEON1(const float* src_a, const float* src_b, int count)
{
  float sse;
  asm volatile (
    "veor    q8, q8, q8                        
"
    "veor    q9, q9, q9                        
"
    "veor    q10, q10, q10                     
"
    "veor    q11, q11, q11                     
"

  "1:                                          
"
    "vld1.32     {q0, q1}, [%0]!               
"
    "vld1.32     {q2, q3}, [%0]!               
"
    "vld1.32     {q12, q13}, [%1]!             
"
    "vld1.32     {q14, q15}, [%1]!             
"
    "subs       %2, %2, #16                    
"
    // q0, q1, q2, q3 是vsub的目的地寄存器.
    // 也是vmla的源寄存器。
    "vsub.f32   q0, q0, q12                    
"
    "vmla.f32   q8, q0, q0                     
"

    "vsub.f32   q1, q1, q13                    
"
    "vmla.f32   q9, q1, q1                     
"

    "vsub.f32   q2, q2, q14                    
"
    "vmla.f32   q10, q2, q2                    
"

    "vsub.f32   q3, q3, q15                    
"
    "vmla.f32   q11, q3, q3                    
"
    "bgt        1b                             
"

    "vadd.f32   q8, q8, q9                     
"
    "vadd.f32   q10, q10, q11                  
"
    "vadd.f32   q11, q8, q10                   
"
    "vpadd.f32  d2, d22, d23                   
"
    "vpadd.f32  d0, d2, d2                     
"
    "vmov.32    %3, d0[0]                      
"
    : "+r"(src_a),
      "+r"(src_b),
      "+r"(count),
      "=r"(sse)
    :
    : "memory", "cc", "q0", "q1", "q2", "q3", "q8", "q9", "q10", "q11","q12", "q13","q14", "q15");
  return sse;
}

// NEON實現二
float SumSquareError_NEON2(const float* src_a, const float* src_b, int count)
{
  float sse;
  asm volatile (
    "veor    q8, q8, q8                        
"
    "veor    q9, q9, q9                        
"
    "veor    q10, q10, q10                     
"
    "veor    q11, q11, q11                     
"

  "1:                                          
"
    "vld1.32     {q0, q1}, [%0]!               
"
    "vld1.32     {q2, q3}, [%0]!               
"
    "vld1.32     {q12, q13}, [%1]!             
"
    "vld1.32     {q14, q15}, [%1]!             
"
    "subs       %2, %2, #16                    
"
    "vsub.f32   q0, q0, q12                    
"
    "vsub.f32   q1, q1, q13                    
"
    "vsub.f32   q2, q2, q14                    
"
    "vsub.f32   q3, q3, q15                    
"
    
    "vmla.f32   q8, q0, q0                     
"
    "vmla.f32   q9, q1, q1                     
"
    "vmla.f32   q10, q2, q2                    
"
    "vmla.f32   q11, q3, q3                    
"
    "bgt        1b                             
"

    "vadd.f32   q8, q8, q9                     
"
    "vadd.f32   q10, q10, q11                  
"
    "vadd.f32   q11, q8, q10                   
"
    "vpadd.f32  d2, d22, d23                   
"
    "vpadd.f32  d0, d2, d2                     
"
    "vmov.32    %3, d0[0]                      
"
    : "+r"(src_a),
      "+r"(src_b),
      "+r"(count),
      "=r"(sse)
    :
    : "memory", "cc", "q0", "q1", "q2", "q3", "q8", "q9", "q10", "q11", "q12", "q13","q14", "q15");
  return sse;
}

在NEON實現一中，我們把目的寄存器立刻當作源寄存器；在NEON實現二中，我們重新排布了指令，并給予目的寄存器盡量多的延時。經過測試實現二比實現一快30%。由此可見，降低數據依賴性對于提高程序性能有重要意義。一個好消息是編譯器能自動調整NEON intrinsics以降低數據依賴性。這個利用NEON intrinsics的一個很大優勢。

2.2 減少跳轉

NEON指令集沒有跳轉指令，當需要跳轉時，我們需要借助ARM指令。在ARM處理器中，分支預測技術被廣泛使用。但是一旦分支預測失敗，懲罰還是比較高的。因此我們最好盡量減少跳轉指令的使用。其實，在有些情況下，我們可以用邏輯運算來代替跳轉，如下例所示：

// C實現
if( flag )
{
        dst[x * 4]     = a;
        dst[x * 4 + 1] = a;
        dst[x * 4 + 2] = a;
        dst[x * 4 + 3] = a;
}
else
{
        dst[x * 4]     = b;
        dst[x * 4 + 1] = b;
        dst[x * 4 + 2] = b;
        dst[x * 4 + 3] = b;
}

// NEON實現
//dst[x * 4]     = (a&Eflag) | (b&~Eflag);
//dst[x * 4 + 1] = (a&Eflag) | (b&~Eflag);
//dst[x * 4 + 2] = (a&Eflag) | (b&~Eflag);
//dst[x * 4 + 3] = (a&Eflag) | (b&~Eflag);

VBSL qFlag, qA, qB

ARM NEON指令集提供了下列指令來幫助用戶實現上述邏輯實現：

? VCEQ， VCGE， VCGT， VCLE， VCLT……

? VBIT， VBIF， VBSL……

減少跳轉，不僅僅是在NEON中使用的技巧，是一個比較通用的問題。即使在C程序中，這個問題也是值得注意的。

2.3 其它技巧

在ARM NEON編程時，一種功能有時有多種實現方式，但是更少的指令不總是意味著更好的性能，要依據測試結果和profiling數據，具體問題具體分析。下面列出來我遇到的一些特殊情況。2.3.1 浮點累加指令通常情況下，我們會用VMLA/VMLS來代替VMUL + VADD/ VMUL + VSUB，這樣使用較少的指令，完成更多的功能。但是與浮點VMUL相比，浮點VMLA/VMLS具有更長的指令延時，如果在指令延時中間不能插入其它計算的情況下，使用浮點VMUL + VADD/ VMUL + VSUB反而具有更好的性能。一個真實例子就是Ne10庫函數的浮點FIR函數。代碼片段如下所示：

實現1：在兩條VMLA指令之間，僅有VEXT指令。而根據指令延時表，VMLA需要9個周期。

實現2：對于qAcc0，依然存在指令延時。但是VADD/VMUL只需要5個周期。下列代碼中周期n粗略地表示了指令執行需要的周期數。與實現1相比，實現2節省了6個周期。性能測試也表明實現2具有更好的性能。

實現 1: VMLA
VEXT qTemp1,qInp,qTemp,#1
VMLA qAcc0,qInp,dCoeff_0[0]-- cycle 0

VEXT qTemp2,qInp,qTemp,#2
VMLA qAcc0,qTemp1,dCoeff_0[1] -- cycle 9

VEXT qTemp3,qInp,qTemp,#3
VMLA qAcc0,qTemp2,dCoeff_1[0] -- cycle 18

VMLA qAcc0,qTemp3,dCoeff_1[1] -- cycle 27
得到最終結果 qAcc0需要36個指令周期。

實現 2:  VMUL+VADD
VEXT qTemp1,qInp,qTemp,#1
VMLA qAcc0,qInp,dCoeff_0[0] ]-- cycle 0
VMUL qAcc1,qTemp1,dCoeff_0[1]

VEXT qTemp2,qInp,qTemp,#2
VMUL qAcc2,qTemp2,dCoeff_1[0]
VADD qAcc0, qAcc0, qAcc1-- cycle 9

VEXT qTemp3,qInp,qTemp,#3
VMUL qAcc3,qTemp3,dCoeff_1[1]
VADD qAcc0, qAcc0, qAcc2-- cycle 14 

VADD qAcc0, qAcc0, qAcc3-- cycle 19
得到最終結果 qAcc0需要24個指令周期。
與實現1相比，三條VADD指令需要6個發射指令周期。總共需要 30個指令周期。

modules/dsp/NE10_fir.neon.s：line 195

指令延時請參考下表：

Name	Format	Cycles	Result
VADD/VSUB/VMUL	Qd,Qn,Dm	2	5
VMLA/VMLS	Qd,Qn,Dm	2	9

表格來源于Cortex-A9 NEON Media Processing Engine Revision： r4p1 Technical Reference Manual： 3.4.8。

表格中：? Cycles：指令發射時間

? Result：指令執行時間

2.4 小結

總結起來，NEON的優化技巧主要有以下幾點

? 盡量利用指令執行延時，合理安排指令順序

? 少用跳轉

? 注意cache命中率

審核編輯：郭婷

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

ARM

ARM

+關注

關注
134

文章
9057

瀏覽量
366874
寄存器

寄存器

+關注

關注
31

文章
5325

瀏覽量
120052

原文標題：Arm NEON學習（二）優化技術

文章出處：【微信號：Ithingedu，微信公眾號：安芯教育科技】歡迎添加關注！文章轉載請注明出處。

一些常見的動態電路

無論是模電還是數電，理論知識相對來說還是比較枯燥，各種電路原理理解清楚不算容易，換一種生動形象的方式或許會增加一些趣味性，也更容易理解這些知識。下面整理了一些常見的電路，以動態圖形的方

發表于 11-16 09:26 ?211次閱讀

<b class='flag-5'>一些</b><b class='flag-5'>常見</b>的動態電路

編程語言的誤區與常見問題

誤區一：編程語言的選擇常見問題：初學者在選擇編程語言時，往往會被市場上的熱門語言所吸引，而忽視了自己的實際需求和興趣。一些開發者認為某

發表于 11-15 09:35 ?200次閱讀

分享一些常見的電路

理解模電和數電的電路原理對于初學者來說可能比較困難，但通過一些生動的教學方法和資源，可以有效地提高學習興趣和理解能力。下面整理了一些常見的電路，以動態圖形的方式展示。整流電路單相橋式整流

發表于 11-13 09:28 ?215次閱讀

分享<b class='flag-5'>一些</b><b class='flag-5'>常見</b>的電路

ASCII碼在編程中的應用實例

ASCII碼（American Standard Code for Information Interchange，美國信息交換標準代碼）在編程中有著廣泛的應用。以下是一些ASCII碼在編程中

發表于 11-10 09:43 ?260次閱讀

LED驅動器應用的一些指南和技巧

電子發燒友網站提供《LED驅動器應用的一些指南和技巧.pdf》資料免費下載

發表于 09-25 11:35 ?0次下載

關于一些有助于優化電源設計的新型材料

眾所周知，人們對更高電源效率的追求正在推動性能的全方位提升。材料科學的進步對于優化電源設計和開發更高效、更緊湊和更可靠的解決方案發揮著關鍵作用。下文列出了一些有助于優化電源設計的新材料。

發表于 08-29 15:26 ?352次閱讀

PCB設計中的常見問題有哪些?

板)設計是一個至關重要的環節。一個優秀的PCB設計不僅能夠保證電子產品的穩定運行，還能提高產品的外觀和性能。然而，很多設計師在PCB設計中會遇到一些常見的問題，這些問題可能會導致設計延

發表于 05-23 09:13 ?760次閱讀

電子束光刻的參數優化及常見問題介紹

本文從光刻圖案設計、特征尺寸、電鏡參數優化等方面介紹電子束光刻的參數優化，最后介紹了一些常見問題。

發表于 03-17 14:33 ?964次閱讀

關于DPDK的一些常見問題

對于單核多CPU部署，一個CPU分配給操作系統，另一個分配給基于DPDK的應用程序。對于多核部署，無論是否使用超線程，都可以為每個端口分配多個內核。

發表于 03-05 11:44 ?755次閱讀

晶振電路中電容電阻的一些基本原理和作用解析

晶振電路中的電容和電阻是調整和維持晶振振蕩穩定性的關鍵元件。KOAN凱擎小妹帶大家了解一下晶振電路中電容電阻的一些基本原理和作用。

發表于 02-20 16:22 ?1655次閱讀

關于編程模式的總結與思考

淘寶創新業務的優化迭代是非常高頻且迅速的，在這過程中要求技術也必須是快且穩的，而為了適應這種快速變化的節奏，我們在項目開發過程中采用了一些面向拓展以及敏捷開發的設計，本文旨在總結并思考

發表于 01-03 10:14 ?440次閱讀

一些與編程軟件相關的因素對PLC的影響

編程軟件的選擇對于PLC的影響可以是相當大的。

發表于 12-13 16:17 ?583次閱讀

大功率插件電感損壞的一些常見表現

大功率插件電感是電子電路中非常重要的一種電子元器件，它對于設備的穩定運行有直接的影響的。如果在設備的日常運行中遇到故障，如何辨別是否是大功率插件電感損壞造成的呢？本篇我們就來簡單探討一下大功率插件電感損壞的

發表于 12-11 16:22 ?3次下載

ARM NEON在矩陣&向量計算中的加速概述

NEON是ARM上使用的一種SIMD（Single Instruction Multiple Data – 單指令多數據）指令集。

發表于 12-01 10:37 ?2152次閱讀

提高嵌入式代碼質量的一些方法

的事情搞復雜，我希望這些文字能給迷惑中的人們指出一些正確的方向，讓他們少走一些彎路，基本做到一分耕耘一分收獲。

發表于 11-30 09:15 ?438次閱讀