CPU優化技術——完整的NEON程序實例

一、概述

在前面的"CPU 優化技術"系列文章中我們對NEON做了系統的介紹和說明，包括SIMD和NEON概念，NEON自動向量化以及NEON intrinsic指令集等。但是只掌握這些還不足以編寫一個性能完善的NEON程序，在實際的NEON優化工作中我們會遇到如何將標量處理轉換為向量處理，如何更高效的處理圖像的邊界區域等問題。接下來我們會針這些問題進行介紹和說明，讓大家可以在實際工作中使用NEON來優化程序的性能。

本文我們會介紹代碼如何進行向量化，如何處理向量化的剩余部分，如何處理圖像的邊界區域，最后會給出一個完整的NEON程序實例。

二、向量化編程

2.1 向量化

向量化就是使用SIMD指令同時對多個數據進行處理，達到提升程序性能的目的。

我們以數據加法為例，標量和向量處理的對比圖如下。對于無符號16位類型的加法運算，普通的標量加法需要進行8次的計算量，使用向量加法指令一次就可以完成。

相比于標量編程，向量化編程對于初學者來說有一定的難度：

編程方式的變化：一次處理的不再是單個數據而是多個數據，同時還要專門處理向量化的剩余數據。

向量數據類型的選擇：要根據實際的情況選擇最合適的向量寄存器。
選擇合適的指令：需要非常熟悉NEON指令集，使用最適合的指令獲得最好的性能。

2.2 實例講解

這是一個UV通道下采樣代碼，輸入是u8類型的數據，通過鄰近的4個像素求平均，輸出u8類型的數據，達到1/4下采樣的目的。我們假定每行數據長度是16的整數倍。算法的示意圖和參考代碼如下所示。

C代碼實現：

void DownscaleUv(uint8_t *src, uint8_t *dst, int32_t src_stride, int32_t dst_width, int32_t dst_height, int32_t dst_stride)
{
    for (int32_t j = 0; j < dst_height; j++)
    {
        uint8_t *src_ptr0 = src + src_stride * j * 2;
        uint8_t *src_ptr1 = src_ptr0 + src_stride;
        uint8_t *dst_ptr = dst + dst_stride * j;


        for (int32_t i = 0; i < dst_width; i += 2)
        {
            // U通道
            dst_ptr[i] = (src_ptr0[i * 2] + src_ptr0[i * 2 + 2] +
                         src_ptr1[i * 2] + src_ptr1[i * 2 + 2]) / 4;
            // V通道
            dst_ptr[i + 1] = (src_ptr0[i * 2 + 1] + src_ptr0[i * 2 + 3] +
                             src_ptr1[i * 2 + 1] + src_ptr1[i * 2 + 3]) / 4;
        }
    }
}

2.2.1 內層循環向量化

內層循環是代碼執行次數最多的部分，因此是向量化的重點。我們的輸入和輸出都是u8類型，NEON寄存器128bit，所以我們每次處理16個數據。

// 每次有16個數據輸出


for (i = 0; i < dst_width; i += 16)
{
    //數據處理部分......
}

2.2.2 數據類型的選擇

2.2.3 指令的選擇

輸入數據加載：UV通道的數據是交織的，使用vld2指令可以實現解交織。

2.2.4 代碼實現

//使用intrinsic需要包含的頭文件
#include 

void DownscaleUvNeon(uint8_t *src, uint8_t *dst, int32_t src_width, int32_t src_stride, int32_t dst_width, int32_t dst_height, int32_t dst_stride)
{
    //load偶數行的源數據，2組每組16個u8類型數據
    uint8x16x2_t v8_src0;
    //load奇數行的源數據，需要兩個Q寄存器
    uint8x16x2_t v8_src1;
    //目的數據變量，需要一個Q寄存器
    uint8x8x2_t v8_dst;
    //目前只處理16整數倍部分的結果
    int32_t dst_width_align = dst_width & (-16);
    //向量化剩余的部分需要單獨處理
    int32_t remain = dst_width & 15;
    int32_t i = 0;
    //外層高度循環，逐行處理
    for (int32_t j = 0; j < dst_height; j++)
    {
        //偶數行源數據指針
        uint8_t *src_ptr0 = src + src_stride * j * 2;
        //奇數行源數據指針
        uint8_t *src_ptr1 = src_ptr0 + src_stride;
        //目的數據指針
        uint8_t *dst_ptr = dst + dst_stride * j;
        //內層循環，一次16個u8結果輸出
        for (i = 0; i < dst_width_align; i += 16)
        {
            //提取數據，進行UV分離
            v8_src0 = vld2q_u8(src_ptr0); 
            src_ptr0 += 32;
            v8_src1 = vld2q_u8(src_ptr1);
            src_ptr1 += 32;
            //水平兩個數據相加
            uint16x8_t v16_u_sum0 = vpaddlq_u8(v8_src0.val[0]);
            uint16x8_t v16_v_sum0 = vpaddlq_u8(v8_src0.val[1]);
            uint16x8_t v16_u_sum1 = vpaddlq_u8(v8_src1.val[0]);
            uint16x8_t v16_v_sum1 = vpaddlq_u8(v8_src1.val[1]);
            //上下兩個數據相加，之后求均值
            v8_dst.val[0] = vshrn_n_u16(vaddq_u16(v16_u_sum0, v16_u_sum1), 2);
            v8_dst.val[1] = vshrn_n_u16(vaddq_u16(v16_v_sum0, v16_v_sum1), 2);
            //UV通道結果交織存儲
            vst2_u8(dst_ptr, v8_dst);
            dst_ptr += 16;
        }
        //process leftovers......
    }
}

2.3 向量化剩余部分(leftovers)處理

接著上面的實例，內層循環每次計算16個結果，當輸出圖像寬度不是16整數倍的時候，我們需要考慮結尾如何高效的編寫。“NEON Programmer's Guide”中給出了幾種推薦寫法，下面逐一介紹一下。

2.3.1 Extend arrays with padding

這個方法比較好理解，每行數據長度不是向量長度整數倍我們可以提前將數據補齊到需要的長度，這樣處理時候就方便了。這個方法的使用是要分情況的。

如果需要自己申請內存，復制來擴展邊界，這并不是一種高效的方法。
如果外部數據先要經過其他的處理（例如rgb2yuv），我們可以考慮將前一級的輸出保存成需要的長度，這樣后面的uv下采樣就可以得到擴展的內存了。

2.3.2 Overlap data elements

這種做法是在處理尾部數據的時候，從后往前提取一個向量的數據進行計算，這樣會出現一部分數據重復計算。接著2.2.4節的示例，這種方法的實現代碼如下：

#include 

void DownscaleUvNeon(uint8_t *src, uint8_t *dst, int32_t src_width, int32_t src_stride, int32_t dst_width, int32_t dst_height, int32_t dst_stride)
{
    uint8x16x2_t v8_src0;
    uint8x16x2_t v8_src1;
    uint8x8x2_t v8_dst;
    int32_t dst_width_align = dst_width & (-16);
    int32_t remain = dst_width & 15;
    int32_t i = 0;


    for (int32_t j = 0; j < dst_height; j++)
    {
        uint8_t *src_ptr0 = src + src_stride * j * 2;
        uint8_t *src_ptr1 = src_ptr0 + src_stride;
        uint8_t *dst_ptr = dst + dst_stride * j;


        for (i = 0; i < dst_width_align; i += 16)
        {
            v8_src0 = vld2q_u8(src_ptr0);
            src_ptr0 += 32;
            v8_src1 = vld2q_u8(src_ptr1);
            src_ptr1 += 32;
            uint16x8_t v16_u_sum0 = vpaddlq_u8(v8_src0.val[0]);
            uint16x8_t v16_v_sum0 = vpaddlq_u8(v8_src0.val[1]);
            uint16x8_t v16_u_sum1 = vpaddlq_u8(v8_src1.val[0]);
            uint16x8_t v16_v_sum1 = vpaddlq_u8(v8_src1.val[1]);
            v8_dst.val[0] = vshrn_n_u16(vaddq_u16(v16_u_sum0, v16_u_sum1), 2);
            v8_dst.val[1] = vshrn_n_u16(vaddq_u16(v16_v_sum0, v16_v_sum1), 2);
            vst2_u8(dst_ptr, v8_dst);
            dst_ptr += 16;
        }
        //process leftover
        if (remain > 0)
        {
            //從后往前回退一次向量計算需要的數據長度，有部分數據是之前處理過的
            src_ptr0 = src + src_stride * (j * 2) + src_width - 32; 
            src_ptr1 = src_ptr0 + src_stride;
            dst_ptr = dst + dst_stride * j + dst_width - 16;


            v8_src0 = vld2q_u8(src_ptr0);
            v8_src1 = vld2q_u8(src_ptr1);
            uint16x8_t v16_u_sum0 = vpaddlq_u8(v8_src0.val[0]);
            uint16x8_t v16_v_sum0 = vpaddlq_u8(v8_src0.val[1]);
            uint16x8_t v16_u_sum1 = vpaddlq_u8(v8_src1.val[0]);
            uint16x8_t v16_v_sum1 = vpaddlq_u8(v8_src1.val[1]);
            v8_dst.val[0] = vshrn_n_u16(vaddq_u16(v16_u_sum0, v16_u_sum1), 2);
            v8_dst.val[1] = vshrn_n_u16(vaddq_u16(v16_v_sum0, v16_v_sum1), 2);


            vst2_u8(dst_ptr, v8_dst);
        }
    }
}

以上這種方法我們平時用的比較多，不僅可以處理剩余元素，而且可以保持向量處理的高效性。

2.3.3 Process leftovers as single elements

這種做法利用NEON向量可以只加載/存儲一個元素的功能，雖然使用向量指令，但是每個結果獨立計算和存儲。這是一種很不推薦的方法。每次的向量計算只使用一個元素，浪費了計算資源（NEON指令相比于標量指令的執行周期要長，各指令執行時間可以參考文獻[2]）。

2.3.4 標量處理剩余部分

剩余部分直接采用標量來處理，這種是最簡單的方法，也是最常用的方法，每行的剩余元素可以簡單的用標量處理，因為絕大部分都是向量計算，剩余元素所占比例非常小，因此使用標量不會對性能產生太明顯的影響。

void DownscaleUvNeonScalar(uint8_t *src, uint8_t *dst, int32_t src_width, int32_t src_stride, int32_t dst_width, int32_t dst_height, int32_t dst_stride)
{
    uint8x16x2_t v8_src0;
    uint8x16x2_t v8_src1;
    uint8x8x2_t v8_dst;
    int32_t dst_width_align = dst_width & (-16);
    int32_t remain = dst_width & 15;
    int32_t i = 0;


    for (int32_t j = 0; j < dst_height; j++)
    {
        uint8_t *src_ptr0 = src + src_stride * j * 2;
        uint8_t *src_ptr1 = src_ptr0 + src_stride;
        uint8_t *dst_ptr = dst + dst_stride * j;


        for (i = 0; i < dst_width_align; i += 16) // 16 items output at one time
        {
            v8_src0 = vld2q_u8(src_ptr0);
            src_ptr0 += 32;
            v8_src1 = vld2q_u8(src_ptr1);
            src_ptr1 += 32;
            uint16x8_t v16_u_sum0 = vpaddlq_u8(v8_src0.val[0]);
            uint16x8_t v16_v_sum0 = vpaddlq_u8(v8_src0.val[1]);
            uint16x8_t v16_u_sum1 = vpaddlq_u8(v8_src1.val[0]);
            uint16x8_t v16_v_sum1 = vpaddlq_u8(v8_src1.val[1]);
            v8_dst.val[0] = vshrn_n_u16(vaddq_u16(v16_u_sum0, v16_u_sum1), 2);
            v8_dst.val[1] = vshrn_n_u16(vaddq_u16(v16_v_sum0, v16_v_sum1), 2);
            vst2_u8(dst_ptr, v8_dst);
            dst_ptr += 16;
        }
        //process leftover
        src_ptr0 = src + src_stride * j * 2;
        src_ptr1 = src_ptr0 + src_stride;
        dst_ptr = dst + dst_stride * j;
        for (int32_t i = dst_width_align; i < dst_width; i += 2)
        {
            dst_ptr[i] = (src_ptr0[i * 2] + src_ptr0[i * 2 + 2] +
                         src_ptr1[i * 2] + src_ptr1[i * 2 + 2]) / 4;


            dst_ptr[i + 1] = (src_ptr0[i * 2 + 1] + src_ptr0[i * 2 + 3] +
                             src_ptr1[i * 2 + 1] + src_ptr1[i * 2 + 3]) / 4;
        }
    }
}

三、邊界處理方法

在許多圖像處理算法中，經常會遇到需要處理邊界的情況。例如灰度圖的3x3高斯濾波，為了計算邊界附近點的輸出，需要在原圖的上下左右各填充1個像素的padding。

一種通用的處理方法是申請一塊添加了邊界大小的內存空間，將邊界填充為需要的數據，并且將原有數據復制到新申請的內存空間中，完成擴邊操作（openCV采用的就是這種做法）。這樣新的數據塊中就有了邊界數據，后面的數據處理就很方便了。

但是通用方法不一定是最優的方法，內存申請和填充會增加大量的額外時間，對提升算法性能很不利。我們可以充分利用NEON指令在幾乎不增加時間空間開銷的前提下完成一些特殊的邊界處理。

3.1 常量填充

常量填充就是在有效數據塊的上下左右添加常量邊界值，完成數據的擴充。例如3x3高斯濾波計算需要在上下左右添加1個常量邊界值進行計算。

上下邊界的填充比較簡單，我們只需要使用vdup指令填充一個向量v8_pre_row_data。

左右邊界填充也需要用到dup來的向量v8_const_pad，使用vext來組建新的向量，示意圖及參考代碼如下。

//dup指令生成pading向量
uint8x16_t v8_const_pad = vdupq_n_u8(pad_val);
//-1行數據
v8_pre_row_data = v8_const_pad;
//讀取第0行數據
uint8x16_t v8_tmp_data = vld1q_u8(pt_row0);
//第0行帶有左padding的數據
uint8x16_t v8_row_cur_data = vextq_u8(v8_const_pad, v8_tmp_data, 15); 
//讀取第1行數據
v8_tmp_data = vld1q_u8(pt_row1);
//第1行帶有左padding的數據
uint8x16_t?v8_next_row_data?=?vextq_u8(v8_const_pad,?v8_tmp_data,?15);

3.2 復制填充

復制填充就是復制最邊緣的像素作為邊界。我們同樣以3x3高斯濾波計算為例。

上下邊界的方法一樣，我們可以使用vld加載第0行或者最后一行的數據即可。
左右邊界的方法一樣，對于左邊界，我們可以使用VLD1_DUP指令提取邊界數據，然后使用vext來組建新的向量，參考代碼如下。

//提取0行padding數據
uint8x16_t v8_dup_pad = vld1q_dup_u8(pt_row0);
//提取第0行數據
uint8x16_t v8_tmp_data = vld1q_u8(pt_row0);
//第0行帶有左padding的數據
uint8x16_t v8_row_cur_data = vextq_u8(v8_dup_pad, v8_tmp_data, 15);
//-1行直接使用第0行
uint8x16_t v8_pre_row_data = v8_row_cur_data;
//取1行padding數據
v8_dup_pad = vld1q_dup_u8(pt_row1);
v8_tmp_data = vld1q_u8(pt_row1);
//第1行帶有左padding的數據
uint8x16_t?v8_next_row_data?=?vextq_u8(v8_dup_pad,?v8_tmp_data,?15);

3.3 反射填充

常見的有反射（dcba"abcdefgh"hgfed）和101反射（edcb"abcdefgh"gfed），處理的方式幾乎一樣，我們以稍復雜的101反射介紹，同樣選擇3x3高斯濾波計算舉例。

上下邊界的方法一樣，我們需要根據反射類型，將padding行的數據向量賦值為相應行的數據向量即可。左右邊界的方法一樣，對于左邊界，我們可以使用VLD1指令提取邊界數據，然后使用vrev來翻轉向量內部元素最后使用vext來組建新的向量。

參考代碼：

uint8x8_t v8_ref_pad = vld1_u8(pt_row0 + 1);
uint8x8_t v8_ref_pad1;
uint8x8_t v8_tmp_data = vld1q_u8(pt_row0);
//翻轉數據，用于生成101反射padding
v8_ref_pad1 = vrev64_u8(v8_ref_pad);
//第0行帶有左padding的數據
uint8x8_t v8_cur_row_data = vextq_u8(vcombine_u8(v8_ref_pad, v8_ref_pad1), v8_tmp_data, 15);


v8_ref_pad = vld1_u8(pt_row1 + 1);
v8_tmp_data = vld1q_u8(pt_row1);
v8_ref_pad1 = vrev64_u8(v8_ref_pad);
//第1行帶有左padding的數據
uint8x8_t v8_next_row_data = vextq_u8(vcombine_u8(v8_ref_pad, v8_ref_pad1), v8_tmp_data, 15);
//-1行數據
uint8x8_t v8_pre_row_data = v8_next_row_data;

四、優化實例

4.1 說明

我們使用核參數為{{1,2,1}，{2,4,2}，{1,2,1}}對灰度圖(size:4095x2161)做高斯濾波，邊界填充類型為BORDER_REFLECT101。

4.2 過程分析

整體流程：

Gaussian3x3Sigma0NeonU8C1是主函數

Gaussian3x3RowCalcu是行處理函數，完成一行的處理

第一次處理上邊邊界，然后是中間處理，最后是下邊界處理

int32_t Gaussian3x3Sigma0NeonU8C1(const uint8_t *src, uint8_t *dst, int32_t height, int32_t width, int32_t istride, int32_t ostride)
{
    if ((NULL == src) || (NULL == dst))
    {
        printf("input param invalid!
");
        return -1;
    }


    //BORDER_REFLECT101 top padding
    const uint8_t *p_src0 = src + istride;
    const uint8_t *p_src1 = src;
    const uint8_t *p_src2 = src + istride;
    uint8_t *p_dst = dst;
    //計算第0行輸出
    Gaussian3x3RowCalcu(p_src0, p_src1, p_src2, p_dst, width);


    //中間行的處理
    for (int32_t row = 1; row < height - 1; row++)
    {
        p_src0 = src + (row - 1) * istride;
        p_src1 = src + (row - 0) * istride;
        p_src2 = src + (row + 1) * istride;
        p_dst  = dst + row * ostride;
        Gaussian3x3RowCalcu(p_src0, p_src1, p_src2, p_dst, width);
    }

     //計算最后一行輸出
    p_src0 = src + (height - 2) * istride;
    p_src1 = src + (height - 1) * istride;
    p_src2 = src + (height - 2) * istride;
    p_dst  = dst + (height - 1) * ostride;
    Gaussian3x3RowCalcu(p_src0, p_src1, p_src2, p_dst, width);

    return 0;
}

Gaussian3x3RowCalcu實現

內聯函數，完成一行的處理，基于高斯行列分離計算，先計算行累加，然后計算列累加。

左邊界處理：

static inline int32_t Gaussian3x3RowCalcu(const uint8_t *src0, const uint8_t *src1, const uint8_t *src2, uint8_t *dst, int32_t width)
{
    if ((NULL == src0) || (NULL == src1) || (NULL == src2) || (NULL == dst))
    {
        printf("input param invalid!
");
        return -1;
    }


    int32_t col = 0;
    uint16x8_t vqn0, vqn1, vs_1, vs, vs1;
    uint8x8_t v_lnp;


    int32_t width_t = (width - 9) & (-8);
    uint8x8_t v_ld00 = vld1_u8(src0);
    uint8x8_t v_ld01 = vld1_u8(src0 + 8);
    uint8x8_t v_ld10 = vld1_u8(src1);
    uint8x8_t v_ld11 = vld1_u8(src1 + 8);
    uint8x8_t v_ld20 = vld1_u8(src2);
    uint8x8_t v_ld21 = vld1_u8(src2 + 8);
    //豎直方向3行的累加和
    vqn0 = vaddl_u8(v_ld00, v_ld20);
    vqn0 = vaddq_u16(vqn0, vshll_n_u8(v_ld10, 1));
    vqn1 = vaddl_u8(v_ld01, v_ld21);
    vqn1 = vaddq_u16(vqn1, vshll_n_u8(v_ld11, 1));
    //生成padding數據
    vs_1 = vextq_u16(vextq_u16(vqn0, vqn0, 2), vqn0, 7);
    vs1  = vextq_u16(vqn0, vqn1, 1);
    //水平方向累加和
    vs   = vaddq_u16(vaddq_u16(vqn0, vqn0), vaddq_u16(vs_1, vs1));


    v_lnp = vqrshrn_n_u16(vs, 4);
    vst1_u8(dst, v_lnp);
    vs_1 = vextq_u16(vqn0, vqn1, 7);


    // for循環......
}

中間部分處理

第二部分for循環是計算中間部分數據的結果，先做豎直方向的累加，再做水平方向的累加，每次計算8個輸出結果。各向量的數據含義及計算方法（for循環第一次計算）見下圖。

最后一次的向量計算單獨處理，為了防止提取下一組數據時越界。

static inline int32_t Gaussian3x3RowCalcu(const uint8_t *src0, const uint8_t *src1, const uint8_t *src2, uint8_t *dst, int32_t width)
{
    // 計算前8個輸出......
    for (col = 8; col < width_t; col += 8)
    {
        // 3行的輸入數據
        uint8x8_t v_ld0 = vld1_u8(src0 + col + 8);
        uint8x8_t v_ld1 = vld1_u8(src1 + col + 8);
        uint8x8_t v_ld2 = vld1_u8(src2 + col + 8);
        //豎直方向的累加和
        uint16x8_t vqn2 = vaddl_u8(v_ld0, v_ld2);
        vqn2 = vaddq_u16(vqn2, vshll_n_u8(v_ld1, 1));
        //水平方向累加和
        vs1 = vextq_u16(vqn1, vqn2, 1);
        uint16x8_t vtmp = vshlq_n_u16(vqn1, 1);
        uint16x8_t v_sum = vaddq_u16(vtmp, vaddq_u16(vs1, vs_1));


        uint8x8_t v_rst = vqrshrn_n_u16(v_sum, 4);
        vst1_u8(dst + col, v_rst);


        vs_1 = vextq_u16(vqn1, vqn2, 7);
        vqn1 = vqn2;
    }
    //最后一組向量計算，為了防止越界讀取數據，右側數據只讀取一個
    {
        uint8x8_t v_ld0 = vld1_lane_u8(src0 + col + 8, v_ld0, 0);
        uint8x8_t v_ld1 = vld1_lane_u8(src1 + col + 8, v_ld1, 0);
        uint8x8_t v_ld2 = vld1_lane_u8(src2 + col + 8, v_ld2, 0);


        uint16x8_t vqn2 = vaddl_u8(v_ld0, v_ld2);
        vqn2 = vaddq_u16(vqn2, vshll_n_u8(v_ld1, 1));


        vs1 = vextq_u16(vqn1, vqn2, 1);
        uint16x8_t vtmp = vshlq_n_u16(vqn1, 1);


        uint16x8_t v_sum = vaddq_u16(vtmp, vaddq_u16(vs1, vs_1));
        uint8x8_t v_rst = vqrshrn_n_u16(v_sum, 4);
        vst1_u8(dst + col, v_rst);
        col += 8;
    }
    //process leftovers...
}

最后剩余的非對齊部分我們使用標量進行計算。

static inline int32_t Gaussian3x3RowCalcu(const uint8_t *src0, const uint8_t *src1, const uint8_t *src2, uint8_t *dst, int32_t width)
{
    // 向量計算部分......
    for (; col < width; col++)
    {
        int32_t idx_l = (col == width - 1) ? width - 2 : col - 1;
        int32_t idx_r = (col == width - 1) ? width - 2 : col + 1;


        int32_t acc = 0;
        acc += (src0[idx_l] + src0[idx_r]);
        acc += (src0[col] << 1);


        acc += (src1[idx_l] + src1[idx_r]) << 1;
        acc += (src1[col] << 2);


        acc += (src2[idx_l] + src2[idx_r]);
        acc += (src2[col] << 1);


        uint16_t res = ((acc + (1 << 3)) >> 4) & 0xFFFF;
        dst[col] = CAST_U8(res);
    }


    return 0;
}

4.3 運行結果

下圖是我們在高通驍龍888平臺上的運行結果，可以看到使用NEON優化之后運行時間從15.53ms下降到了3.22ms，性能有了4倍多的提升。感興趣的讀者可以自己運行下結果。

編輯：黃飛

閱讀全文

cpu(206162) cpu(206162)
圖像處理(55659) 圖像處理(55659)

ARM NEON技術在車位識別算法中的應用

為了在車位檢測系統中不使用DSP的情況下，達到實時處理和節約成本的目的，在嵌入式Linux系統中使用了CORTEX-A系列的NEON協處理器技術來優化一種車位圖像檢測算法的代碼。##圖像處理算法在CORTEX-A8平臺上的優化。

2014-07-23 16:27:21

3739

C程序的完整編譯過程

本文討論了C程序的完整編譯過程，分別講述了預處理、編譯、匯編、鏈接各階段完成的編譯任務。然后通過一個編譯實例，探討了各階段輸出的文件。

2023-11-15 17:14:23

456

NEON在armv8(arch64)下如何去使用呢

我在armv8下（arch64）下使用neon中遇到一些疑問，希望得到大家解答1、在armv8下是編譯的時候使用了O3優化，相關計算就會自動使用neon嗎2、同樣一段計算函數，計算速度是不是NEON

2022-09-08 11:34:29

NEON匯編與NEON intrinsics編程的優缺點比較

NEON程序造成影響。下圖是NEON實現及優化的一般流程：對于NEON匯編或是intrinsics來講，實現流程是一樣的，編程——調試——測試。但是調優的步驟是不一樣的。NEON匯編的調優方式主要有

2022-03-30 10:46:25

NEON音頻編解碼器優化技術

ARM CortexTM-A8處理器是來自ARM的最新節能型高性能處理器。該處理器基于ARMv7架構，是ARM采用代碼密度和性能增強技術的首款超標量處理器。NEONTM技術是Cor tex-A8

2011-03-05 21:26:33

ARM Neon是什么

定義“ARM Advanced SIMD”,nick-named“NEON”, it provides:(1)、A set of interesting ...

2021-07-16 08:15:27

ARM程序設計優化策略與技術

程序優化是指軟件編程結束后，利用軟件開發工具對程序進行調整和改進，讓程序充分利用資源，提高運行效率，縮減代碼尺寸的過程。按照優化的側重點不同，程序優化可分為運行速度優化和代碼尺寸優化。運行

2011-07-07 11:06:42

ARMv7系列芯片算法的NEON優化耗時異常的原因是什么

目前正在做ARMv7 系列芯片算法的NEON優化，發現一個耗時異常的地方，現象描述如下：首先主循環里會處理三類數據，三類數據分開存放在DDR上，每次循環分別處理三類數據的8個uchar數據，存儲數據

2022-08-16 15:22:12

Arm Neon技術指南

本指南介紹了Arm Neon技術,即用于執行Armv8-A或Armv8-R結構剖面的高級 SIMD(單一指示多數據)架構擴展,Neon技術為指令設置架構提供了專門的擴展,提供了可同時在多個

2023-08-08 06:13:11

LIN總線技術在門控系統中有哪些應用實例？

什么是LIN總線技術？LIN總線技術在門控系統中有哪些應用實例？

2021-05-19 06:29:48

arm系統中并行計算優化

。openmp是一個不錯的并行優化的概念。另外arm本身還有另外一個優化的概念neon，我們在雙路攝像頭實現收拾識別中應用了這個技術，他的核心是neon提供一些多位寄存器可以將數據一次性讀取多位，比如

2015-12-30 14:33:38

m3上不能使用neon 是為什么？

有個圖像算法需要加速但是發現m3上不能使用neon 有辦法支持neon么？百度上說m3的a8以后的版本都是吃neon是不是cgt編譯工具的問題？

2020-08-14 10:40:18

《現代CPU性能分析與優化》---精簡的優化書

《現代CPU性能分析與優化》是一本非常實用的書籍，對于從事性能關鍵型應用程序開發和進行系統底層優化的技術人員來說是不可或缺的。這本書也很適合任何想更好地了解應用程序性能并探索其診斷和改進方法的開發者

2023-04-18 16:03:36

介紹優化SIMPLE SWITCHER電源模塊性能的最佳PCB布局方法、實例及技術

SIMPLE SWITCHER電源模塊性能的最佳PCB布局方法、實例及技術。在規劃電源布局時，首先要考慮的是兩個開關電流環路的物理環路區域。雖然在電源模塊中這些環路區域基本看不見，但是了解這兩個環路各自...

2021-12-28 07:07:59

介紹一些ARM NEON編程中常見的優化技巧

NEON 優化技術在利用NEON優化程序時，有下述幾項比較通用的優化技巧。2.1 降低數據依賴性在ARM v7-A NEON指令通常需要3～9個指令周期，NEON指令比ARM指令需要更多周期數。因此

2022-03-30 09:21:52

你知道ARM處理器 neon優化技巧有哪些嗎

1. 去除數據依賴不要將當前指令的目的寄存器作為下一條指令的源寄存器！原因：ARM架構采用的是多級流水線技術，如果下一條指令的源寄存器是當前指令的目的寄存器，就需要當前指令執行完之后，下一條指令

2022-04-29 09:28:45

使用GNU和ARM RealView?編譯工具生成NEON代碼的不同方法

NEON技術在實現高級SIMD架構擴展的ARM處理器中提供單指令多數據（SIMD）操作。這些操作可以顯著加快對大型數據集的重復操作。這在諸如媒體編解碼器之類的應用中是有用的。許多使用該技術

2023-08-02 16:00:32

如何使用64位Neon技術來提高圖像處理應用程序的性能

新一代硬件進行優化。我們使用了哪些測試平臺？值得注意的是，Neon 性能改進可能因 CPU 內核類型和所使用的操作系統和配置而異。為了測試本指南中介紹的優化，我們使用以下智能手機作為目標平臺

2022-10-14 14:19:36

如何使用Arm Compiler 6自動矢量化功能為Neon編譯

作為一名程序員，你可以通過多種方式使用Neon技術: ?霓虹燈支持的開源庫，如Arm計算庫提供了一個最簡單的利用Neon的方法。 ?編譯器中的自動向量化功能可以自動優化您的代碼 Neon的優勢

2023-08-02 19:31:04

如何將Arm Neon C#內部函數與Unity Burst編譯器一起使用

如何通過并行操作數據來幫助提高性能。 ?編寫編譯器可以根據Neon指令自動優化的代碼的最佳實踐。 ?當編譯器錯過Neon優化機會時，如何使用Arm Neon內部函數。 ?如何將Arm Neon內部函數與Unity Burst編譯器一起使用，以提高Unity中Android應用程序的性能。

2023-08-10 07:11:50

學習架構-用Neon優化C代碼intrinsic

本指南向您展示了如何在C或C++代碼中使用Neon內部函數來利用Armv8體系結構中的高級SIMD技術。簡單的例子展示了如何使用這些本質并提供了解釋其目的的機會。想要使用高級SIMD的低級軟件工程

2023-08-02 10:32:29

小白快速上手Arm NEON編程手冊指南

開始加速我們的應用了。使用NEON 技術通常有下列四種方式：調用NEON優化過的庫函數使用編譯器自動矢量化選項使用NEON intrinsics指令手寫NEON匯編4.1 調用庫函數用戶只需要在程序

2022-07-15 15:38:50

嵌入式機器視覺系統有什么特性？怎么優化？

裁剪，對應用程序代碼進行大量的優化，并充分利用Cotex —A處理器獨有的NEON加速技術，使系統開機啟動時問縮短25 s，應用程序運行速度提高2．5倍。

2020-03-11 06:47:57

新人程序求優化

我編寫了兩個用鍵盤控制前面板布爾控件的程序，但是運行的時候CPU占用率比較高，各位看看要怎么優化比較好吧！

2012-08-23 17:06:39

新型開關電源優化設計與實例詳解

新型開關電源優化設計與實例詳解---- 內容全面，翔實，難得的好書

2012-04-08 17:42:38

新型開關電源優化設計與實例詳解 26

新型開關電源優化設計與實例詳解

2012-04-16 00:18:04

新型開關電源優化設計與實例詳解 ( 三 )

新型開關電源優化設計與實例詳解

2012-04-09 11:09:35

新型開關電源優化設計與實例詳解 ( 十九 )

新型開關電源優化設計與實例詳解

2012-04-11 11:38:21

新型開關電源優化設計與實例詳解 ( 22 )

新型開關電源優化設計與實例詳解

2012-04-13 01:10:40

新型開關電源優化設計與實例詳解 ( 二十一 )

新型開關電源優化設計與實例詳解

2012-04-12 23:13:46

新型開關電源優化設計與實例詳解 25

新型開關電源優化設計與實例詳解

2012-04-14 19:05:09

新型開關電源優化設計與實例詳解 27

新型開關電源優化設計與實例詳解

2012-04-16 00:48:48

新型開關電源優化設計與實例詳解 28

新型開關電源優化設計與實例詳解

2012-04-16 00:58:52

新型開關電源優化設計與實例詳解 29

新型開關電源優化設計與實例詳解

2012-04-16 01:15:26

新型開關電源優化設計與實例詳解 30

新型開關電源優化設計與實例詳解

2012-04-16 01:39:31

新型開關電源優化設計與實例詳解 31

新型開關電源優化設計與實例詳解完

2012-04-16 02:32:24

新型開關電源優化設計與實例詳解 ( 九 )

新型開關電源優化設計與實例詳解

2012-04-10 00:54:01

新型開關電源優化設計與實例詳解 ( 五 )

2012-04-09 15:12:31

新型開關電源優化設計與實例詳解 ( 五 )

新型開關電源優化設計與實例詳解 (五 )

2012-04-09 18:30:30

新型開關電源優化設計與實例詳解 ( 六 )

新型開關電源優化設計與實例詳解 (六 )

2012-04-09 20:02:48

新型開關電源優化設計與實例詳解 ( 十一 )

新型開關電源優化設計與實例詳解

2012-04-10 01:14:31

新型開關電源優化設計與實例詳解 ( 十八 )

新型開關電源優化設計與實例詳解

2012-04-11 11:01:28

新型開關電源優化設計與實例詳解 ( 四 )

新型開關電源優化設計與實例詳解 (四 )

2012-04-09 12:46:24

新型開關電源優化設計與實例詳解 ( 七 )

新型開關電源優化設計與實例詳解

2012-04-10 00:23:25

新型開關電源優化設計與實例詳解 ( 二十 )

新型開關電源優化設計與實例詳解

2012-04-12 00:16:20

新型開關電源優化設計與實例詳解 ( 八 )

新型開關電源優化設計與實例詳解

2012-04-10 00:40:38

新型開關電源優化設計與實例詳解 ( 六 )

新型開關電源優化設計與實例詳解

2012-04-09 23:34:36

新型開關電源優化設計與實例詳解 ( 十 )

新型開關電源優化設計與實例詳解

2012-04-10 01:02:41

新型開關電源優化設計與實例詳解 ( 十七 )

新型開關電源優化設計與實例詳解

2012-04-11 00:23:14

新型開關電源優化設計與實例詳解 ( 十三 )

新型開關電源優化設計與實例詳解

2012-04-10 23:41:43

新型開關電源優化設計與實例詳解 ( 十二 )

新型開關電源優化設計與實例詳解

2012-04-10 01:23:42

新型開關電源優化設計與實例詳解 ( 十五 )

新型開關電源優化設計與實例詳解

2012-04-10 19:32:01

新型開關電源優化設計與實例詳解 ( 十六 )

新型開關電源優化設計與實例詳解

2012-04-11 00:03:13

新型開關電源優化設計與實例詳解 ( 十四 )

新型開關電源優化設計與實例詳解

2012-04-10 23:53:52

新型開關電源優化設計與實例詳解（二）

2012-04-08 17:57:39

新型開關電源優化設計與實例詳解23

新型開關電源優化設計與實例詳解

2012-04-13 01:33:06

新型開關電源優化設計與實例詳解24

新型開關電源優化設計與實例詳解

2012-04-13 01:45:55

求大神詳細介紹關于優化電源模塊性能的PCB布局技術

本文從電源PCB的布局出發，介紹了優化SIMPLE SWITCHER電源模塊性能的最佳PCB布局方法、實例及技術。

2021-04-25 06:38:31

簡述ARM SVE的發展以及和NEON的區別來探討Vector在AI中的應用

的這種固定長度的數據格式非常有利于早期程序員對其格式和運算的理解以及進行相應intrinsic的開發。不同于Vector，NEON的數據類型編碼在其指令中，這樣就避免了Vector需要在每次計算之前

2022-09-19 15:27:36

請問JPEG編碼如何并行優化？

使用QT對Jpeg編碼與解碼功能進行優化，可以使用openmp，neon等各種方法

2022-05-16 21:25:50

請問arm必須要對生成的匯編指令進行優化嗎

請問在用ARM neon指令優化程序時，在一個for循環下，分別用int32x2_t和int32x4_t類型的指令，后者的速度并沒有按照理論上的速度更快，反而比前者慢是怎么回事呢？必須要對生成的匯編指令進行優化嗎？

2022-10-18 11:23:27

請問arm必須要對生成的匯編指令進行優化嗎

請問在用arm neon指令優化程序時，在一個for循環下，分別用int32x2_t和int32x4_t類型的指令，后者的速度并沒有按照理論上的速度更快，反而比前者慢是怎么回事呢？必須要對生成的匯編指令進行優化嗎？謝謝指教。

2022-09-01 15:47:53

ARM程序設計優化策略與技術

程序優化是指軟件編程結束后，利用軟件開發工具對程序進行調整和改進，讓程序充分利用資源，提高運行效率，縮減代碼尺寸的過程。按照優化的側重點不同，程序優化可分為運

2009-04-15 10:40:12

CPU散熱片結構優化設計

本文運用APDL(Ansys Parameter Design Language)語言，在ANSYS 開發環境中對平板式散熱片進行結構優化設計，并給出實例驗證本文提出的方法。關鍵詞散熱片優化設計 APDL 目標函數Re

2009-06-06 14:16:19

AMD雙核CPU優化驅動

AMD雙核CPU優化驅動.rar

2010-01-26 15:02:32

simulink的實例程序集

simulink的實例程序:很多simulink的例程，對于初學者和高手都需要的東西。

2010-02-08 14:57:20

186

js經典程序實例

2010-03-11 09:15:30

AMD雙核CPU優化程序AMD Dual-Core Opti

AMD雙核CPU優化程序AMD Dual-Core Optimizer1.14版

2010-04-09 15:39:47

NEON音頻編解碼器優化技術

本文旨在探討在采用NEON技術的ARM Cortex-A8處理器解決方案中部署音頻編解碼器時使用的各種優化技術。

2010-09-02 22:59:27

Matlab程序實例

本文提供Matlab程序實例，希望對你的學習有所幫助！

2011-06-03 15:35:09

554

程序設計優化策略與技術開發教程

程序優化是指軟件編程結束后，利用軟件開發工具對程序進行調整和改進，讓程序充分利用資源，提高運行效率，縮減代碼尺寸的過程。按照優化的側重點不同，程序優化可分為運行

2011-08-23 16:46:55

機械制造技術：微課視頻-車削加工切削參數優化實例#機械制造

優化實例機械制造

jf_49750429發布于 2022-11-23 14:29:02

51程序實例

51程序實例。紅外解碼的應用，串口1通訊收發，1602顯示，數碼管顯示。等等

2015-12-14 15:02:38

AT89S51實例教程(原理圖 + 源程序, 整理版) temp

at89s51實例教程原理圖以及源程序完整版的

2016-05-13 17:14:02

LCD實例程序

微雪電子 LCD實例程序微雪電子 LCD實例程序

2016-07-12 11:54:40

遺傳算法優化工具箱介紹及實例源程序

遺傳算法優化工具箱介紹及實例源程序，非常好的源代碼資料

2016-07-20 16:51:51

C語言程序設計及應用實例

其他編程語言——C語言程序設計及應用實例，感興趣的小伙伴可以看一看。

2016-11-03 15:50:03

u盤讀寫模塊實例程序

本文分享了u盤讀寫模塊的實例程序。

2017-11-16 13:34:25

如何對C語言程序進行優化

對程序進行優化，通常是指優化程序代碼或程序執行速度。優化代碼和優化速度實際上是一個予盾的統一，一般是優化了代碼的尺寸，就會帶來執行時間的增加，如果優化了程序的執行速度，通常會帶來代碼增加的副作用，很難魚與熊掌兼得，只能在設計時掌握一個平衡點。

2018-11-15 11:08:18

NEON的詳細資料簡介資料免費下載

的2倍。NEON技術是ARM Cortex-A系列處理器的128位 SIMD架構擴展，旨在為消費性多媒體應用程序提供靈活、強大的加速功能。

2019-04-26 18:26:00

NEON技術如何實現移動端視頻高效解碼AV1?

ARM的NEON技術，其基本原理是讓處理器在每個時鐘周期內完成更多工作。dav1d 0.3.1中，在解碼1080p視頻時，基于NEON開發的dav1d可以毫不費力地達到30 fps的流暢度。

2019-06-05 10:47:21

5054

Linux CPU的性能應該如何優化

在Linux系統中，由于成本的限制，往往會存在資源上的不足，例如 CPU、內存、網絡、IO 性能。本文，就對 Linux 進程和 CPU 的原理進行分析，總結出 CPU 性能優化的方法。

2020-01-18 08:52:00

3094

秦龍MSP430單片機C語言應用程序設計實例精解的實例程序免費下載

本文檔的主要內容詳細介紹的是秦龍MSP430單片機C語言應用程序設計實例精解的實例程序免費下載。

2020-09-01 08:00:00

5G網絡優化的實例分析

電子發燒友網站提供《5G網絡優化的實例分析.pdf》資料免費下載

2020-11-26 01:10:00

完整源程序分享

完整源程序分享免費下載。

2021-06-09 09:31:26

程序是如何在 CPU 中運行的（二）

在上一篇文章中《程序是如何在 CPU 中運行的(一)》筆者講述了程序中一條一條指令以及一條一條數據是如何在 CPU 中運行的，在本文筆者將...

2022-02-07 11:10:53

單片機C程序優化

對程序進行優化，通常是指優化程序代碼或程序執行速度。優化代碼和優化速度實際上是一個予盾的統一。一般是優化了代碼的尺寸，就會帶來執行時間的增加；如果優化了程序的執行速度，通常會帶來代碼增加的副作用

2022-02-11 15:28:35

Arm NEON編程技術上手指南

NEON是指適用于Arm Cortex-A系列處理器的一種高級SIMD（單指令多數據）擴展指令集。NEON 技術可加速多媒體和信號處理算法（如視頻編碼/解碼、2D/3D 圖形、游戲、音頻和語音處理、圖像處理技術、電話和聲音合成）。

2022-12-06 09:09:02

958

NEON編程中的一些常見優化技巧

　　讀過上一篇文章“ARM NEON快速上手指南”之后，相信你已經對ARM NEON編程有了基本的認識。但在真正利用ARM NEON優化程序性能時，還有很多編程技巧和注意事項。本文將結合本人的一些開發經歷，介紹NEON編程中的一些常見優化技巧，希望能對用戶在NEON實際開發中有些借鑒意義。

2022-12-12 09:11:24

1355