欧美日韩国产一区二区三区地区-久久亚洲线观看视频-国产亚洲综合性久久久影院-国产欧美日韩亚洲αv-国产欧美精品一区二区三区-久久国产亚洲欧美日韩精品

一、并行處理

所謂并行處理就是同時處理多個計算程序，應(yīng)用程序處理器典型的設(shè)計是使用單線程盡可能快的去執(zhí)行應(yīng)用程序，這種類型的處理器通常包含標(biāo)量操作單元和程序控制器。GPU是被設(shè)計用來同時執(zhí)行大量線程的處理器，GPU處理器的典型設(shè)計是使用多處理器并行的處理多個任務(wù)。

OpenCL編程語言可以幫助我們使用GPU或者多核處理器的并行能力。OpenCL是一種開放標(biāo)準(zhǔn)的變成語言，它能夠使開發(fā)者在GPU或者其他類型的多核處理器上運行通用計算任務(wù)。

二、并行類型

1.數(shù)據(jù)并行

數(shù)據(jù)并行，任務(wù)并行和流水線(pipelines)并行是主要的并行類型。

數(shù)據(jù)并行是將數(shù)據(jù)劃分為不同的數(shù)據(jù)元素或者數(shù)據(jù)塊，使得處理器可以并行的處理不同的數(shù)據(jù)元素。多個處理器可以同時的讀寫和處理不同的數(shù)據(jù)。因此數(shù)據(jù)并行要求數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)可以滿足多個處理器同時讀寫的要求。GPU進行通用計算，最典型的應(yīng)用便是數(shù)據(jù)并行。通過OpenCL等編程語言可以很輕松的實現(xiàn)不同的線程以相同的方式處理不同的數(shù)據(jù)。如下圖所示：可以使用9個線程，同時完成9組數(shù)據(jù)的相加。

2.任務(wù)并行

任務(wù)并行，是指一個任務(wù)被分解為多個小任務(wù)，由多個處理器同時處理。任務(wù)并行的一個簡單例子便是在網(wǎng)頁上播放一段視頻，為了能夠在網(wǎng)頁上播放視頻，我們的設(shè)備需要做如下幾個任務(wù)：

運行一個執(zhí)行通信的網(wǎng)絡(luò)堆棧

從外部服務(wù)器請求數(shù)據(jù)

分析數(shù)據(jù)

解碼視頻數(shù)據(jù)

解碼音頻數(shù)據(jù)

渲染視頻幀數(shù)據(jù)

播放音頻數(shù)據(jù)

下圖顯示了播放在線視頻的時候應(yīng)用程序同時操作的系統(tǒng)；

3.流水線并行

流水線是通過多個不同的計算階段處理數(shù)據(jù)，在流水線上多個階段可以同時操作，但是他們操作的是不同的數(shù)據(jù)。流水線通常擁有相當(dāng)少的階段。下面是一個關(guān)于流水線的例子，一個錄像程序必須執(zhí)行的幾個階段：

從圖像傳感器捕捉圖像數(shù)據(jù)，并且計算亮度級別

根據(jù)鏡頭效果修正圖像數(shù)據(jù)

修正圖像數(shù)據(jù)的對比度，色彩平衡和曝光

壓縮圖像數(shù)據(jù)

將圖像數(shù)據(jù)添加到視頻文件

將視頻數(shù)據(jù)寫入存儲器

這些階段必須按照順序執(zhí)行，但是他們可以同時在視頻中的不同幀上執(zhí)行。

我們將6個處理階段，對應(yīng)6中顏色，分別表示6個處理單元：

按照串行的處理方式，處理一幀圖像需要串行的經(jīng)過6個處理單元，假設(shè)需要300us的延遲，每一個處理單元消耗50us。這是一種組合邏輯的實現(xiàn)過程，我們只需要每300us輸入一幀圖像即可，不需要在處理單元內(nèi)部做同步。

如果使用流水線技術(shù)，那么處理流程將完全不同，流水線技術(shù)是一種指令疊加技術(shù)，能夠增加系統(tǒng)的吞吐量，但是同時會帶來每一幀數(shù)據(jù)的處理延遲會增加。具體處理流程如下圖所示：

圖中給出了A、B、C三幀數(shù)據(jù)的處理流程；當(dāng)A進入第二階段的時候，B便可以進入第一階段，當(dāng)B進入第二階段的時候，C便可以進入第一階段，以此類推；但是需要注意的是，我們需要在每一個階段的結(jié)束位置添加寄存器，用于數(shù)據(jù)同步。假設(shè)寄存器延遲為20us(請忽略單位，寄存器延遲不會達(dá)到us級別，為了計算方便這里做了不合實際的假設(shè))。那么處理3幀數(shù)據(jù)，需要消耗的時間為：

8×(50 + 20) = 560 us;

而串行處理方式需要消耗300 × 3 = 900 us；但是不使用流水線獲取每一幀數(shù)據(jù)輸入到輸出的延遲為300us，而加入流水線技術(shù)后，獲取數(shù)據(jù)的延遲為420us。

不使用流水線時，系統(tǒng)的吞吐量為：1/300；使用流水線后，系統(tǒng)的吞吐量為：3/420= 1/140；可以看到系統(tǒng)的吞吐量增加了2.14倍（注：吞吐量的計算忽略單位，倍數(shù)的計算是準(zhǔn)確的）。所以通過使用流水線技術(shù)可以顯著增加系統(tǒng)的吞吐量，但是會增加系統(tǒng)的延遲。

但是流水線在使用過程中也存在弊端，以上的任務(wù)劃分是均分的，但是在實際使用中，由于任務(wù)劃分的不均勻，會造成流水線產(chǎn)生不同的延遲，不合理的階段劃分，很容易導(dǎo)致流水線阻塞，造成性能降低。

三.混合使用不同的并行方式及其并行加速限制

在具體的應(yīng)用中可以綜合使用不同的并行方式，例如在一個音頻分析的應(yīng)用中，就可以同時使用以上三種并行方式。

可以使用任務(wù)并行來獨立的計算音符

使用音頻生成流水線和處理模塊來創(chuàng)造獨特的音符

在流水線內(nèi)部，一些處理階段可以使用數(shù)據(jù)并行來加速計算

但同時并行加速也有他的限制，假設(shè)你的應(yīng)用程序能夠完全并行化，那么使用10個處理器來執(zhí)行，可以將程序性能提升10倍，但是很少有應(yīng)用程序可以完全并行化，程序中很大可能會存在串行部分，而串行部分則會限制程序的并行化數(shù)量。

Amdahl定律描述了并行程序可以實現(xiàn)的最大加速，Amdahl定律的公式如下：

Speedup = 1/(s + p / n);其中，s表示應(yīng)用程序中串行的部分，p表示應(yīng)用程序中并行的部分，n表述處理器的數(shù)量。

下圖展示了不同數(shù)量的處理器對串行比例不同的應(yīng)用程序所能提供的加速比率變化曲線：

在后續(xù)的文章中會更加細(xì)致的介紹如何使用OpenCL在移動端GPU上對應(yīng)用程序進行并行化。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

處理器

處理器

+關(guān)注

關(guān)注
68

文章
19165

瀏覽量
229146
gpu

gpu

+關(guān)注

關(guān)注
28

文章
4701

瀏覽量
128708
編程語言

編程語言

+關(guān)注

關(guān)注
10

文章
1938

瀏覽量
34599

原文標(biāo)題：原來GPU這么簡單，一定要看！

文章出處：【微信號：SSDFans，微信公眾號：SSDFans】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

嵌入式多核處理器硬件結(jié)構(gòu)分析與對排序算法進行并行化優(yōu)化

常常在嵌入式領(lǐng)域使用，常見的是通用嵌入式處理器+DSP核。本文探究的嵌入式多核處理器采用同構(gòu)結(jié)構(gòu)，實現(xiàn)同一段代碼在不同處理器上的并行執(zhí)行。

發(fā)表于 10-17 07:55 ?3975次閱讀

面向多核處理器的低級并行程序驗證

指令的操作語義和所需要的安全策略，使得在該框架下可以驗證多核并行程序的部分正確性。關(guān)鍵詞多核處理器，自旋鎖，程序驗證，匯編級，部分正確性A

發(fā)表于 10-06 09:56

每日一教labview視頻教程【1.10】labview多核并行運行編程

隨著多核成為處理器的發(fā)展主流，對于并行編程（多線程編程）也成為了開發(fā)人員最大的難題，而LabVIEW憑借自身的

發(fā)表于 01-10 13:48

GPU

，也是一個統(tǒng)一的編程環(huán)境，便于軟件開發(fā)人員為高性能計算服務(wù)器、桌面計算系統(tǒng)、手持設(shè)備編寫高效輕便的代碼，而且廣泛適用于多核心處理器(CPU)、圖形處

發(fā)表于 01-16 08:59

探討采用C6000系列多核DSP的并行計算（OpenCL、OpenMP）實現(xiàn)大規(guī)模電磁系統(tǒng)的暫態(tài)仿真及其控制系統(tǒng)

的運算，實現(xiàn)物理時間和仿真時間的同步更新。第二是大規(guī)模，即整個系統(tǒng)在各部分各個時間尺度上都能覆蓋，而不是被簡化。在此要求下，必須對系統(tǒng)進行劃分，對每一個劃分出來的小型子系統(tǒng)采用多核處理器進行并行計算仿真

發(fā)表于 12-03 20:42

多核處理器的優(yōu)點

處理器。通過在兩個執(zhí)行內(nèi)核之間劃分任務(wù)，多核處理器可在特定的時鐘周期內(nèi)執(zhí)行更多任務(wù)。多核技術(shù)能夠使服務(wù)器

發(fā)表于 06-20 06:47

ARM Mali-T600系列GPU OpenCL開發(fā)人員指南

。 GPU被設(shè)計為同時執(zhí)行多個線程。它們并行運行包含相對較少控制代碼的計算密集型數(shù)據(jù)處理任務(wù)。 GPU通常包含比應(yīng)用程序處理器多得多的

發(fā)表于 08-24 07:07

基于FPGA的嵌入式多核處理器及SUSAN算法并行化

基于FPGA的嵌入式多核處理器及SUSAN算法并行化

發(fā)表于 08-30 18:11 ?24次下載

多核處理器會取代FPGA嗎？

有人認(rèn)為諸如圖形處理器（GPU）和Tilera處理器等多核處理器在某些應(yīng)用中正逐步替代現(xiàn)場可編程

發(fā)表于 02-11 11:15 ?1026次閱讀

嵌入式ARM多核處理器并行化優(yōu)化探究

目前，嵌入式多核處理器已經(jīng)在嵌入式設(shè)備領(lǐng)域得到廣泛運用，但嵌人式系統(tǒng)軟件開發(fā)技術(shù)還停留在傳統(tǒng)單核模式，并沒有充分發(fā)揮多核處理器的性能。程序并行

發(fā)表于 10-16 10:01 ?1次下載

基于NI LabVIEW圖形化編程對多核處理器和其他并行硬件進行編程

NI LabVIEW圖形化編程方法不僅省時，還很適合對多核處理器和其他并行硬件[如：現(xiàn)場可編程門陣列(FPGA)]進行

發(fā)表于 11-16 19:30 ?1543次閱讀

基于圖形處理器GPU的并行化解決方法

目前目標(biāo)識別領(lǐng)域，在人體檢測中精確度最高的算法就是可變形部件模型（ DPM）算法，針對DPM算法計算量大的缺點，提出了一種基于圖形處理器（ GPU）的并行化解決方法。采用GPU

發(fā)表于 12-28 11:16 ?1次下載

Imagination宣布其BXS-4-64 GPU將用于德州儀器Jacinto處理器系列

德州儀器處理器業(yè)務(wù)平臺工程總監(jiān)Jim Kennedy說道：“在Imagination BXS GPU的支持下，我們推出了具有更高性能、更低帶寬和更強安全功能的差異化汽車處理器產(chǎn)品。IM

發(fā)表于 11-13 15:04 ?2396次閱讀

開源的RISC-V處理器多核并行能力已超過x86

開源RISC-V正朝著自己的方向越發(fā)越強大，它對其他架構(gòu)的處理器也造成了不少的威脅。RISC-V不僅能實現(xiàn)5GHz的超高頻率，而且日前其多核并行能力也已經(jīng)超過了x86。

發(fā)表于 12-10 09:21 ?2059次閱讀

淺談多核系統(tǒng)編程技術(shù)

因為NI LabVIEW是數(shù)據(jù)流編程語言，開發(fā)者們可以編寫并行的應(yīng)用程序，這些應(yīng)用程序可以直接映射到并行

發(fā)表于 10-27 17:08 ?415次閱讀

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

OpenCL編程語言可以幫助我們使用GPU或者多核處理器的并行能力

評論

嵌入式多核處理器硬件結(jié)構(gòu)分析與對排序算法進行并行化優(yōu)化

面向多核處理器的低級并行程序驗證

每日一教labview視頻教程【1.10】labview多核并行運行編程

GPU

探討采用C6000系列多核DSP的并行計算（OpenCL、OpenMP）實現(xiàn)大規(guī)模電磁系統(tǒng)的暫態(tài)仿真及其控制系統(tǒng)

多核處理器的優(yōu)點

ARM Mali-T600系列GPU OpenCL開發(fā)人員指南

基于FPGA的嵌入式多核處理器及SUSAN算法并行化

多核處理器會取代FPGA嗎？

嵌入式ARM多核處理器并行化優(yōu)化探究

基于NI LabVIEW圖形化編程對多核處理器和其他并行硬件進行編程

基于圖形處理器GPU的并行化解決方法

Imagination宣布其BXS-4-64 GPU將用于德州儀器Jacinto處理器系列

開源的RISC-V處理器多核并行能力已超過x86

淺談多核系統(tǒng)編程技術(shù)