特级丰满少妇一级AAAA爱毛片,国产美女精品人人做人人爽,91自慰喷水流白浆免费观看,久久永久免费人妻精品我不卡,97久久精品无码一区二区毛片

張量處理單元（TPU）是一種定制化的 ASIC 芯片，它由谷歌從頭設計，并專門用于機器學習工作負載。TPU 為谷歌的主要產(chǎn)品提供了計算支持，包括翻譯、照片、搜索助理和 Gmail 等。

在本文中，我們將關注 TPU 某些特定的屬性。

在我們對比 CPU、GPU 和 TPU 之前，我們可以先了解到底機器學習或神經(jīng)網(wǎng)絡需要什么樣的計算。如下所示，假設我們使用單層神經(jīng)網(wǎng)絡識別手寫數(shù)字。

如果圖像為 28×28 像素的灰度圖，那么它可以轉(zhuǎn)化為包含 784 個元素的向量。神經(jīng)元會接收所有 784 個值，并將它們與參數(shù)值（上圖紅線）相乘，因此才能識別為「8」。其中參數(shù)值的作用類似于用「濾波器」從數(shù)據(jù)中抽取特征，因而能計算輸入圖像與「8」之間的相似性：

這是對神經(jīng)網(wǎng)絡做數(shù)據(jù)分類最基礎的解釋，即將數(shù)據(jù)與對應的參數(shù)相乘（上圖兩種顏色的點），并將它們加在一起（上圖右側收集計算結果）。如果我們能得到最高的預測值，那么我們會發(fā)現(xiàn)輸入數(shù)據(jù)與對應參數(shù)非常匹配，這也就最可能是正確的答案。

簡單而言，神經(jīng)網(wǎng)絡在數(shù)據(jù)和參數(shù)之間需要執(zhí)行大量的乘法和加法。我們通常會將這些乘法與加法組合為矩陣運算，這在我們大學的線性代數(shù)中會提到。所以關鍵點是我們該如何快速執(zhí)行大型矩陣運算，同時還需要更小的能耗。

CPU 如何運行

因此 CPU 如何來執(zhí)行這樣的大型矩陣運算任務呢？一般 CPU 是基于馮諾依曼架構的通用處理器，這意味著 CPU 與軟件和內(nèi)存的運行方式如下：

圖：CPU 如何運行

CPU 最大的優(yōu)勢是靈活性。通過馮諾依曼架構，我們可以為數(shù)百萬的不同應用加載任何軟件。我們可以使用 CPU 處理文字、控制火箭引擎、執(zhí)行銀行交易或者使用神經(jīng)網(wǎng)絡分類圖像。

但是，由于 CPU 非常靈活，硬件無法一直了解下一個計算是什么，直到它讀取了軟件的下一個指令。CPU 必須在內(nèi)部將每次計算的結果保存到內(nèi)存中（也被稱為寄存器或 L1 緩存）。內(nèi)存訪問成為 CPU 架構的不足，被稱為馮諾依曼瓶頸。

雖然神經(jīng)網(wǎng)絡的大規(guī)模運算中的每一步都是完全可預測的，每一個 CPU 的算術邏輯單元（ALU，控制乘法器和加法器的組件）都只能一個接一個地執(zhí)行它們，每一次都需要訪問內(nèi)存，限制了總體吞吐量，并需要大量的能耗。

GPU 如何工作

為了獲得比 CPU 更高的吞吐量，GPU 使用一種簡單的策略：在單個處理器中使用成千上萬個 ALU。現(xiàn)代 GPU 通常在單個處理器中擁有 2500-5000 個 ALU，意味著你可以同時執(zhí)行數(shù)千次乘法和加法運算。

圖：GPU 如何工作

這種 GPU 架構在有大量并行化的應用中工作得很好，例如在神經(jīng)網(wǎng)絡中的矩陣乘法。實際上，相比 CPU，GPU 在深度學習的典型訓練工作負載中能實現(xiàn)高幾個數(shù)量級的吞吐量。這正是為什么 GPU 是深度學習中最受歡迎的處理器架構。

但是，GPU 仍然是一種通用的處理器，必須支持幾百萬種不同的應用和軟件。這又把我們帶回到了基礎的問題，馮諾依曼瓶頸。在每次幾千個 ALU 的計算中，GPU 都需要訪問寄存器或共享內(nèi)存來讀取和保存中間計算結果。

因為 GPU 在其 ALU 上執(zhí)行更多的并行計算，它也會成比例地耗費更多的能量來訪問內(nèi)存，同時也因為復雜的線路而增加 GPU 的物理空間占用。

TPU 如何工作

當谷歌設計 TPU 的時候，我們構建了一種領域特定的架構。這意味著，我們沒有設計一種通用的處理器，而是專用于神經(jīng)網(wǎng)絡工作負載的矩陣處理器。

TPU 不能運行文本處理軟件、控制火箭引擎或執(zhí)行銀行業(yè)務，但它們可以為神經(jīng)網(wǎng)絡處理大量的乘法和加法運算，同時 TPU 的速度非?？?、能耗非常小且物理空間占用也更小。

其主要助因是對馮諾依曼瓶頸的大幅度簡化。因為該處理器的主要任務是矩陣處理，TPU 的硬件設計者知道該運算過程的每個步驟。因此他們放置了成千上萬的乘法器和加法器并將它們直接連接起來，以構建那些運算符的物理矩陣。

這被稱作脈動陣列（Systolic Array）架構。在 Cloud TPU v2 的例子中，有兩個 128X128 的脈動陣列，在單個處理器中集成了 32768 個 ALU 的 16 位浮點值。

我們來看看一個脈動陣列如何執(zhí)行神經(jīng)網(wǎng)絡計算。首先，TPU 從內(nèi)存加載參數(shù)到乘法器和加法器的矩陣中。

圖：TPU 如何工作

然后，TPU 從內(nèi)存加載數(shù)據(jù)。當每個乘法被執(zhí)行后，其結果將被傳遞到下一個乘法器，同時執(zhí)行加法。因此結果將是所有數(shù)據(jù)和參數(shù)乘積的和。在大量計算和數(shù)據(jù)傳遞的整個過程中，不需要執(zhí)行任何的內(nèi)存訪問。

這就是為什么 TPU 可以在神經(jīng)網(wǎng)絡運算上達到高計算吞吐量，同時能耗和物理空間都很小。

因此使用 TPU 架構的好處就是：成本降低至 1/5。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

芯片

芯片

+關注

關注
453

文章
50406

瀏覽量
421817
cpu

cpu

+關注

關注
68

文章
10825

瀏覽量
211149
谷歌

谷歌

+關注

關注
27

文章
6142

瀏覽量
105099

原文標題：一文搞懂 CPU、GPU 和 TPU

文章出處：【微信號：FPGAer_Club，微信公眾號：FPGAer俱樂部】歡迎添加關注！文章轉(zhuǎn)載請注明出處。

【一文看懂】大白話解釋“GPU與GPU算力”

隨著大模型的興起，“GPU算力”這個詞正頻繁出現(xiàn)在人工智能、游戲、圖形設計等工作場景中，什么是GPU，它與CPU的區(qū)別是什么？以及到底什么是GPU算力？本篇文章主要從以下5個角度，讓您

發(fā)表于 10-29 08:05 ?272次閱讀

【<b class='flag-5'>一</b><b class='flag-5'>文</b>看懂】大白話解釋“<b class='flag-5'>GPU</b>與<b class='flag-5'>GPU</b>算力”

【「大模型時代的基礎架構」閱讀體驗】+ 第一、二章學習感受

常用的機器學習算法，重點剖析了一元線性回歸算法，由此引出機器學習算法的運算特征，此后分別描述了使用CPU、GPU、TPU和NPU運行機器學習算法的特點，比如

發(fā)表于 10-10 10:36

從TPU v1到Trillium TPU，蘋果等科技公司使用谷歌TPU進行AI計算

，在訓練尖端人工智能方面，大型科技公司正在尋找英偉達以外的替代品。 ? 不斷迭代的谷歌TPU 芯片 ? 隨著機器學習算法，特別是深度學習算法在各個領域的廣泛應用，對于高效、低功耗的AI計算硬件需求日益增長。傳統(tǒng)的CPU和GPU在

發(fā)表于 07-31 01:08 ?3282次閱讀

CPU渲染和GPU渲染優(yōu)劣分析

使用計算機進行渲染時，有兩種流行的系統(tǒng)：基于中央處理單元(CPU)或基于圖形處理單元(GPU)。CPU渲染利用計算機的CPU來執(zhí)行場景并將其渲染到接近完美。這也是執(zhí)行渲染的更傳統(tǒng)方式。

發(fā)表于 05-23 08:27 ?533次閱讀

<b class='flag-5'>CPU</b>渲染和<b class='flag-5'>GPU</b>渲染優(yōu)劣分析

X-Silicon發(fā)布RISC-V新架構實現(xiàn)CPU/GPU一體化

X-Silicon 的芯片與其他架構不同，其設計將 CPU 和 GPU 的功能整合到單核架構中。這與英特爾和 AMD 的典型設計不同，前者有獨立的 CPU 內(nèi)核和 GPU 內(nèi)核。

發(fā)表于 04-08 11:34 ?544次閱讀

X-Silicon發(fā)布RISC-V新架構實現(xiàn)<b class='flag-5'>CPU</b>/<b class='flag-5'>GPU</b><b class='flag-5'>一</b>體化

RISC-V芯片新突破：CPU與GPU一體化核心設計

X-Silicon 的芯片與其他架構不同，其設計將 CPU 和 GPU 的功能結合到單核架構中。這與 Intel 和 AMD 的典型設計不同，后者有獨立的 CPU 核心和 GPU 核心

發(fā)表于 04-07 10:41 ?664次閱讀

RISC-V芯片新突破：<b class='flag-5'>CPU</b>與<b class='flag-5'>GPU</b><b class='flag-5'>一</b>體化核心設計

一文詳解GPU硬件與CUDA開發(fā)工具

CPU 和 GPU 的顯著區(qū)別是：一個典型的 CPU 擁有少數(shù)幾個快速的計算核心，而一個典型的 GPU

發(fā)表于 03-21 10:15 ?1040次閱讀

Groq推出大模型推理芯片超越了傳統(tǒng)GPU和谷歌TPU

Groq推出了大模型推理芯片，以每秒500tokens的速度引起轟動，超越了傳統(tǒng)GPU和谷歌TPU。

發(fā)表于 02-26 10:24 ?972次閱讀

gpu是什么和cpu的區(qū)別

GPU和CPU是兩種常見的計算機處理器，它們在結構和功能上有很大的區(qū)別。在這篇文章中，我們將探討GPU和CPU的區(qū)別，并詳細介紹它們的原理、應用領域和性能特點。

發(fā)表于 02-20 11:24 ?1.8w次閱讀

為什么GPU比CPU更快？

GPU比CPU更快的原因并行處理能力：GPU可以同時處理多個任務和數(shù)據(jù)，而CPU通常只能一次處理一

發(fā)表于 01-26 08:30 ?2242次閱讀

GPU是顯卡嗎 cpu和gpu哪個算力強

GPU（圖形處理器）是顯卡（顯像處理器）的一種，它是一種專門用于圖形計算的處理器。顯卡是計算機中的一個重要組件，負責處理和渲染圖形，使它們能夠在顯示屏上顯示出來。

發(fā)表于 01-10 15:45 ?5072次閱讀

CPU與GPU散熱器設計的異同及其重要性

計算機的穩(wěn)定和性能不受影響，散熱器成為了必要的組件。本文將詳述CPU和GPU散熱器的設計異同以及其重要性。一、設計異同 1. 散熱原理： CPU和

發(fā)表于 01-09 14:00 ?1192次閱讀

CPU與GPU與TPU之間有什么區(qū)別？

CPU與GPU與TPU之間有什么區(qū)別？ CPU（Central Processing Unit，中央處理器）是一種通用處理器，被用于各種計算

發(fā)表于 12-15 10:10 ?6558次閱讀

淺談DPU和CPU、GPU的關系

把CPU的一大部分算力卸載給GPU之后，人們發(fā)現(xiàn)可以把很多其他功能也外包出去，于是又有了智能網(wǎng)卡，或者叫做DPU。

發(fā)表于 12-14 11:44 ?844次閱讀

CPU和GPU之間的主要區(qū)別

以下是以表格形式提供的CPU和GPU之間的一些區(qū)別：中央處理器圖形處理器CPU代表中央處理器。GPU代表圖形處理單元。

發(fā)表于 12-14 08:28 ?760次閱讀

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

一文搞懂 CPU、GPU 和 TPU

評論

【一文看懂】大白話解釋“GPU與GPU算力”

【「大模型時代的基礎架構」閱讀體驗】+ 第一、二章學習感受

從TPU v1到Trillium TPU，蘋果等科技公司使用谷歌TPU進行AI計算

CPU渲染和GPU渲染優(yōu)劣分析

X-Silicon發(fā)布RISC-V新架構實現(xiàn)CPU/GPU一體化

RISC-V芯片新突破：CPU與GPU一體化核心設計

一文詳解GPU硬件與CUDA開發(fā)工具

Groq推出大模型推理芯片超越了傳統(tǒng)GPU和谷歌TPU

gpu是什么和cpu的區(qū)別

為什么GPU比CPU更快？

GPU是顯卡嗎 cpu和gpu哪個算力強

CPU與GPU散熱器設計的異同及其重要性

CPU與GPU與TPU之間有什么區(qū)別？

淺談DPU和CPU、GPU的關系

CPU和GPU之間的主要區(qū)別