久久不精品亚洲无码视频_亚洲∧V无码乱码在线观看_久久亚洲国产精品一区二区

GPUNet 由 AI 為 AI 精心打造，是一類卷積神經網絡，旨在使用 NVIDIA TensorRT 最大化 NVIDIA GPU 的性能。

使用新的神經架構搜索（ NAS ）方法構建， GPUNet 展示了最先進的推理性能，比 EfficientNet-X 和 FBNet-V3 快兩倍。

NAS 方法有助于為廣泛的應用構建 GPUNet ，以便深度學習工程師可以根據相對精度和延遲目標直接部署這些神經網絡。

GPUNet NAS 設計方法

高效的體系結構搜索和部署就緒模型是 NAS 設計方法的關鍵目標。這意味著幾乎不與領域專家進行交互，并且有效地使用集群節點來培訓潛在的架構候選。最重要的是，生成的模型已準備好部署。

人工智能制作

為目標設備尋找性能最佳的架構搜索可能很耗時。 NVIDIA 構建并部署了一種新型的 NAS AI 代理，該代理可以有效地做出構建 GPUNET 所需的艱難設計選擇，使 GPUNET 比當前的 SOTA 模型領先 2 倍。

此 NAS AI 代理在中自動協調數百個 GPU Selene 超級計算機而不需要領域專家的任何干預。

使用 TensorRT 為 NVIDIA GPU 優化

GPUNet 通過相關的 TensorRT 推理延遲成本，提升 GPU 友好的運算符（例如，較大的篩選器）而不是內存綁定運算符（例如花哨的激活）。它在 ImageNet 上提供了 SOTA GPU 延遲和精度。

部署就緒

GPUNet 報告的延遲包括 TensorRT 發貨版本中可用的所有性能優化，包括融合內核、量化和其他優化路徑。構建的 GPune 已準備好部署。

構建 GPune ：端到端 NAS 工作流

在高層次上，神經架構搜索（ NAS ） AI 代理分為兩個階段：

根據推理延遲對所有可能的網絡架構進行分類。

使用適合延遲預算的這些網絡的子集，并優化其準確性。

在第一階段，由于搜索空間是高維的，代理使用 Sobol 采樣來更均勻地分布候選。使用延遲查找表，然后將這些候選對象分類到子搜索空間，例如， NVIDIA V100 GPU 上總延遲低于 0.5 毫秒的網絡子集。

此階段中使用的推斷延遲是一個近似成本，通過將延遲查找表中每個層的延遲相加來計算。延遲表使用輸入數據形狀和層配置作為鍵來查找查詢層上的相關延遲。

在第二階段，代理建立貝葉斯優化損失函數，以在子空間的延遲范圍內找到性能最佳的高精度網絡：

$latex.php?latex=loss+%3D+CrossEntropy%28model+weights%29+%2B+%5Calpha+%2A+latency%28architecture+candidate%29%5E%7B%5Cbeta%7D&bg=ffffff&fg=000&s=0&c=20201002$

圖 2. NVIDIA NAS AI 代理端到端工作流

AI 代理使用客戶端 – 服務器分布式訓練控制器來跨多個網絡架構同時執行 NAS 。 AI 代理在一個服務器節點上運行，提出并訓練在集群上多個客戶端節點上運行的網絡候選。

根據結果，只有滿足目標硬件的準確度和延遲目標的有前途的網絡體系結構候選者得到排名，從而產生了一些性能最佳的 GPUNET ，可以使用 TensorRT 部署在 NVIDIA GPU 上。

GPUNet 模型體系結構

GPUNet 模型架構是一個八級架構，使用 EfficientNet-V2 作為基線架構。

搜索空間定義包括搜索以下變量：

操作類型

跨步數

內核大小

層數

激活函數

IRB 擴展比

輸出通道濾波器

擠壓激勵（ SE ）

表 1 顯示了搜索空間中每個變量的值范圍。

前兩個階段使用卷積搜索磁頭配置。受 EfficientNet-V2 的啟發，第二級和第三級使用融合 IRB 。然而，融合的 IRB 會導致更高的延遲，因此在第 4 至 7 階段，這些被 IRB 取代。

專欄層顯示階段中的層范圍。例如，階段 4 中的［1 ， 10］表示該階段可以具有 1 到 10 個 IRB 。專欄過濾器顯示階段中各層的輸出通道濾波器范圍。該搜索空間還調整 IRB /融合 IRB 內部的擴展比（ ER ）、激活類型、內核大小和壓縮激勵（ SE ）層。

最后，在步驟 32 ，從 224 到 512 搜索輸入圖像的尺寸。

來自搜索空間的每個 GPUNet 候選構建被編碼為 41 寬的整數向量（表 2 ）。

在 NAS 搜索結束時，返回的排序候選是這些性能最佳的編碼的列表，這些編碼又是性能最佳的 GPUNET 。

總結

鼓勵所有 ML 從業人員閱讀 CVPR 2022 GPUNet 研究報告，并在 NVIDIA /深度學習示例 GitHub repo ，并在協作實例在可用云上 GPU 。 GPUNet 推理也可在 PyTorch hub colab 運行實例使用 NGC 集線器上托管的 GPUNet 檢查點。這些檢查點具有不同的準確性和延遲折衷，可以根據目標應用程序的要求應用。

關于作者

Satish Salian 是 NVIDIA 的首席系統軟件工程師，為開發人員利用 NVIDIA GPU 的能力構建端到端技術和解決方案。他目前專注于神經架構搜索（ NAS ）方法，為 NVIDIA GPU 搜索高性能神經架構。

Carl （Izzy） Putterman 最近加入 NVIDIA ，擔任深度學習算法工程師。他畢業于加利福尼亞大學，伯克利在應用數學和計算機科學學士學位。在 NVIDIA ，他目前致力于時間序列建模和圖形神經網絡，重點是推理。

Linnan Wang 是 NVIDIA 的高級深度學習工程師。 2021 ，他在布朗大學獲得博士學位。他的研究主題是神經架構搜索，他的 NAS 相關著作已在 ICML 、 NeurIPS 、 ICLR 、 CVPR 、 TPMAI 和 AAAI 上發表。在 NVIDIA ， Lin Nan 繼續進行 NAS 的研發，并將 NAS 優化模型交付給 NVIDIA 核心產品。

審核編輯：郭婷

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

神經網絡

神經網絡

+關注

關注
42

文章
4765

瀏覽量
100568
NVIDIA

NVIDIA

+關注

關注
14

文章
4949

瀏覽量
102828
gpu

gpu

+關注

關注
28

文章
4703

瀏覽量
128729

英特爾FPGA 助力Microsoft Azure機器學習提供AI推理性能

Machine Learning SDK 相集成以供預覽。客戶可以使用 Azure 大規模部署的英特爾? FPGA（現場可編程邏輯門陣列）技術，為其模型提供行業領先的人工智能（AI） 推理性能。

發表于 05-16 17:25 ?6348次閱讀

NVIDIA擴大AI推理性能領先優勢，首次在Arm服務器上取得佳績

最新MLPerf基準測試表明，NVIDIA已將其在AI推理性能和能效方面的高標準擴展到Arm以及x86計算機。

發表于 09-23 14:18 ?2613次閱讀

<b class='flag-5'>NVIDIA</b>擴大AI<b class='flag-5'>推理性能</b>領先優勢，首次<b class='flag-5'>在</b>Arm服務器<b class='flag-5'>上</b>取得佳績

NVIDIA打破AI推理性能記錄

　NVIDIA憑借A100進一步擴大了在MLPerf基準測試中的領先優勢，實現了比CPU快237倍的AI推理性能，助力企業將AI研究轉化為生產力。

發表于 10-22 14:07 ?794次閱讀

NVIDIA 在首個AI推理基準測試中大放異彩

首個獨立AI推理基準測試 ——MLPerf Inference 0.5中取得第一名。由于推理一直是AI市場中最大、同時也是最具競爭力的領域，業內此前一直希望能夠有一套客觀的推理性能測試指標。在

發表于 11-08 19:44

在Ubuntu上使用Nvidia GPU訓練模型

問題最近在Ubuntu上使用Nvidia GPU訓練模型的時候，沒有問題，過一會再訓練出現非常卡頓，使用nvidia-smi查看發現，顯示GPU

發表于 01-03 08:24

充分利用Arm NN進行GPU推理

的是要知道它提供的選項來提高推理性能。作為開發人員，您會尋找可以壓縮的每一毫秒，尤其是在需要實現實時推理時。讓我們看一下Arm NN中可用的優化選項之一，并通過一些實際示例評估它可能產生

發表于 04-11 17:33

求助，為什么將不同的權重應用于模型會影響推理性能？

生成兩個 IR文件（相同的 .xml 文件，但不同的 .bin 文件）具有不同重量的類似模型，以不同的 fps （27fps 和 6fps）運行更多樣化的權重是否會影響 Myriad X 上的推理性能？

發表于 08-15 07:00

如何提高YOLOv4模型的推理性能？

使用 PyTorch 對具有非方形圖像的 YOLOv4 模型進行了訓練。將權重轉換為 ONNX 文件，然后轉換為中間表示（IR）。無法確定如何獲得更好的推理性能。

發表于 08-15 06:58

利用NVIDIA模型分析儀最大限度地提高深度學習的推理性能

你已經建立了你的深度學習推理模型并將它們部署到 NVIDIA Triton Inference Serve 最大化模型性能。你如何進一步加快你的模型的運行速度？進入 NVIDIA模

發表于 10-21 19:01 ?616次閱讀

NVIDIA A100 GPU推理性能237倍碾壓CPU

）的12個提交者增加了近一倍。結果顯示，今年5月NVIDIA（Nvidia）發布的安培（Ampere）架構A100 Tensor Core GPU，在云端

發表于 10-23 17:40 ?4283次閱讀

NVIDIA GPU助力提升模型訓練和推理性價比

，其中的模型數量達數千個，日均調用服務達到千億級別。無量推薦系統，在模型訓練和推理都能夠進行海量Embedding和DNN模型的GPU計算，是目前業界領先的體系結構設計。傳統推薦系統面臨挑戰傳統推薦系統具有以下特點：訓練是

發表于 08-23 17:09 ?4775次閱讀

NVIDIA Triton推理服務器的基本特性及應用案例

推理識別是人工智能最重要的落地應用，其他與深度學習相關的數據收集、標注、模型訓練等工作，都是為了得到更好的最終推理性能與效果。

發表于 10-26 09:43 ?1977次閱讀

在 NGC 上玩轉新一代推理部署工具 FastDeploy，幾行代碼搞定 AI 部署

模型，并提供開箱即用的云邊端部署體驗，實現 AI 模型端到端的推理性能優化。歡迎廣大開發者使用 NVIDIA 與飛槳聯合深度適配的 NGC 飛槳容器，在 NVIDIA

發表于 12-13 19:50 ?1201次閱讀

Nvidia 通過開源庫提升 LLM 推理性能

加利福尼亞州圣克拉拉——Nvidia通過一個名為TensorRT LLM的新開源軟件庫，將其H100、A100和L4 GPU的大型語言模型(LLM)推理性能提高了一倍。正如對相同硬件一輪又一輪改進

發表于 10-23 16:10 ?616次閱讀

開箱即用，AISBench測試展示英特爾至強處理器的卓越推理性能

。中國電子技術標準化研究院賽西實驗室依據國家標準《人工智能服務器系統性能測試規范》（征求意見稿）相關要求，使用AISBench?2.0測試工具，完成了第五代英特爾至強可擴展處理器的AI大模型推理性能和精度測試。測試中，第五代英特爾至強

發表于 09-06 15:33 ?283次閱讀

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

使用GPUNet在NVIDIA GPU上擊敗SOTA推理性能

評論

英特爾FPGA 助力Microsoft Azure機器學習提供AI推理性能

NVIDIA擴大AI推理性能領先優勢，首次在Arm服務器上取得佳績

NVIDIA打破AI推理性能記錄

NVIDIA 在首個AI推理基準測試中大放異彩

在Ubuntu上使用Nvidia GPU訓練模型

充分利用Arm NN進行GPU推理

求助，為什么將不同的權重應用于模型會影響推理性能？

如何提高YOLOv4模型的推理性能？

利用NVIDIA模型分析儀最大限度地提高深度學習的推理性能

NVIDIA A100 GPU推理性能237倍碾壓CPU

NVIDIA GPU助力提升模型訓練和推理性價比

NVIDIA Triton推理服務器的基本特性及應用案例

在 NGC 上玩轉新一代推理部署工具 FastDeploy，幾行代碼搞定 AI 部署

Nvidia 通過開源庫提升 LLM 推理性能

開箱即用，AISBench測試展示英特爾至強處理器的卓越推理性能