精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

使用PVA引擎優化自動駕駛汽車CV開發流水線

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA英偉達企業解決方案 ? 2024-11-05 14:17 ? 次閱讀

在汽車軟件開發領域,越來越多的大規模 AI 模型被集成到自動駕駛汽車中,這些模型的范圍從視覺 AI 模型到用于自動駕駛的端到端 AI 模型。現在,汽車軟件開發領域對算力的需求正在飛速增長。導致系統負載增加,對系統穩定性和時延產生了負面影響。

為了解決這些難題,可以使用可編程視覺加速器(PVA)提高能效和整體系統性能。PVANVIDIA DRIVE SoC 上的一個低功耗、高效率的硬件引擎。通過使用 PVA,可以卸載通常由 GPU 或其他硬件引擎處理的任務到 PVA 上,從而降低它們的負載,使它們能夠更加高效地管理其他關鍵任務。

在本文中,我們簡要介紹了 DRIVE 平臺上的 PVA 硬件引擎和 SDK。我們展示了 PVA 引擎在計算機視覺(CV)流水線中的典型用例,包括預處理、后處理和其他 CV 算法,重點介紹其效果和效率。最后,我們以蔚來為例,詳細介紹了蔚來如何在其數據流水線中使用 NVIDIA PVA 引擎和優化算法來卸載 GPU 或視頻圖像合成器(VIC)任務,并提高自動駕駛汽車系統的整體性能。

PVA 硬件概述

PVA 引擎是一款先進的超長指令詞(VLIW)、單指令、多數據(SIMD)數字信號處理器,它針對圖像處理和計算機視覺算法加速任務進行了優化。PVA 具有出色的性能和極低的功耗。作為異構計算流水線的一部分,PVA 可與 NVIDIA DRIVE 平臺上的 CPU、GPU 和其他加速器異步或并行使用。

70a2a65c-9b30-11ef-a511-92fbcf53809c.jpg

圖 1. PVA 硬件架構

NVIDIA DRIVE Orin 上的 CV 集群中有一個 PVA 實例,NVIDIA DRIVE Orin是一種高性能系統級芯片(SoC)專為先進的 AI 應用而設計,尤其是自動駕駛汽車和機器人領域。

在每個 PVA 中,有兩個向量處理子系統(VPS)。每個 VPS 包括以下內容:

1 個矢量處理器(VPU)內核

1 個解耦查找單元(DLUT)

1 個向量內存(VMEM)

1 個指令緩存(I-cache)

VPU 核是主處理單元。它是一個專為計算機視覺優化的向量 SIMD VLIW DSP。它通過指令緩存獲取指令,并通過 VMEM 訪問數據。

DLUT 是專為提高并行查找操作效率而開發的專用硬件組件。它通過與主處理器解耦的流水線中執行此類查找操作,實現了使用單個查找表副本進行并行查找。通過這種方式,DLUT 可以最大限度地減少內存占用并提高吞吐量,同時避免依賴數據的內存庫沖突,最終提高系統整體性能。

VMEM 為 VPU 提供了本地數據存儲,實現了各種圖像處理和計算機視覺算法的高效執行。它支持 VPS 以外的系統組件的訪問(比如 DMA 和 R5),從而實現與 R5 及其他系統級組件的數據交換。

VPU(I-cache)可根據要求向 VPU 提供指令數據、從系統內存中請求缺失的指令數據并維護 VPU 的臨時指令存儲。

R5 為每個 VPU 任務配置 DMA,選擇性地將 VPU 程序預取到 VPU 指令緩存中,并啟動相應 VPU-DMA 的組合來處理任務。DRIVE Orin PVA 還包含 1 個 L2 SRAM 內存供兩組 VPS 和 DMA 共享。

兩個 DMA 設備用于在外部內存、PVA L2 內存、兩個 VMEM(每個 VPS 1 個)、R5 緊密耦合內存(TCM)、DMA 描述符內存和 PVA 級配置寄存器之間移動數據。

在低負載系統中,對 DRAM 的兩個并行 DMA 訪問最高可實現 15 GB/s 的讀/寫帶寬。在高負載系統中,該帶寬最高可達到 10 GB/s。

在算力方面,INT8 GMACS(每秒十億次乘法累加運算)為 2048,不包括 DLUT。每個 PVA 實例的 FP32 GMACS 為 32。

PVA SDK 介紹

與 GPU 的 CUDA 工具包類似,NVIDIA PVA SDK 專為打造利用 PVA 硬件功能的計算機視覺算法而設計。PVA SDK 為 CV 和 DL/ML 算法的開發、部署和安全認證提供了運行時 API、工具和教程。它提供了一個從構建到部署的無縫框架,支持將代碼交叉編譯成 Tegra PVA 上的二進制可執行文件。

PVA SDK 通過多種資源支持軟件開發:

全面的入門指南。

x86 原生仿真器,可模擬真實的 VPU。支持在 x86-64 平臺上開發和調試 VPU 內核。

全套代碼生成工具,包括經過優化的 C/C++ 編譯器、調試器和集成開發環境。

分析工具,例如用于視覺性能分析的 NVIDIA Nsight 系統和用于詳細 VPU 代碼性能指標的 API。

分步教程,該教程將逐一介紹 PVA 的概念,從基本示例到 VPU、DMA 的高級優化以及與其他 Tegra 引擎的互通。

豐富的文檔和參考手冊提供了有關 VPU 內部函數的詳細信息,使用戶能夠編寫優化的代碼,同時抽象并降低 DMA 編程的復雜性。

PVA SDK 提供了大量現成的算法以支持自動駕駛和機器人領域中的常見計算機視覺用例。用戶可以在其生產環境中直接使用這些算法(可訪問源代碼)或者使用 PVA SDK 的功能自主開發定制算法。

NVIDIA 根據常見的 CV 用例,基于 PVA SDK 預先開發了許多算法。用戶可以在其產品中充分利用這些 PVA 算法并訪問代碼,也可以將各種不同的算法作為參考,自主開發有價值的算法。

典型 PVA 用例

許多自動駕駛汽車開發者都面臨著 SoC 計算資源不足的挑戰,這導致 CPU、GPU、VIC 和 DLA 負載過高。為了解決這個問題,人們正在考慮使用 PVA 硬件卸載 SoC 上使用率較高的硬件引擎的處理任務。

圖像處理:部分圖像處理和 CV 任務可以移植到 PVA 上,以卸載 GPU、CPU、VIC 甚至 DLA 的工作負載。

深度學習操作:在深度學習網絡中,可將某些層或計算密集型運算符(例如 ROI 對齊)卸載到 PVA。在特定情況下,小型深度學習網絡可以完全移植到 PVA 上。

數學計算:作為一個向量 SIMD VLIW DSP,PVA 可以高效地處理數學計算,例如矩陣計算、FFT 等。

以下詳細介紹兩個用例,以供參考:

將 AI 流水線中的預處理和后處理卸載至 PVA

將純 CV 或受計算限制的流水線遷移至 PVA

將 AI 流水線中的

預處理和后處理卸載至 PVA

70b5131e-9b30-11ef-a511-92fbcf53809c.jpg

圖 2. AI 推理流水線

這是 CV 流水線的典型用例。輸入圖像來自實時場景中的實時攝像頭,或來自離線場景中的解碼器。該流水線包括三個階段:

預處理

AI 推理

后處理

PVA 硬件引擎在 CV 流水線的所有階段,從預處理到后處理,都能發揮關鍵作用,確保圖像處理和計算機視覺任務得到高效且有效的處理。

預處理

預處理涉及基本的 CV 任務,以便對齊或規范化模型的輸入,其中包括重映射(去畸變)、裁剪、調整大小和顏色轉換(從 YUV 到 RGB)等操作。

在某些情況下,當圖像來自 NVDEC(Tegra SoC 上的解碼器硬件引擎)時,圖像布局為 block linear 格式。在這種情況下,在預處理階段需要執行更多的步驟,將 block linear 格式轉換為 pitch linear 格式的圖像。

PVA 硬件引擎非常適合這些任務。然而,在內存受限的情況下,應考慮合并相鄰的 PVA 操作,以充分利用 PVA 的算力。

AI 推理

AI 推理以最先進的 AI 模型為基礎,執行業務需求所需的核心 CV 任務。該步驟可在 GPU 或深度學習加速器(DLA)上執行,以獲得更好的性能。

PVA 運行時 API 同時支持 NvSciSync 和原生 CUDA 流,能夠高效執行涉及 GPU/DLA 的異構流水線,而不會產生恢復到 CPU 進行調度相關的時延。

根據具體用例,該 AI 模型可以是用于物體檢測的 YOLO 或 R-CNN,也可以是用于分類的邏輯回歸或 K-nearest neighbor(KNN),以及其他模型等。

后處理

后處理會優化檢測結果。該步驟可能涉及使用中值濾波器去除異常值,進行混合操作以融合不同的候選項或應用非最大抑制(NMS)來選擇最佳目標。PVA 硬件能夠有效處理這些任務。

將純 CV 或受計算限制的流水線遷移至 PVA

70c44046-9b30-11ef-a511-92fbcf53809c.jpg

圖 3. 追蹤器流水線

這是一個更具體、更復雜的用例,所有步驟都可以在 PVA 上執行。主要涉及檢測和追蹤輸入圖像中的特征點,或在某些場景中計算稀疏光流:

圖像金字塔沿比例空間擴展圖像。

特定的檢測算法可識別圖像中的特征點或角點。

跟蹤算法逐幀追蹤這些特征點。

與之前的用例相比,這個場景在關鍵方面有所不同:

計算受限處理:數據處理的每一步都受計算限制,并涉及到處理 2D 圖像。這些算法可以很好地向量化,并在 PVA 硬件上高效執行。最重要的是,PVA 的算力得到了充分利用。

緊密耦合的步驟:有一個額外的數據循環將追蹤信息傳回之前的步驟,以完善后續的追蹤結果。這使得各步驟之間的耦合更加緊密。

純 CV 流水線:該用例是不涉及機器學習網絡的純計算機視覺流水線。每個步驟都是可預測和可解釋的,只側重于傳統的 CV 算法。

通過使用 PVA 執行這些任務,用戶可以減輕 GPU、VIC、CPU 和 DLA 的負載,提高系統的穩定性和效率。

蔚來汽車數據流水線優化

蔚來汽車是一家知名的全球化汽車制造商,致力于高端智能電動汽車的設計、開發和生產。

以下是來自蔚來的數據處理流水線,涉及使用專門的算法和技術對實時攝像頭或 H.264 視頻中的感興趣區域和對象進行去識別、遮蔽或替換。

原始數據流水線方案

70daa1ec-9b30-11ef-a511-92fbcf53809c.jpg

圖 4. 蔚來的數據流水線

圖 4 表示蔚來數據流水線的原始版本。NVDEC 用于解碼 H.264 視頻,生成 block linear 格式的 YUV 圖像。由于 block linear 是 NVIDIA 特有的內部格式,因此外部用戶無法直接處理這些圖像。VIC 引擎被用于將 block linear 圖像轉換為 pitch linear 格式,以便進一步處理。

接下來,使用 VIC 引擎進行色彩轉換(從 YUV 轉換為 RGB)以生成 RGB 圖像。然后,AI 模型會先對這些圖像進行分析,以檢測感興趣的物體。在 AI 模型為物體生成邊界框后,使用 VIC 或 CUDA 的后處理步驟將馬賽克或蒙版應用于原始 YUV pitch linear 圖像。

最后,使用 VIC 引擎將處理過的幀從 pitch linear 格式轉換回 block linear 格式,然后使用 NVENC 將其回編成 H.264 視頻。

使用 PVA 替換 CV 運算

在蔚來的案例中,GPU 和 VIC 的負載都很重。該流水線涉及多個 CV 運算,包括以下方面:

block linear 和 pitch linear 格式之間的布局轉換

從 YUV 到 RGB 的顏色轉換

加馬賽克和加掩碼

這些運算可以卸載到 PVA,以節省 GPU 和 VIC 的資源。

布局轉換和色彩轉換是 PVA 的內存受限任務,而 DMA 帶寬是瓶頸。可以使用 PVA 中的其他計算資源進行基于邊界框和 YUV PL 圖像的加馬賽克和加掩碼。

為了進一步加快執行速度,還可以并行運行 PVA 算法,由于每個 PVA 實例都包含兩個 VPU,每個 VPU 都有一個獨立的 DMA 控制器,用于與 DRAM 交換數據。

在實施 PVA 內核時,還可以采用其他幾種技術來提高整體性能,包括 DLUT、基于硬件的循環地址生成(AGEN)、乒乓緩沖區、循環展開等。

數據流水線優化

傳統數據處理流水線中的時延可能來自兩個方面:

在不同功能模塊或硬件加速器(例如本用例中的 PVA 和 DLA)之間復制數據會產生額外開銷。

執行和同步多個算法進程所需的額外同步開銷。

使用 NVIDIA DriveOS SDK 提供的 NvStreams 框架可以減少這些開銷。而 PVA 硬件加速器可以利用 PVA SDK 中的 NvSci 互通性 API 與 NvStreams 高效配合,實現零拷貝數據轉換和異步任務提交,從而將開銷降至最低。

零拷貝接口

不同硬件組件(例如 PVA 和 CPU)和應用對內存緩沖區有各自的訪問限制或要求。為了實現零拷貝的目標,可采用統一的內存架構,使加速器能夠與不同的應用在 NVIDIA DRIVE SoC 上共享同一物理內存。

在分配內存緩沖區之前,應收集和協調詳細的需求以確保所分配的內存緩沖區可在必要的模塊之間共享。該功能是通過 NvStreams API 實現的。

在成功分配可共享的內存緩沖區后,就能以零拷貝的方式進行不同硬件模塊或應用之間的數據轉換。這種解決方案適用于涉及進程間通信(IPC)或跨虛擬機(VM)的情況。如果是芯片間的數據傳輸,可在同一個 NvStreams 框架下使用高速 PCIe。

70fda854-9b30-11ef-a511-92fbcf53809c.jpg

圖 5. NVIDIA DRIVE SoC(Orin)架構

基于硬件加速器的調度

蔚來的數據流水線集成了多個硬件加速器,可以使用 NvSciSync 管理這些引擎之間的同步。NvSciSync 是 NVIDIA NvStreams 庫的一部分,通過管理同步對象來協調執行各種硬件組件的操作。

首先,在加速器上運行的任務之間插入同步點。當任務開始時,后續硬件加速器會在同步點等待,直到前面的任務完成。任務完成后,相應的硬件加速器會釋放同步點,自動觸發下一個加速器繼續執行任務。這一過程盡可能減少了 CPU 的占用,只需進行一些初始設置,并確保跨硬件引擎的高效同步。

基于 PVA 任務級別的調度

在原始流水線中,所有任務的提交和同步都由 CPU 逐個控制。這意味著 CPU 將任務提交給計算引擎,然后以同步的方式等待每個算法任務完成。

PVA 支持同時提交多個任務,并只等待最后一個任務。所有提交的 PVA 任務都將同時按照指定順序進行計算,直到所有任務完成。批量提交多個任務可減少與提交 PVA 任務相關的 CPU 負載,從而優化性能。這樣就能解放 CPU 處理其他重要的任務,并減少系統的整體時延。

借助 PVA SDK,用戶也可以為 PVA 算法指定調度策略以充分利用 PVA 實例上的兩個 VPU。例如,用戶可以指定在單顆 VPU 上執行某些算法。

同時使用兩個 VPU 時,如果任務之間有順序要求,可以在兩個 VPU 上依次設置要執行的任務。如果沒有順序要求,PVA 任務會在 VPU 空閑時立即執行。這大大降低了多任務的執行時延。

生產就緒

圖 6 顯示了蔚來使用 PVA 替換 CV 操作并將 DL 模型移植到 DLA 引擎后可用于生產的蔚來數據流水線。如需了解更多信息,請參閱《在 NVIDIA Jetson Orin 上部署 YOLOv5 與 cuDLA:量化感知訓練到推理》。

https://developer.nvidia.com/zh-cn/blog/deploying-yolov5-on-nvidia-jetson-orin-with-cudla-quantization-aware-training-to-inference/

711842ea-9b30-11ef-a511-92fbcf53809c.jpg

圖 6. 用于生產的數據流水線

在這個經過優化的流水線中,PVA 和 DLA 解決方案有效地滿足了業務需求。這種方法既可行又高效。從而使整體 GPU 資源利用率降低 10%,同時釋放 VIC 引擎用于系統內的其他高優先級任務。在 block linear 和 pitch linear 格式的轉換過程中,無需為臨時變量預先分配額外的內存,從而大大節省了內存。

根據蔚來的內部評估,在系統中運行該流水線時,PVA 在 1 個 VPU 實例上的負載約為 50%。由于 1 個 PVA 包含兩個 VPU,蔚來數據流水線中的 PVA 總負載約為 25%。這表明 PVA 仍有可用的算力處理該流水線中的其他任務。

進一步優化

7136a17c-9b30-11ef-a511-92fbcf53809c.jpg

圖 7. 用于進一步優化的數據流水線

為了進一步優化該流水線,可以采取以下步驟:

使用 PVA 將 DLA 替換為簡單的深度學習模型,因為 PVA 目前僅有約 25% 的使用率。內部測試表明,Yolo-Fastest 網絡可以成功移植到 PVA 上,并且其檢測對象的能力符合預期。

考慮將預處理、深度學習推理和后處理階段合并到單顆 PVA 內核中,這樣就不需要在內核之間進行額外的 DMA 傳輸,從而降低 DMA 總帶寬。

結語

基于 PVA 的優化解決方案顯著提高了蔚來的性能,并被廣泛應用于蔚來的量產車型中。通過將任務卸載到 PVA,可以解放 GPU 計算資源,從而加速深度學習計算并使用戶能夠實施更加復雜的深度學習網絡。

蔚來正在積極借助 PVA SDK 在 PVA 上開發更高效的 PVA 算法,以便充分利用 NVIDIA DRIVE 平臺的額外算力,提高其產品的智能和競爭力。

總之,PVA 提供了強大的工具來解決自動駕駛汽車開發中的計算問題,從而能夠更高效、更有效地處理復雜的視覺任務,并提高整體系統性能。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    4949

    瀏覽量

    102828
  • PVA
    PVA
    +關注

    關注

    0

    文章

    19

    瀏覽量

    11829
  • 汽車系統
    +關注

    關注

    1

    文章

    133

    瀏覽量

    19719
  • SDK
    SDK
    +關注

    關注

    3

    文章

    1029

    瀏覽量

    45782
  • 自動駕駛
    +關注

    關注

    783

    文章

    13694

    瀏覽量

    166167

原文標題:使用 PVA 引擎優化自動駕駛汽車 CV 開發流水線

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    谷歌的自動駕駛汽車是醬紫實現的嗎?

    看到新聞報道說谷歌自動駕駛汽車已經行駛近30萬公里了,非常的強大~~上次參加了重慶新能源汽車峰會,對會上富士通半導體宣講的一款全景視頻汽車實時監控技術平臺似乎看到了
    發表于 06-14 16:15

    汽車自動駕駛技術

    請問各位老鳥我是新手汽車自動駕駛技術是怎么回事,是用什么板子開發的需要應用哪些技術和知識。提問題提得不是很好請各位見諒
    發表于 04-14 20:44

    自動駕駛汽車的處理能力怎么樣?

    作在未來20 - 30年中,自動駕駛汽車(AV)將改變我們的駕駛習慣、運輸行業并更廣泛地影響社會。 我們不僅能夠將汽車召喚到我們的家門口并在使用后將其送走,
    發表于 08-07 07:13

    什么是流水線技術

    什么是流水線技術 流水線技術
    發表于 02-04 10:21 ?3917次閱讀

    電鍍流水線的PLC控制

    電鍍流水線的PLC控制電鍍流水線的PLC控制電鍍流水線的PLC控制
    發表于 02-17 17:13 ?36次下載

    電能計量設備自動檢定流水線調度優化研究_方彥軍

    電能計量設備自動檢定流水線調度優化研究_方彥軍
    發表于 01-18 20:23 ?1次下載

    淺談GPU的渲染流水線實現

    顏色表示了不同階段的可配置性或可編程性:綠色表示該流水線階段是完全可編程控制的,黃色表示該流水線階段可以配置但不是可編程的,藍色表示該流水線階段是由GPU固定實現的,開發者沒有任何控制
    發表于 05-04 09:16 ?3810次閱讀
    淺談GPU的渲染<b class='flag-5'>流水線</b>實現

    如何利用樂高積木制作成自動流水線

    自動流水線是一個統稱,包括組裝流水線、皮帶流水線、鏈板線、插件線等等,主要通過自動化系統來操作運行,不需要人工操作。
    的頭像 發表于 05-22 06:06 ?6754次閱讀

    各種流水線特點及常見流水線設計方式

    按照流水線的輸送方式大體可以分為:皮帶流水裝配線、板鏈線、倍速鏈、插件線、網帶線、懸掛線及滾筒流水線這七類流水線
    的頭像 發表于 07-05 11:12 ?7260次閱讀
    各種<b class='flag-5'>流水線</b>特點及常見<b class='flag-5'>流水線</b>設計方式

    如何選擇合適的LED生產流水線輸送方式

    LED生產流水線輸送形式分為平面直線傳輸流水線、各種角度平面轉彎傳輸流水線、斜面上傳流水線、斜面下傳流水線這四種輸送方式,企業也是可以根據L
    發表于 08-06 11:53 ?1008次閱讀

    基于非常簡單的Python代碼就能完成流水線開發

    Mara-pipelines 是一個輕量級的數據轉換框架,具有透明和低復雜性的特點。其他特點如下: 基于非常簡單的Python代碼就能完成流水線開發。 使用 PostgreSQL 作為數據處理引擎
    的頭像 發表于 11-16 18:20 ?2881次閱讀

    什么是流水線 Jenkins的流水線詳解

    jenkins 有 2 種流水線分為聲明式流水線與腳本化流水線,腳本化流水線是 jenkins 舊版本使用的流水線腳本,新版本 Jenkin
    發表于 05-17 16:57 ?1056次閱讀

    NIO的自動駕駛AI推理工作流

    自動駕駛的最優 AI 推理流水線設計
    的頭像 發表于 07-05 16:30 ?540次閱讀
    NIO的<b class='flag-5'>自動駕駛</b>AI推理工作流

    超級方便的輕量級Python流水線工具

    Mara-pipelines 是一個輕量級的數據轉換框架,具有透明和低復雜性的特點。其他特點如下: 基于非常簡單的Python代碼就能完成流水線開發。 使用 PostgreSQL 作為數據處理引擎
    的頭像 發表于 10-31 11:26 ?627次閱讀
    超級方便的輕量級Python<b class='flag-5'>流水線</b>工具

    SMT流水線布局優化技巧

    在電子制造領域,SMT(表面貼裝技術)流水線的布局優化對于提高生產效率、降低成本和提升產品質量至關重要。一個合理的流水線布局可以減少物料搬運時間,提高設備利用率,減少人為錯誤,并且提高整體的生產
    的頭像 發表于 11-14 09:11 ?242次閱讀