精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人

Merlin HugeCTR(以下簡稱 HugeCTR)是 GPU 加速的推薦程序框架，旨在在多個 GPU 和節點之間分配訓練并估計點擊率(Click-through rate)。

此次v3.4更新涉及的模塊主要為：

HugeCTR 分級參數服務器

HugeCTR Python API

相關介紹：

HugeCTR 分級參數服務器介紹

V3.4.1 版本新增內容

調整了整個代碼庫中日志消息的日志級別。

現已支持對具有多個標簽的數據集進行推理：

“Softmax” 層現在已支持 FP16，并且支持混合精度以進行多標簽推理。

支持多 GPU 離線推理：

我們通過 Python 接口支持多 GPU 離線推理，它可以利用Hierarchical Parameter Server

并在多個設備上實現并發執行。更多信息請參考推理 API和多 GPU 離線推理筆記本。

HPS 已構建為獨立庫：

我們重構了代碼庫并將分層參數服務器構建為一個獨立的庫，以后會進一步封裝。

metadata.json 簡介：

添加了有關 Parquet data 中 _metadata.json 的詳細信息。

增加了用于估計每個 GPU 的詞匯量大小的文檔和工具：

我們添加了一個工具來計算每個 GPU 的不同嵌入類型的詞匯量大小，在此基礎上，workspace_size_per_gpu_in_mb 可以根據嵌入向量大小和優化器類型評估更多信息請參考腳本：

訓練中支持 HDFS ：

a. 現在支持從 HDFS 加載和存儲模型和優化器狀態。

b. 增加了編譯選項使 HDFS 的支持更加靈活。

c. 添加了一個筆記本來展示如何將 HugeCTR 與 HDFS 一起使用：

增加了一個演示如何分析模型文件的 Python 腳本和筆記本

錯誤修復：修復了SOK 中的鏡像策略錯誤。

修復了無法在nvcr.io/nvidia/merlin/merlin-tensorflow-training:22.02 中導入稀疏操作工具包的問題。

HugeCTR 參數服務器：修復了在未配置 RocksDB 時，可能會在初始化期間發生的訪問沖突問題。

已知問題

HugeCTR 使用 NCCL 在 rank 之間共享數據，并且 NCCL 可能需要共享系統內存用于 IPC 和固定(頁面鎖定)系統內存資源。在容器內使用 NCCL 時，建議您通過發出以下命令(-shm-size=1g -ulimit memlock=-1) 來增加這些資源。

另見 NCCL 的已知問題

還有 GitHub 問題

目前即使目標 Kafka broker 無響應，KafkaProducers 啟動也會成功。為了避免與來自 Kafka 的流模型更新相關的數據丟失，您必須確保有足夠數量的 Kafka brokers 啟動、正常工作并且可以從運行 HugeCTR 的節點訪問。

文件列表中的數據文件數量應不小于數據讀取器的數量。否則，不同的 worker 將被映射到同一個文件，從而導致數據加載不會按預期進行。

正則化器暫不支持聯合損失訓練。

原文標題：Merlin HugeCTR v3.4.1 發布說明

文章出處：【微信公眾號：NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。

審核編輯：湯梓紅

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

接口

接口

+關注

關注
33

文章
8497

瀏覽量
150835
gpu

gpu

+關注

關注
28

文章
4701

瀏覽量
128706
工具包

工具包

+關注

關注
0

文章
46

瀏覽量
9524

原文標題：Merlin HugeCTR v3.4.1 發布說明

文章出處：【微信號：NVIDIA_China，微信公眾號：NVIDIA英偉達】歡迎添加關注！文章轉載請注明出處。

PyTorch GPU 加速訓練模型方法

在深度學習領域，GPU加速訓練模型已經成為提高訓練效率和縮短訓練時間的重要手段。PyTorch作為一個流行的深度學習框架，提供了豐富的工具和方法來利用GPU進行模型訓練。 1. 了解

發表于 11-05 17:43 ?449次閱讀

【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】--了解算力芯片GPU

每個CUDA單元在 OpenCL 編程框架中都有對應的單元。倒金字塔結構GPU存儲體系共享內存是開發者可配置的編程資源，使用門檻較高，編程上需要更多的人工顯式處理。在并行計算架構中，線程

發表于 11-03 12:55

常見GPU問題及解決方法

各種問題。以下是一些常見的GPU問題及其解決方法： GPU驅動程序過時或不兼容問題描述：GPU驅動程序是

發表于 10-27 14:12 ?698次閱讀

GPU深度學習應用案例

GPU在深度學習中的應用廣泛且重要，以下是一些GPU深度學習應用案例：一、圖像識別圖像識別是深度學習的核心應用領域之一，GPU在加速圖像識別模型訓練方面發揮著關鍵作用。通過利用

發表于 10-27 11:13 ?328次閱讀

GPU超頻設置技巧

技巧：了解你的硬件：在超頻之前，了解你的GPU型號和規格是非常重要的。不同的GPU有不同的超頻潛力。檢查GPU的默認頻率和電壓，以及制造商推薦的超頻范圍。更新驅動程序：確

發表于 10-27 11:09 ?297次閱讀

GPU加速計算平臺是什么

GPU加速計算平臺，簡而言之，是利用圖形處理器（GPU）的強大并行計算能力來加速科學計算、數據分析、機器學習等復雜計算任務的軟硬件結合系統。

發表于 10-25 09:23 ?215次閱讀

有沒有大佬知道NI vision 有沒有辦法通過gpu和cuda來加速圖像處理

有沒有大佬知道NI vision 有沒有辦法通過gpu和cuda來加速圖像處理

發表于 10-20 09:14

深度學習GPU加速效果如何

圖形處理器（GPU）憑借其強大的并行計算能力，成為加速深度學習任務的理想選擇。

發表于 10-17 10:07 ?154次閱讀

SOK在手機行業的應用案例

通過封裝 NVIDIA Merlin HugeCTR，Sparse Operation Kit（以下簡稱 SOK）使得 TensorFlow 用戶可以借助 HugeCTR 的一些相關特性和優化

發表于 07-25 10:01 ?301次閱讀

鴻蒙Ability Kit（程序框架服務）【應用啟動框架AppStartup】

`AppStartup`提供了一種更加簡單高效的初始化組件的方式，支持異步初始化組件加速應用的啟動時間。使用啟動框架應用開發者只需要分別為待初始化的組件實現`AppStartup`提供

發表于 06-10 18:38 ?667次閱讀

美國Merlin公司加速自主飛行模擬器開發

美國Merlin公司正全力加速自主飛行模擬器的開發進程，以推動航空領域的創新與發展。這一舉措不僅體現了Merlin公司在技術研發方面的雄厚實力，也預示著自主飛行技術即將迎來新的突破。

發表于 04-22 11:30 ?573次閱讀

利用NVIDIA組件提升GPU推理的吞吐

本實踐中，唯品會 AI 平臺與 NVIDIA 團隊合作，結合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）將推理的稠密網絡和熱 Embedding 全置于 GPU 上進行加速

發表于 04-20 09:39 ?645次閱讀

GPU CUDA 編程的基本原理是什么

神經網絡能加速的有很多，當然使用硬件加速是最可觀的了，而目前除了專用的NPU（神經網絡加速單元），就屬于GPU對神經網絡加速效果最好了

發表于 03-05 10:26 ?737次閱讀

利用GPU加速在Orange Pi?5上跑LLMs：人工智能愛好者High翻了！

本期視頻將會給人工智能愛好者們帶來超級震撼！視頻中，我們將深入了解利用GPU加速在OrangePi5上跑LLMs的精彩世界。最近知乎上的一篇文章《利用GPU加速，在OrangePi上跑

發表于 01-22 15:29 ?938次閱讀

OpenHarmony開源GPU庫Mesa3D適配說明

，對下使用Gallium框架，屏蔽驅動差異。在RK3568中，panfrost對ARM GPU提供了非常好的開源驅動支持。二、適配方法在RK3568 GPU 開源庫mesa3D適配時，我們同時依賴

發表于 12-25 11:38

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

GPU加速的推薦程序框架Merlin HugeCTR

評論

PyTorch GPU 加速訓練模型方法

【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】--了解算力芯片GPU

常見GPU問題及解決方法

GPU深度學習應用案例

GPU超頻設置技巧

GPU加速計算平臺是什么

有沒有大佬知道NI vision 有沒有辦法通過gpu和cuda來加速圖像處理

深度學習GPU加速效果如何

SOK在手機行業的應用案例

鴻蒙Ability Kit（程序框架服務）【應用啟動框架AppStartup】

美國Merlin公司加速自主飛行模擬器開發

利用NVIDIA組件提升GPU推理的吞吐

GPU CUDA 編程的基本原理是什么

利用GPU加速在Orange Pi?5上跑LLMs：人工智能愛好者High翻了！

OpenHarmony開源GPU庫Mesa3D適配說明