精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

使用CUTLASS實現高性能矩陣乘法

星星科技指導員 ? 來源:NVIDIA ? 作者:Matthew Nicely ? 2022-04-15 10:03 ? 次閱讀

CUTLASS 是 CUDA C ++模板抽象的集合,用于在 CUDA 的所有級別和規模上實現高性能矩陣乘法( GEMM )。它結合了分層分解和數據移動的策略,類似于用于實現cuBLAS的策略。

CUTLASS 將這些“運動部件”分解為 C ++模板類抽象的可重用和模塊化的軟件組件。這些線程范圍、扭曲范圍、塊范圍和設備范圍的原語可以通過自定義平鋪大小、數據類型和其他算法策略進行專門化和調優。由此產生的靈活性簡化了它們在定制內核和應用程序中作為構建塊的使用。

為了支持多種應用程序, CUTLASS 為混合精度計算提供了廣泛的支持,提供了專門的數據移動,并為以下各項提供了多重累積抽象:

半精度浮點(FP16)、 BFloat16 (BF16)和張量浮點 32 (TF32)數據類型。

單精度浮點(FP32)數據類型。

雙精度浮點(FP64)數據類型。

整數數據類型(4b和8b)。

二進制數據類型(1b)。

此外, CUTLASS 演示了針對 NVIDIA Volta 、 Turing 和 Ampere 體系結構上實現的可編程、高通Tensor 核的扭曲同步矩陣乘法操作。

CUTLASS 實現了高性能卷積(隱式 GEMM )。隱式 GEMM 是作為 GEMM 的卷積運算的公式。這允許 Cutslass 通過重用高度優化的 warp-wide GEMM 組件和以下組件來構建卷積。

關于作者

Matthew Nicely 于 2019 年 3 月加入 NVIDIA ,之前曾在美國 AL-Huntsville 的美國陸軍航空和導彈研究開發與工程中心工作。在那里,他專注于 CUDA 算法開發和 Jetson 系列的優化。在 NVIDIA ,他曾在聯邦部門工作,協助 CUDA 的開發和優化,以及在各種 NVIDIA 工具集上為客戶提供教育和概念驗證,最近轉為 math libraries 產品經理。 2019 年,他獲得了博士學位。計算機工程學位,專注于 GPU 的算法優化。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    4940

    瀏覽量

    102817
  • CUDA
    +關注

    關注

    0

    文章

    121

    瀏覽量

    13600
收藏 人收藏

    評論

    相關推薦

    XD08M3232紅外感應單片機擁有哪些配置實現高性能處理能力

    的應用,自帶恒流驅動電路可以避免光衰等問題,確保輸入信號的穩定性。穩定的輸入信號有助于后續的信號處理,減少因信號波動而帶來的額外處理負擔,使得單片機可以更高效地對數據進行處理,從而有助于實現高性能的處理能力
    發表于 11-23 15:08

    精密脈沖焊接技術的革新:探究高性能精密脈沖焊接電源的應用與實現

    隨著科技的發展和制造業對高品質、高精度焊接需求的增長,精密脈沖焊接技術在工業生產中的地位愈發重要。本文將深入探討高性能精密脈沖焊接電源的應用及其在實際工程中的實現路徑。 一、引言 精密
    的頭像 發表于 11-16 09:27 ?173次閱讀

    AI高性能計算平臺是什么

    AI高性能計算平臺不僅是AI技術發展的基石,更是推動AI應用落地、加速產業升級的重要工具。以下,是對AI高性能計算平臺的介紹,由AI部落小編為您整理分享。
    的頭像 發表于 11-11 09:56 ?126次閱讀

    XD08M3232紅外感應單片機擁有哪些配置實現高性能處理能力

    關于XD08M3232單片機采用哪些配置實現高性能處理能力并沒有直接搜索結果提及。如下: 一、內核方面 增強型1T8051內核**** :XD08M3232是一款8位高性能Flash的接近感應單片機
    發表于 11-07 14:04

    Wolfspeed碳化硅助力實現高性能功率系統

    Wolfspeed碳化硅助力實現高性能功率系統
    發表于 10-24 10:51 ?0次下載

    請問如何用VCA810實現模擬乘法器?

    我在《德州儀器高性能單片機和模擬器件在高校中的應用和選型指南》中看見,書中說VCA810可以做為模擬乘法器使用,但是應用手冊里的公式卻不是V0=VC*Vin,而是一個帶指數向的公式,所以我很好
    發表于 09-23 07:11

    克服設計難題-實現高性能接口

    電子發燒友網站提供《克服設計難題-實現高性能接口.pdf》資料免費下載
    發表于 08-28 09:41 ?0次下載
    克服設計難題-<b class='flag-5'>實現</b><b class='flag-5'>高性能</b>接口

    帶你了解什么是高性能計算(HPC)

    受益于HPC更高的速度處理大量數據的能力,全球正在進入HPC大周期,高性能計算的發展水平已經成為衡量一個國家綜合實力和高科技發展水平的重要標志,美國、歐盟、日本、英國都高度重視高性能計算的發展,并在
    的頭像 發表于 07-20 08:28 ?512次閱讀
    帶你了解什么是<b class='flag-5'>高性能</b>計算(HPC)

    高性能計算集群的能耗優化

    高性能計算(HighPerformanceComputing,HPC)是指利用大規模并行計算機集群來解決復雜的科學和工程問題的技術。高性能計算集群的應用領域非常廣泛,包括天氣預報、生物信息學
    的頭像 發表于 05-25 08:27 ?384次閱讀
    <b class='flag-5'>高性能</b>計算集群的能耗優化

    構建高性能計算芯片

    計算的異構多核架構,對整個芯片行業的高性能 CPU 開發產生了影響。 這些芯片都不太可能進行商業銷售。它們針對特定的數據類型和工作負載進行了優化,設計預算龐大,但可以通過提高性能和降低功耗來實現合理化。目標是在更小的面積上容納更
    的頭像 發表于 04-25 10:23 ?1278次閱讀
    構建<b class='flag-5'>高性能</b>計算芯片

    大電流、高性能LED矩陣驅動器LP5866T數據表

    電子發燒友網站提供《大電流、高性能LED矩陣驅動器LP5866T數據表.pdf》資料免費下載
    發表于 03-22 16:11 ?0次下載
    大電流、<b class='flag-5'>高性能</b>LED<b class='flag-5'>矩陣</b>驅動器LP5866T數據表

    NVMe Host Controller IP實現高性能存儲解決方案

    電子發燒友網站提供《NVMe Host Controller IP實現高性能存儲解決方案.pdf》資料免費下載
    發表于 02-21 14:28 ?1次下載

    矩陣式變換器的拓撲結構和工作原理 矩陣式變換器的控制策略和仿真分析

    利用PSIM仿真軟件對所設計的控制策略進行了驗證,仿真結果證實,所設計的控制策略具有變頻特性良好、諧波含量少、波形正弦性好等優勢。該矩陣式變流器控制策略對高性能電力電子裝置設計具有實際意義。
    的頭像 發表于 12-26 14:07 ?2755次閱讀
    <b class='flag-5'>矩陣</b>式變換器的拓撲結構和工作原理 <b class='flag-5'>矩陣</b>式變換器的控制策略和仿真分析

    詳解CUTLASS的工作原理

    嗨,我們要開始了。我叫馬修·尼斯利。我是NVIDIA的深度學習compiler PM,今天我將介紹一些針對NVIDIA Tensorcores的使用方法。首先我要講一下Cutlass。我會給你一些
    的頭像 發表于 12-26 09:49 ?1771次閱讀
    詳解<b class='flag-5'>CUTLASS</b>的工作原理

    混合矩陣是干什么用的?高清混合矩陣怎么使用?

    混合矩陣是干什么用的?高清混合矩陣怎么使用? 混合矩陣(confusion matrix),也被稱為錯誤矩陣(error matrix),是用來評估分類模型
    的頭像 發表于 12-04 14:40 ?1016次閱讀