精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

優化用于深度學習工作負載的張量程序

DPVg_AI_era ? 來源:未知 ? 作者:胡薇 ? 2018-05-23 15:32 ? 次閱讀

華盛頓大學計算機系博士生陳天奇、以及上海交通大學和復旦大學的研究團隊提出一個基于學習的框架,以優化用于深度學習工作負載的張量程序。該研究使用基于機器學習的方法來自動優化張量運算核心并編譯AI工作負載,從而可以將最優的性能部署到所有硬件。實驗結果表明,該框架能夠為低功耗CPU,移動GPU和服務器級GPU提供與最先進手工調優庫相媲美的性能。

深度學習在我們的日常生活中已經無處不在。深度學習模型現在可以識別圖像,理解自然語言,玩游戲,以及自動化系統決策(例如設備放置和索引)。張量算符(tensor operators),如矩陣乘法和高維卷積,是深度學習模型的基本組成部分。

可擴展的學習系統依賴于手動優化的高性能張量操作庫,如cuDNN。這些庫針對較窄范圍的硬件進行了優化。為了優化張量算符,程序員需要從邏輯上等價的許多實現中進行選擇,但由于線程,內存重用, pipelining和其他硬件因素的不同,性能上的差別很大。

支持多種硬件后端需要巨大的工程努力。即使在當前支持的硬件上,深度學習框架和模型的開發也從根本上受到庫中優化操作符設置的限制,阻止了諸如操作符熔合(operator fusion)之類的優化,從而產生不受支持的操作符。

針對這個問題,華盛頓大學計算機系博士生陳天奇、以及上海交通大學和復旦大學的研究團隊提出一個基于學習的框架,以優化用于深度學習工作負載的張量程序( tensor programs)。

摘要

我們提出一個基于學習的框架,以優化用于深度學習工作負載的張量程序( tensor programs)。矩陣乘法和高維卷積等張量算符( tensor operators)的高效實現是有效的深度學習系統的關鍵。然而,現有的系統依賴于手工優化的庫,如cuDNN,這些庫只有很少的服務器級GPU能很好地支持。對硬件有要求的操作庫的依賴限制了高級圖形優化的適用性,并且在部署到新的硬件目標時會產生巨大的工程成本。我們利用學習來消除這種工程負擔。我們學習了領域特定的統計成本模型,以指導在數十億可能的程序變體上搜索張量算符的實現。我們通過跨工作負載的有效模型遷移來進一步加快搜索速度。

實驗結果表明,我們的框架能夠為低功耗CPU,移動GPU和服務器級GPU提供與最先進手工調優庫相媲美的性能。

學習優化張量程序問題的形式化方法

我們提出以下問題:我們是否可以通過學習來減輕這種工程負擔,并自動優化給定硬件平臺的張量算符程序?本論文為這個問題提供了肯定的答案。我們建立了統計成本模型來預測給定的低級程序的程序運行時間。這些成本模型指導了對可能程序空間的探索。我們的成本模型使用可遷移的表示形式,可以在不同的工作負載之間進行泛化,以加速搜索。這一工作的貢獻如下:

我們提供了學習優化張量程序問題的一種形式化方法,并總結了其關鍵特征。

我們提出了一個基于機器學習的框架來解決這個新問題。

我們使用遷移學習將優化速度進一步提高2倍至10倍。

我們在這個框架中提供了詳細的組件設計選擇和實證分析。

在實際的深度學習工作負載的實驗結果表明,我們的框架提供的端到端性能改進比現有框架好1.2倍至3.8倍。

圖1:該問題的一個例子。 對于給定的張量算符規范 ,有多種可能的低級別程序實現,每種實現都有不同的loop順序, tiling 大小以及其他選項。每個選項都創建一個具有不同性能的邏輯等效程序。我們的問題是探索程序空間并找到一個優化的程序。

圖2:學習優化張量程序框架的概覽

學習優化張量程序算法

圖3:編碼低級別循環AST的可能方法的示例

表1:單batch的ResNet-18推理中所有conv2d操作符的配置。H,W表示高度和寬度,IC表示輸入通道,OC表示輸出通道,K表示 kernel大小,以及S表示stride大小。

討論和結論

我們提出了一種基于機器學習的框架來自動優化深度學習系統中張量算符的實現。我們的統計成本模型允許在工作負載之間進行有效的模型共享,并通過模型遷移加速優化過程。這個新方法的優秀實驗結果顯示了對深度學習部署的好處。

在我們的解決方案框架之外,這個新問題的具體特征使它成為相關領域創新的一個理想測試平臺,如神經程序建模、貝葉斯優化、遷移學習和強化學習。

在系統方面,學習優化張量程序可以使更多的融合操作符、數據布局和數據類型跨不同的硬件后端。這些改進對于改進深度學習系統至關重要。我們將開放我們的實驗框架,以鼓勵在這些方向進行更多的研究。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 深度學習
    +關注

    關注

    73

    文章

    5492

    瀏覽量

    120978

原文標題:陳天奇團隊新研究:自動優化深度學習工作負載

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    NPU在深度學習中的應用

    設計的硬件加速器,它在深度學習中的應用日益廣泛。 1. NPU的基本概念 NPU是一種專門針對深度學習算法優化的處理器,它與傳統的CPU和G
    的頭像 發表于 11-14 15:17 ?298次閱讀

    pcie在深度學習中的應用

    深度學習模型通常需要大量的數據和強大的計算能力來訓練。傳統的CPU計算資源有限,難以滿足深度學習的需求。因此,GPU(圖形處理單元)和TPU(張量
    的頭像 發表于 11-13 10:39 ?289次閱讀

    深度學習模型的魯棒性優化

    深度學習模型的魯棒性優化是一個復雜但至關重要的任務,它涉及多個方面的技術和策略。以下是一些關鍵的優化方法: 一、數據預處理與增強 數據清洗 :去除數據中的噪聲和異常值,這是提高模型魯棒
    的頭像 發表于 11-11 10:25 ?156次閱讀

    GPU深度學習應用案例

    能力,可以顯著提高圖像識別模型的訓練速度和準確性。例如,在人臉識別、自動駕駛等領域,GPU被廣泛應用于加速深度學習模型的訓練和推理過程。 二、自然語言處理 自然語言處理(NLP)是深度
    的頭像 發表于 10-27 11:13 ?328次閱讀

    FPGA做深度學習能走多遠?

    的發展前景較為廣闊,但也面臨一些挑戰。以下是一些關于 FPGA 在深度學習中應用前景的觀點,僅供參考: ? 優勢方面: ? 高度定制化的計算架構:FPGA 可以根據深度學習算法的特殊需
    發表于 09-27 20:53

    AI引擎機器學習陣列指南

    云端動態工作負載以及超高帶寬網絡,同時還可提供高級安全性功能。AI 和數據科學家以及軟硬件開發者均可充分利用高計算密度的優勢來加速提升任何應用的性能。AI 引擎機器學習擁有先進的張量
    的頭像 發表于 09-18 09:16 ?308次閱讀
    AI引擎機器<b class='flag-5'>學習</b>陣列指南

    深度學習算法在嵌入式平臺上的部署

    隨著人工智能技術的飛速發展,深度學習算法在各個領域的應用日益廣泛。然而,將深度學習算法部署到資源受限的嵌入式平臺上,仍然是一個具有挑戰性的任務。本文將從嵌入式平臺的特點、
    的頭像 發表于 07-15 10:03 ?1179次閱讀

    深度學習中的時間序列分類方法

    時間序列分類(Time Series Classification, TSC)是機器學習深度學習領域的重要任務之一,廣泛應用于人體活動識別、系統監測、金融預測、醫療診斷等多個領域。隨
    的頭像 發表于 07-09 15:54 ?707次閱讀

    深度學習中的模型權重

    深度學習這一充滿無限可能性的領域中,模型權重(Weights)作為其核心組成部分,扮演著至關重要的角色。它們不僅是模型學習的基石,更是模型智能的源泉。本文將從模型權重的定義、作用、優化
    的頭像 發表于 07-04 11:49 ?948次閱讀

    深度學習模型訓練過程詳解

    深度學習模型訓練是一個復雜且關鍵的過程,它涉及大量的數據、計算資源和精心設計的算法。訓練一個深度學習模型,本質上是通過優化算法調整模型參數,
    的頭像 發表于 07-01 16:13 ?1092次閱讀

    深度學習的模型優化與調試方法

    深度學習模型在訓練過程中,往往會遇到各種問題和挑戰,如過擬合、欠擬合、梯度消失或爆炸等。因此,對深度學習模型進行優化與調試是確保其性能優越的
    的頭像 發表于 07-01 11:41 ?700次閱讀

    深度學習編譯工具鏈中的核心——圖優化

    等,需要調整優化網絡中使用的算子或算子組合,這就是深度學習編譯工具鏈中的核心——圖優化。圖優化是指對深度
    的頭像 發表于 05-16 14:24 ?844次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學習</b>編譯工具鏈中的核心——圖<b class='flag-5'>優化</b>

    傳統計算機視覺對比深度學習

    深度學習是一種技術,它使用一種稱為梯度反向傳播的優化技術來生成“程序”(也稱為“神經網絡”),就像上面故事中學者學生編寫的那些程序一樣。
    發表于 03-31 09:48 ?432次閱讀

    最常見的直流負載工作方式

    最常見的直流負載工作方式? 直流負載工作方式是指在直流電路中使用的各種負載方式。直流負載
    的頭像 發表于 01-18 15:12 ?698次閱讀

    目前主流的深度學習算法模型和應用案例

    深度學習在科學計算中獲得了廣泛的普及,其算法被廣泛用于解決復雜問題的行業。所有深度學習算法都使用不同類型的神經網絡來執行特定任務。
    的頭像 發表于 01-03 10:28 ?1767次閱讀
    目前主流的<b class='flag-5'>深度</b><b class='flag-5'>學習</b>算法模型和應用案例