国产另类无码专区_好吊妞国产欧美日韩免费观看在线播放_国产一区二区三区成人久久片老牛

世界頂尖科技公司的工程師常常發(fā)現(xiàn)，為了滿足公司的獨特需求，他們不得不為現(xiàn)有軟件基礎(chǔ)上開發(fā)定制替代方案。

近日，Uber將自己的Horovod(一個跨多臺機器的分布式深度學(xué)習(xí)訓(xùn)練框架)引入開源項目LF深度學(xué)習(xí)基金會。Uber利用Horovod支持自動駕駛汽車、欺詐檢測和出行預(yù)測，該項目的貢獻者包括Amazon、IBM、Intel和Nvidia。

Horovod是一個分布式的TensorFlow訓(xùn)練框架，目標(biāo)是使分布式深度學(xué)習(xí)快速且易于使用。在Uber內(nèi)部，他們發(fā)現(xiàn)MPI模型比帶參數(shù)服務(wù)器的分布式TensorFlow簡單得多，所需的代碼更改也少得多。

除了Uber，阿里巴巴、亞馬遜和Nvidia也在使用Horovod。Horovod項目可以與TensorFlow、Keras和PyTorch等流行框架一起使用。

Uber上個月加入了Linux基金會，并加入了AT&T和諾基亞等其他科技公司的行列，支持LF深度學(xué)習(xí)基金會的開源項目。LF深度學(xué)習(xí)基金會成立于3月，旨在支持針對深度學(xué)習(xí)和機器學(xué)習(xí)的開源項目，是Linux基金會的一部分。

自該基金會成立以來，其他項目還包括機器學(xué)習(xí)平臺Angel和彈性深度學(xué)習(xí)(Elastic Deep learning)，這是一個幫助云服務(wù)提供商利用TensorFlow等框架制作云集群服務(wù)的項目。

根據(jù)Uber的說法，Horovod讓開發(fā)人員只需幾行代碼就可以完成任務(wù)。這不僅加快了初始修改過程，而且進一步簡化了調(diào)試。考慮到深度學(xué)習(xí)項目的高度迭代性，這同樣可以節(jié)省大量時間。

在過去的幾年里，深度學(xué)習(xí)的進步推動了圖像處理、語音識別和預(yù)測的巨大進步。在Uber，深度學(xué)習(xí)應(yīng)用于整個業(yè)務(wù)，從自動駕駛研究到出行預(yù)測和欺詐預(yù)防，并為用戶創(chuàng)造更好的體驗。

由于種種原因，TensorFlow已經(jīng)成為Uber首選的深度學(xué)習(xí)庫。首先，該框架是用于深度學(xué)習(xí)的最廣泛使用的開源框架之一，這使得新用戶很容易上手。

它還結(jié)合了高性能和修補低級模型細節(jié)的能力——例如，可以同時使用高級api，如Keras，并使用NVIDIA的CUDA工具包實現(xiàn)自己的自定義操作符。

此外，TensorFlow還支持各種深度學(xué)習(xí)用例的端到端支持，從進行探索性研究到將模型部署到云服務(wù)器、移動應(yīng)用程序甚至自動駕駛汽車上。

去年，Uber Engineering推出了米開朗基羅(Michelangelo)，這是一個內(nèi)部的“mvc即服務(wù)”(mvc -as-a-service)平臺，它讓機器學(xué)習(xí)自主化，讓大規(guī)模構(gòu)建和部署這些系統(tǒng)變得容易。

Horovod正是這個米開朗基羅復(fù)雜平臺的組成部分，Uber開發(fā)這個平臺是為了為其內(nèi)部的深度學(xué)習(xí)努力奠定基礎(chǔ)。該公司將該軟件描述為管理AI開發(fā)生命周期各個方面的端到端系統(tǒng)。

鑒于Uber此次宣布開放Horovod，它可能還會隨著時間的推移發(fā)布米開朗基羅其他組件的代碼。

Horovod的出現(xiàn)，也反應(yīng)不同企業(yè)在縱深涉及深度學(xué)習(xí)時遇到了不少問題。

隨著Uber使用越來越多的機器學(xué)習(xí)模型，它們的規(guī)模和數(shù)據(jù)消耗顯著增長。在大多數(shù)情況下，模型仍然足夠小，可以容納一個服務(wù)器中的一個或多個GPU，但是隨著數(shù)據(jù)集的增長，訓(xùn)練時間也在增加，有時需要一周甚至更長時間。

此后，Uber轉(zhuǎn)向了分布式深度學(xué)習(xí)訓(xùn)練。標(biāo)準(zhǔn)的分布式TensorFlow包引入了許多新概念：workers、參數(shù)服務(wù)器、tf.Server()、tf.ClusterSpec()、tf.train. syncreasoptimizer()和tf.train.replicas_device_setter()等等。雖然對某些場景有益，但這也引入了難以診斷的bug，從而減慢了訓(xùn)練速度。

第二個問題是關(guān)于Uber規(guī)模計算的挑戰(zhàn)。在運行了一些基準(zhǔn)測試之后，他們發(fā)現(xiàn)不能使標(biāo)準(zhǔn)的分布式TensorFlow按比例擴展，以及需要的服務(wù)。例如，在128個GPU上進行訓(xùn)練時，由于效率低下，損失了大約一半的資源。

當(dāng)Uber在128個NVIDIA Pascal GPU上運行標(biāo)準(zhǔn)的TensorFlow基準(zhǔn)測試套件時，他們發(fā)現(xiàn)Inception V3和ResNet-101模型都無法利用將近一半的GPU資源。

標(biāo)準(zhǔn)的分布式TensorFlow包使用參數(shù)服務(wù)器方法來平均梯度。在這種方法中，每個流程都有兩個潛在角色之一：Worker或參數(shù)服務(wù)器。Worker用于處理訓(xùn)練數(shù)據(jù)，計算梯度，并將它們發(fā)送到參數(shù)服務(wù)器進行平均。

Uber認為，雖然這種方法提高了性能，但遇到了兩個挑戰(zhàn)：確定Worker與參數(shù)服務(wù)器的正確比例。

如果使用一個參數(shù)服務(wù)器，它可能會成為網(wǎng)絡(luò)或計算瓶頸。如果使用多個參數(shù)服務(wù)器，通信模式將變成“all-to-all”，這可能會使網(wǎng)絡(luò)互連飽和。

處理增加TensorFlow程序復(fù)雜性：在測試中，每個用戶的分布式TensorFlow必須顯式啟動每個Worker和參數(shù)服務(wù)器，通過服務(wù)發(fā)現(xiàn)周圍信息，如所有的Worker和參數(shù)服務(wù)器的主機和端口，并修改培訓(xùn)計劃構(gòu)建tf.Server()和一個適當(dāng)?shù)膖f.ClusterSpec()。

此外，用戶必須確保使用tf.train.device_replica_setter()適當(dāng)?shù)胤胖盟胁僮鳎⑿薷拇a以使用towers來利用服務(wù)器中的多個GPU。這通常會導(dǎo)致陡峭的學(xué)習(xí)曲線和大量的代碼重構(gòu)，從而占用實際建模的時間。

2017年初，百度發(fā)表了一篇文章《將HPC技術(shù)深度學(xué)習(xí)》,涉及到不同的算法平均梯度和溝通這些梯度(上面的第2步和第3步)，該算法基于Patarasuk和Yuan在2009年的論文《工作站集群帶寬最優(yōu)全約算法》中引入的方法。

在環(huán)約簡算法中，每個N個節(jié)點與兩個節(jié)點通信2*(N-1)次。在此通信過程中，節(jié)點發(fā)送和接收數(shù)據(jù)緩沖區(qū)的塊。在前N-1次迭代中，接收到的值被添加到節(jié)點緩沖區(qū)的值中。在第二次N-1迭代中，接收到的值替換節(jié)點緩沖區(qū)中保存的值。

百度的論文認為，該算法是帶寬最優(yōu)的，這意味著如果緩沖區(qū)足夠大，它將最優(yōu)地利用可用網(wǎng)絡(luò)。

Uber也意識到，采用環(huán)減少(ring-allreduce)方法可以提高可用性和性能，這促使我們自己開發(fā)實現(xiàn)，以滿足Uber的TensorFlow需求。隨后，Uber采用了百度的TensorFlow ring-allreduce算法，并在此基礎(chǔ)上進行了構(gòu)建。

Uber將代碼轉(zhuǎn)換為一個名為Horovod的獨立Python包，這個包是以俄羅斯傳統(tǒng)的民間舞蹈命名的，在這種舞蹈中，表演者挽著手臂繞圈跳舞，就像分布式TensorFlow進程使用Horovod彼此通信一樣。

Uber目前的不同團隊都可能使用不同版本的TensorFlow，但他們希望所有團隊都能夠利用ring-allreduce算法，而不需要升級到TensorFlow的最新版本，對自己的版本應(yīng)用補丁，甚至不需要花時間構(gòu)建框架。

有了一個獨立的包，Uber表示就可以根據(jù)硬件的不同，將安裝Horovod所需的時間從大約1小時縮短到幾分鐘。Horovod在Inception V3和ResNet-101中都達到了90%的縮放效率，在VGG-16中達到了79%的縮放效率。

此外，Uber用NCCL替換了百度ring-allreduce實現(xiàn)，NCCL是NVIDIA的集合通信庫，它提供了高度優(yōu)化的ring-allreduce版本。NCCL 2引入了跨多臺機器運行ring-allreduce的能力，能夠利用它的許多性能提升優(yōu)化。

Uber還在此基礎(chǔ)上增加了對適合單個服務(wù)器模型的支持，可能是在多個GPU上，而原來的版本只支持適合單個GPU的模型。

Horovod項目負責(zé)人亞歷克斯?瑟蓋夫(Alex Sergeev)表示，Horovod是為了讓各行各業(yè)的人工智能研究人員能夠更快、更直觀地進行深度學(xué)習(xí)模型訓(xùn)練。后續(xù)隨著Horovod在功能和應(yīng)用方面的不斷成熟，加入LF將使我們能夠進一步擴大它在開源生態(tài)系統(tǒng)中的影響。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

圖像處理

圖像處理

+關(guān)注

關(guān)注
27

文章
1282

瀏覽量
56657
自動駕駛

自動駕駛

+關(guān)注

關(guān)注
783

文章
13694

瀏覽量
166168
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5493

瀏覽量
121001

原文標(biāo)題：Horovod ? Tensor flow ? Uber開源分布式深度學(xué)習(xí)模型 | GGAI海外

文章出處：【微信號：ilove-ev，微信公眾號：高工智能汽車】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

Pytorch深度學(xué)習(xí)訓(xùn)練的方法

掌握這 17 種方法，用最省力的方式，加速你的 Pytorch 深度學(xué)習(xí)訓(xùn)練。

發(fā)表于 10-28 14:05 ?150次閱讀

Pytorch<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>訓(xùn)練</b>的方法

GPU深度學(xué)習(xí)應(yīng)用案例

能力，可以顯著提高圖像識別模型的訓(xùn)練速度和準(zhǔn)確性。例如，在人臉識別、自動駕駛等領(lǐng)域，GPU被廣泛應(yīng)用于加速深度學(xué)習(xí)模型的訓(xùn)練和推理過程。二、自然語言處理自然語言處理（NLP）是

發(fā)表于 10-27 11:13 ?335次閱讀

FPGA加速深度學(xué)習(xí)模型的案例

FPGA（現(xiàn)場可編程門陣列）加速深度學(xué)習(xí)模型是當(dāng)前硬件加速領(lǐng)域的一個熱門研究方向。以下是一些FPGA加速

發(fā)表于 10-25 09:22 ?150次閱讀

AI大模型與深度學(xué)習(xí)的關(guān)系

AI大模型與深度學(xué)習(xí)之間存在著密不可分的關(guān)系，它們互為促進，相輔相成。以下是對兩者關(guān)系的介紹：一、深度學(xué)習(xí)是AI大模型的基礎(chǔ) 技術(shù)支撐：

發(fā)表于 10-23 15:25 ?389次閱讀

迅龍軟件OrangePi?5 Plus順利通過開放原子開源基金會XTS認證

公益事業(yè)的非營利性獨立法人機構(gòu)，是我國在開源領(lǐng)域的首個基金會。OpenHarmony是由開放原子開源基金會孵化及運營的開源

發(fā)表于 09-09 15:36 ?451次閱讀

NVIDIA推出全新深度學(xué)習(xí)框架fVDB

在 SIGGRAPH 上推出的全新深度學(xué)習(xí)框架可用于打造自動駕駛汽車、氣候科學(xué)和智慧城市的 AI 就緒型虛擬表示。

發(fā)表于 08-01 14:31 ?530次閱讀

深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法綜述

深度學(xué)習(xí)作為機器學(xué)習(xí)領(lǐng)域的一個重要分支，近年來在多個領(lǐng)域取得了顯著的成果，特別是在圖像識別、語音

發(fā)表于 07-09 10:50 ?542次閱讀

TensorFlow與PyTorch深度學(xué)習(xí)框架的比較與選擇

深度學(xué)習(xí)作為人工智能領(lǐng)域的一個重要分支，在過去十年中取得了顯著的進展。在構(gòu)建和訓(xùn)練深度

發(fā)表于 07-02 14:04 ?898次閱讀

深度學(xué)習(xí)模型訓(xùn)練過程詳解

深度學(xué)習(xí)模型訓(xùn)練是一個復(fù)雜且關(guān)鍵的過程，它涉及大量的數(shù)據(jù)、計算資源和精心設(shè)計的算法。訓(xùn)練

發(fā)表于 07-01 16:13 ?1115次閱讀

深度學(xué)習(xí)與傳統(tǒng)機器學(xué)習(xí)的對比

在人工智能的浪潮中，機器學(xué)習(xí)和深度學(xué)習(xí)無疑是兩大核心驅(qū)動力。它們各自以其獨特的方式推動著技術(shù)的進步，為眾多領(lǐng)域帶來了革命性的變化。然而，盡管它們都屬于

發(fā)表于 07-01 11:40 ?1202次閱讀

迅龍軟件加入開放原子開源基金會和OpenHarmony?項目，共建開源新生態(tài)

近日，迅龍軟件與“開放原子開源基金會”簽署協(xié)議，加入“開放原子開源基金會”（以下簡稱“開源基金會

發(fā)表于 04-30 17:50 ?1013次閱讀

FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈鶪PU

上漲，因為事實表明，它們的 GPU 在訓(xùn)練和運行深度學(xué)習(xí)模型方面效果明顯。實際上，英偉達也已經(jīng)對自己的業(yè)務(wù)進行了轉(zhuǎn)型，之前它是一家純粹做 GPU 和游戲的公司，現(xiàn)在除了作為

發(fā)表于 03-21 15:19

開放原子開源基金會與 9 個開源項目舉行捐贈簽約儀式

12 月 16 日，在江蘇無錫舉辦的 2023 開放原子開發(fā)者大會開幕式上，開放原子開源基金會理事長孫文龍與 GreatSQL、Cloud HPC、鵬云 ZettaStor 分布式塊存

發(fā)表于 12-21 17:30 ?826次閱讀

開放原子開源基金會與9個開源項目舉行捐贈簽約儀式

12月16日，在江蘇無錫舉辦的2023開放原子開發(fā)者大會開幕式上，開放原子開源基金會理事長孫文龍與GreatSQL、Cloud HPC、鵬云ZettaStor分布式塊存儲系統(tǒng)

發(fā)表于 12-17 15:55 ?746次閱讀

深度學(xué)習(xí)如何訓(xùn)練出好的模型

算法工程、數(shù)據(jù)派THU深度學(xué)習(xí)在近年來得到了廣泛的應(yīng)用，從圖像識別、語音識別到自然語言處理等領(lǐng)域都有了卓越的表現(xiàn)。但是，要訓(xùn)練出一個高效準(zhǔn)確

發(fā)表于 12-07 12:38 ?1061次閱讀