NVIDIA 計(jì)算架構(gòu)團(tuán)隊(duì)和NVIDIA 計(jì)算專家團(tuán)隊(duì)正在熱招!
如果你對(duì)加速計(jì)算領(lǐng)域充滿熱情,并且希望與優(yōu)秀的技術(shù)專家一起合作,那么這個(gè)機(jī)會(huì)將是你展現(xiàn)才華的優(yōu)質(zhì)平臺(tái),快來(lái)加入!
NVIDIA 計(jì)算架構(gòu)團(tuán)隊(duì)
熱門(mén)崗位:
簡(jiǎn)歷請(qǐng)投遞至:
sh-recruitment@nvidia.com
Deep Learning Performance Architect - Triton / LLM - TensorRT
工作內(nèi)容:圍繞深度學(xué)習(xí)端到端 AI 軟件全棧,包括但不限于:訓(xùn)練框架、核心計(jì)算庫(kù)、推理優(yōu)化工具(比如 TensorRT)、AI 編譯器、模型壓縮等全棧軟件棧,以及可以在 AI 軟件全棧基礎(chǔ)上影響到下一代甚至下兩代硬件架構(gòu)的特性設(shè)計(jì)。
技能要求: 良好 C++ 編程,熟悉 AI 軟件棧底層或者計(jì)算機(jī)體系結(jié)構(gòu),熟悉上層算法與 Python 是加分項(xiàng)。
工作地點(diǎn):北京 / 上海
Deep Learning Performance Architect - TensorRT
工作內(nèi)容:NVIDIA 深度學(xué)習(xí)推理引擎 TensorRT 的設(shè)計(jì)、開(kāi)發(fā)和維護(hù)工作(比如,TensorRT 模型導(dǎo)入的流程和相關(guān)工具,圖優(yōu)化,算子的 CUDA 實(shí)現(xiàn)及代碼生成,算子性能優(yōu)化等),以及對(duì)當(dāng)前主流的深度學(xué)習(xí)模型使用 TensorRT 進(jìn)行推理的性能進(jìn)行分析和優(yōu)化。同時(shí),還將與 NVIDIA GPU 體系結(jié)構(gòu)設(shè)計(jì)團(tuán)隊(duì)合作,來(lái)推動(dòng) NVIDIA 深度學(xué)習(xí)解決方案的軟硬件協(xié)同設(shè)計(jì)和研發(fā)。
技能要求:熟練掌握 C++ 編程。
加分技能 / 經(jīng)驗(yàn): 深度學(xué)習(xí)框架 / 深度學(xué)習(xí)編譯器開(kāi)發(fā),性能分析 / 建模 / 優(yōu)化相關(guān)的方法論 / 工具,計(jì)算機(jī)體系結(jié)構(gòu)相關(guān)知識(shí),CUDA kernel 開(kāi)發(fā) / 優(yōu)化。
工作地點(diǎn):上海 / 北京
Deep Learning Performance Architect - Operator
工作內(nèi)容:針對(duì)不同 GPU 架構(gòu)為 TensorRT、cuDNN、cuBLAS2、cuSPARSE 等深度學(xué)習(xí)算子庫(kù)提供高性能基礎(chǔ)算子以及算子融合實(shí)現(xiàn),包含在線代碼生成,代碼融合等相關(guān)開(kāi)發(fā)工作,以及根據(jù)當(dāng)代 GPU 優(yōu)化瓶頸影響后續(xù)硬件架構(gòu)特征設(shè)計(jì)和驗(yàn)證工作。
技能要求:良好 C++ 編程、熟悉計(jì)算機(jī)體系結(jié)構(gòu),有 TVM、MLIR 相關(guān)開(kāi)發(fā)經(jīng)驗(yàn)是加分項(xiàng)。
工作地點(diǎn):上海 / 北京
Deep Learning Performance Architect
工作內(nèi)容:圍繞運(yùn)算架構(gòu)的全棧優(yōu)化,包括但不限于:深度學(xué)習(xí)模型分析與預(yù)測(cè)、架構(gòu)的性能分析、編譯器性能分析,以及對(duì)主流運(yùn)算架構(gòu)和軟件生態(tài)的分析。使 NVIDIA 軟件生態(tài)與計(jì)算架構(gòu)更好的支持主流應(yīng)用。
技能要求:良好 C++ / Python 編程,熟悉 AI 軟件或者計(jì)算機(jī)體系結(jié)構(gòu)。
工作地點(diǎn):上海
上下滑動(dòng)查看更多職位詳情
團(tuán)隊(duì)介紹
算力是 AI 時(shí)代的基礎(chǔ)設(shè)施,而“后摩爾定律時(shí)代”,軟硬件協(xié)同設(shè)計(jì),才是加速計(jì)算的未來(lái)!
NVIDIA 計(jì)算架構(gòu)團(tuán)隊(duì)歷經(jīng) CUDA 并行編程模型從起步至今的所有階段,其間參與了數(shù)代通用 GPU 計(jì)算架構(gòu)及之上的包括 cuDNN、TensorRT、底層高性能算子、并行編程語(yǔ)言在內(nèi)的加速軟件棧的研發(fā)工作。該團(tuán)隊(duì)同時(shí)參與關(guān)鍵機(jī)器學(xué)習(xí)模型的算法及框架優(yōu)化。
目前,該團(tuán)隊(duì)開(kāi)放多個(gè)職位等你的加入!與我們共同書(shū)寫(xiě)下一代 AI 計(jì)算架構(gòu)的未來(lái)!
NVIDIA 計(jì)算架構(gòu)團(tuán)隊(duì)旨在推動(dòng)算法、并行編程模型、核心加速軟件庫(kù)及 GPU 體系結(jié)構(gòu)的協(xié)同設(shè)計(jì)和演化,在高速發(fā)展的深度學(xué)習(xí)算法與 GPU 硬件體系結(jié)構(gòu)之間建立橋梁,并研發(fā)先進(jìn)的軟硬件協(xié)同的加速計(jì)算解決方案。
該團(tuán)隊(duì)從高性能計(jì)算、深度學(xué)習(xí)、自動(dòng)駕駛等計(jì)算應(yīng)用領(lǐng)域出發(fā),跟蹤學(xué)界、工業(yè)界前沿算法,并掌握其發(fā)展方向;通過(guò)對(duì)前沿算法(比如:神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu))的深入理解,分析并提出芯片架構(gòu)的需求,包含指令集、編程模型、計(jì)算能力、訪存帶寬、片上存儲(chǔ)、片上網(wǎng)絡(luò)及網(wǎng)絡(luò)互聯(lián)等。
同時(shí),承擔(dān)基于架構(gòu)的計(jì)算加速軟件棧的開(kāi)發(fā)及產(chǎn)品化工作。自底層加速核心算子開(kāi)發(fā)及優(yōu)化,基于硬件加速的并行編程模型的研發(fā)和編譯,TensorRT、cuDNN 等核心加速庫(kù),直到上層訓(xùn)練框架、編譯優(yōu)化。以及,針對(duì)模型的混合精度、稀疏矩陣訓(xùn)練及量化方法開(kāi)發(fā)。
上下滑動(dòng)查看更多詳情
團(tuán)隊(duì)發(fā)展
該團(tuán)隊(duì)基于硬件架構(gòu)開(kāi)發(fā)軟件、編程模型、算法實(shí)現(xiàn),通過(guò)算法、軟件開(kāi)發(fā)實(shí)踐反饋并推動(dòng)硬件架構(gòu)優(yōu)化,形成閉環(huán),最終實(shí)現(xiàn)軟件、編程模型及硬件架構(gòu)的協(xié)同演化和迭代,達(dá)到極致計(jì)算加速的目標(biāo):
-
建立下一代芯片性能模型、搭建芯片性能分析平臺(tái)、調(diào)研下一代芯片新特性
-
研發(fā)及設(shè)計(jì)新的加速指令、開(kāi)發(fā)原型代碼及編程模型、迭代優(yōu)化下一代芯片架構(gòu)
-
跟蹤下一代芯片新特性在應(yīng)用中的落地實(shí)現(xiàn)(算子實(shí)現(xiàn)、編譯等)
-
開(kāi)發(fā)集成最終軟件產(chǎn)品庫(kù) - TensorRT,cuDNN
-
優(yōu)化訓(xùn)練框架(MLPerf 各項(xiàng)優(yōu)化)
-
開(kāi)發(fā)混合精度、稀疏矩陣及量化方法
上下滑動(dòng)查看更多詳情
NVIDIA 計(jì)算專家團(tuán)隊(duì)
熱門(mén)崗位:
簡(jiǎn)歷請(qǐng)投遞至:
sh-recruitment@nvidia.com
Developer Technology Engineer
工作內(nèi)容:
-
包括大語(yǔ)言模型、生成式 AI、推薦系統(tǒng)在內(nèi)的深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、數(shù)據(jù)分析領(lǐng)域新技術(shù),以及編程實(shí)現(xiàn)、優(yōu)化、模型、算法等方面的研究和開(kāi)發(fā);
-
工業(yè)界實(shí)際應(yīng)用的深度分析和優(yōu)化,以保證該類應(yīng)用在當(dāng)前和未來(lái)的 NVIDIA 架構(gòu)上都能保持卓越性能;
-
為關(guān)鍵客戶(業(yè)界頭部公司)提供合適的 AI 解決方案;
-
和 GPU / CPU / DPU 架構(gòu)團(tuán)隊(duì)、研究團(tuán)隊(duì)、應(yīng)用庫(kù)和開(kāi)發(fā)工具團(tuán)隊(duì)、系統(tǒng)軟件團(tuán)隊(duì)等緊密合作來(lái)影響下一代產(chǎn)品架構(gòu)、軟件平臺(tái)和編程模式的設(shè)計(jì)與開(kāi)發(fā);
-
與世界各地的優(yōu)秀同事一起助力深度學(xué)習(xí)技術(shù)在互聯(lián)網(wǎng)、交通、金融、醫(yī)療等各領(lǐng)域的落地。
基本要求:
-
計(jì)算機(jī)科學(xué)相關(guān)專業(yè)優(yōu)秀碩士、博士畢業(yè)生;
-
擁有良好的 C / C++ / Python 編程能力,良好的軟件設(shè)計(jì)和開(kāi)發(fā)能力;
-
(二選一)有并行計(jì)算編程基礎(chǔ),有 CUDA / C / C++ / Python 編程經(jīng)驗(yàn);
-
(二選一)擁有深度學(xué)習(xí),機(jī)器學(xué)習(xí)領(lǐng)域的扎實(shí)理論基礎(chǔ),熟悉常見(jiàn)的深度學(xué)習(xí)網(wǎng)絡(luò)或機(jī)器學(xué)習(xí)算法;
-
良好的溝通能力、解決問(wèn)題能力、時(shí)間管理能力和任務(wù)優(yōu)先級(jí)管理能力;
-
良好的英文技術(shù)文檔讀寫(xiě)能力和日常聽(tīng)說(shuō)溝通能力。
工作地點(diǎn):北京 / 上海 / 深圳 / 臺(tái)北
上下滑動(dòng)查看更多職位詳情
團(tuán)隊(duì)介紹
NVIDIA 計(jì)算專家團(tuán)隊(duì)(DevTech)專注于各種深度學(xué)習(xí)算法、科學(xué)計(jì)算、數(shù)據(jù)分析和云端應(yīng)用;在 NVIDIA 平臺(tái)上進(jìn)行性能分析以及優(yōu)化,以充分發(fā)揮 NVIDIA GPU / CPU / DPU,集群和數(shù)據(jù)中心強(qiáng)大的算力,使其達(dá)到,或者接近“光速”(SOL)水平的高級(jí)技術(shù)團(tuán)隊(duì)。
該團(tuán)隊(duì)與世界上技術(shù)領(lǐng)先的企業(yè)、高校、研究院所合作,共同推動(dòng)和加速各項(xiàng) AI 應(yīng)用的落地。通過(guò)與用戶深度緊密的合作,在大語(yǔ)言模型、生成式 AI、推薦系統(tǒng)、自動(dòng)駕駛、自然語(yǔ)言處理、視頻和圖像理解、語(yǔ)音識(shí)別與合成,游戲等領(lǐng)域取得了累累碩果。該團(tuán)隊(duì)成為幫助客戶發(fā)揮硬件平臺(tái)和軟件棧綜合算力的中堅(jiān)力量,能夠?yàn)楫a(chǎn)品研發(fā)團(tuán)隊(duì)提供性能優(yōu)化、設(shè)計(jì)原型和行業(yè)應(yīng)用案例。
團(tuán)隊(duì)目標(biāo):在 NVIDIA 系統(tǒng)上,將各類應(yīng)用優(yōu)化到性能極致!
以打造大語(yǔ)言模型(LLM)應(yīng)用為例,既可以直接使用 NVAIE / NVIDIA Nemo Service,也可以使用應(yīng)用框架(Nemo FW、Triton+TensorRT、FT等)來(lái)訓(xùn)練和部署模型,也可以基于 cuDNN / TensorRT 等軟件庫(kù)自己開(kāi)發(fā)自己的框架,還可以基于 CUDA 來(lái)完全定制化自己的 pipeline,或者也可以混合采用這些方法。
如何選擇一種合適的方法,其關(guān)鍵在于取得應(yīng)用場(chǎng)景、性能要求、平臺(tái)靈活性、時(shí)間成本、技術(shù)成本之間的平衡。NVIDIA 計(jì)算專家團(tuán)隊(duì)就是幫助客戶和 NVIDIA 解決這個(gè)問(wèn)題的。
上下滑動(dòng)查看更多詳情
團(tuán)隊(duì)發(fā)展
團(tuán)隊(duì)成員主要來(lái)自北京、上海、深圳、臺(tái)北、首爾等地。
科學(xué)計(jì)算時(shí)代,當(dāng)整個(gè)市場(chǎng)都還只關(guān)注于不斷擴(kuò)大通用硬件的規(guī)模時(shí),NVIDIA 推出了加速計(jì)算 GPGPU 和 CUDA 編程模型。GPU 和 CUDA 這一全新的加速計(jì)算范式,為業(yè)界帶來(lái)了源源不斷的加速,但是也對(duì)應(yīng)用的開(kāi)發(fā)和優(yōu)化提出了挑戰(zhàn)。
在不斷改進(jìn)基礎(chǔ)庫(kù)性能的同時(shí),NVIDIA 組建了一支特別團(tuán)隊(duì),關(guān)注更為具體的應(yīng)用。團(tuán)隊(duì)成員們不僅有深厚的計(jì)算機(jī)功底(從計(jì)算機(jī)體系結(jié)構(gòu)、CUDA 編程,到編譯原理、網(wǎng)絡(luò)互連),還擁有各個(gè)領(lǐng)域的專業(yè)知識(shí)。這支團(tuán)隊(duì)不但可以從 GPU 編程方面對(duì)程序進(jìn)行優(yōu)化,更能從算法、模型方面提出改進(jìn)建議,這使得 NVIDIA GPU 從科學(xué)計(jì)算領(lǐng)域脫穎而出。
隨著深度學(xué)習(xí)的高速發(fā)展,該團(tuán)隊(duì)也在續(xù)寫(xiě)著相同的故事。對(duì)于 AI 中的神經(jīng)網(wǎng)絡(luò),從代碼和算法兩個(gè)方面對(duì)其進(jìn)行優(yōu)化。代碼方面涉及 CUDA、GPU 庫(kù),多機(jī)多卡網(wǎng)絡(luò)互連等各個(gè)領(lǐng)域;而算法包括了模型壓縮、量化、剪枝、混合精度訓(xùn)練、梯度壓縮等,其最終目標(biāo)都是在模型精度沒(méi)有損失,或者損失不大的情況下,提高訓(xùn)練和預(yù)測(cè)的速度。
對(duì)于一個(gè)基于 AI 的實(shí)際工業(yè)項(xiàng)目,除了神經(jīng)網(wǎng)絡(luò)以外,系統(tǒng)內(nèi)還包括了很多其他模塊,神經(jīng)網(wǎng)絡(luò)在其中耗時(shí)只占 1/3 - 1/2。以互聯(lián)網(wǎng)核心的推薦系統(tǒng)為例,其包括了召回、過(guò)濾、粗排、精排、離線訓(xùn)練、在線訓(xùn)練、ETL、特征工程等模塊和流程。該團(tuán)隊(duì)致力于提供全流程的參考解決方案,讓盡可能多的模塊運(yùn)行在 GPU 上,進(jìn)而為應(yīng)用帶來(lái)顯著加速。
上下滑動(dòng)查看更多詳情
點(diǎn)擊“閱讀原文”,或掃描下方海報(bào)二維碼,觀看 NVIDIA 創(chuàng)始人兼 CEO 黃仁勛在 COMPUTEX 2023 的主題演講直播回放,主題演講中文字幕版已上線,了解 AI、圖形及其他領(lǐng)域的最新進(jìn)展!
原文標(biāo)題:NVIDIA 招聘 | NVIDIA 最新熱招崗位!一起迎接未來(lái)加速計(jì)算!
文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3745瀏覽量
90831
原文標(biāo)題:NVIDIA 招聘 | NVIDIA 最新熱招崗位!一起迎接未來(lái)加速計(jì)算!
文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論