精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

高性能計算關鍵組件核心知識

架構師技術聯盟 ? 來源:架構師技術聯盟 ? 2023-04-18 10:04 ? 次閱讀

a1c4eb6c-dd79-11ed-bfe3-dac502259ad0.png

高性能計算(縮寫HPC)指通常使用很多處理器(作為單個機器的一部分)或者某一集群中組織的幾臺計算機(作為單個計 算資源操作)的計算系統和環境。有許多類型的HPC系統,其范圍從標準計算機的大型集群,到高度專用的硬件

本文參考自“高性能計算知識匯總”及“OpenMP編譯原理及實現”,高性能計算應用特征剖析、超級計算機研究報告、深度報告:GPU研究框架、《高性能計算和超算專題》。

大多數基于集群的HPC系統使用高性能網絡互連,比如那些來自InfiniBand或Myrinet的網絡互連。基本的網絡拓撲和組織可以使用一個簡單的總線拓撲,在性能很高的環境中,網狀網絡系統在主機之間提供較短的潛伏期,所以可改善總體網絡性能和傳輸速率。

高性能計算硬件結構和總體結構

高性能計算拓撲結構,從硬件結構上,高性能計算系統包含計算節點、IO節點、登錄節點、管理節點、高速網絡、存儲系統等組成。

a1fb8a8c-dd79-11ed-bfe3-dac502259ad0.png

高性能計算集群性能指標

FLOPS是指每秒浮點運算次數,Flops用作計算機計算能力的評價系數。根據硬件配置和參數可以計算出高性能計算集群的理論性能。

1) CPU理論性能計算方法(以Intel CPU為例)

單精度:主頻*(向量位寬/32)*2 雙精度:主頻*(向量位寬/64)*2 2代表乘積指令

2) GPU理論性能計算方法(以NVIDIA GPU為例)

單精度:指令吞吐率*運算單元數量*頻率

3) MIC理論性能計算方法(以Intel MIC為例)

單精度:主頻*(向量位寬/32)*2 雙精度:主頻*(向量位寬/64)*2 2代表乘積指令 通過利用測試程序對系統進行整體計算能力進行評價。

Linapck測試:采用主元高斯消去法求解雙精度稠密線性代數方程組,結果按每秒浮點運算次數(flops)表示。

HPL:針對大規模并行計算系統的測試,其名稱為HighPerformanceLinpack(HPL),是第一個標準的公開版本并行Linpack測試軟件包。用于TOP500與國內TOP100排名依據。

同構計算節點

同構計算節點是指集群中每個計算節點完全有CPU計算資源組成,目前,在一個計算節點上可以支持單路、雙路、四路、八路等CPU計算節點。

異構計算節點

異構計算技術從80年代中期產生,由于它能經濟有效地獲取高性能計算能力、可擴展性好、計算資源利用率高、發展潛力巨大,目前已成為并行/分布計算領域中的研究熱點之一。異構計算的目的一般是加速和節能。目前,主流的異構計算有:CPU+GPU,CPU+MIC,CPU+FPGA

常見的并行文件系統

PVFS:Clemson大學的并行虛擬文件系統(PVFS) 項目用來為運行Linux操作系統的PC群集創建一個開放源碼的并行文件系統。PVFS已被廣泛地用作臨時存儲的高性能的大型文件系統和并行I/O研究的基礎架構。作為一個并行文件系統,PVFS將數據存儲到多個群集節點的已有的文件系統中,多個客戶端可以同時訪問這些數據。

Lustre,一種平行分布式文件系統,通常用于大型計算機集群和超級電腦。Lustre是源自Linux和Cluster的混成詞。于2003年發布Lustre 1.0。采用GNU GPLv2開源碼授權。

集群管理系統的主要功能

目前,幾大主流服務器廠商都提供了自己的集群管理系統,如浪潮的Cluster Engine,曙光的Gridview,HP的Serviceguard,IBM Platform Cluster Manager等等。集群管理系統主要提供一項的功能:

1)監控模塊:監控集群中的節點、網絡、文件、電源等資源的運行狀態。動態信息、實況信息、歷史信息、節點監控。可以監控整個集群的運行狀態及各個參數。

2)用戶管理模塊:管理系統的用戶組以及用戶,可以對用戶組以及用戶進行查看,添加,刪除和編輯等操作。

3)網絡管理模塊:系統中的網絡的管理。

4)文件管理:管理節點的文件,可以對文件進行上傳、新建、打開、復制、粘貼、重命名、打包、刪除和下載等操作。

5)電源管理模塊:系統的自動和關閉等。

6)作業提交和管理模塊:提交新作業,查看系統中的作業狀態,并可以對作業進行執行和刪除等操作。還可以查看作業的執行日志。

7)友好的圖形交互界面:現在的集群管理系統都提供了圖形交互界面,可以更方便的使用和管理集群。

集群作業調度系統

關于目前主流的HPC作業調度系統有:LSF/Slurm/PBS/SGE,他們分別也都有一些衍生版本,所以,有人也將他們稱為四大流派。

下表列出了目前主要使用的 HPC作業調度管理系統:PBS/Torque、Slurm、LSF、SGE 和 LoadLeveler使用的常用命令、環境變量和作業規范選項,這些作業調度管理器中的每一個都具有獨特的功能,但最常用的功能在表中列出的所有這些環境中都可用。

a20d05f0-dd79-11ed-bfe3-dac502259ad0.png

集群管理系統中最主要的模塊為作業調度系統,目前,主流的作業調度系統都是基于PBS的實現。PBS(Portable Batch System)最初由NASA的Ames研究中心開發,主要為了提供一個能滿足異構計算網絡需要的軟件包,用于靈活的批處理,特別是滿足高性能計算的需要,如集群系統、超級計算機和大規模并行系統。

PBS的主要特點有:代碼開放,免費獲取;支持批處理、交互式作業和串行、多種并行作業,如MPI、PVM、HPF、MPL;PBS是功能最為齊全,歷史最悠久,支持最廣泛的本地集群調度器之一。

a2199b9e-dd79-11ed-bfe3-dac502259ad0.png

PBS的目前包括openPBS, PBS Pro和Torque三個主要分支.其中OpenPBS是最早的PBS系統,目前已經沒有太多后續開發, PBS pro是PBS的商業版本,功能最為豐富. Torque是Clustering公司接過了OpenPBS,并給與后續支持的一個開源版本。PBS主要有如下特征:

1)易用性:為所有的資源提供統一的接口,易于配置以滿足不同系統的需求, 靈活的作業調度器允許不同系統采用自己的調度策略。

2)移植性:符合POSIX 1003.2標準,可以用于shell和批處理等各種環境。

3)適配性:可以適配與各種管理策略,并提供可擴展的認證和安全模型。支 持廣域網上的負載的動態分發和建立在多個物理位置不同的實體上的虛 擬組織。

4)靈活性:支持交互和批處理作業。torque PBS提供對批處理作業和分散的計算節點(Compute nodes)的控制。

2016年Altair基于PBS Pro提供了開源許可版本,其與MRJ于1998年發布的原始開源版本兩者合二為一大致就是現在的OpenPBS。與Pro版本比,多了很多限制,但都支持Linux和Windows。

a221af8c-dd79-11ed-bfe3-dac502259ad0.png

Slurm全稱為Simple Linux Utility for Resource Management,前期主要由勞倫斯利弗莫爾國家實驗室、SchedMD、Linux NetworX、Hewlett-Packard 和 Groupe Bull 負責開發,受到閉源軟件Quadrics RMS的啟發。 Slurm最新版本為22.05,目前由社區和SchedMD公司共同維護,保持開源和免費,由SchedMD公司提供商業支持,僅支持Linux系統,最大節點數量超過12萬。 Slurm擁有容錯率高、支持異構資源、高度可擴展等優點,每秒可提交超過1000個任務,且由于是開放框架,高度可配置,擁有超過100種插件,因此適用性相當強。

a2308eda-dd79-11ed-bfe3-dac502259ad0.png

基于LSF(Load Sharing Facility)的調度器主要有Spectrum LSF、PlatformLSF、OpenLava三家。 早期的LSF是由Toronto大學開發的Utopia系統發展而來。
2007年,Platform Computing基于早期老版本的LSF開源了一個簡化版Platform Lava。 這個開源項目2011年中止了,被OpenLava接手。2011年,Platform員工David Bigagli基于Platform Lava的派生代碼創建了OpenLava 1.0。2014年,一些Platform的員工成立了Teraproc公司,為OpenLava提供開發和商業支持。2016年IBM就LSF版權對Teraproc公司發起訴訟,2018年IBM勝訴,OpenLava被禁用。

a241a8aa-dd79-11ed-bfe3-dac502259ad0.png

2011年,Platform Lava開源項目中止后。2012年1月,IBM收購了Platform Computing。Spectrum LSF就是IBM收購后推出的商用版本,目前更新到10.1.0,同時支持Linux和Windows,最大節點數超過6000,在國內提供商業支持。

Platform LSF是LSF的早期版本,與Spectrum LSF一樣屬于IBM,目前版本是9.1.3,目測已經停止更新以維護為主。

a24cea76-dd79-11ed-bfe3-dac502259ad0.png

a2589c36-dd79-11ed-bfe3-dac502259ad0.png

在這三個調度器中,僅有Spectrum LSF支持Auto-Scale集群自動伸縮功能,同時該調度器還可通過LSF resourceconnector實現溢出到云,支持云廠商包括AWS、Azure、Google Cloud。

并行編程模型

消息傳遞接口(Message Passing Interface, MPI),MPI是一種基于消息傳遞的并行編程技術。MPI程序是基于消息傳遞的并行程序。消息傳遞指的是并行執行的各個進程具有自己獨立的堆棧和代碼段,作為互不相關的多個程序獨立執行,進程之間的信息交互完全通過顯示地調用通信函數來完成。

1) MPI是一個庫,而不是一門語言。

2) MPI是一種標準或規范的代表,而不特指某一個對它的具體實現,迄今為止,所有的并行計算機制造商都提供對MPI的支持,可以在網上免費得到MPI在不同并行計算機上的實現,一個正確的MPI程序可以不加修改地在所有的并行機上運行。

3) MPI是一種消息傳遞編程模型,并成為這種編程模型的代表。事實上,標準MPI雖然很龐大,但是它的最終目的是服務于進程間通信這一目標。常見MPI類型有以下幾類:

1) OpenMPI

OpenMPI是一種高性能消息傳遞庫,它是MPI-2標準的一個開源實現,由一些科研機構和企業一起開發和維護。因此,OpenMPI能夠從高性能社區中獲得專業技術、工業技術和資源支持,來創建最好的MPI庫。OpenMPI提供給系統和軟件供應商、程序開發者和研究人員很多便利。易于使用,并運行本身在各種各樣的操作系統,網絡互連,以及一批/調度系統。

下載地址:http://www.open-mpi.org/

2) Intel MPI

Intel MPI是Intel編譯器中支持的MPI版本。


3) MPICH

MPICH是MPI標準的一種最重要的實現,可以免費從網上下載。MPICH的開發與MPI規范的制訂是同步進行的,因此MPICH最能反映MPI的變化和發展。MPICH的開發主要是由Argonne National Laboratory和Mississippi State University共同完成的,在這一過程中IBM也做出了自己的貢獻,但是MPI規范的標準化工作是由MPI論壇完成的。MPICH是MPI最流行的非專利實現,由Argonne國家實驗室和密西西比州立大學聯合開發,具有更好的可移植性。相關下載地址:http://www.mpich.org/

a26c161c-dd79-11ed-bfe3-dac502259ad0.png

4) Mvapich

MVAPICH是VAPI層上InfiniBand的MPI的縮寫,它充當著連接消息傳遞接口(MPI和被稱作VAPI的InfiniBand軟件接口間的橋梁,也是MPI標準的一種實現。InfiniBand是“無限帶寬”的縮寫,這是一種新的支持高性能計算系統的網絡架構。OSU(Ohio State University)超級計算機中心的科學家彼特于2002年開發出MVAPICH前,InfiniBand和MPI是不兼容的。

同時,MVAPICH2/MVAPICH也可以從Open Fabrics Enterprise Distribution (OFED)套件中獲得。最新版本為MVAPICH2 2.2b,下載地址:http://mvapich.cse.ohio-state.edu/

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 高性能
    +關注

    關注

    0

    文章

    156

    瀏覽量

    20384
  • 網絡拓撲
    +關注

    關注

    0

    文章

    100

    瀏覽量

    11358
  • 單精度
    +關注

    關注

    0

    文章

    8

    瀏覽量

    2240

原文標題:高性能計算關鍵組件核心知識

文章出處:【微信號:架構師技術聯盟,微信公眾號:架構師技術聯盟】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    高性能計算機的發展歷史是怎樣的?

    高性能計算機的發展史高性能計算機的內容高性能計算機的應用高性能計算機的現狀高性能計算機的應用領域高性能
    發表于 09-10 10:42

    HPC高性能計算知識介紹

    HPC高性能計算知識 異構并行計算
    發表于 05-29 17:45

    高性能圖像傳感器參考設計的核心集成與協作解析

    高性能圖像傳感器參考設計的核心集成與協作
    發表于 01-11 06:16

    高性能計算軟件具有哪些缺陷?

    談到高性能計算,很多人都會想到那些每秒可以運行百萬億次、千萬億次計算的超級計算機,如最近炒得很火爆的“天河一號”、“曙光6000“等,但很少有人會想到上面跑的軟件。其實,硬件只是基礎,
    發表于 08-30 06:35

    數據結構預算法核心知識點總結概述

    數據結構預算法核心知識點總結概述最近有看一些大佬的專欄,受益匪淺。深刻的覺察到我們要想成為一個偉大的程序員,或者說小一點,成為一個厲害的程序員,基礎知識核心競爭力也是我們不斷向上提升個人能力的基石
    發表于 12-21 08:00

    嵌入式開發中會用到哪些核心知識

    、什么是嵌入式、嵌入式系統的技術特征、三次信息化浪潮、嵌入式技術的主要發展方向和主流產品。2、什么人適合學習嵌入式本節主要講述嵌入式開發中會用到哪些核心知識,需要哪些核心技能,嵌入式開發和Android應用、微信定制開發等純應用層開發的不同之處,最后分析了哪些人適合學習嵌
    發表于 12-24 07:39

    IIC的核心知識點匯總,絕對實用

    IIC的核心知識點匯總,絕對實用
    發表于 01-24 06:14

    高性能選項和卓越性能基礎知識總結

    卓越模式1.1 基礎知識高性能選項和卓越性能個人總結為:卓越性能會降低電壓,提高功耗,使硬件溫度更低,耗電更快,速度更快 一般默認的設置是“平衡...
    發表于 03-02 07:43

    什么是高性能計算

    什么是高性能計算 高性能計算(HighPerformanceComputing)是計算機科學的一個分支,主要是指從體系結構、并行算法和軟件
    發表于 05-24 23:29 ?4551次閱讀

    高性能計算發展與應用

    高性能計算發展與應用,感興趣的可以看看。
    發表于 03-24 17:12 ?0次下載

    計算高性能計算的區別及聯系

    近年來,隨著人工智能、AI智藥等科技領域的火熱,以及阿里云、騰訊云、華為云等互聯網大廠在各種場景下的成功應用。高性能計算、云計算這類科技領域的詞匯也也逐漸進入人們的日常生活。那么,什么是云計算
    發表于 06-26 14:30 ?3400次閱讀

    什么是HPC(高性能計算)?

    高性能計算 (High Performance Computing,又叫HPC、超級計算) 是指比傳統計算機和服務器提供更高馬力聚合計算能力
    的頭像 發表于 11-01 11:47 ?2.8w次閱讀

    盛顯科技RK3588核心板:高性能工業計算的新紀元

    隨著科技的不斷進步和產業的飛速發展,高性能、高可靠性以及高擴展性的工業計算核心板成為市場的新寵。在眾多核心板中,RK3588核心板憑借其卓越
    的頭像 發表于 07-05 15:11 ?717次閱讀
    盛顯科技RK3588<b class='flag-5'>核心</b>板:<b class='flag-5'>高性能</b>工業<b class='flag-5'>計算</b>的新紀元

    計算機系統中的關鍵組件有哪些

    計算機系統中,關鍵組件的協同工作構成了其強大的數據處理和運算能力。這些組件不僅決定了計算機的性能
    的頭像 發表于 07-15 18:18 ?1282次閱讀

    左藍微電子高性能5G射頻濾波器項目啟動

    近日,左藍微電子在常州天寧區盛大啟動高性能5G射頻濾波器項目,并正式落戶該區。該項目旨在通過強化研發力量,攻堅技術難關,加速自主創新步伐,推出多款擁有核心知識產權的高性能射頻濾波器產品。
    的頭像 發表于 09-26 16:10 ?456次閱讀