十年前,AWS(Amazon Web Services)發布了首個采用 NVIDIA M2050 GPU 的實例。當時,基于 CUDA 的應用主要專注于加速科學模擬,AI 和深度學習還遙遙無期。
自那時起,AW 就不斷擴充云端 GPU 實例陣容,包括 K80(p2)、K520(g3)、M60(g4)、V100(p3 / p3dn)和 T4(g4)。
現在,已全面上市的全新 AWS P4d 實例采用最新 NVIDIA A100 Tensor Core GPU,開啟了加速計算的下一個十年。
全新的 P4d 實例,為機器學習訓練和高性能計算應用提供 AWS 上性能與成本效益最高的 GPU 平臺。與默認的 FP32 精度相比,全新實例將 FP16 機器學習模型的訓練時間減少多達 3 倍,將 TF32 機器學習模型的訓練的時間減少多達 6 倍。
這些實例還提供出色的推理性能。NVIDIA A100 GPU 在最近的 MLPerf Inference 基準測試中一騎絕塵,實現了比 CPU 快 237 倍的性能。
每個 P4d 實例均內置八個 NVIDIA A100 GPU,通過 AWS UltraClusters,客戶可以利用 AWS 的 Elastic Fabric Adapter(EFA)和 Amazon FSx 提供的可擴展高性能存儲,按需、可擴展地同時訪問多達 4,000 多個 GPU。P4d 提供 400Gbps 網絡,通過使用 NVLink、NVSwitch、NCCL 和 GPUDirect RDMA 等 NVIDIA 技術,進一步加速深度學習訓練的工作負載。EFA 上的 NVIDIA GPUDirect RDMA 在服務器之間可通過 GPU 傳輸數據,無需通過 CPU 和系統內存,從而確保網絡的低延遲。
此外,許多 AWS 服務都支持 P4d 實例,包括 Amazon Elastic Container Services、Amazon Elastic Kubernetes Service、AWS ParallelCluster 和 Amazon SageMaker。P4d 還可使用所有 NGC 提供的經過優化的容器化軟件,包括 HPC 應用、AI 框架、預訓練模型、Helm 圖表以及 TensorRT 和 Triton Inference Server 等推理軟件。
目前,P4d 實例已在美國東部和西部上市,并將很快擴展到其他地區。用戶可以通過按需實例(On-Demand)、Savings Plans、預留實例(Reserved Instances)或競價型實例(Spot Instances)幾種不同的方式進行購買。
GPU 云計算發展最初的十年,已為市場帶來超過 100 exaflops 的 AI 計算。隨著基于 NVIDIA A100 GPU 的 Amazon EC2 P4d 實例的問世,GPU 云計算的下一個十年將迎來一個美好的開端。
NVIDIA 和 AWS 不斷幫助各種應用突破 AI 的界限,以便了解客戶將如何運用 AI 強大的性能。
編輯:hfy
-
NVIDIA
+關注
關注
14文章
4946瀏覽量
102821 -
gpu
+關注
關注
28文章
4702瀏覽量
128712 -
AI
+關注
關注
87文章
30199瀏覽量
268447 -
機器學習
+關注
關注
66文章
8381瀏覽量
132428 -
AWS
+關注
關注
0文章
427瀏覽量
24315
發布評論請先 登錄
相關推薦
評論