傳統協議無法滿足全閃存數據中心的要求,NVMe存儲協議的出現極大提升了存儲系統內部的存儲吞吐性能、降低了傳輸時延,NoF(NVMe over Fabric)存儲網絡應運而生。在多種Fabric技術中,NVMe over RoCE(RDMA over Converged Ethernet)被廣大存儲廠商所接受,成為業界NoF的主流。華為推出的NoF+存儲網絡解決方案,相較于標準NoF方案,在性能、可靠性、易用性上均實現了顛覆性改進,是全閃存時代的最佳選擇。
本文內容參考自《數據中心前沿網絡技術合集(1)》和《數據中心前沿網絡技術合集(2)》。
隨著存儲介質從HDD發展到SSD,存儲高性能吞吐與SCSI協議傳輸較低性能吞吐之間的矛盾日益嚴重,從而出現了NVMe存儲協議。NVMe規范了SSD訪問接口,簡化了協議復雜性,充分利用PCIe(Peripheral Component Interconnect Express)通道的低延時以及并行性,利用多核處理器,通過降低協議交互時延,增加協議并發能力,并且精簡操作系統協議堆棧,顯著提高了SSD的讀寫性能。
全場景閃存化推動了數據中心的網絡改革,NVMe最大化釋放了SSD介質的能力。更快的存儲呼吁更快的網絡。NoF存儲網絡應運而生,通過使用IP網絡對專用網絡的創新性革新,實現了更高的帶寬和更低的時延,同時也兼具IP易管理的優勢,是更好地實現端到端NVMe存儲網絡的最佳方案。
NoF將NVMe協議應用到服務器主機前端,作為存儲陣列與前端主機連接的通道,可端到端取代SAN網絡中的SCSI協議,構建全以太的存儲SAN網絡。
NVMe over Fabric中的“Fabric”,是NVMe的承載網絡,這個網絡可以是RoCE、FC或TCP。具體說明如下:
NVMe over FC協議標準為FC-NVMe,FC-NVMe和FC-SCSI同樣都基于FCP,IO交互基于Exchange。FC-NVMe基于傳統的FC網絡,通過升級主機驅動和交換機支持,FC-SCSI和FC-NVMe能同時運行在同一個FC網絡中。FC-NVMe能最大化繼承傳統的FC網絡,復用網絡基礎設施,基于FC物理網絡發揮NVMe新協議的優勢。
NVMe over TCP基于現有的IP網絡,采用TCP協議傳輸NVMe,在網絡基礎設施不變的情況下實現了端到端NVMe。
NVMe over RoCE是NVMe over RDMA的一種,RDMA是承載NoF的原生網絡協議,RDMA協議除了RoCE外還包括IB(InfiniBand)和iWARP(Internet Wide Area RDMA Protocol)。
其中,基于以太網的RoCE目前已成為RDMA的主流網絡承載方式。NVMe over RDMA協議比較簡單,直接把NVMe的IO隊列映射到RDMA QP(Queue Pair)連接,通過RDMA SEND,RDMA WRITE,RDMA READ三個語義實現IO交互。NVMe over RoCE基于融合以太網的RDMA技術承載NVMe協議。
三種方案相比較,基于以太網的RoCE比FC性能更高(更高的帶寬、更低的時延),同時兼具TCP的優勢(全以太化、全IP化),因此NVMe over RoCE是NoF最優的承載網絡方案,也已成為業界NoF的主流技術。
基于以太網的RoCE在存儲性能、帶寬方面比FC有顯著優勢,但替換FC,聯接全閃存,標準的NVMe over RoCE還需在3個方面加強完善:
1.網絡性能:零丟包網絡零丟包是存儲網絡的基本需求,傳統以太網絡擁塞易丟包。
2.可靠性:秒級主備切換存儲為了可靠性,會構建多個網絡平面,切換時間需<1s。
3.易用性:即插即用FC存儲網絡場景單一、配置簡單,當前以太網絡還需針對存儲場景適應性改進。
基于當下業界主流的標準NoF方案,華為依靠在網絡和存儲領域的深厚積累,進一步從網絡性能、可靠性和易用性這三點都進行提升,基于智能無損網絡面向集中式存儲場景提出了NoF+解決方案,將數據中心存儲網絡進一步推向更廣闊的發展空間。
網絡性能增強:NoF+方案改變了傳統以太靜態水線方式,對網絡預測性能力進行專項優化,通過樣本計算,針對特定場景,通過算法進行精準的控制,從而預判業務對網絡的訴求,提前做出優化,實現高吞吐帶寬,進一步提升性能。
可靠性增強:保障業務系統可靠是存儲的根基,比如存儲的秒級切換功能就是可靠性的關鍵保障之一,標準以太缺乏故障主動發現和通知能力,NoF+實現了從事后被動響應到主動通知、提前識別擁塞和故障。當一個節點出現故障,業務會以亞秒級響應速度切換,在高性能運行的前提下,也能維持系統的穩定可靠。
易用性增強:華為的存儲與網絡產品強強聯合,打造了“即插即用”的方案,實現了一鍵式擴容,自動化管理,增強了在未來建設時的易用性。
在數據中心常規組網里面,存儲網絡只是其中的一部分,集中式存儲是一個獨立的網絡,與業務網絡在物理上隔離。
業務網絡:是指業務服務器對外提供服務通信網絡,該網絡與外部網絡互連互通。
計算網絡:是指運行OLTP/OLAP(Online Transaction Processing/Online Analytical Processing)數據庫的后臺服務計算節點所組成的物理網絡,使用不同的網卡連接業務網絡和存儲網絡,實現業務網絡和存儲網絡之間物理隔離,避免相互影響。
存儲網絡:是指計算服務器訪問存儲數據時使用通信網絡,該網絡一般是獨立的物理網絡。為了保證數據高可靠,存儲網絡支持DC級容災,支持同城雙活存儲網絡,確保業務系統發生設備故障、甚至單數據中心故障時,業務無感知自動切換,實現RPO(Recovery Point Objective)=0,RTO(Recovery Time Objective)≈0(與應用系統及部署方式有關)。
數據中心為了容災考慮,需要實現多數據中心互通。同城兩個數據中心互為備份,且都處于運行狀態。當一個數據中心發生設備故障,甚至數據中心整體故障時,業務自動切換到另一個數據中心,解決了傳統災備中心不能承載業務和業務無法自動切換的問題。提供給用戶高級別的數據可靠性以及業務連續性的同時,提高存儲系統的資源利用率。異地進行異步數據備份。
在集中式存儲下,為了實現同城讀寫支持NVME over ROCE,需要實現同城無損網絡,即需要一套跨DC的無損網絡,每個DC部署兩臺支持智能長距無損的DCI Leaf,中間通過波分設備或者裸光纖直連實現雙平面,實現端到端的ROCE無損網絡。
在本場景中,常見的流量有以下幾種類型:
由應用發起對存儲節點數據的讀操作,此時計算節點訪問同DC中的存儲節點,存儲節點返回相應數據,如圖中藍色線條所示。
當應用同時還需要對存儲寫數據時,除了對本DC內的存儲節點執行寫操作,在存儲系統之間,同時也會發起對另外DC中存儲的寫操作,作為數據的復制備份,如圖中黑色線條所示。
當上層應用在寫本DC存儲時,會先探測本DC內存儲節點是否可用,如果不可用,則應用會將數據寫入到DC2中的存儲節點中,如圖中紅色線條所示。然后DC2中的存儲節點,再嘗試將數據復制寫如到DC1的存儲節點中,如圖中的紫色線條所示。
RoCEv2協議將RDMA遷移到了ETH/IP網絡,使得ETH/IP網絡支持HPC、AI、分布式存儲和集中式存儲。NoF+存儲網絡解決方案借助RoCEv2技術改變了傳統數據中心前端業務網采用以太網、計算網采用IB網、存儲網采用FC網的異構模式,讓智能無損網絡實現三網合一成為可能,全部采用以太的方式部署。
審核編輯:郭婷
-
華為
+關注
關注
215文章
34308瀏覽量
251189 -
SSD
+關注
關注
20文章
2851瀏覽量
117233 -
數據中心
+關注
關注
16文章
4688瀏覽量
71956
原文標題:NVMe over Fabric網絡技術介紹
文章出處:【微信號:架構師技術聯盟,微信公眾號:架構師技術聯盟】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論