各式各樣的數(shù)據(jù)在網(wǎng)絡(luò)介質(zhì)中通過網(wǎng)絡(luò)協(xié)議(如TCP/IP)進(jìn)行傳輸時(shí),如果信息量過大而不加以限制的話,那么超額的網(wǎng)絡(luò)流量就會(huì)導(dǎo)致設(shè)備反應(yīng)緩慢,由此就造成了網(wǎng)絡(luò)延遲。
延遲越低越好,效率越高越好,這不僅僅是數(shù)據(jù)中心網(wǎng)絡(luò)的要求,我們平常使用的內(nèi)部網(wǎng)絡(luò)同樣也希望如此。當(dāng)前的網(wǎng)絡(luò)速度有萬兆、2.5萬兆、4萬兆,甚至10萬兆、20萬兆……的趨勢(shì)都已經(jīng)來了,網(wǎng)絡(luò)帶寬似乎已經(jīng)不是主要的瓶頸了,而服務(wù)器系統(tǒng)和CPU本身逐步轉(zhuǎn)為了制約網(wǎng)絡(luò)I/O的瓶頸,影響服務(wù)器的整體性能。
1. 如何解決問題?
解決問題的基本思路就是:通過應(yīng)用程序直接讀取和寫入遠(yuǎn)程內(nèi)存,而無需CPU介入進(jìn)行多次拷貝內(nèi)存,還可繞過內(nèi)核直接向網(wǎng)卡寫數(shù)據(jù),實(shí)現(xiàn)了高吞吐量、超低時(shí)延和低CPU開銷的效果。
實(shí)現(xiàn)這樣功能的技術(shù)就是RDMA(Remote Direct Memory Access)技術(shù),也就把RDMA【遠(yuǎn)程直接數(shù)據(jù)存取】技術(shù)運(yùn)用到了網(wǎng)卡控制器上。
那么具有RDMA功能的網(wǎng)卡和不具有RDMA網(wǎng)卡的有什么不同呢?
首先不具備RDMA功能的網(wǎng)卡的傳輸路徑過程是:應(yīng)用程序--->系統(tǒng)--->內(nèi)存--->CPU--->內(nèi)存--->硬盤---->內(nèi)存--->網(wǎng)卡。
而具有RDMA功能的網(wǎng)卡,在進(jìn)行數(shù)據(jù)傳輸時(shí)候,網(wǎng)卡繞過CPU來實(shí)現(xiàn)服務(wù)器間的內(nèi)存數(shù)據(jù)交換:應(yīng)用程序--->內(nèi)存--->硬盤---->內(nèi)存--->網(wǎng)卡。大大地簡(jiǎn)化了過程,傳輸效率有了明顯的提升。
RDMA作為一種硬件實(shí)現(xiàn)的網(wǎng)絡(luò)傳輸技術(shù),可以大幅提升網(wǎng)絡(luò)傳輸實(shí)效,幫助網(wǎng)絡(luò)IO密集的業(yè)務(wù)(比如分布式存儲(chǔ)、分布式數(shù)據(jù)庫等)獲得更低的時(shí)延以及更高的吞吐。
目前市場(chǎng)上能夠支持RDMA功能的網(wǎng)卡產(chǎn)品并不普及,如我們熟知的Intel網(wǎng)卡,也只在X722-da2/da4上加入了單一的iWARP功能。
而由深圳市聯(lián)瑞電子有限公司推出的三款國(guó)產(chǎn)萬兆光纖網(wǎng)卡:聯(lián)瑞LRES1004PF-2SFP+、聯(lián)瑞LRES1005PF-4SFP+、聯(lián)瑞LRES1009PF-SFP+均具有RoCE和iWARP的RDMA功能,同時(shí)成為國(guó)內(nèi)首批具有RDMA功能的國(guó)產(chǎn)網(wǎng)卡之一。接下來還會(huì)有25G的支持RDMA的光纖網(wǎng)卡上市,我們拭目以待。
2. RDMA的應(yīng)用
(1)在服務(wù)器群集上應(yīng)用
RDMA用來把小型服務(wù)器連接為一個(gè)群集;可以處理一些十幾顆處理器的高端服務(wù)器才能夠處理的大型數(shù)據(jù)庫。
(2)在高速集群和服務(wù)器區(qū)域網(wǎng)上應(yīng)用
采用RDMA來獲取高性能的協(xié)議,包括SDP(Sockets Direct Protocol)、SRP(SCSI RDMA Protocol)和DAFS(Direct Access File System);
(3)在分布式應(yīng)用程序的集群上應(yīng)用
采用RDMA的通信庫,包括DAPL(Direct Access Provider Library)、MPI(Message Passing Interface)和VIPL(Virtual Interface Provider Library),運(yùn)行在分布式應(yīng)用程序的集群是RDMA 能夠大顯身手的領(lǐng)域之一;
通過DAPL或VIPL以及集群上運(yùn)行的數(shù)據(jù)庫軟件來使用RDMA,可在相同的節(jié)點(diǎn)數(shù)目下獲得更高的性能和更好的延展性。使用MPI的集群科技運(yùn)算應(yīng)用程序,通過支持互連RDMA 實(shí)現(xiàn)了低延遲時(shí)間低開銷和高吞吐量,這一結(jié)果也使它獲得了巨大的性能提升其他初期的RDMA 應(yīng)用;
iWARP/RDMA這類技術(shù)是通過DAFS的遠(yuǎn)程文件服務(wù)器訪問、通過SRP的存儲(chǔ)設(shè)備訪問RDMA技術(shù)成為高速集群系統(tǒng)和存儲(chǔ)域網(wǎng)絡(luò)的基本特征技術(shù)。
還有用于RDMA的iSCSI擴(kuò)展的iSER,充分利用了RDMA的功能。
RDMA的其他早期應(yīng)用還有通過DAFS的遠(yuǎn)程文件服務(wù)器訪問和通過SRP的刀片服務(wù)器存儲(chǔ)訪問。
(4)在NAS和SAN上應(yīng)用
傳統(tǒng)的直連存儲(chǔ)DAS是以服務(wù)器為中心的存儲(chǔ)結(jié)構(gòu),這一存儲(chǔ)體系結(jié)構(gòu)存在容量限制、連接距離有限、不易于共享和管理等不可克服的缺點(diǎn)。已經(jīng)不能夠滿足網(wǎng)絡(luò)時(shí)代的應(yīng)用需求,存儲(chǔ)技術(shù)發(fā)生巨大變化出現(xiàn)了,出現(xiàn)了如:網(wǎng)絡(luò)附加存儲(chǔ)NAS、存儲(chǔ)區(qū)域網(wǎng)絡(luò)SAN。這些既能為網(wǎng)絡(luò)上的應(yīng)用系統(tǒng)提供豐富快速簡(jiǎn)便的存儲(chǔ)資源,又能共享存儲(chǔ)資源并對(duì)其實(shí)施集中管理,成為當(dāng)前理想的存儲(chǔ)管理和應(yīng)用模式,但NAS結(jié)構(gòu)存在一些難以解決的問題如:傳輸能力有限、可擴(kuò)展性有限、數(shù)據(jù)備份能力有限、并且不能對(duì)數(shù)據(jù)庫服務(wù)提供有效的支持。
DAFS把RDMA的優(yōu)點(diǎn)和NAS的存儲(chǔ)能力集成在一起,全部的讀寫操作都直接通過RDMA驅(qū)動(dòng)器執(zhí)行,從而降低了網(wǎng)絡(luò)文件協(xié)議所帶來的系統(tǒng)負(fù)載,今后的NAS存儲(chǔ)系統(tǒng)將會(huì)采用DAFS技術(shù)來提高系統(tǒng)性能,并且在性能和價(jià)格上與SAN 存儲(chǔ)系統(tǒng)進(jìn)行有力的競(jìng)爭(zhēng)。
(5)在高性能數(shù)據(jù)中心上應(yīng)用
數(shù)據(jù)中心、AI訓(xùn)練、云存儲(chǔ)等。
責(zé)任編輯:tzh
-
服務(wù)器
+關(guān)注
關(guān)注
12文章
9028瀏覽量
85199 -
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
7522瀏覽量
88647 -
RDMA
+關(guān)注
關(guān)注
0文章
76瀏覽量
8928
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論