數(shù)十年專注企業(yè)數(shù)字化轉(zhuǎn)型、智能化升級、企業(yè)上云解決方案服務(wù)商
工單提交 實名認(rèn)證 騰佑科技咨詢熱線咨詢熱線: 400-996-8756
百度云服務(wù)中心騰佑科技公司
云服務(wù)器活動 服務(wù)器租用 服務(wù)器托管 機柜租賃 帶寬租賃
  • 最新資訊
  • 熱門資訊
  • 最熱資訊
智能建站

關(guān)于RDMA技術(shù)原理,三種主流實現(xiàn)技術(shù)對比

發(fā)布時間:2022-07-15 作者:admin

簡述:摘要:遠(yuǎn)程直接內(nèi)存訪問RDMA(即RemoteDirectMemoryAccess)是一種直接內(nèi)存訪問技術(shù),它將數(shù)據(jù)直接從一臺計算機的內(nèi)存?zhèn)鬏數(shù)搅硪慌_計算機,無需雙方操作系統(tǒng)的介入,本文旨在技術(shù)引導(dǎo)。RDMA技術(shù)最早出現(xiàn)在Infiniban

摘要:遠(yuǎn)程直接內(nèi)存訪問RDMA(即RemoteDirectMemoryAccess)它是一種直接內(nèi)存訪問技術(shù),它直接將數(shù)據(jù)從一臺計算機的內(nèi)存?zhèn)鬏數(shù)搅硪慌_計算機,無需雙方操作系統(tǒng)的干預(yù)。本文旨在進行技術(shù)指導(dǎo)。

RDMA技術(shù)最早出現(xiàn)Infiniband網(wǎng)絡(luò),用于HPC互聯(lián)高性能計算集群。傳統(tǒng)的基于Socket套接字(TCP/IP協(xié)議棧)網(wǎng)絡(luò)通信需要操作系統(tǒng)軟件協(xié)議棧,系統(tǒng)中的數(shù)據(jù)DRAM、處理器Cache和網(wǎng)卡Buffer之間來回復(fù)制移動,占用了大量的CPU計算資源和內(nèi)存總線帶寬也增加了網(wǎng)絡(luò)延遲。舉例來說,40Gbps的TCP/IP主流服務(wù)器的所有流能耗盡CPU資源;RDMA傳統(tǒng)得到了解決TCP/IP通信技術(shù)痛點。例如,在40Gbps場景下,CPU占用率從100%下降到5%,網(wǎng)絡(luò)延遲從100%下降到5%ms級降低到10us以下。

RDMA是一種新的內(nèi)存訪問技術(shù),RDMA讓計算機可以直接存取其他計算機的內(nèi)存,而不需要經(jīng)過處理器耗時的處理。RDMA在不影響操作系統(tǒng)的情況下,將數(shù)據(jù)從系統(tǒng)快速移動到遠(yuǎn)程系統(tǒng)存儲器。RDMA技術(shù)原理及其和TCP/IP如下圖所示,

因此,RDMA它可以簡單地理解為使用相關(guān)的硬件和網(wǎng)絡(luò)技術(shù),服務(wù)器網(wǎng)卡可以直接讀取內(nèi)存,最終達到高帶寬、低延遲和低資源利用率的效果。應(yīng)用程序不需要參與數(shù)據(jù)傳輸過程,只需指定內(nèi)存讀寫地址,打開傳輸并等待傳輸完成。

RDMA最早在Infiniband實現(xiàn)傳輸網(wǎng)絡(luò),技術(shù)先進,但價格高(只有Mellanox和Intel供應(yīng)商提供全套的網(wǎng)絡(luò)解決方案)。后來,行業(yè)制造商將RDMA移植到傳統(tǒng)Ethernet以太網(wǎng),減少了RDMA促進了使用成本RDMA技術(shù)普及。在Ethernet根據(jù)協(xié)議棧融合程度的差異,以太網(wǎng)分為iWARP和RoCE兩種技術(shù),而RoCE又包括RoCEv1和RoCEv2兩個版本(RoCEv最大的改進是支持IP路由),各RDMA如下圖所示,對比如下圖所示。

Infiniband,支持RDMA新一代網(wǎng)絡(luò)協(xié)議。由于這是一種新的網(wǎng)絡(luò)技術(shù),因此需要支持該技術(shù)NIC和交換機。

RoCE,允許以太在線執(zhí)行RDMA網(wǎng)絡(luò)協(xié)議。其較低的網(wǎng)絡(luò)標(biāo)頭為以太網(wǎng)標(biāo)頭,其較高的網(wǎng)絡(luò)標(biāo)頭(包括數(shù)據(jù))為InfiniBand標(biāo)頭。支持使用標(biāo)準(zhǔn)以太網(wǎng)基礎(chǔ)設(shè)施(交換機)RDMA。只有網(wǎng)卡應(yīng)該是特別的,支持RoCE。

iWARP,一個允許在TCP上執(zhí)行RDMA網(wǎng)絡(luò)協(xié)議。IB和RoCE存在的功能是iWARP不支持。該支持用于標(biāo)準(zhǔn)以太網(wǎng)基礎(chǔ)設(shè)施(交換機)RDMA。只有網(wǎng)卡應(yīng)該是特別的,支持iWARP(如果使用CPU卸載),否則所有iWARP堆??梢栽谲浖袑崿F(xiàn),失去了大部分RDMA性能優(yōu)勢。

RDMA應(yīng)用和RNIC(RDMA-awareNetworkInterfaceController)傳輸接口層之間(SoftwareTransportInterface)被稱為Verbs或RDMAAPI,RDMAAPI(Verbs)主要有兩種Verbs:

內(nèi)存Verbs(MemoryVerbs),也叫One-SidedRDMA。包括RDMAReads,RDMAWrites,RDMAAtomic。在這種模式下RDMA遠(yuǎn)端機完全無需確認(rèn)訪問。

消息Verbs(MessagingVerbs),也叫Two-SidedRDMA。包括RDMASend,RDMAReceive。在這種模式下RDMA遠(yuǎn)端機需要訪問CPU的參與。

RDMAoverTCP(iWARP)協(xié)議可以基于標(biāo)準(zhǔn)工作TCP/IP協(xié)議網(wǎng)絡(luò),如以太網(wǎng),目前廣泛應(yīng)用于各種數(shù)據(jù)中心。iWARP物理層信息沒有指定,可以在任何使用中工作TCP/IP協(xié)議的網(wǎng)絡(luò)上層。iWARP許多傳輸類型允許共享相同的物理連接,如網(wǎng)絡(luò)I/O、信息通信在文件系統(tǒng)、塊存儲和處理器之間。

從RDMAoverTCP從協(xié)議棧的角度來看,上三層構(gòu)成iWARP協(xié)議族,用來保證高速網(wǎng)絡(luò)的互操作性。

然而,RDMAoverConvergedEthernet(RoCE)允許通過以太網(wǎng)實現(xiàn)遠(yuǎn)程內(nèi)存訪問的網(wǎng)絡(luò)協(xié)議。RoCE有兩個協(xié)議版本。

RoCEv一是鏈路層協(xié)議,允許兩臺主機直接訪問同一廣播域。

RoCEv2是一種Internet路由功能可以通過層協(xié)議實現(xiàn)。RoCE協(xié)議的這些好處都是基于以太網(wǎng)融合的特點,但是RoCE該協(xié)議也可用于傳統(tǒng)以太網(wǎng)或非融合以太網(wǎng)。

目前,雖然IB、以太網(wǎng)RoCE、以太網(wǎng)iWARP這三種RDMA統(tǒng)一使用技術(shù)API,但它們有不同的物理層和鏈路層。在以太網(wǎng)解決方案中,RoCE相對于iWARP延遲、吞吐率和CPU負(fù)載。RoCE它得到了許多主流方案的支持,并包括在內(nèi)Windows在服務(wù)軟件中。

RDMA技術(shù)基于傳統(tǒng)網(wǎng)絡(luò)的概念,但與IP網(wǎng)絡(luò)又有些不同。最關(guān)鍵的區(qū)別是RDMA應(yīng)用程序可以直接訪問遠(yuǎn)程計算機上的虛擬內(nèi)存,提供消息服務(wù)。信息服務(wù)可用于網(wǎng)絡(luò)過程之間的通信(IPC)、在一些上層協(xié)議的幫助下,遠(yuǎn)程服務(wù)器通信并與存儲設(shè)備傳輸數(shù)據(jù)。上層應(yīng)用協(xié)議ULPs(UpperLayerProtocols)有很多,比如iSCSI的RDMA擴展(iSER)、SCSIRDMA協(xié)議(SRP)等,主流的SMB、Samba、Lustre、ZFS等也支持RDMA。

RoCE和InfiniBand,定義了如何在以太網(wǎng)上運行RDMA,另一個定義了如何IB網(wǎng)絡(luò)中運行RDMA。RoCE期望能夠?qū)B在其他應(yīng)用中,應(yīng)用程序(主要是基于集群的應(yīng)用程序)遷移到集成以太網(wǎng),IB網(wǎng)絡(luò)仍將能夠提供比RoCE帶寬較高,延遲較低。RoCE和IB協(xié)議的技術(shù)差異:

擁塞控制:RoCE基于以太網(wǎng)流控或PFC(PriorityFlowControl)來實現(xiàn)。RoCEv使用擁塞控制協(xié)議是定義的ECN做標(biāo)記和CNP確認(rèn)幀IB使用基于信用的算法來保證HCA-HCA無丟包通信。

時延:當(dāng)前IB交換機的延遲通常低于以太交換機。以太網(wǎng)交換機通常是Port-to-Port時延在230ns,相比IB交換機在相同的端口數(shù)下1000ns以太交換機的延遲要高得多。

配置:配置一個DCB以太網(wǎng)絡(luò)遠(yuǎn)比配置好IB網(wǎng)絡(luò)要復(fù)雜得多,同樣,運維也要復(fù)雜得多。

RoCE和iWARP,一個是基于無連接協(xié)議UDP,一是基于面向連接的協(xié)議(如TCP)。RoCEv1只能局限于二層廣播域,RoCEv2和iWARP三層路由路由。相比RoCE,在大型組網(wǎng)的情況下,iWARP的大量TCP對系統(tǒng)規(guī)格要求較高內(nèi)存資源,對系統(tǒng)規(guī)格要求更高。另外,RoCE和iWARP沒有相關(guān)的標(biāo)準(zhǔn)定義。

Intel收購了Qlogic的InfiniBand業(yè)務(wù)的Intel另辟新路,推出了一推出了一整套叫做“TrueScaleFabric”高性能計算架構(gòu)的解決方案(包括IB和Omni-Path),獨立提出一套Omni-PathHostFabricInterface接口及相應(yīng)的交換機產(chǎn)品。提供Verbs和PSM(性能擴展信息庫)兩個編程接口,PSM是專門面向MPI通信設(shè)計界面。

Intel在CPU上集成了Omni-Path相關(guān)功能也意味著Omni-Path通信效率更高,但會讓你的網(wǎng)絡(luò)依賴CPU,至少對處理器的開放性有限。

通過收購Cray互聯(lián)部門,Intel在Omni-Path引入了1.5層的概念。它被稱為鏈接傳輸層(LinkTransportLayer),基于Cray的Aries基礎(chǔ)互聯(lián)網(wǎng)技術(shù)優(yōu)化底層數(shù)據(jù)通信,提供可靠的兩層數(shù)據(jù)包交付、流量控制和單連璐控制。這也是收購Cray的Aries充分利用技術(shù)。

點擊展開全文

騰佑科技(www.mubashirfilms.com)成立于2009年,總部位于河南鄭州,是一家集互聯(lián)網(wǎng)基礎(chǔ)設(shè)施及軟硬件于一體化的高新技術(shù)企業(yè),具有IDC/ISP/ICP/云牌照、雙軟等資質(zhì),并擁有多個國家版權(quán)局認(rèn)證。公司自成立以來,一直致力于發(fā)展互聯(lián)網(wǎng)IDC數(shù)據(jù)中心DataCenter、云計算Cloud、大數(shù)據(jù)BigDate、人工智能AI、內(nèi)容加速CDN、互聯(lián)網(wǎng)安全、軟件定制開發(fā)等產(chǎn)品服務(wù)及行業(yè)客戶技術(shù)一體化智能解決方案;2018年成為百度智能云AI河南服務(wù)中心。

售前咨詢熱線:400-996-8756

備案提交:0371-89913068

售后客服:0371-89913000

熱門活動

百度云服務(wù)中心
  • 熱門資訊
  • 隨便看看