自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

詳談RDMA技術原理和三種實現(xiàn)方式

網(wǎng)絡 網(wǎng)絡管理
遠程直接內存訪問(即RDMA)是一種直接內存訪問技術,它將數(shù)據(jù)直接從一臺計算機的內存?zhèn)鬏數(shù)搅硪慌_計算機,無需雙方操作系統(tǒng)的介入。RDMA最早在Infiniband傳輸網(wǎng)絡上實現(xiàn),后來業(yè)界廠家把RDMA移植到傳統(tǒng)Ethernet以太網(wǎng)上,降低了RDMA的使用成本,推動RDMA技術普及。

[[385738]]

 遠程直接內存訪問(即RDMA)是一種直接內存訪問技術,它將數(shù)據(jù)直接從一臺計算機的內存?zhèn)鬏數(shù)搅硪慌_計算機,無需雙方操作系統(tǒng)的介入。RDMA最早在Infiniband傳輸網(wǎng)絡上實現(xiàn),后來業(yè)界廠家把RDMA移植到傳統(tǒng)Ethernet以太網(wǎng)上,降低了RDMA的使用成本,推動RDMA技術普及。

然而,在Ethernet以太網(wǎng)上,根據(jù)協(xié)議棧融合度的差異,分為iWARP和RoCE兩種技術,而RoCE又包括RoCEv1和RoCEv2兩個版本(RoCEv2的最大改進是支持IP路由)。

隨著高性能計算、大數(shù)據(jù)分析、人工智能以及物聯(lián)網(wǎng)等技術的飛速發(fā)展,集中式存儲、分布式存儲以及云數(shù)據(jù)庫的普及等原因,業(yè)務應用有越來越多的數(shù)據(jù)需要從網(wǎng)絡中獲取,這對數(shù)據(jù)中心網(wǎng)絡的交換速度和性能要求越來越高。

傳統(tǒng)的 TCP/IP 軟硬件架構及應用存在著網(wǎng)絡傳輸和數(shù)據(jù)處理的延遲過大、存在多次數(shù)據(jù)拷貝和中斷處理、復雜的 TCP/IP 協(xié)議處理等問題。RDMA(Remote Direct Memory Access,遠程直接內存訪問)是一種為了解決網(wǎng)絡傳輸中服務器端數(shù)據(jù)處理延遲而產生的技術。

RDMA 將用戶應用中的數(shù)據(jù)直接傳入服務器的存儲區(qū),通過網(wǎng)絡將數(shù)據(jù)從一個系統(tǒng)快速傳輸?shù)竭h程系統(tǒng)的存儲器中,消除了傳輸過程中多次數(shù)據(jù)復制和文本交換的操作,降低了 CPU 的負載。RDMA技術的原理及其與TCP/IP架構的對比如下圖所示。


RDMA 技術實現(xiàn)了在網(wǎng)絡傳輸過程中兩個節(jié)點之間數(shù)據(jù)緩沖區(qū)數(shù)據(jù)的直接傳遞,在本節(jié)點可以直接將數(shù)據(jù)通過網(wǎng)絡傳送到遠程節(jié)點的內存中,繞過操作系統(tǒng)內的多次內存拷貝,相比于傳統(tǒng)的網(wǎng)絡傳輸,RDMA 無需操作系統(tǒng)和 TCP/IP 協(xié)議的介入,可以輕易的實現(xiàn)超低延時的數(shù)據(jù)處理、超高吞吐量傳輸,不需要遠程節(jié)點 CPU 等資源的介入,不必因為數(shù)據(jù)的處理和遷移耗費過多的資源。

RDMA 技術主要包括:

IB(InfiniBand):基于 InfiniBand 架構的 RDMA 技術,由 IBTA(InfiniBand Trade Association)提出。搭建基于 IB 技術的 RDMA 網(wǎng)絡需要專用的 IB 網(wǎng)卡和 IB 交換機。

iWARP(Internet Wide Area RDMA Protocal):基于 TCP/IP 協(xié)議的 RDMA 技術,由IETF 標 準定義。iWARP 支持在標準以太網(wǎng)基礎設施上使用 RDMA 技術,但服務器需要使用支持iWARP 的網(wǎng)卡。

RoCE(RDMA over Converged Ethernet):基于以太網(wǎng)的 RDMA 技術,也是由 IBTA提出。RoCE支持在標準以太網(wǎng)基礎設施上使用RDMA技術,但是需要交換機支持無損以太網(wǎng)傳輸,需要服務器使用 RoCE 網(wǎng)卡。

InfiniBand技術簡介

InfiniBand 是一種基于 InfiniBand 架構的 RDMA 技術,它提供了一種基于通道的點對點消息隊列轉發(fā)模型,每個應用都可通過創(chuàng)建的虛擬通道直接獲取本應用的數(shù)據(jù)消息,無需其他操作系統(tǒng)及協(xié)議棧的介入。InfiniBand 架構的應用層采用了 RDMA 技術,可以提供遠程節(jié)點間 RDMA讀寫訪問,完全卸載 CPU 工作負載;網(wǎng)絡傳輸采用了高帶寬的傳輸;鏈路層設置特定的重傳機制保證服務質量,不需要數(shù)據(jù)緩沖。


InfiniBand 必須運行在 InfiniBand 網(wǎng)絡環(huán)境下,必須使用 IB 交換機及 IB 網(wǎng)卡才可實現(xiàn)。

InfiniBand 技術具有以下特點:

• 應用層采用 RDMA 技術,降低了在主機側數(shù)據(jù)處理的延遲。

• 消息轉發(fā)控制由子網(wǎng)管理器完成,沒有類似以太網(wǎng)復雜的協(xié)議交互計算。

• 鏈路層通過重傳機制保證服務質量,不需要數(shù)據(jù)緩沖,無丟包。

• 具有低延遲、高帶寬、低處理開銷的特點。

iWARP 技術簡介

iWARP 是基于以太網(wǎng)和 TCP/IP 協(xié)議的 RDMA 技術,可以運行在標準的以太網(wǎng)基礎設施上。

iWARP并沒有指定物理層信息,所以能夠工作在任何使用TCP/IP協(xié)議的網(wǎng)絡上層。iWARP允許很多傳輸類型來共享相同的物理連接,如網(wǎng)絡、I/O、文件系統(tǒng)、塊存儲和處理器之間的消息通訊。

iWARP協(xié)議棧

iWARP 由 MPA、DDP、RDMAP 三層子協(xié)議組成:

RDMAP層協(xié)議負責 RDMA 讀、寫操作和 RDMA 消息的轉換,并將 RDMA 消息轉發(fā)到DDP層。

DDP層協(xié)議負責將過長的 RDMA 消息分片分裝成DDP數(shù)據(jù)包繼續(xù)轉發(fā)到 MPA 層。

MPA層在 DDP 數(shù)據(jù)段的固定標識位置增加轉發(fā)后向標識、數(shù)據(jù)報文的長度以及 CRC 校驗數(shù)據(jù)等字段構成 MPA 數(shù)據(jù)段交由 TCP 傳輸。

iWARP 技術特點

iWARP 從以下幾個方面降低了主機側網(wǎng)絡負載:

• TCP/IP 處理流程從 CPU 卸載到 RDMA 網(wǎng)卡處理,降低了 CPU 負載。

• 消除內存拷貝:應用程序可以直接將數(shù)據(jù)傳輸?shù)綄Χ藨贸绦騼却嬷?,顯著降低 CPU 負載。

• 減少應用程序上、下文切換:應用程序可以繞過操作系統(tǒng),直接在用戶空間對 RDMA 網(wǎng)卡下發(fā)命令,降低了開銷,顯著降低了應用程序上、下文切換造成的延遲。

由于 TCP 協(xié)議能夠提供流量控制和擁塞管理,因此 iWARP 不需要以太網(wǎng)支持無損傳輸,僅通過普通以太網(wǎng)交換機和 iWARP 網(wǎng)卡即可實現(xiàn),因此能夠在廣域網(wǎng)上應用,具有較好的擴展性。

RoCE技術簡介

RoCE 技術支持在以太網(wǎng)上承載 IB 協(xié)議,實現(xiàn) RDMA over Ethernet。RoCE 與 InfiniBand技術有相同的軟件應用層及傳輸控制層,僅網(wǎng)絡層及以太網(wǎng)鏈路層存在差異。


RoCE 協(xié)議分為兩個版本:

RoCE v1協(xié)議:基于以太網(wǎng)承載 RDMA,只能部署于二層網(wǎng)絡,它的報文結構是在原有的 IB架構的報文上增加二層以太網(wǎng)的報文頭,通過 Ethertype 0x8915 標識 RoCE 報文。

RoCE v2協(xié)議:基于 UDP/IP 協(xié)議承載 RDMA,可部署于三層網(wǎng)絡,它的報文結構是在原有的 IB 架構的報文上增加 UDP 頭、IP 頭和二層以太網(wǎng)報文頭,通過 UDP 目的端口號 4791 標 識RoCE 報文。RoCE v2 支持基于源端口號 hash,采用 ECMP 實現(xiàn)負載分擔,提高了網(wǎng)絡的利用率。

RoCE 使得基于以太網(wǎng)的數(shù)據(jù)傳輸能夠:

• 提高數(shù)據(jù)傳輸吞吐量。

• 減少網(wǎng)絡延時。

• 降低 CPU 負載。

RoCE 技術可通過普通以太網(wǎng)交換機實現(xiàn),但服務器需要支持 RoCE 網(wǎng)卡,網(wǎng)絡側需要支持無損以太網(wǎng)絡,這是由于 IB 的丟包處理機制中,任意一個報文的丟失都會造成大量的重傳,嚴重影響數(shù)據(jù)傳輸性能。

在 RoCE 網(wǎng)絡中,需要構建無損以太網(wǎng)用于保證網(wǎng)絡傳輸過程中不丟包,關于無損以太網(wǎng)技術參考文章:“FCoE全解系列”之增強型以太網(wǎng)技術。構建無損以太網(wǎng)需支持以下關鍵特性:

  • (必選)PFC(Priority-based Flow Control,基于優(yōu)先級的流量控制):逐跳提供基于優(yōu)先級的流量控制,能夠實現(xiàn)在以太網(wǎng)鏈路上運行多種類型的流量而互不影響。
  • (必選)ECN(Explicit Congestion Notification,顯示擁塞通知):設備發(fā)生擁塞時,通過對報文 IP 頭中 ECN 域的標識,由接收端向發(fā)送端發(fā)出降低發(fā)送速率的 CNP(Congestion Notification Packet,擁塞通知報文),實現(xiàn)端到端的擁塞管理,減緩擁塞擴散惡化。
  • (建議)DCBX(Data Center Bridging Exchange Protocol,數(shù)據(jù)中心橋能力交換協(xié)議):使用 LLDP 自動協(xié)商 DCB 能力參數(shù),包括 PFC 和 ETS 等。一般用在接入交換機連接服務器的端口,與服務器網(wǎng)卡進行能力協(xié)商。
  • (可選)ETS(Enhanced Transmission Selection,增強傳輸選擇):將流量按服務類型分組,在提供不同流量的最小帶寬保證的同時提高鏈路利用率,保證重要流量的帶寬百分比。需要逐跳提供。

在 RoCE 環(huán)境中,PFC與ECN 需要同時使用,以在無丟包情況下帶寬得到保證。二者的功能對比如下:


雖然IB、以太網(wǎng)RoCE、以太網(wǎng)iWARP這三種RDMA技術使用統(tǒng)一的API,但它們有著不同的物理層和鏈路層。在以太網(wǎng)解決方案中,RoCE相對于iWARP來說有著明顯的優(yōu)勢,這些優(yōu)勢體現(xiàn)在延時、吞吐率和 CPU負載。RoCE被很多主流的方案所支持,并且被包含在Windows服務軟件中。


RDMA技術基于傳統(tǒng)網(wǎng)絡的概念,但與IP網(wǎng)絡又有些不同。最關鍵的不同是RDMA提供了一種消息服務, 利用這種服務,應用程序可以直接訪問遠程計算機上的虛擬內存。消息服務可以用來進行網(wǎng)絡中進程間通信(IPC)、遠程服務器通信和在一些上層協(xié)議的協(xié)助下與存儲設備進行數(shù)據(jù)傳遞。

上層應用協(xié)議ULPs(Upper Layer Protocols)有很多,例如iSCSI的RDMA擴展(iSER)、SCSI RDMA協(xié)議(SRP)等,主流的SMB、Samba 、Lustre、ZFS等也支持RDMA。

RoCE和InfiniBand,一個定義了如何在以太網(wǎng)上運行RDMA,而另一個則定義了如何在IB網(wǎng)絡中運行RDMA。RoCE期望能夠將IB的應用(主要是基于集群的應用)遷移到融合以太網(wǎng)中,而在其他應用中,IB網(wǎng)絡仍將能夠提供比RoCE更高的帶寬和更低的時延。RoCE和IB協(xié)議的技術區(qū)別:

  • 擁塞控制:RoCE所依賴的無丟包網(wǎng)絡基于以太網(wǎng)流控或PFC(Priority Flow Control)來實現(xiàn)。RoCEv2 則是定義了擁塞控制協(xié)議,使用ECN做標記和CNP幀來做確認。而IB則是使用基于信用的算法來保證HCA-HCA之間的無丟包通信。
  • 時延:當前IB交換機普遍要比以太交換機擁有更低的時延,以太網(wǎng)交換機一般的Port-to-Port時延在230ns,相比IB交換機在同樣端口數(shù)的情況下100ns的時延,以太交換機還是要高出不少。
  • 配置:配置一個DCB以太網(wǎng)絡要遠比配置一個IB網(wǎng)絡要復雜的多,同理,運維也要復雜的多。

RoCE和iWARP,一個是基于無連接協(xié)議UDP,一個是基于面向連接的協(xié)議(如TCP)。RoCEv1只能局限在一個二層廣播域內,而RoCEv2和iWARP都能夠支持三層路由。相比RoCE,在大型組網(wǎng)的情況下,iWARP的大量TCP連接會占用大量的額內存資源,對系統(tǒng)規(guī)格要求更高。另外,RoCE支持組播,而iWARP還沒有相關的標準定義。

 

責任編輯:姜華 來源: 架構師技術聯(lián)盟
相關推薦

2014-12-31 17:42:47

LBSAndroid地圖

2021-06-24 08:52:19

單點登錄代碼前端

2021-11-05 21:33:28

Redis數(shù)據(jù)高并發(fā)

2024-07-08 09:03:31

2010-03-12 17:52:35

Python輸入方式

2010-09-07 16:31:27

CSS

2018-04-02 14:29:18

Java多線程方式

2024-07-01 12:42:58

2023-12-04 09:31:13

CSS卡片

2021-01-15 10:45:55

技術物聯(lián)網(wǎng)IOT

2022-11-03 08:44:24

代理模式Java設計模式

2022-11-15 11:04:12

2022-01-25 14:50:21

區(qū)塊鏈醫(yī)療技術

2012-07-17 09:16:16

SpringSSH

2010-08-03 09:20:33

Flex讀取XML配置

2024-05-27 00:20:00

2023-04-13 07:41:14

RoCE技術RDMA

2024-08-13 08:25:16

C#外部程序方式

2017-04-19 16:30:51

SDNNFV網(wǎng)絡

2014-07-30 17:10:38

LVS集群負載均衡
點贊
收藏

51CTO技術棧公眾號