TCP/IP加速原理詳解
請先看下這個case:
對某一個key value應(yīng)用,從網(wǎng)卡接收數(shù)據(jù)包到應(yīng)用層處理,再把數(shù)據(jù)發(fā)送出去,整個系統(tǒng)資源消耗情況如下:
可以看出,Sockets接口+TCP是系統(tǒng)瓶頸。
根據(jù)下圖模型,瓶頸在于TCP(包括sockets接口)。
要想提升系統(tǒng)吞吐量,必須要優(yōu)化TCP。
由于網(wǎng)絡(luò)延遲的存在,對用戶體驗影響更大的是如何快速傳遞數(shù)據(jù)到客戶端,而這屬于流量優(yōu)化的范疇。
本文講述如何優(yōu)化TCP性能和TCP數(shù)據(jù)傳遞。
1. 什么是TCP加速
引用百度百科的定義:
主流的TCP加速方式主要有 :基于流量的加速傳遞和數(shù)據(jù)包處理性能優(yōu)化。
基于流量的方式主要通過修改擁塞控制算法來達到快速傳遞數(shù)據(jù)包的目的。
數(shù)據(jù)包處理性能優(yōu)化包括內(nèi)核優(yōu)化、TCP offload和基于用戶態(tài)TCP協(xié)議的方式。這些方式可用于優(yōu)化數(shù)據(jù)包處理,從而提升系統(tǒng)的吞吐量。
2. 基于流量的TCP加速方式
(1) TCP雙邊加速
TCP雙邊加速需要在TCP連接的兩端部署硬件設(shè)備或安裝軟件。
雙邊加速的優(yōu)點是可以利用壓縮等技術(shù)進一步提升TCP傳輸效率,缺點是部署麻煩。
雙邊加速一般應(yīng)用于公司不同分支之間的遠距離訪問。
下圖是雙邊加速的一個例子。TCP加速設(shè)備之間采用SCTP的協(xié)議進行交互,而原本TCP對端跟TCP加速設(shè)備之間則采用常規(guī)的TCP協(xié)議進行交互。這種透明代理的方式方便了TCP加速設(shè)備之間采用特殊的方式來加速。
(2) 單邊加速
TCP單邊加速只需要在在TCP的一端部署軟件或設(shè)備,達到提升TCP快速傳輸數(shù)據(jù)的目的。
絕大部分TCP單邊加速都是通過修改TCP的擁塞控制算法來實現(xiàn)。
下圖顯示了某商用化產(chǎn)品的單邊加速情況,數(shù)據(jù)包的發(fā)送很暴力,并沒有慢啟動過程。這種無視網(wǎng)絡(luò)狀況發(fā)送數(shù)據(jù)包的方式,大部分場景下確實能夠提升性能,但這樣的性能提升方式其實是搶占了互聯(lián)網(wǎng)帶寬資源,就像高速公路走應(yīng)急車道一樣。
近幾年出現(xiàn)的google擁塞控制算法BBR可以看成是單邊加速的一種。
上圖展示了相對于傳統(tǒng)擁塞控制算法CUBIC,BBR算法在網(wǎng)絡(luò)丟包情況下仍然表現(xiàn)優(yōu)異,原因在于BBR算法摒棄丟包作為擁塞控制的直接反饋因素,通過實時計算帶寬和最小RTT來決定發(fā)送速率和窗口大小。
在移動應(yīng)用場合,大部分網(wǎng)絡(luò)丟包并不是由于路由器網(wǎng)絡(luò)擁塞導致,因此在移動場合,BBR算法具有更好的適應(yīng)性。
在Linux內(nèi)核4.9以上版本(不包括docker環(huán)境),使用BBR算法,一般只需要在sysctl.conf文件加上下面兩句:
然后執(zhí)行sysctl -p使其生效。
TCP單邊加速的優(yōu)點是只需要在一側(cè)進行部署,缺點是無法直接利用壓縮等功能,而且大都會破壞互聯(lián)網(wǎng)的公平性。
3. 內(nèi)核優(yōu)化
(1) 純內(nèi)核優(yōu)化
根據(jù)Wikipedia內(nèi)容:
我們得知,內(nèi)核需要根據(jù)實際場景進行優(yōu)化,不能一概而論。合理優(yōu)化,可以提升性能很多(有時能夠提升10倍),但如果盲目優(yōu)化,性能反而下降。
當今的內(nèi)核,在大部分場景下,TCP buffer能夠自動調(diào)整buffer大小來匹配傳輸,所以在內(nèi)核方面需要優(yōu)化的地方就是選擇合適的擁塞控制算法。
下面是Linux默認算法CUBIC和BBR算法在丟包情況下的對比情況:
在丟包情況下,BBR所受影響沒有Linux TCP默認算法CUBIC那么大,而且在20%以下的丟包率情況下性能遠超CUBIC。一般建議在非網(wǎng)絡(luò)擁塞導致丟包的場合使用BBR算法,例如移動應(yīng)用。
對于帶寬比較大,RTT時間比較長的應(yīng)用場景,可以參考。
(2) Dedicated fast path
由于內(nèi)核處理TCP是通用的處理方式,不同的場景,執(zhí)行的路徑是不一樣的,針對某些場景做特殊的優(yōu)化,可以大大提升TCP的處理性能。
這方面可以參考論文"TAS: TCP Accleration as an OS Service"。
4. TCP offload
內(nèi)核消耗性能的地方主要有如下四個方面:
目前TCP offload常用的功能是TCP/IP checksum offload和TCP segmentation offload,主要是解決上面第二個問題。
其它問題需要更加強大的網(wǎng)卡支持,這方面可以參考"https://www.dell.com/downloads/global/power/1q04-her.pdf"。
"TCP Offload Engines"論文中描述了網(wǎng)絡(luò)應(yīng)用內(nèi)存拷貝的情況,具體參考下圖。
不管是發(fā)送路徑還是接收路徑,系統(tǒng)存在大量內(nèi)存拷貝,直接影響了TCP/IP協(xié)議棧性能,可以利用TCP offload功能,NIC直接拷貝到應(yīng)用的buffer中去,減少拷貝次數(shù),從而提升性能。
TCP offload可能是未來的趨勢,部署方便,代價小,是非常值得關(guān)注的一個方向。
5. 用戶態(tài)TCP協(xié)議
用戶態(tài)的協(xié)議棧在下列場合比較有用:
是否要采用用戶態(tài)TCP協(xié)議棧,可以參考"https://blog.cloudflare.com/why-we-use-the-linux-kernels-tcp-stack/".
6. 總結(jié)
TCP加速是一個很大的領(lǐng)域,這方面應(yīng)用得好,可以極大提升程序的性能,因此性能優(yōu)化不要忽視這方面內(nèi)容。