淺析Kubernetes網(wǎng)絡(luò)模型
通過我們對各種容器網(wǎng)絡(luò)模型的實(shí)現(xiàn)原理已經(jīng)有了基本的認(rèn)識,然而真正將容器技術(shù)發(fā)揚(yáng)光大的是Kubernetes容器編排平臺。Kubernetes通過整合規(guī)模龐大的容器實(shí)例形成集群,這些容器實(shí)例可能運(yùn)行在異構(gòu)的底層網(wǎng)絡(luò)環(huán)境中,如何保證這些容器間的互通是實(shí)際生產(chǎn)環(huán)境中首要考慮的問題之一。
Kubernetes網(wǎng)絡(luò)基本要求
Kubernetes對容器技術(shù)做了更多的抽象,其中最重要的一點(diǎn)是提出pod的概念,pod是Kubernetes資源調(diào)度的基本單元,我們可以簡單地認(rèn)為pod是容器的一種延伸擴(kuò)展,從網(wǎng)絡(luò)的角度來看,pod必須滿足以下條件:
- 每一個Pod都有一個獨(dú)特的IP地址,所有pod都在一個可以直接連通的、扁平的網(wǎng)絡(luò)空間中
- 同一個pod內(nèi)的所有容器共享同一個netns網(wǎng)絡(luò)命名空間

基于這樣的基本要求,我們可以知道:
- 同一個pod內(nèi)的所有容器之間共享端口,可直接通過localhost+端口來訪問
- 由于每個pod有單獨(dú)的IP,所以不需要考慮容器端口與主機(jī)端口映射以及端口沖突問題
事實(shí)上,Kubernetes進(jìn)一步確定了對一個合格集群網(wǎng)絡(luò)的基本要求:
- 任意兩個pod之間其實(shí)是可以直接通信的,無需顯式地使用NAT進(jìn)行地址的轉(zhuǎn)換;
- 任意集群節(jié)點(diǎn)node與任意pod之間是可以直接通信的,無需使用明顯的地址轉(zhuǎn)換,反之亦然;
- 任意pod看到自己的IP跟別人看見它所用的IP是一樣的,中間不能經(jīng)過地址轉(zhuǎn)換;
也就是說,必須同時滿足以上三點(diǎn)的網(wǎng)絡(luò)模型才能適用于kubernetes,事實(shí)上,在早期的Kubernetes中,并沒有什么網(wǎng)絡(luò)標(biāo)準(zhǔn),只是提出了以上基本要求,只有滿足這些要求的網(wǎng)絡(luò)才可以部署Kubernetes,基于這樣的底層網(wǎng)絡(luò)假設(shè),Kubernetes設(shè)計了pod-deployment-service的經(jīng)典三層服務(wù)訪問機(jī)制。直到1.1發(fā)布,Kubernetes才開始采用全新的CNI(Container Network Interface)網(wǎng)絡(luò)標(biāo)準(zhǔn)。
CNI
其實(shí),我們在前面介紹容器網(wǎng)絡(luò)的時候,就提到了CNI網(wǎng)絡(luò)規(guī)范,CNI相對于CNM(Container Network Model)對開發(fā)者的約束更少,更開放,不依賴于Docker。事實(shí)上,CNI規(guī)范確實(shí)非常簡單,詳見:https://github.com/containernetworking/cni/blob/master/SPEC.md

實(shí)現(xiàn)一個CNI網(wǎng)絡(luò)插件只需要一個配置文件和一個可執(zhí)行的文件:
- 配置文件描述插件的版本、名稱、描述等基本信息
- 可執(zhí)行文件會被上層的容器管理平臺調(diào)用,一個CNI可執(zhí)行文件自需要實(shí)現(xiàn)將容器加入到網(wǎng)絡(luò)的ADD操作以及將容器從網(wǎng)絡(luò)中刪除的DEL操作(以及一個可選的VERSION查看版本操作)
Kubernetes使用CNI網(wǎng)絡(luò)插件的基本工作流程:
- kubelet先創(chuàng)建pause容器生成對應(yīng)的netns網(wǎng)絡(luò)命名空間
- 根據(jù)配置調(diào)用具體的CNI插件,可以配置成CNI插件鏈來進(jìn)行鏈?zhǔn)秸{(diào)用
- 當(dāng)CNI插件被調(diào)用時,它根據(jù)環(huán)境變量以及命令行參數(shù)來獲得網(wǎng)絡(luò)命名空間netns、容器的網(wǎng)絡(luò)設(shè)備等必要信息,然后執(zhí)行ADD操作
- CNI插件給pause容器配置正確的網(wǎng)絡(luò),pod中其他的容器都是用pause容器的網(wǎng)絡(luò)
如果不清楚什么是pause容器,它在pod中處于什么樣的位置,請查看之前的筆記:https://morven.life/notes/from-container-to-pod/
pod網(wǎng)絡(luò)模型
要了解kubernetes網(wǎng)絡(luò)模型的實(shí)現(xiàn)原理,我們就要從單個pod入手,事實(shí)上,一旦熟悉了單個pod的網(wǎng)絡(luò)模型,就會發(fā)現(xiàn)kubernetes網(wǎng)絡(luò)模型基本遵循和容器網(wǎng)絡(luò)模型一樣的原理。
通過前面的筆記從docker容器到pod,我們知道pod啟動的時候先創(chuàng)建pause容器生成對應(yīng)的netns網(wǎng)絡(luò)命名空間,然后其他容器共享pause容器創(chuàng)建的網(wǎng)絡(luò)命名空間。而對于單個容器的網(wǎng)絡(luò)模型我們之前也介紹過,主要就是通過docker0網(wǎng)橋設(shè)備與veth設(shè)備對連接不同的容器網(wǎng)絡(luò)命名空間,由此,我們可以得到如下圖所示的單個pod網(wǎng)絡(luò)模型的創(chuàng)建過程:

可以看到,同一個pod里面的其他容器共享pause容器創(chuàng)建的網(wǎng)絡(luò)命名空間,也就是說,所有的容器共享相同的網(wǎng)絡(luò)設(shè)備,路由表設(shè)置,服務(wù)端口等信息,仿佛是在同一臺機(jī)器上運(yùn)行的不同進(jìn)程,所以這些容器之間可以直接通過localhost與對應(yīng)的端口通信;對于集群外部的請求,則通過docker0網(wǎng)橋設(shè)備充當(dāng)?shù)木W(wǎng)關(guān),同時通過iptables做地址轉(zhuǎn)換。我們會發(fā)現(xiàn),這其實(shí)就是對當(dāng)個容器的bridge網(wǎng)絡(luò)模型的擴(kuò)展。
主流kubernetes網(wǎng)絡(luò)方案
上一小節(jié)我們知道單個pod的網(wǎng)絡(luò)模型是容器網(wǎng)絡(luò)模型的擴(kuò)展,但是pod與pod之間的是怎么相互通信的呢?這其實(shí)與容器之間相互通信非常類似,也分為同一個主機(jī)上的pod之間與跨主機(jī)的pod之間兩種。
如容器網(wǎng)絡(luò)模型一樣,對于統(tǒng)一主機(jī)上的pod之間,通過docker0網(wǎng)橋設(shè)備直接二層(數(shù)據(jù)鏈路層)網(wǎng)絡(luò)上通過MAC地址直接通信:

而跨主機(jī)的pod之間的相互通信也主要有以下兩個思路:
- 修改底層網(wǎng)絡(luò)設(shè)備配置,加入容器網(wǎng)絡(luò)IP地址的管理,修改路由器網(wǎng)關(guān)等,該方式主要和SDN(Software define networking)結(jié)合。
- 完全不修改底層網(wǎng)絡(luò)設(shè)備配置,復(fù)用原有的underlay平面網(wǎng)絡(luò),解決容器跨主機(jī)通信,主要有如下兩種方式:隧道傳輸(Overlay): 將容器的數(shù)據(jù)包封裝到原主機(jī)網(wǎng)絡(luò)的三層或者四層數(shù)據(jù)包中,然后使用主機(jī)網(wǎng)絡(luò)的IP或者TCP/UDP傳輸?shù)侥繕?biāo)主機(jī),目標(biāo)主機(jī)拆包后再轉(zhuǎn)發(fā)給目標(biāo)容器。Overlay隧道傳輸常見方案包括Vxlan、ipip等,目前使用Overlay隧道傳輸技術(shù)的主流容器網(wǎng)絡(luò)有Flannel等;

修改主機(jī)路由:把容器網(wǎng)絡(luò)加到主機(jī)路由表中,把主機(jī)網(wǎng)絡(luò)設(shè)備當(dāng)作容器網(wǎng)關(guān),通過路由規(guī)則轉(zhuǎn)發(fā)到指定的主機(jī),實(shí)現(xiàn)容器的三層互通。目前通過路由技術(shù)實(shí)現(xiàn)容器跨主機(jī)通信的網(wǎng)絡(luò)如Flannel host-gw、Calico等;

下面簡單介紹幾種主流的方案:
- Flannel是目前使用最為普遍的方案,提供了多種網(wǎng)絡(luò)backend,它支持多種數(shù)據(jù)路徑,也適合于overlay/underlay等多種場景。對于overlay的數(shù)據(jù)包封裝,可以使用用戶態(tài)的UDP,內(nèi)核態(tài)的Vxlan(性能相對較好),甚至在集群規(guī)模不大,且處于同一個二層域時可以采用host-gw的方式修改主機(jī)路由表;
- Weave工作模式與Flannel很相似的,它最早只提供了UDP(稱為sleeve模式)的網(wǎng)絡(luò)方式,后來又加上了fastpass方式(基于VxLAN),不過Weave消除了Flannel中用來存儲網(wǎng)絡(luò)地址的額外組件,自己集成了高可用的數(shù)據(jù)存儲功能;
- Calico主要是采用了修改主機(jī)路由,節(jié)點(diǎn)之間采用BGP的協(xié)議去進(jìn)行路由的同步。但是現(xiàn)實(shí)中的網(wǎng)絡(luò)并不總是支持BGP路由的,因此Calico也支持內(nèi)核中的IPIP模式,使用overlay的方式來傳輸數(shù)據(jù);
下表是幾種主流Kubernetes網(wǎng)絡(luò)方案的對比:
- | A | Overlay-Network | Host-RouteTable | NetworkPolicy Support | Decentralized IP Allocation | | – | — | — | — | — | | Flannel | UDP/VXLAN | Host-GW | N | N | | Weave | UDP/VXLAN | N/A | Y | Y | | Calico | IPIP | BGP | Y | N |
策略控制(Network Policy)
Network Policy)是Kubernetes提供的基于策略的網(wǎng)絡(luò)控制,用于隔離應(yīng)用并提高安全性。它使用Kubernetes中常用的標(biāo)簽選擇器模擬傳統(tǒng)的分段網(wǎng)絡(luò),并通過策略控制它們之間的東西流量以及與外部交流的南北流量。
- Note: 確保使用的網(wǎng)絡(luò)插件支持策略控制(Network Policy),比如Flannel就沒有實(shí)現(xiàn)Network Policy;
下面的例子是配置一個典型的Network Policy的實(shí)例:
- apiVersion: networking.k8s.io/v1
- kind: NetworkPolicy
- metadata:
- name: test-network-policy
- namespace: default
- spec:
- podSelector:
- matchLabels:
- role: db
- policyTypes:
- - Ingress - Egress ingress:
- - from:
- - ipBlock:
- cidr: 172.17.0.0/16
- except:
- - 172.17.1.0/24
- - namespaceSelector:
- matchLabels:
- project: myproject
- - podSelector:
- matchLabels:
- role: frontend
- ports:
- - protocol: TCP
- port: 6379
- egress:
- - to:
- - ipBlock:
- cidr: 10.0.0.0/24
- ports:
- - protocol: TCP
- port: 5978
它使用標(biāo)簽選擇器namespaceSelector與posSelector控制pod之間的流量,流量的行為模式主要由以下三個對象決定:
- 控制對象:通過spec.podSelector篩選
- 流量方向:ingress控制入pod流量,egress控制出pod流量
- 流量特征:對端-IP-協(xié)議-端口
通過使用Network Policy可以實(shí)現(xiàn)對進(jìn)出流的精確控制,它采用各種選擇器(標(biāo)簽或namespace),找到一組滿足條件的pod,或者找到相當(dāng)于通信的兩端,然后通過流量的特征描述來決定它們之間是不是可以連通,可以理解為一個白名單的機(jī)制。