Docker內(nèi)核技術(shù)原理之Namespace
Docker的空間隔離使用的是namespace(空間),它是內(nèi)核提供的一種空間隔離,在一個空間下,每個進程看到的視圖是一致的,相應(yīng)的如果不在一個空間下看到資源視圖是不一致的,舉個例子,如果兩個進程在同一個網(wǎng)絡(luò)命令空間下,那么他們看到的網(wǎng)絡(luò)信息(網(wǎng)卡、IP、路由等)是一樣的,可以通過localhost的方式互相訪問。常用的有6種namespace,在Linux 內(nèi)核4.6之后又添加了Cgroup這namespace,5.6 之后又添加了時鐘namespace。
Namespace |
系統(tǒng)調(diào)用參數(shù) |
隔離內(nèi)容 |
UTS |
CLONE_NEWUTS |
主機名與域名 |
IPC |
CLONE_NEWIPC |
信號量、消息隊列和共享內(nèi)存 |
PID |
CLONE_NEWPID |
進程編號 |
Network |
CLONE_NEWNET |
網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)棧、端口等等 |
Mount |
CLONE_NEWNS |
掛載點(文件系統(tǒng)) |
User |
CLONE_NEWUSER |
用戶和用戶組 |
Cgroup |
CLONE_NEWCGROUP |
Cgroup的根目錄 |
Time |
CLONE_NEWTIME |
時鐘 |
這里有個小細節(jié),上面表格創(chuàng)建Mount Namespace的系統(tǒng)調(diào)用參數(shù)是CLONE_NEWNS,而不是CLONE_NEWMOUNT。從字面理解是創(chuàng)建一個命名空間的意思,這是由于歷史原因?qū)е碌?,因為Mount Namespace是第一個namespace,內(nèi)核的開發(fā)者可能也沒有預料到后續(xù)還有其它的namespace的加入,所以就先把CLONE_NEWNS給占用了。
可見,namespace的隔離其實并不充分,除了上面的隔離能力,其他的都一樣。譬如,時鐘在內(nèi)核5.6版本之前,所有容器和操作系統(tǒng)都共享同一個時鐘,如果修改了操作系統(tǒng)的時間,所有容器都時間都會變化。
namespace實現(xiàn)原理也非常簡單,每個進程(task_struct)都有一個關(guān)于namespace的屬性nsproxy,表示自己所屬的namespace。
struct task_struct { ...
/* namespaces */
struct nsproxy *nsproxy;
...
}
其中的nsproxy就是指向各種namespace的一個代理。如下所示:
當新進程被創(chuàng)建后會繼承其父進程的namespace,這就是為啥一個容器里面的所有進程都共享namespace。在Linux集群上面,通過讀取“/proc/進程ID/ns/”下的文件可以獲取到每個進程對應(yīng)的namespace。