自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Docker容器里進(jìn)程的 pid 是如何申請(qǐng)出來的?

開發(fā) 架構(gòu)
不知道大家是否和我一樣好奇容器進(jìn)程中的 pid 是如何申請(qǐng)出來的?和宿主機(jī)中申請(qǐng) pid 有什么不同?內(nèi)核又是如何顯示容器中的進(jìn)程號(hào)的?

大家好,我是飛哥!

如果大家有過在容器中執(zhí)行 ps 命令的經(jīng)驗(yàn),都會(huì)知道在容器中的進(jìn)程的 pid 一般是比較小的。例如下面我的這個(gè)例子。

# ps -ef
PID USER TIME COMMAND
1 root 0:00 ./demo-ie
13 root 0:00 /bin/bash
21 root 0:00 ps -ef

不知道大家是否和我一樣好奇容器進(jìn)程中的 pid 是如何申請(qǐng)出來的?和宿主機(jī)中申請(qǐng) pid 有什么不同?內(nèi)核又是如何顯示容器中的進(jìn)程號(hào)的?

前面我們?cè)凇禠inux進(jìn)程是如何創(chuàng)建出來的?》中介紹了進(jìn)程的創(chuàng)建過程。事實(shí)上進(jìn)程的 pid 命名空間、pid 也都是在這個(gè)過程中申請(qǐng)的。我今天就來帶大家深入理解一下 docker 核心之一 pid 命名空間的工作原理。

一、Linux 的默認(rèn) pid 命名空間

前面的文章《Linux進(jìn)程是如何創(chuàng)建出來的?》中我們提到了進(jìn)程的命名空間成員 nsproxy。

//file:include/linux/sched.h
struct task_struct {
...
/* namespaces */
struct nsproxy *nsproxy;
}

Linux 在啟動(dòng)的時(shí)候會(huì)有一套默認(rèn)的命名空間,定義在 kernel/nsproxy.c 文件下。

//file:kernel/nsproxy.c
struct nsproxy init_nsproxy = {
.count = ATOMIC_INIT(1),
.uts_ns = &init_uts_ns,
.ipc_ns = &init_ipc_ns,
.mnt_ns = NULL,
.pid_ns = &init_pid_ns,
.net_ns = &init_net,
};

其中默認(rèn)的 pid 命名空間是 init_pid_ns,它定義在 kernel/pid.c 下。

//file:kernel/pid.c
struct pid_namespace init_pid_ns = {
.kref = {
.refcount = ATOMIC_INIT(2),
},
.pidmap = {
[ 0 ... PIDMAP_ENTRIES-1] = { ATOMIC_INIT(BITS_PER_PAGE), NULL }
},
.last_pid = 0,
.level = 0,
.child_reaper = &init_task,
.user_ns = &init_user_ns,
.proc_inum = PROC_PID_INIT_INO,
};

在 pid 命名空間里我覺得最需要關(guān)注的是兩個(gè)字段。一個(gè)是 level 表示當(dāng)前 pid 命名空間的層級(jí)。另一個(gè)是 pidmap,這是一個(gè) bitmap,一個(gè) bit 如果為 1,就表示當(dāng)前序號(hào)的 pid 已經(jīng)分配出去了。

另外默認(rèn)命名空間的 level 初始化是 0。這是一個(gè)表示樹的層次結(jié)構(gòu)的節(jié)點(diǎn)。如果有多個(gè)命名空間創(chuàng)建出來,它們之間會(huì)組成一棵樹。level 表示樹在第幾層。根節(jié)點(diǎn)的 level 是 0。

圖片

INIT_TASK 0號(hào)進(jìn)程,也叫 idle 進(jìn)程,它固定使用這個(gè)默認(rèn)的 init_nsproxy。

//file:include/linux/init_task.h
#define INIT_TASK(tsk) \
{
.state = 0, \
.stack = &init_thread_info, \
.usage = ATOMIC_INIT(2), \
.flags = PF_KTHREAD, \
.prio = MAX_PRIO-20, \
.static_prio = MAX_PRIO-20, \
.normal_prio = MAX_PRIO-20, \
...
.nsproxy = &init_nsproxy, \
......
}

所有進(jìn)程都是一個(gè)派生一個(gè)的方式生成出來的。如果不指定命名空間,所有進(jìn)程使用的都是使用缺省的命名空間。

圖片

二、Linux 新 pid 命名空間創(chuàng)建

在這里,我們假設(shè)我們創(chuàng)建進(jìn)程時(shí)指定了 CLONE_NEWPID 要?jiǎng)?chuàng)建一個(gè)獨(dú)立的 pid 命名空間出來(Docker 容器就是這么干的)。

在 《Linux進(jìn)程是如何創(chuàng)建出來的?》一文中我們已經(jīng)了解了進(jìn)程的創(chuàng)建過程。整個(gè)創(chuàng)建過程的核心是在于 copy_process 函數(shù)。

在這個(gè)函數(shù)中會(huì)申請(qǐng)和拷貝進(jìn)程的地址空間、打開文件列表、文件目錄等關(guān)鍵信息,另外就是pid 命名空間的創(chuàng)建也是在這里完成的。

//file:kernel/fork.c
static struct task_struct *copy_process(...)
{
...
//2.1 拷貝進(jìn)程的命名空間 nsproxy
retval = copy_namespaces(clone_flags, p);

//2.2 申請(qǐng) pid
pid = alloc_pid(p->nsproxy->pid_ns);

//2.3 記錄 pid
p->pid = pid_nr(pid);
p->tgid = p->pid;
attach_pid(p, PIDTYPE_PID, pid);
...
}

2.1 創(chuàng)建進(jìn)程時(shí)構(gòu)造新命名空間

在上面的 copy_process 代碼中我們看到對(duì) copy_namespaces 函數(shù)的調(diào)用。命名空間就是在這個(gè)函數(shù)中操作的。

//file:kernel/nsproxy.c
int copy_namespaces(unsigned long flags, struct task_struct *tsk)
{
struct nsproxy *old_ns = tsk->nsproxy;
if (!(flags & (CLONE_NEWNS | CLONE_NEWUTS | CLONE_NEWIPC |
CLONE_NEWPID | CLONE_NEWNET)))
return 0;

new_ns = create_new_namespaces(flags, tsk, user_ns, tsk->fs);
tsk->nsproxy = new_ns;
...
}

如果在創(chuàng)建進(jìn)程時(shí)候沒有傳入 CLONE_NEWNS 等幾個(gè) flag,還是會(huì)復(fù)用之前的默認(rèn)命名空間。這幾個(gè) flag 的含義如下。

  • CLONE_NEWPID: 是否創(chuàng)建新的進(jìn)程編號(hào)命名空間,以便與宿主機(jī)的進(jìn)程 PID 進(jìn)行隔離
  • CLONE_NEWNS: 是否創(chuàng)建新的掛載點(diǎn)(文件系統(tǒng))命名空間,以便隔離文件系統(tǒng)和掛載點(diǎn)
  • CLONE_NEWNET: 是否創(chuàng)建新的網(wǎng)絡(luò)命名空間,以便隔離網(wǎng)卡、IP、端口、路由表等網(wǎng)絡(luò)資源
  • CLONE_NEWUTS: 是否創(chuàng)建新的主機(jī)名與域名命名空間,以便在網(wǎng)絡(luò)中獨(dú)立標(biāo)識(shí)自己
  • CLONE_NEWIPC: 是否創(chuàng)建新的 IPC 命名空間,以便隔離信號(hào)量、消息隊(duì)列和共享內(nèi)存
  • CLONE_NEWUSER: 用來隔離用戶和用戶組的。

因?yàn)槲覀儽竟?jié)開頭假設(shè)傳入了 CLONE_NEWPID 標(biāo)記。所以會(huì)進(jìn)入到 create_new_namespaces 中來申請(qǐng)新的命名空間。

//file:kernel/nsproxy.c
static struct nsproxy *create_new_namespaces(unsigned long flags,
struct task_struct *tsk, struct user_namespace *user_ns,
struct fs_struct *new_fs)
{
//申請(qǐng)新的 nsproxy
struct nsproxy *new_nsp;
new_nsp = create_nsproxy();
......
//拷貝或創(chuàng)建 PID 命名空間
new_nsp->pid_ns = copy_pid_ns(flags, user_ns, tsk->nsproxy->pid_ns);
}

create_new_namespaces 中會(huì)調(diào)用 copy_pid_ns 來完成實(shí)際的創(chuàng)建,真正的創(chuàng)建過程是在 create_pid_namespace 中完成的。

//file:kernel/pid_namespace.c
static struct pid_namespace *create_pid_namespace(...)
{
struct pid_namespace *ns;

//新 pid namespace level + 1
unsigned int level = parent_pid_ns->level + 1;

//申請(qǐng)內(nèi)存
ns = kmem_cache_zalloc(pid_ns_cachep, GFP_KERNEL);
ns->pidmap[0].page = kzalloc(PAGE_SIZE, GFP_KERNEL);
ns->pid_cachep = create_pid_cachep(level + 1);

//設(shè)置新命名空間 level
ns->level = level;

//新命名空間和舊命名空間組成一棵樹
ns->parent = get_pid_ns(parent_pid_ns);

//初始化 pidmap
set_bit(0, ns->pidmap[0].page);
atomic_set(&ns->pidmap[0].nr_free, BITS_PER_PAGE - 1);

for (i = 1; i < PIDMAP_ENTRIES; i++)
atomic_set(&ns->pidmap[i].nr_free, BITS_PER_PAGE);

return ns;
}

在 create_pid_namespace 真正申請(qǐng)了新的 pid 命名空間,為它的 pidmap 申請(qǐng)了內(nèi)存(在 create_pid_cachep 中申請(qǐng)的),也進(jìn)行了初始化。

另外還有一點(diǎn)比較重要的是新命名空間和舊命名空間通過 parent、level 等字段組成了一棵樹。其中 parent 指向了上一級(jí)命名空間,自己的 level 用來表示層次,設(shè)置成了上一級(jí) level + 1。

其最終的效果就是新進(jìn)程擁有了新的 pid namespace,并且這個(gè)新 pid namespace 和父 pidnamespace 串聯(lián)了起來,效果如下圖。

圖片

如果 pid 有多層的話,會(huì)組成更直觀的樹形結(jié)構(gòu)。

2.2 申請(qǐng)進(jìn)程id

創(chuàng)建完命名空間后,在 copy_process 中接下來接著就是調(diào)用 alloc_pid 來分配 pid。

//file:kernel/fork.c
static struct task_struct *copy_process(...)
{
...
//2.1 拷貝進(jìn)程的命名空間 nsproxy
retval = copy_namespaces(clone_flags, p);
...

//2.2 申請(qǐng) pid
pid = alloc_pid(p->nsproxy->pid_ns);
...
}

注意傳入的參數(shù)是 p->nsproxy->pid_ns。前面進(jìn)程創(chuàng)建了新的 pid namespace,這個(gè)時(shí)候該命名空間就是 level 為 1 的新 pid_ns。我們繼續(xù)來看 alloc_pid 具體 pid 的過程。

//file:kernel/pid.c
struct pid *alloc_pid(struct pid_namespace *ns)
{
//申請(qǐng) pid 內(nèi)核對(duì)象
pid = kmem_cache_alloc(ns->pid_cachep, GFP_KERNEL);

//調(diào)用到alloc_pidmap來分配一個(gè)空閑的pid
tmp = ns;
pid->level = ns->level;
for (i = ns->level; i >= 0; i--) {
nr = alloc_pidmap(tmp);
if (nr < 0)
goto out_free;

pid->numbers[i].nr = nr;
pid->numbers[i].ns = tmp;
tmp = tmp->parent;
}
...
return pid;
}

在上面的代碼中要注意兩個(gè)細(xì)節(jié)。

我們平時(shí)說的 pid 在內(nèi)核中并不是一個(gè)簡單的整數(shù)類型,而是一個(gè)小結(jié)構(gòu)體來表示的(struct pid)。

申請(qǐng) pid 并不是申請(qǐng)了一個(gè),而是使用了一個(gè) for 循環(huán)申請(qǐng)多個(gè)出來

之所以要申請(qǐng)多個(gè),是因?yàn)閷?duì)于容器里的進(jìn)程來說,并不是在自己當(dāng)前的命名空間申請(qǐng)就完事了,還要到其父命名空間中也申請(qǐng)一個(gè)。我們把 for 循環(huán)的工作工程用下圖表示一下。

圖片

首先到當(dāng)前層次的命名空間申請(qǐng)一個(gè) pid 出來,然后順著命名空間的父節(jié)點(diǎn),每一層也都要申請(qǐng)一個(gè),并都記錄到 pid->numbers 數(shù)組中。

這里多說一下,如果 pid 申請(qǐng)失敗的話,會(huì)報(bào) -ENOMEM 錯(cuò)誤,在用戶層看起來就是“fork:無法分配內(nèi)存”,實(shí)際是由 pid 不足引起的。這個(gè)問題我在《明明還有大量內(nèi)存,為啥報(bào)錯(cuò)“無法分配內(nèi)存”?》 提到過。

2.3 設(shè)置整數(shù)格式 pid

當(dāng)申請(qǐng)并構(gòu)造完 pid 后,將其設(shè)置在 task_struct 上,記錄起來。

//file:kernel/fork.c
static struct task_struct *copy_process(...)
{
...
//2.2 申請(qǐng) pid
pid = alloc_pid(p->nsproxy->pid_ns);

//2.3 記錄 pid
p->pid = pid_nr(pid);
p->tgid = p->pid;
attach_pid(p, PIDTYPE_PID, pid);
...
}

其中 pid_nr 是獲取的根 pid 命名空間下的 pid 編號(hào),參見 pid_nr 源碼。

//file:include/linux/pid.h
static inline pid_t pid_nr(struct pid *pid)
{
pid_t nr = 0;
if (pid)
nr = pid->numbers[0].nr;
return nr;
}

然后再調(diào)用 attach_pid 是把申請(qǐng)到的 pid 結(jié)構(gòu)掛到自己的 pids[PIDTYPE_PID] 鏈表里了。

//file:kernel/pid.c
void attach_pid(struct task_struct *task, enum pid_type type,
struct pid *pid)
{
...
link = &task->pids[type];
link->pid = pid;
hlist_add_head_rcu(&link->node, &pid->tasks[type]);
}

task->pids 是一組鏈表。

三、容器進(jìn)程 pid 查看

pid 已經(jīng)申請(qǐng)好了,那在容器中是如何查看當(dāng)前層次的進(jìn)程號(hào)的呢?比如我們?cè)谌萜髦锌吹降?demo-ie 進(jìn)程的 id 就是 1。

# ps -ef
PID USER TIME COMMAND
1 root 0:00 ./demo-ie
...

內(nèi)核提供了個(gè)函數(shù)用來查看進(jìn)程在當(dāng)前某個(gè)命名空間的命名號(hào)。

//file:kernel/pid.c
pid_t pid_vnr(struct pid *pid)
{
return pid_nr_ns(pid, task_active_pid_ns(current));
}

其中在容器中查看進(jìn)程 pid 使用的是 pid_vnr,pid_vnr 調(diào)用 pid_nr_ns 來查看進(jìn)程在特定命名空間里的進(jìn)程號(hào)。

函數(shù) pid_nr_ns 接收連個(gè)參數(shù)

第一個(gè)參數(shù)是進(jìn)程里記錄的 pid 對(duì)象(保存有在各個(gè)層次申請(qǐng)到的 pid 號(hào))

第二個(gè)參數(shù)是指定的 pid 命名空間(通過 task_active_pid_ns(current)獲?。?/p>

當(dāng)具備這兩個(gè)參數(shù)后,就可以根據(jù) pid 命名空間里記錄的層次 level 取得容器進(jìn)程的當(dāng)前 pid 了

//file:kernel/pid.c
pid_t pid_nr_ns(struct pid *pid, struct pid_namespace *ns)
{
struct upid *upid;
pid_t nr = 0;

if (pid && ns->level <= pid->level) {
upid = &pid->numbers[ns->level];
if (upid->ns == ns)
nr = upid->nr;
}
return nr;
}

在 pid_nr_ns 中通過判斷 level 就把容器 pid 整數(shù)值查出來了。

四、總結(jié)

最后,舉個(gè)例子,假如有一個(gè)進(jìn)程在 level 0 級(jí)別的 pid 命名空間里申請(qǐng)到的進(jìn)程號(hào)是 1256,在 level 1 容器 pid 命名空間里申請(qǐng)到的進(jìn)程號(hào)是 5。那么這個(gè)進(jìn)程以及其 pid 在內(nèi)存中的形式是下圖這個(gè)樣子的。

圖片

那么容器在查看進(jìn)程的 pid 號(hào)的時(shí)候,傳入容器的 pid 命名空間,就可以將該進(jìn)程在容器中的 pid 號(hào) 5 給打印出來了??!

責(zé)任編輯:武曉燕 來源: 開發(fā)內(nèi)功修煉
相關(guān)推薦

2022-09-29 09:17:47

進(jìn)程Linux創(chuàng)建

2022-10-08 00:00:02

Docker項(xiàng)目技術(shù)

2016-01-11 10:29:36

Docker容器容器技術(shù)

2021-06-11 11:28:22

多線程fork單線程

2021-09-22 13:02:38

容器技術(shù)Docker

2025-04-01 08:50:48

2021-10-26 10:42:49

NET進(jìn)程托管

2015-08-21 17:47:38

Docker安全EC2容器服務(wù)

2011-07-27 18:41:24

TOGAF企業(yè)架構(gòu)

2023-06-16 16:06:02

lazydockerDocker容器

2018-07-12 10:33:50

Docker容器內(nèi)存

2018-12-14 08:00:00

2019-09-23 13:10:02

容器進(jìn)程

2025-04-18 00:00:01

2015-07-09 10:32:23

Windows Ser云計(jì)算應(yīng)用架構(gòu)

2021-04-16 08:00:00

容器Docker工具

2018-11-05 09:23:19

開源Docker容器鏡像

2019-07-16 14:44:52

DockerMySQL操作系統(tǒng)

2010-04-30 12:38:38

Oracle進(jìn)程

2020-11-27 14:33:00

QQ紅包設(shè)計(jì)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)