從內(nèi)核看IO_Uring的實(shí)現(xiàn)(一)
前言:最近研究了一下Linux的高性能異步IO框架io_uring,并嘗試引入Node.js中應(yīng)用起來。所以本文打算介紹一下io_uring在內(nèi)核的實(shí)現(xiàn),因?yàn)閕o_uring實(shí)現(xiàn)代碼量大,邏輯復(fù)雜,所以只能慢慢分析。這一篇介紹io_uring初始化接口io_uring_setup的實(shí)現(xiàn)。
- static long io_uring_setup(u32 entries, struct io_uring_params __user *params){
- struct io_uring_params p;
- int i;
- if (copy_from_user(&p, params, sizeof(p)))
- return -EFAULT;
- // 支持的flag
- if (p.flags & ~(IORING_SETUP_IOPOLL | IORING_SETUP_SQPOLL |
- IORING_SETUP_SQ_AFF | IORING_SETUP_CQSIZE |
- IORING_SETUP_CLAMP | IORING_SETUP_ATTACH_WQ))
- return -EINVAL;
- return io_uring_create(entries, &p, params);
- }
io_uring_setup是對io_uring_create的封裝。第一個參數(shù)entries指定請求隊列的長度,第二個參數(shù)params是用于調(diào)用方和內(nèi)核通信的結(jié)構(gòu)體。我們看一下定義。
- struct io_uring_params {
- // 定義請求隊列長度(2的sq_entries次方),調(diào)用方定義
- __u32 sq_entries;
- // 完成隊列長度,默認(rèn)是2 * 請求隊列長度
- __u32 cq_entries;
- // 控制內(nèi)核行為的標(biāo)記
- __u32 flags;
- // poll模式下開啟的內(nèi)核線程綁定的cpu
- __u32 sq_thread_cpu;
- // poll模式下開啟的內(nèi)核線程空閑時間,之后會掛起。
- __u32 sq_thread_idle;
- // 內(nèi)核當(dāng)前支持的能力,內(nèi)核設(shè)置
- __u32 features;
- __u32 wq_fd;
- __u32 resv[3];
- // 記錄內(nèi)核數(shù)據(jù)的結(jié)構(gòu)體,調(diào)用方后續(xù)調(diào)用mmap需要用到。
- struct io_sqring_offsets sq_off;
- struct io_cqring_offsets cq_off;
- };
我們接著看io_uring_create。
- static int io_uring_create(unsigned entries, struct io_uring_params *p,
- struct io_uring_params __user *params){
- struct user_struct *user = NULL;
- struct io_ring_ctx *ctx;
- bool limit_mem;
- int ret;
- p->sq_entries = roundup_pow_of_two(entries);
- // 自定義完成隊列長度
- if (p->flags & IORING_SETUP_CQSIZE) {
- p->cq_entries = roundup_pow_of_two(p->cq_entries);
- // 完成隊列不能小于請求隊列
- if (p->cq_entries < p->sq_entries)
- return -EINVAL;
- // 超過閾值則需要設(shè)置IORING_SETUP_CLAMP標(biāo)記
- if (p->cq_entries > IORING_MAX_CQ_ENTRIES) {
- if (!(p->flags & IORING_SETUP_CLAMP))
- return -EINVAL;
- p->cq_entries = IORING_MAX_CQ_ENTRIES;
- }
- } else {
- // 默認(rèn)是兩倍的請求隊列長度
- p->cq_entries = 2 * p->sq_entries;
- }
- // 用戶信息
- user = get_uid(current_user());
- // 分配一個ctx記錄上下文,因?yàn)檎{(diào)用方只能拿到fd,后續(xù)操作fd的時候會拿到關(guān)聯(lián)的上下文
- ctx = io_ring_ctx_alloc(p);
- ctx->user = user;
- // 和poll模式相關(guān)的數(shù)據(jù)結(jié)構(gòu)
- ctx->sqo_task = get_task_struct(current);
- // 分配一個io_rings
- ret = io_allocate_scq_urings(ctx, p);
- // 處理poll模式的邏輯
- ret = io_sq_offload_start(ctx, p);
- // 后面還有很多,一會分析
- }
io_uring_create代碼比較多,我們分步分析。首先分配了一個io_ring_ctx結(jié)構(gòu)體,這是核心的數(shù)據(jù)結(jié)構(gòu),用于記錄io_uring實(shí)例的上下文,不過我們暫時不需要了解它具體的定義,因?yàn)閷?shí)在太多,只關(guān)注本文相關(guān)的字段。
1 分配一個io_rings結(jié)構(gòu)體
接著調(diào)用io_allocate_scq_urings分配一個io_rings結(jié)構(gòu)體,這是非常核心的邏輯,我們看一下io_rings的定義。
- struct io_rings {
- struct io_uring sq, cq;
- u32 sq_ring_mask, cq_ring_mask;
- u32 sq_ring_entries, cq_ring_entries;
- u32 sq_dropped;
- u32 sq_flags;
- u32 cq_flags;
- u32 cq_overflow;
- struct io_uring_cqe cqes[];
- };
io_rings主要用于記錄請求和完成隊列的信息。我們繼續(xù)看io_allocate_scq_urings。
- static int io_allocate_scq_urings(struct io_ring_ctx *ctx,
- struct io_uring_params *p){
- struct io_rings *rings;
- size_t size, sq_array_offset;
- // 記錄請求和完成隊列大小到ctx
- ctx->sq_entries = p->sq_entries;
- ctx->cq_entries = p->cq_entries;
- /*
- 計算結(jié)構(gòu)體和額外數(shù)組的大小,sq_array_offset保存結(jié)構(gòu)體大小,
- size保存結(jié)構(gòu)體+額外數(shù)組+另一個額外數(shù)組的大小
- */
- size = rings_size(p->sq_entries, p->cq_entries, &sq_array_offset);
- // 分配內(nèi)存
- rings = io_mem_alloc(size);
- // ...
- }
io_allocate_scq_urings細(xì)節(jié)比較多,我們分開分析,我們看一下rings_size的邏輯。
- static unsigned long rings_size(unsigned sq_entries, unsigned cq_entries,
- size_t *sq_offset){
- struct io_rings *rings;
- size_t off, sq_array_size;
- // 計算結(jié)構(gòu)體和格外數(shù)組的大小,見io_rings定義
- off = struct_size(rings, cqes, cq_entries);
- // sq_offset記錄結(jié)構(gòu)體大小
- if (sq_offset)
- *sq_offset = off;
- // 計算多個u32元素的數(shù)組的大小
- sq_array_size = array_size(sizeof(u32), sq_entries);
- // 計算結(jié)構(gòu)體大小 + sq_array_size的大小保存到off
- if (check_add_overflow(off, sq_array_size, &off))
- return SIZE_MAX;
- return off;
- }
struct_size是計算結(jié)構(gòu)體和額外字段大小的宏,我們剛才看到io_rings結(jié)構(gòu)體的定義中,最后一個字段是struct io_uring_cqe cqes[],看起來是個空數(shù)組,其實(shí)他的內(nèi)存是緊跟著結(jié)構(gòu)體后面分配的,結(jié)構(gòu)如下。
下面我們看struct_size是如何計算的。
- #define struct_size(p, member, count) \
- __ab_c_size(count, \
- sizeof(*(p)->member) + __must_be_array((p)->member),\
- sizeof(*(p)))
- static inline __must_check size_t __ab_c_size(size_t a, size_t b, size_t c){
- size_t bytes;
- // 計算a * b保存到bytes
- if (check_mul_overflow(a, b, &bytes))
- return SIZE_MAX;
- // 計算bytes + c保存搭配bytes
- if (check_add_overflow(bytes, c, &bytes))
- return SIZE_MAX;
- return bytes;
- }
我們看到計算方式就是數(shù)組元素大小*元素個數(shù)+結(jié)構(gòu)體本身的大小。計算完結(jié)構(gòu)體大小后又通過array_size計算了另一個數(shù)組的大小并加起來,所以io_rings的結(jié)構(gòu)體如下所示。
分配了io_rings之后我們繼續(xù)看接下來的邏輯。
- static int io_allocate_scq_urings(struct io_ring_ctx *ctx,
- struct io_uring_params *p){
- // ...
- // 記錄到ctx中
- ctx->rings = rings;
- // sq_array記錄rings結(jié)構(gòu)體中,u32數(shù)組的首地址
- ctx->sq_array = (u32 *)((char *)rings + sq_array_offset);
- // 用于回環(huán)處理
- rings->sq_ring_mask = p->sq_entries - 1;
- rings->cq_ring_mask = p->cq_entries - 1;
- // 隊列長度
- rings->sq_ring_entries = p->sq_entries;
- rings->cq_ring_entries = p->cq_entries;
- ctx->sq_mask = rings->sq_ring_mask;
- ctx->cq_mask = rings->cq_ring_mask;
- // 請求隊列的數(shù)組大小
- size = array_size(sizeof(struct io_uring_sqe), p->sq_entries);
- // 分配內(nèi)存并記錄到sq_sqes
- ctx->sq_sqes = io_mem_alloc(size);
- return 0;
- }
進(jìn)行了一系列設(shè)置后,架構(gòu)如下。
創(chuàng)建完io_rings結(jié)構(gòu)體后,我們繼續(xù)回到io_uring_create中。
2 設(shè)置io_uring_params
內(nèi)核申請完系列結(jié)構(gòu)體后,需要通過io_uring_params結(jié)構(gòu)體返回給調(diào)用方。
- static int io_uring_create(unsigned entries, struct io_uring_params *p,
- struct io_uring_params __user *params) {
- ret = io_allocate_scq_urings(ctx, p);
- // 初始化poll模式相關(guān)邏輯,如果開啟了的話
- ret = io_sq_offload_start(ctx, p);
- memset(&p->sq_off, 0, sizeof(p->sq_off));
- // 記錄字段在結(jié)構(gòu)體的偏移
- p->sq_off.head = offsetof(struct io_rings, sq.head);
- p->sq_off.tail = offsetof(struct io_rings, sq.tail);
- p->sq_off.ring_mask = offsetof(struct io_rings, sq_ring_mask);
- p->sq_off.ring_entries = offsetof(struct io_rings, sq_ring_entries);
- p->sq_off.flags = offsetof(struct io_rings, sq_flags);
- p->sq_off.dropped = offsetof(struct io_rings, sq_dropped);
- p->sq_off.array = (char *)ctx->sq_array - (char *)ctx->rings;
- memset(&p->cq_off, 0, sizeof(p->cq_off));
- p->cq_off.head = offsetof(struct io_rings, cq.head);
- p->cq_off.tail = offsetof(struct io_rings, cq.tail);
- p->cq_off.ring_mask = offsetof(struct io_rings, cq_ring_mask);
- p->cq_off.ring_entries = offsetof(struct io_rings, cq_ring_entries);
- p->cq_off.overflow = offsetof(struct io_rings, cq_overflow);
- p->cq_off.cqes = offsetof(struct io_rings, cqes);
- p->cq_off.flags = offsetof(struct io_rings, cq_flags);
- // 內(nèi)核支持的屬性
- p->features = IORING_FEAT_SINGLE_MMAP | IORING_FEAT_NODROP |
- IORING_FEAT_SUBMIT_STABLE | IORING_FEAT_RW_CUR_POS |
- IORING_FEAT_CUR_PERSONALITY | IORING_FEAT_FAST_POLL |
- IORING_FEAT_POLL_32BITS;
- copy_to_user(params, p, sizeof(*p))
- // 獲取fd
- ret = io_uring_get_fd(ctx);
- return ret;
- }
io_uring_create繼續(xù)進(jìn)行了一系列賦值,賦值完后架構(gòu)如下。
3 獲取文件描述符
內(nèi)核通過io_uring_get_fd獲取文件描述符返回給調(diào)用方。
- static int io_uring_get_fd(struct io_ring_ctx *ctx){
- struct file *file;
- // 獲取一個可用fd
- int ret = get_unused_fd_flags(O_RDWR | O_CLOEXEC);
- // 分配一個file結(jié)構(gòu)體,設(shè)置函數(shù)集為io_uring_fops,并關(guān)聯(lián)上下文ctx
- file = anon_inode_getfile("[io_uring]", &io_uring_fops, ctx,
- O_RDWR | O_CLOEXEC);
- // 關(guān)聯(lián)fd和file結(jié)構(gòu)體
- fd_install(ret, file);
- return ret;
- }
io_uring_get_fd申請了一個fd和file,這是遵循vfs的設(shè)計,最重要的是把io_uring的函數(shù)集掛在到file上,后續(xù)通過fd操作的io_uring實(shí)例的時候,經(jīng)過vfs后就會執(zhí)行對應(yīng)的函數(shù),另外還需要把ctx和file關(guān)聯(lián)起來,因?yàn)楹罄m(xù)通過fd操作io_uring時,需要拿到fd對應(yīng)的io_uring上下文。至此。
io_uring_setup就分析完了,但是還不能使用。io_uring在設(shè)計中,為了減少系統(tǒng)調(diào)用和用戶、內(nèi)核數(shù)據(jù)通信的成本,實(shí)現(xiàn)了用戶、內(nèi)核共享數(shù)據(jù)結(jié)構(gòu)的方式,這樣用戶和內(nèi)核就可以操作同一份數(shù)據(jù)結(jié)構(gòu)達(dá)到通信目的,而不用通過系統(tǒng)調(diào)用,更不需要設(shè)計來回復(fù)制。為了達(dá)到這個目的,用戶拿到io_uring實(shí)例后,還需要調(diào)用mmap獲取對應(yīng)的內(nèi)存映射。我們通過liburing庫的邏輯來分析。
4 從liburing庫看io_uring的使用
- int io_uring_queue_init_params(unsigned entries, struct io_uring *ring,
- struct io_uring_params *p){
- int fd, ret;
- // 調(diào)用io_uring_setup,拿到fd
- fd = __sys_io_uring_setup(entries, p);
- if (fd < 0)
- return -errno;
- // 內(nèi)存映射
- ret = io_uring_queue_mmap(fd, p, ring);
- // 保存系統(tǒng)支持的屬性
- ring->features = p->features;
- return 0;
- }
我們重點(diǎn)看一下io_uring_queue_mmap。
- int io_uring_queue_mmap(int fd, struct io_uring_params *p, struct io_uring *ring){
- int ret;
- memset(ring, 0, sizeof(*ring));
- ret = io_uring_mmap(fd, p, &ring->sq, &ring->cq);
- // 記錄flags和fd
- if (!ret) {
- ring->flags = p->flags;
- ring->ring_fd = fd;
- }
- return ret;
- }
繼續(xù)看io_uring_mmap。
- static int io_uring_mmap(int fd, struct io_uring_params *p,
- struct io_uring_sq *sq, struct io_uring_cq *cq){
- size_t size;
- int ret;
- // 請求隊列需要映射的內(nèi)存大小,即整個結(jié)構(gòu)體struct io_rings結(jié)構(gòu)體的大小
- sq->ring_sz = p->sq_off.array + p->sq_entries * sizeof(unsigned);
- // 請求隊列和完成隊列映射的內(nèi)存大小一樣,等于請求隊列的
- cq->ring_sz = sq->ring_sz;
- // 映射并拿到虛擬地址,大小是sq->ring_sz
- sq->ring_ptr = mmap(0, sq->ring_sz, PROT_READ | PROT_WRITE,
- MAP_SHARED | MAP_POPULATE, fd, IORING_OFF_SQ_RING);
- cq->ring_ptr = sq->ring_ptr;
- // 通過首地址和偏移拿到對應(yīng)字段的地址
- sq->khead = sq->ring_ptr + p->sq_off.head;
- sq->ktail = sq->ring_ptr + p->sq_off.tail;
- sq->kring_mask = sq->ring_ptr + p->sq_off.ring_mask;
- sq->kring_entries = sq->ring_ptr + p->sq_off.ring_entries;
- sq->kflags = sq->ring_ptr + p->sq_off.flags;
- sq->kdropped = sq->ring_ptr + p->sq_off.dropped;
- sq->array = sq->ring_ptr + p->sq_off.array;
- // 映射保存請求隊列節(jié)點(diǎn)的內(nèi)存
- size = p->sq_entries * sizeof(struct io_uring_sqe);
- sq->sqes = mmap(0, size, PROT_READ | PROT_WRITE,
- MAP_SHARED | MAP_POPULATE, fd,
- IORING_OFF_SQES);
- // 同上
- cq->khead = cq->ring_ptr + p->cq_off.head;
- cq->ktail = cq->ring_ptr + p->cq_off.tail;
- cq->kring_mask = cq->ring_ptr + p->cq_off.ring_mask;
- cq->kring_entries = cq->ring_ptr + p->cq_off.ring_entries;
- cq->koverflow = cq->ring_ptr + p->cq_off.overflow;
- cq->cqes = cq->ring_ptr + p->cq_off.cqes;
- if (p->cq_off.flags)
- cq->kflags = cq->ring_ptr + p->cq_off.flags;
- return 0;
- }
io_uring_mmap除了保存一些常用的字段信息外,最重要的是做了內(nèi)存映射。我們看看mmap的最后一個參數(shù)分別是IORING_OFF_SQ_RING和IORING_OFF_SQES,接下來我們看看io_uring的mmap鉤子的實(shí)現(xiàn)。
- static int io_uring_mmap(struct file *file, struct vm_area_struct *vma){
- size_t sz = vma->vm_end - vma->vm_start;
- unsigned long pfn;
- void *ptr;
- ptr = io_uring_validate_mmap_request(file, vma->vm_pgoff, sz);
- pfn = virt_to_phys(ptr) >> PAGE_SHIFT;
- return remap_pfn_range(vma, vma->vm_start, pfn, sz, vma->vm_page_prot);}static void *io_uring_validate_mmap_request(struct file *file,
- loff_t pgoff, size_t sz){
- struct io_ring_ctx *ctx = file->private_data;
- loff_t offset = pgoff << PAGE_SHIFT;
- struct page *page;
- void *ptr;
- switch (offset) {
- case IORING_OFF_SQ_RING:
- case IORING_OFF_CQ_RING:
- ptr = ctx->rings;
- break;
- case IORING_OFF_SQES:
- ptr = ctx->sq_sqes;
- break;
- default:
- return ERR_PTR(-EINVAL);
- }
- page = virt_to_head_page(ptr);
- if (sz > page_size(page))
- return ERR_PTR(-EINVAL);
- return ptr;
- }
這里設(shè)計的內(nèi)容涉及到了復(fù)雜的內(nèi)存管理,從代碼中我們大概知道,返回的地址分別是ctx->rings和ctx->sq_sqes。即我們操作mmap返回的虛擬地址時,映射到內(nèi)核的數(shù)據(jù)結(jié)構(gòu)是ctx的字段。這樣就完成了數(shù)據(jù)共享。最后形成的架構(gòu)圖如下。
至此,分析就告一段落,io_uring的實(shí)現(xiàn)實(shí)在是復(fù)雜,需要反復(fù)閱讀和思考,才能慢慢理解和了解它的原理。
后記:io_uring作為新一代IO框架,未來應(yīng)該會在各大軟件中使用,尤其是對性能有極高要求的服務(wù)器,所以是非常值得關(guān)注和學(xué)習(xí)的。