六張圖講清楚Linux零拷貝技術(shù)
大家好,今天我們來聊一聊Linux零拷貝技術(shù),今天我們以一個比較有代表性的技術(shù)sendfile系統(tǒng)調(diào)用為切入點,詳細(xì)介紹一下零拷貝技術(shù)的原理。
1.零拷貝技術(shù)簡介
Linux零拷貝技術(shù)是一種優(yōu)化數(shù)據(jù)傳輸?shù)募夹g(shù),它可以減少數(shù)據(jù)在內(nèi)核態(tài)和用戶態(tài)之間的拷貝次數(shù),提高數(shù)據(jù)傳輸?shù)男省?/p>
在傳統(tǒng)的數(shù)據(jù)傳輸過程中,數(shù)據(jù)需要從內(nèi)核緩沖區(qū)拷貝至應(yīng)用程序的緩沖區(qū),然后再從應(yīng)用程序緩沖區(qū)拷貝到網(wǎng)絡(luò)設(shè)備的緩沖區(qū),最后才能發(fā)送出去。
而零拷貝技術(shù)通過直接在應(yīng)用程序和網(wǎng)絡(luò)設(shè)備之間傳輸數(shù)據(jù),避免了中間的拷貝過程,從而提高了數(shù)據(jù)傳輸?shù)男省?/p>
Linux零拷貝技術(shù)實現(xiàn)方式:
- sendfile系統(tǒng)調(diào)用:sendfile系統(tǒng)調(diào)用可以在內(nèi)核態(tài)中直接將文件內(nèi)容發(fā)送到網(wǎng)絡(luò)設(shè)備的緩沖區(qū),避免了數(shù)據(jù)在用戶態(tài)和內(nèi)核態(tài)之間的拷貝。
- splice系統(tǒng)調(diào)用:splice系統(tǒng)調(diào)用可以將一個文件描述符的數(shù)據(jù)直接傳輸?shù)搅硪粋€文件描述符,也可以將數(shù)據(jù)從一個文件描述符傳輸?shù)骄W(wǎng)絡(luò)設(shè)備的緩沖區(qū),避免了中間的拷貝過程。
- mmap和write系統(tǒng)調(diào)用:mmap系統(tǒng)調(diào)用可以將文件映射到內(nèi)存中,然后使用write系統(tǒng)調(diào)用將內(nèi)存中的數(shù)據(jù)直接發(fā)送到網(wǎng)絡(luò)設(shè)備的緩沖區(qū),避免了數(shù)據(jù)在用戶態(tài)和內(nèi)核態(tài)之間的拷貝。
- DMA(Direct Memory Access):DMA是一種硬件技術(shù),可以直接將數(shù)據(jù)從內(nèi)存?zhèn)鬏數(shù)骄W(wǎng)絡(luò)設(shè)備的緩沖區(qū),避免了CPU的介入,提高了數(shù)據(jù)傳輸?shù)男省?/li>
2.sendfile系統(tǒng)調(diào)用
sendfile系統(tǒng)調(diào)用直接在內(nèi)核中操作文件數(shù)據(jù),將數(shù)據(jù)從源文件描述符復(fù)制到目標(biāo)文件描述符的發(fā)送緩沖區(qū),然后通過網(wǎng)絡(luò)協(xié)議棧將數(shù)據(jù)發(fā)送出去。
這樣就避免了數(shù)據(jù)在內(nèi)核和用戶空間之間的復(fù)制,提高了傳輸效率。
sendfile系統(tǒng)調(diào)用函數(shù)原型:
#include <sys/sendfile.h>
ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);
參數(shù)說明:
out_fd:目標(biāo)文件描述符,用于發(fā)送數(shù)據(jù)。
in_fd:源文件描述符,從該文件讀取數(shù)據(jù)。
offset:指定從源文件的哪個位置開始讀取數(shù)據(jù),可以為NULL表示從當(dāng)前位置開始。
count:要傳輸?shù)淖止?jié)數(shù)。
返回值:
成功:返回寫入out_fd文件的字節(jié)數(shù)。
失?。悍祷?1,并設(shè)置errno。
3.sendfile實現(xiàn)原理
3.1 傳統(tǒng)方式發(fā)送文件
使用傳統(tǒng)方式把一個文件通過socket發(fā)送出去,我們需要執(zhí)行一個比較長的路徑。
路徑:磁盤->文件頁緩存->用戶緩沖區(qū)->套接字緩沖區(qū)->網(wǎng)卡。
上下文切換和內(nèi)存拷貝情況如下:
- 上下文切換:4次(read調(diào)用,read返回,write調(diào)用,write返回)
- DMA拷貝:2次
- CPU拷貝:2次(文件頁緩存->用戶緩沖區(qū),用戶緩沖區(qū)->套接字緩沖區(qū))
圖片
3.2 sendfile發(fā)送文件
使用sendfile發(fā)送文件,相對來說整個路徑會短一些。
路徑:磁盤->文件頁緩存->套接字緩沖區(qū)->網(wǎng)卡。
上下文切換和內(nèi)存拷貝情況如下:
上下文切換:2次(sendfile調(diào)用,sendfile返回)
DMA拷貝:2次
CPU拷貝:1次(文件頁緩存->套接字緩沖區(qū))
圖片
3.3 sendfile實現(xiàn)原理
sendfile實現(xiàn)的核心是管道,管道在Linux系統(tǒng)中應(yīng)用的比較多,比如說通過管道實現(xiàn)進程間通信。
當(dāng)需要將文件數(shù)據(jù)拷貝至socket緩沖區(qū)時,會臨時創(chuàng)建一個管道(環(huán)形緩沖區(qū)),將文件數(shù)據(jù)先拷貝至管道,再將管道數(shù)據(jù)遷移至socket緩沖區(qū),數(shù)據(jù)遷移并不是數(shù)據(jù)拷貝,只是將指針指向內(nèi)存地址。
圖片
3.4 小節(jié)
通過采用sendfile發(fā)送文件,可以減少2次上下文切換和1次CPU拷貝,如果我們的實際應(yīng)用場景是需要進行大量的文件發(fā)送,采用sendfile能夠很大程度上提高系統(tǒng)性能。
4.管道
4.1 管道簡介
管道在Linux系統(tǒng)中應(yīng)用很廣泛,除了零拷貝技術(shù)使用到管道,進程間通信同樣使用到管道,那么管道到底是什么?
圖片
管道是什么?
管道其實就是一個環(huán)形緩沖區(qū),通過管道可以將數(shù)據(jù)從一個文件拷貝另外一個文件。
管道由struct pipe_inode_info結(jié)構(gòu)體定義,該數(shù)據(jù)結(jié)構(gòu)有4個重要成員:
- pipe_buffer:管道緩沖區(qū)數(shù)組,一個固定長度的數(shù)組,每個數(shù)組成員都是一個緩沖區(qū),對應(yīng)一個struct pipe_buffer結(jié)構(gòu)。
- head:頭部序號,表示當(dāng)前可寫緩沖區(qū)的位置,需要配合mask使用。
- tail:尾部序號,表示當(dāng)前可讀緩沖區(qū)的位置,需要配合mask使用。
- ring_size:管道緩沖區(qū)數(shù)組長度,ring_size - 1計算出mask,head & mask獲取當(dāng)前可寫緩沖區(qū)數(shù)組下標(biāo),tail & mask獲取當(dāng)前可讀緩沖區(qū)數(shù)組下標(biāo)。
管道緩沖區(qū)由struct pipe_buffer定義,該結(jié)構(gòu)有3個重要成員:
- page:頁指針
- offset:數(shù)據(jù)在頁中偏移
- len:數(shù)據(jù)長度
管道已滿或為空判斷?
管道已滿判斷:
head - tail >= ring_size,表示管道已滿。
管道為空判斷:
head == tail,表示管道為空。
相關(guān)結(jié)構(gòu)體定義
struct pipe_inode_info是Linux內(nèi)核中用于管道文件的數(shù)據(jù)結(jié)構(gòu)。它定義在include/linux/pipe_fs_i.h頭文件中。
pipe_inode_info結(jié)構(gòu)體的定義如下:
struct pipe_inode_info {
unsigned int head; //頭部序號
unsigned int tail; //尾部序號
unsigned int max_usage; //最大使用量
unsigned int ring_size; //緩沖區(qū)數(shù)組大小
unsigned int nr_accounted; //已使用緩沖區(qū)數(shù)量
struct pipe_buffer *bufs; //緩沖區(qū)數(shù)組
......
}
struct pipe_buffer是Linux內(nèi)核中用于管道(pipe)緩沖區(qū)的數(shù)據(jù)結(jié)構(gòu)。它定義在include/linux/pipe_fs_i.h頭文件中。
4.2 管道寫
通過head & mask獲取緩沖區(qū)數(shù)組下標(biāo),將數(shù)據(jù)寫入pipe_buffer對應(yīng)的內(nèi)存頁,數(shù)據(jù)起始位置為offset偏移值,寫入的數(shù)據(jù)長度記錄在len成員中。
完成數(shù)據(jù)寫操作后,head頭部序號增加1,指向下一個可寫位置。
圖片
4.3 管道讀
通過tail & mask獲取緩沖區(qū)數(shù)組下標(biāo),將數(shù)據(jù)從pipe_buffer對應(yīng)的內(nèi)存頁讀取出來,數(shù)據(jù)起始位置為offset偏移值,讀取數(shù)據(jù)長度不能大于len記錄的數(shù)據(jù)長度。
完成數(shù)據(jù)讀操作后,len設(shè)置成0,pipe_buffer被清空,tail尾部序號增加1,指向下一個可讀位置。
圖片
5.總結(jié)
相比于傳統(tǒng)的數(shù)據(jù)傳輸技術(shù),零拷貝技術(shù)能夠大大提高系統(tǒng)性能,在實際項目開發(fā)中,我們可以選擇符合項目特點的零拷貝技術(shù),以最低的成本提高系統(tǒng)性能。