IO多路復(fù)用,一文徹底搞懂!
IO多路復(fù)用技術(shù),不管是面試,還是平時的技術(shù)積累,它都是一個重要的知識點,很多高性能的技術(shù)框架都有它的身影。那么,什么是 IO多路復(fù)用?IO多路復(fù)用解決了什么問題?今天就我們就一起來分析它。
一、常見的IO模型
常見的網(wǎng)絡(luò) IO 模型分為四種:同步阻塞 IO(Blocking IO, BIO)、同步非阻塞IO(NIO)、IO 多路復(fù)用、異步非阻塞 IO(Async IO, AIO),其中AIO為異步IO,其他都是同步IO。
1.同步阻塞IO-BIO
同步阻塞IO:在線程處理過程中,如果涉及到IO操作,那么當(dāng)前線程會被阻塞,直到IO處理完成,線程才接著處理后續(xù)流程。如下圖,服務(wù)器針對客戶端的每個socket都會分配一個新的線程處理,每個線程的業(yè)務(wù)處理分2步,當(dāng)步驟1處理完成后遇到IO操作(比如:加載文件),這時候,當(dāng)前線程會被阻塞,直到IO操作完成,線程才接著處理步驟2。
實際使用場景:在Java中使用線程池的方式去連接數(shù)據(jù)庫,使用的就是同步阻塞IO模型。
模型的缺點:因為每個客戶端都需要一個新的線程,勢必導(dǎo)致線程被頻繁阻塞和切換帶來開銷。
2.同步非阻塞 IO-NIO(New IO)
同步非阻塞IO:在線程處理過程中,如果涉及到IO操作,那么當(dāng)前的線程不會被阻塞,而是會去處理其他業(yè)務(wù)代碼,然后等過段時間再來查詢 IO 交互是否完成。如下圖:Buffer 是一個緩沖區(qū),用來緩存讀取和寫入的數(shù)據(jù);Channel 是一個通道,負(fù)責(zé)后臺對接 IO 數(shù)據(jù);而 Selector 實現(xiàn)的主要功能,是主動查詢哪些通道是處于就緒狀態(tài)。Selector復(fù)用一個線程,來查詢已就緒的通道,這樣大大減少 IO 交互引起的頻繁切換線程的開銷。
實際使用場景:Java NIO 正是基于這個 IO 交互模型,來支撐業(yè)務(wù)代碼實現(xiàn)針對 IO 進行同步非阻塞的設(shè)計,從而降低了原來傳統(tǒng)的同步阻塞 IO 交互過程中,線程被頻繁阻塞和切換帶的開銷。NIO使用的經(jīng)典案例是Netty框架,Elasticsearch底層實際上就是采用的這種機制。
3.IO 多路復(fù)用
在下面什么是IO多路復(fù)用的部分會詳細講解。
4.異步非阻塞 IO-AIO
AIO 是異步IO的縮寫,即Asynchronized IO。對于AIO來說,它不是在IO準(zhǔn)備好時再通知線程,而是在IO操作已經(jīng)完成后,再給線程發(fā)出通知。因此,AIO是完全不會阻塞的。此時,我們的業(yè)務(wù)邏輯將變成一個回調(diào)函數(shù),等待IO操作完成后,由系統(tǒng)自動觸發(fā)。netty5中有使用到 AIO,但是花了大力氣,netty5性能沒能在netty4上有大的飛越,所以netty5最終被下線。
接下來就是我們今天的主角 IO多路復(fù)用 出場
二、什么是 IO多路復(fù)用?
想必我們在學(xué)習(xí)一個新技術(shù)或者新概念的時候,最大的疑問就是概念本身,IO多路復(fù)用也不例外,要想弄清楚 IO多路復(fù)用是什么,可以先從 IO多路復(fù)用中的”路“下手。
路:本意是道路,比如:城市的柏油路,鄉(xiāng)村的泥巴路,這些大家肯定不陌生。那么:IO中的路是指什么呢?
別著急,我們先還是看看 IO 是什么?
在計算機中,IO是輸入和輸出(Input/Output),直接信息交互是通過底層的 IO 設(shè)備來實現(xiàn)的。針對不同的操作對象,可以劃分為磁盤I/O、網(wǎng)絡(luò)I/O、內(nèi)存映射I/O等,只要具有輸入輸出類型的交互系統(tǒng)都可以認(rèn)為是I/O系統(tǒng)。最后,一起看下”路“和”多路“
在socket 編程中,[ClientIp, ClientPort, ServerIp, ServerPort, Protocol] 5元素可以唯一標(biāo)識一個socket 連接,基于這個前提,同一個服務(wù)的某個端口 可以和 n個客戶端建立socket連接,可以通過下圖來大致描述:
所以,每個客戶端和服務(wù)器的socket 連接就可以看做”一路“,多個客戶端和該服務(wù)器的socket連接就是”多路“,從而,IO多路就是多個socket連接上的輸入輸出流,復(fù)用就是多個socket連接上的輸入輸出流由一個線程處理。因此 IO多路復(fù)用可以定義如下:
Linux中的 IO多路復(fù)用是指:一個線程處理多個IO流。
三、IO多路復(fù)用有哪些實現(xiàn)機制
先看下基礎(chǔ)socket的模型,才能與下文IO多路復(fù)用機制形成對比,偽代碼實現(xiàn)如下
listenSocket = socket(); //系統(tǒng)調(diào)用socket()函數(shù),調(diào)用創(chuàng)建一個主動socket
bind(listenSocket); //給主動socket綁定地址和端口
listen(listenSocket); //將默認(rèn)的主動socket轉(zhuǎn)換為服務(wù)器使用的被動socket(也叫監(jiān)聽socket)
while (true) { //循環(huán)監(jiān)聽客戶端連接請求
connSocket = accept(listenSocket); //接受客戶端連接,獲取已連接socket
recv(connsocket); //從客戶端讀取數(shù)據(jù),只能同時處理一個客戶端
send(connsocket); //給客戶端返回數(shù)據(jù),只能同時處理一個客戶端
}
實現(xiàn)網(wǎng)絡(luò)通信流程如下圖:
基礎(chǔ)socket模型,能夠?qū)崿F(xiàn)服務(wù)器端和客戶端之間的通信,但是程序每調(diào)用一次 accept 函數(shù),只能處理一個客戶端連接,當(dāng)有大量的客戶端連接時,這種模型處理性能比較差。因此 Linux 提供了高性能的IO多路復(fù)用機制來解決這種困境。
在Linux中,操作系統(tǒng)提供了select、poll 和 epoll 三種 IO多路復(fù)用機制,我們主要圍繞下面4個方面來分析三種多路復(fù)用機制實現(xiàn)的原理:
- IO多路復(fù)用可以監(jiān)聽多少個socket?
- IO多路復(fù)用可以監(jiān)聽socket里面的哪些事件?
- IO多路復(fù)用如何感知已就緒的文件描述符fd?
- IO多路復(fù)用如何實現(xiàn)網(wǎng)絡(luò)通信?
1.select機制
select機制中一個重要的函數(shù)是 select(),函數(shù)有4個入?yún)?,返回一個整數(shù),select()原型和參數(shù)詳情如下:
/**
* 參數(shù)說明
* 監(jiān)聽的文件描述符數(shù)量__nfds、
* 被監(jiān)聽描述符的三個集合*__readfds,*__writefds和*__exceptfds
* 監(jiān)聽時阻塞等待的超時時長*__timeout
* 返回值:返回一個socket對應(yīng)的文件描述符
*/
int select(int __nfds, fd_set * __readfds, fd_set * __writefds, fd_set * __exceptfds, struct timeval * __timeout)
(1) select 可以監(jiān)聽多少個socket?
答案:1024
(2) select可以監(jiān)聽socket 的哪些事件?
答案:select() 函數(shù)有三個fd_set集合,表示監(jiān)聽的三類事件,分別是讀數(shù)據(jù)事件(__readfds集合)、寫數(shù)據(jù)事件(__writefds集合)和異常事件(__exceptfds集合),當(dāng)集合為NULL時,代表不需要處理對應(yīng)的事件。
(3) select 如何感知已就緒的fd?
答案:需要遍歷fd集合,才能找到就緒的描述符。
(4) select 機制怎么實現(xiàn)網(wǎng)絡(luò)通信?
代碼實現(xiàn):
int sock_fd,conn_fd; //監(jiān)聽socket和已連接socket的變量
sock_fd = socket() //創(chuàng)建socket
bind(sock_fd) //綁定socket
listen(sock_fd) //在socket上進行監(jiān)聽,將socket轉(zhuǎn)為監(jiān)聽socket
fd_set rset; //被監(jiān)聽的描述符集合,關(guān)注描述符上的讀事件
int max_fd = sock_fd
//初始化rset數(shù)組,使用FD_ZERO宏設(shè)置每個元素為0
FD_ZERO(&rset);
//使用FD_SET宏設(shè)置rset數(shù)組中位置為sock_fd的文件描述符為1,表示需要監(jiān)聽該文件描述符
FD_SET(sock_fd,&rset);
//設(shè)置超時時間
struct timeval timeout;
timeout.tv_sec = 3;
timeout.tv_usec = 0;
while(1) {
//調(diào)用select函數(shù),檢測rset數(shù)組保存的文件描述符是否已有讀事件就緒,返回就緒的文件描述符個數(shù)
n = select(max_fd+1, &rset, NULL, NULL, &timeout);
//調(diào)用FD_ISSET宏,在rset數(shù)組中檢測sock_fd對應(yīng)的文件描述符是否就緒
if (FD_ISSET(sock_fd, &rset)) {
//如果sock_fd已經(jīng)就緒,表明已有客戶端連接;調(diào)用accept函數(shù)建立連接
conn_fd = accept();
//設(shè)置rset數(shù)組中位置為conn_fd的文件描述符為1,表示需要監(jiān)聽該文件描述符
FD_SET(conn_fd, &rset);
}
//依次檢查已連接socke的文件描述符
for (i = 0; i < maxfd; i++) {
//調(diào)用FD_ISSET宏,在rset數(shù)組中檢測文件描述符是否就緒
if (FD_ISSET(i, &rset)) {
//有數(shù)據(jù)可讀,進行讀數(shù)據(jù)處理
}
}
}
select實現(xiàn)網(wǎng)絡(luò)通信流程如下圖:
select 函數(shù)存在的不足:
- 首先,select()函數(shù)對單個進程能監(jiān)聽的文件描述符數(shù)量是有限制的,它能監(jiān)聽的文件描述符個數(shù)由 __FD_SETSIZE 決定,默認(rèn)值是 1024。
- 其次,當(dāng) select 函數(shù)返回后,需要遍歷描述符集合,才能找到就緒的描述符。這個遍歷過程會產(chǎn)生一定開銷,從而降低程序的性能。
2.poll機制
poll 機制的主要函數(shù)是 poll() 函數(shù),poll()函數(shù)原型定義
/**
* 參數(shù) *__fds 是 pollfd 結(jié)構(gòu)體數(shù)組,pollfd 結(jié)構(gòu)體里包含了要監(jiān)聽的描述符,以及該描述符上要監(jiān)聽的事件類型
* 參數(shù) __nfds 表示的是 *__fds 數(shù)組的元素個數(shù)
* __timeout 表示 poll 函數(shù)阻塞的超時時間
*/
int poll (struct pollfd *__fds, nfds_t __nfds, int __timeout);
pollfd結(jié)構(gòu)體的定義
struct pollfd {
int fd; //進行監(jiān)聽的文件描述符
short int events; //要監(jiān)聽的事件類型
short int revents; //實際發(fā)生的事件類型
};
pollfd 結(jié)構(gòu)體中包含了三個成員變量 fd、events 和 revents,分別表示要監(jiān)聽的文件描述符、要監(jiān)聽的事件類型和實際發(fā)生的事件類型。
(11) poll 可以監(jiān)聽多少個socket?
答案:自定義,但是需要系統(tǒng)能夠承受
(2) poll 可以監(jiān)聽socket里面的哪些事件?
pollfd 結(jié)構(gòu)體中要監(jiān)聽和實際發(fā)生的事件類型,是通過以下三個宏定義來表示的,分別是 POLLRDNORM、POLLWRNORM 和 POLLERR,它們分別表示可讀、可寫和錯誤事件。
#define POLLRDNORM 0x040 //可讀事件
#define POLLWRNORM 0x100 //可寫事件
#define POLLERR 0x008 //錯誤事件
(3) poll 如何獲取已就緒fd?
答案:和select差不多,需要遍歷fd集合,才能找到就緒的描述符。
(4) poll 機制怎么實現(xiàn)網(wǎng)絡(luò)通信?
poll實現(xiàn)代碼:
int sock_fd,conn_fd; //監(jiān)聽套接字和已連接套接字的變量
sock_fd = socket() //創(chuàng)建套接字
bind(sock_fd) //綁定套接字
listen(sock_fd) //在套接字上進行監(jiān)聽,將套接字轉(zhuǎn)為監(jiān)聽套接字
//poll函數(shù)可以監(jiān)聽的文件描述符數(shù)量,可以大于1024
#define MAX_OPEN = 2048
//pollfd結(jié)構(gòu)體數(shù)組,對應(yīng)文件描述符
struct pollfd client[MAX_OPEN];
//將創(chuàng)建的監(jiān)聽套接字加入pollfd數(shù)組,并監(jiān)聽其可讀事件
client[0].fd = sock_fd;
client[0].events = POLLRDNORM;
maxfd = 0;
//初始化client數(shù)組其他元素為-1
for (i = 1; i < MAX_OPEN; i++)
client[i].fd = -1;
while(1) {
//調(diào)用poll函數(shù),檢測client數(shù)組里的文件描述符是否有就緒的,返回就緒的文件描述符個數(shù)
n = poll(client, maxfd+1, &timeout);
//如果監(jiān)聽套件字的文件描述符有可讀事件,則進行處理
if (client[0].revents & POLLRDNORM) {
//有客戶端連接;調(diào)用accept函數(shù)建立連接
conn_fd = accept();
//保存已建立連接套接字
for (i = 1; i < MAX_OPEN; i++){
if (client[i].fd < 0) {
client[i].fd = conn_fd; //將已建立連接的文件描述符保存到client數(shù)組
client[i].events = POLLRDNORM; //設(shè)置該文件描述符監(jiān)聽可讀事件
break;
}
}
maxfd = i;
}
//依次檢查已連接套接字的文件描述符
for (i = 1; i < MAX_OPEN; i++) {
if (client[i].revents & (POLLRDNORM | POLLERR)) {
//有數(shù)據(jù)可讀或發(fā)生錯誤,進行讀數(shù)據(jù)處理或錯誤處理
}
}
}
poll實現(xiàn)網(wǎng)絡(luò)通信流程如下圖:
poll機制解決了select的單個進程最大只能監(jiān)聽1024個socket的限制,但是并沒有解決輪詢獲取就緒fd的問題。
3.epoll機制
(1) epoll的結(jié)構(gòu)
epoll是 2.6內(nèi)核中提出,使用 epoll_event 結(jié)構(gòu)體來記錄待監(jiān)聽的fd及其監(jiān)聽的事件類型的。
epoll_event 結(jié)構(gòu)體以及 epoll_data 結(jié)構(gòu)體的定義:
typedef union epoll_data
{
...
int fd; //記錄文件描述符
...
} epoll_data_t;
struct epoll_event
{
uint32_t events; //epoll監(jiān)聽的事件類型
epoll_data_t data; //應(yīng)用程序數(shù)據(jù)
};
epoll的接口比較簡單,一共有三個函數(shù):
① int epoll_create(int size);
創(chuàng)建一個epoll的句柄,size用來告訴內(nèi)核這個監(jiān)聽的數(shù)目一共有多大。epoll 實例內(nèi)部維護了兩個結(jié)構(gòu),分別是記錄要監(jiān)聽的fd和已經(jīng)就緒的fd,而對于已經(jīng)就緒的文件描述符來說,它們會被返回給用戶程序進行處理。
② int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);
epoll的事件注冊函數(shù),epoll_ctl向 epoll對象中添加、修改或者刪除感興趣的事件,成功返回0,否則返回–1。此時需要根據(jù)errno錯誤碼判斷錯誤類型。它不同于 select()是在監(jiān)聽事件時告訴內(nèi)核要監(jiān)聽什么類型的事件,而是在這里先注冊要監(jiān)聽的事件類型。epoll_wait方法返回的事件必然是通過 epoll_ctl添加到 epoll中的。
③ int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout);
等待事件的產(chǎn)生,類似于select()調(diào)用。參數(shù)events用來從內(nèi)核得到事件的集合,maxevents是events集合的大小,且不大于epoll_create()時的size,參數(shù)timeout是超時時間(毫秒,0會立即返回,-1將不確定,也有說法說是永久阻塞)。函數(shù)返回需要處理的事件數(shù)目,返回0表示已超時,返回–1表示錯誤,需要檢查 errno錯誤碼判斷錯誤類型。
(2) 關(guān)于epoll的ET和LT兩種工作模式
epoll有兩種工作模式:LT(水平觸發(fā))模式和ET(邊緣觸發(fā))模式。
默認(rèn)情況下,epoll采用 LT模式工作,可以處理阻塞和非阻塞socket,而上表中的 EPOLLET表示可以將一個事件改為 ET模式。ET模式的效率要比 LT模式高,它只支持非阻塞 socket。
(3) ET模式與LT模式的區(qū)別
當(dāng)一個新的事件到來時,ET模式下可以從 epoll_wait調(diào)用中獲取到這個事件,可是如果這次沒有把這個事件對應(yīng)的套接字緩沖區(qū)處理完,在這個套接字沒有新的事件再次到來時,在 ET模式下是無法再次從 epoll_wait調(diào)用中獲取這個事件的;而 LT模式則相反,只要一個事件對應(yīng)的套接字緩沖區(qū)還有數(shù)據(jù),就總能從 epoll_wait中獲取這個事件。因此,在 LT模式下開發(fā)基于 epoll的應(yīng)用要簡單一些,不太容易出錯,而在 ET模式下事件發(fā)生時,如果沒有徹底地將緩沖區(qū)數(shù)據(jù)處理完,則會導(dǎo)致緩沖區(qū)中的用戶請求得不到響應(yīng)。
(4) 常見問題
epoll 可以監(jiān)聽多少個socket?
答案:自定義,但是需要系統(tǒng)能夠承受
epoll 如何獲取已就緒fd?
答案:epoll實例內(nèi)部維護了兩個結(jié)構(gòu),分別是記錄要監(jiān)聽的fd和已經(jīng)就緒的fd,可以監(jiān)聽就緒的fd
epllo如何實現(xiàn)網(wǎng)絡(luò)通信?
如下代碼實現(xiàn):
int sock_fd,conn_fd; //監(jiān)聽socket和已連接socket的變量
sock_fd = socket() //創(chuàng)建主動socket
bind(sock_fd) //綁定socket
listen(sock_fd) //在socket進行監(jiān)聽,將socket轉(zhuǎn)為監(jiān)聽socket
epfd = epoll_create(EPOLL_SIZE); //創(chuàng)建epoll實例,
//創(chuàng)建epoll_event結(jié)構(gòu)體數(shù)組,保存socket對應(yīng)文件描述符和監(jiān)聽事件類型
ep_events = (epoll_event*)malloc(sizeof(epoll_event) * EPOLL_SIZE);
//創(chuàng)建epoll_event變量
struct epoll_event ee
//監(jiān)聽讀事件
ee.events = EPOLLIN;
//監(jiān)聽的文件描述符是剛創(chuàng)建的監(jiān)聽socket
ee.data.fd = sock_fd;
//將監(jiān)聽socket加入到監(jiān)聽列表中
epoll_ctl(epfd, EPOLL_CTL_ADD, sock_fd, &ee);
while (1) {
//等待返回已經(jīng)就緒的描述符
n = epoll_wait(epfd, ep_events, EPOLL_SIZE, -1);
//遍歷所有就緒的描述符
for (int i = 0; i < n; i++) {
//如果是監(jiān)聽socket描述符就緒,表明有一個新客戶端連接到來
if (ep_events[i].data.fd == sock_fd) {
conn_fd = accept(sock_fd); //調(diào)用accept()建立連接
ee.events = EPOLLIN;
ee.data.fd = conn_fd;
//添加對新創(chuàng)建的已連接socket描述符的監(jiān)聽,監(jiān)聽后續(xù)在已連接socket上的讀事件
epoll_ctl(epfd, EPOLL_CTL_ADD, conn_fd, &ee);
} else { //如果是已連接socket描述符就緒,則可以讀數(shù)據(jù)
...//讀取數(shù)據(jù)并處理
}
}
}
epoll 進行網(wǎng)絡(luò)通信的流程如下圖:
4.三者的差異
關(guān)于 select, poll,epoll三者的差異,可以用下表進行總結(jié):
IO多路復(fù)用機制 | 監(jiān)聽文件描述符最大限制 | 如何查找就緒的文件描述符 |
select | 1024 | 遍歷文件描述符集合 |
poll | 自定義 | 遍歷文件描述符集合 |
epoll | 自定義 | epoll_wait返回就緒的文件描述符 |
三者實現(xiàn)網(wǎng)絡(luò)通信的對照圖,方便大家看出差異點:
使用IO多路復(fù)用的技術(shù)框架
- redis:Redis 的ae_select.c和ae_epoll.c文件,就分別使用了 select 和 epoll 這兩種機制,實現(xiàn) IO 多路復(fù)用;
- nginx:Nginx支持epoll、select、kqueue等不同操作系統(tǒng)下的各種IO多路復(fù)用方式;Nginx是通過 ET模式使用 epoll。
- Reactor框架,netty:無論 C++ 還是 Java,在高性能的網(wǎng)絡(luò)編程框架的編寫上,大多數(shù)都是基于 Reactor 模式,其中最為典型的便是 Java 的 Netty 框架,而 Reactor 模式是基于 IO 多路復(fù)用的;
總結(jié)
本文分析了多種 IO模型,重點講解了 IO多路復(fù)用原理及其每種方式的源碼分析,因為 IO多路復(fù)用模型對于理解Redis,Nginx等高性能框架太有幫助,所以建議大家參照源碼,多多揣摩。