高性能IO模型淺析
高性能IO模型淺析
服務(wù)器端編程經(jīng)常需要構(gòu)造高性能的IO模型,常見(jiàn)的IO模型有四種:
(1)同步阻塞IO(Blocking IO):即傳統(tǒng)的IO模型。
(2)同步非阻塞IO(Non-blocking IO):默認(rèn)創(chuàng)建的socket都是阻塞的,非阻塞IO要求socket被設(shè)置為NONBLOCK。注意這里所說(shuō)的NIO并非Java的NIO(New IO)庫(kù)。
(3)IO多路復(fù)用(IO Multiplexing):即經(jīng)典的Reactor設(shè)計(jì)模式,有時(shí)也稱為異步阻塞IO,Java中的Selector和Linux中的epoll都是這種模型。
(4)異步IO(Asynchronous IO):即經(jīng)典的Proactor設(shè)計(jì)模式,也稱為異步非阻塞IO。
同步和異步的概念描述的是用戶線程與內(nèi)核的交互方式:同步是指用戶線程發(fā)起IO請(qǐng)求后需要等待或者輪詢內(nèi)核IO操作完成后才能繼續(xù)執(zhí)行;而異步是指用戶線程發(fā)起IO請(qǐng)求后仍繼續(xù)執(zhí)行,當(dāng)內(nèi)核IO操作完成后會(huì)通知用戶線程,或者調(diào)用用戶線程注冊(cè)的回調(diào)函數(shù)。
阻塞和非阻塞的概念描述的是用戶線程調(diào)用內(nèi)核IO操作的方式:阻塞是指IO操作需要徹底完成后才返回到用戶空間;而非阻塞是指IO操作被調(diào)用后立即返回給用戶一個(gè)狀態(tài)值,無(wú)需等到IO操作徹底完成。
另外,Richard Stevens 在《Unix 網(wǎng)絡(luò)編程》卷1中提到的基于信號(hào)驅(qū)動(dòng)的IO(Signal Driven IO)模型,由于該模型并不常用,本文不作涉及。接下來(lái),我們?cè)敿?xì)分析四種常見(jiàn)的IO模型的實(shí)現(xiàn)原理。為了方便描述,我們統(tǒng)一使用IO的讀操作作為示例。
一、同步阻塞IO
同步阻塞IO模型是最簡(jiǎn)單的IO模型,用戶線程在內(nèi)核進(jìn)行IO操作時(shí)被阻塞。
如圖1所示,用戶線程通過(guò)系統(tǒng)調(diào)用read發(fā)起IO讀操作,由用戶空間轉(zhuǎn)到內(nèi)核空間。內(nèi)核等到數(shù)據(jù)包到達(dá)后,然后將接收的數(shù)據(jù)拷貝到用戶空間,完成read操作。
用戶線程使用同步阻塞IO模型的偽代碼描述為:
{
read(socket, buffer);
process(buffer);
}
即用戶需要等待read將socket中的數(shù)據(jù)讀取到buffer后,才繼續(xù)處理接收的數(shù)據(jù)。整個(gè)IO請(qǐng)求的過(guò)程中,用戶線程是被阻塞的,這導(dǎo)致用戶在發(fā)起IO請(qǐng)求時(shí),不能做任何事情,對(duì)CPU的資源利用率不夠。
二、同步非阻塞IO
同步非阻塞IO是在同步阻塞IO的基礎(chǔ)上,將socket設(shè)置為NONBLOCK。這樣做用戶線程可以在發(fā)起IO請(qǐng)求后可以立即返回。
如圖2所示,由于socket是非阻塞的方式,因此用戶線程發(fā)起IO請(qǐng)求時(shí)立即返回。但并未讀取到任何數(shù)據(jù),用戶線程需要不斷地發(fā)起IO請(qǐng)求,直到數(shù)據(jù)到達(dá)后,才真正讀取到數(shù)據(jù),繼續(xù)執(zhí)行。
用戶線程使用同步非阻塞IO模型的偽代碼描述為:
{
while(read(socket, buffer) != SUCCESS)
;
process(buffer);
}
即用戶需要不斷地調(diào)用read,嘗試讀取socket中的數(shù)據(jù),直到讀取成功后,才繼續(xù)處理接收的數(shù)據(jù)。整個(gè)IO請(qǐng)求的過(guò)程中,雖然用戶線程每次發(fā)起IO請(qǐng)求后可以立即返回,但是為了等到數(shù)據(jù),仍需要不斷地輪詢、重復(fù)請(qǐng)求,消耗了大量的CPU的資源。一般很少直接使用這種模型,而是在其他IO模型中使用非阻塞IO這一特性。
三、IO多路復(fù)用
IO多路復(fù)用模型是建立在內(nèi)核提供的多路分離函數(shù)select基礎(chǔ)之上的,使用select函數(shù)可以避免同步非阻塞IO模型中輪詢等待的問(wèn)題。
如圖3所示,用戶首先將需要進(jìn)行IO操作的socket添加到select中,然后阻塞等待select系統(tǒng)調(diào)用返回。當(dāng)數(shù)據(jù)到達(dá)時(shí),socket被激活,select函數(shù)返回。用戶線程正式發(fā)起read請(qǐng)求,讀取數(shù)據(jù)并繼續(xù)執(zhí)行。
從流程上來(lái)看,使用select函數(shù)進(jìn)行IO請(qǐng)求和同步阻塞模型沒(méi)有太大的區(qū)別,甚至還多了添加監(jiān)視socket,以及調(diào)用select函數(shù)的額外操作,效率更差。但是,使用select以后***的優(yōu)勢(shì)是用戶可以在一個(gè)線程內(nèi)同時(shí)處理多個(gè)socket的IO請(qǐng)求。用戶可以注冊(cè)多個(gè)socket,然后不斷地調(diào)用select讀取被激活的socket,即可達(dá)到在同一個(gè)線程內(nèi)同時(shí)處理多個(gè)IO請(qǐng)求的目的。而在同步阻塞模型中,必須通過(guò)多線程的方式才能達(dá)到這個(gè)目的。
用戶線程使用select函數(shù)的偽代碼描述為:
{
select(socket);
while(1) {
sockets = select();
for(socket in sockets) {
if(can_read(socket)) {
read(socket, buffer);
process(buffer);
}
}
}
}
其中while循環(huán)前將socket添加到select監(jiān)視中,然后在while內(nèi)一直調(diào)用select獲取被激活的socket,一旦socket可讀,便調(diào)用read函數(shù)將socket中的數(shù)據(jù)讀取出來(lái)。
然而,使用select函數(shù)的優(yōu)點(diǎn)并不僅限于此。雖然上述方式允許單線程內(nèi)處理多個(gè)IO請(qǐng)求,但是每個(gè)IO請(qǐng)求的過(guò)程還是阻塞的(在select函數(shù)上阻塞),平均時(shí)間甚至比同步阻塞IO模型還要長(zhǎng)。如果用戶線程只注冊(cè)自己感興趣的socket或者IO請(qǐng)求,然后去做自己的事情,等到數(shù)據(jù)到來(lái)時(shí)再進(jìn)行處理,則可以提高CPU的利用率。
IO多路復(fù)用模型使用了Reactor設(shè)計(jì)模式實(shí)現(xiàn)了這一機(jī)制。
如圖4所示,EventHandler抽象類表示IO事件處理器,它擁有IO文件句柄Handle(通過(guò)get_handle獲?。?,以及對(duì)Handle的操作handle_event(讀/寫(xiě)等)。繼承于EventHandler的子類可以對(duì)事件處理器的行為進(jìn)行定制。Reactor類用于管理EventHandler(注冊(cè)、刪除等),并使用handle_events實(shí)現(xiàn)事件循環(huán),不斷調(diào)用同步事件多路分離器(一般是內(nèi)核)的多路分離函數(shù)select,只要某個(gè)文件句柄被激活(可讀/寫(xiě)等),select就返回(阻塞),handle_events就會(huì)調(diào)用與文件句柄關(guān)聯(lián)的事件處理器的handle_event進(jìn)行相關(guān)操作。
如圖5所示,通過(guò)Reactor的方式,可以將用戶線程輪詢IO操作狀態(tài)的工作統(tǒng)一交給handle_events事件循環(huán)進(jìn)行處理。用戶線程注冊(cè)事件處理器之后可以繼續(xù)執(zhí)行做其他的工作(異步),而Reactor線程負(fù)責(zé)調(diào)用內(nèi)核的select函數(shù)檢查socket狀態(tài)。當(dāng)有socket被激活時(shí),則通知相應(yīng)的用戶線程(或執(zhí)行用戶線程的回調(diào)函數(shù)),執(zhí)行handle_event進(jìn)行數(shù)據(jù)讀取、處理的工作。由于select函數(shù)是阻塞的,因此多路IO復(fù)用模型也被稱為異步阻塞IO模型。注意,這里的所說(shuō)的阻塞是指select函數(shù)執(zhí)行時(shí)線程被阻塞,而不是指socket。一般在使用IO多路復(fù)用模型時(shí),socket都是設(shè)置為NONBLOCK的,不過(guò)這并不會(huì)產(chǎn)生影響,因?yàn)橛脩舭l(fā)起IO請(qǐng)求時(shí),數(shù)據(jù)已經(jīng)到達(dá)了,用戶線程一定不會(huì)被阻塞。
用戶線程使用IO多路復(fù)用模型的偽代碼描述為:
void UserEventHandler::handle_event() {
if(can_read(socket)) {
read(socket, buffer);
process(buffer);
}
}
{
Reactor.register(new UserEventHandler(socket));
}
用戶需要重寫(xiě)EventHandler的handle_event函數(shù)進(jìn)行讀取數(shù)據(jù)、處理數(shù)據(jù)的工作,用戶線程只需要將自己的EventHandler注冊(cè)到Reactor即可。Reactor中handle_events事件循環(huán)的偽代碼大致如下。
Reactor::handle_events() {
while(1) {
sockets = select();
for(socket in sockets) {
get_event_handler(socket).handle_event();
}
}
}
事件循環(huán)不斷地調(diào)用select獲取被激活的socket,然后根據(jù)獲取socket對(duì)應(yīng)的EventHandler,執(zhí)行器handle_event函數(shù)即可。
IO多路復(fù)用是最常使用的IO模型,但是其異步程度還不夠“徹底”,因?yàn)樗褂昧藭?huì)阻塞線程的select系統(tǒng)調(diào)用。因此IO多路復(fù)用只能稱為異步阻塞IO,而非真正的異步IO。
四、異步IO
“真正”的異步IO需要操作系統(tǒng)更強(qiáng)的支持。在IO多路復(fù)用模型中,事件循環(huán)將文件句柄的狀態(tài)事件通知給用戶線程,由用戶線程自行讀取數(shù)據(jù)、處理數(shù)據(jù)。而在異步IO模型中,當(dāng)用戶線程收到通知時(shí),數(shù)據(jù)已經(jīng)被內(nèi)核讀取完畢,并放在了用戶線程指定的緩沖區(qū)內(nèi),內(nèi)核在IO完成后通知用戶線程直接使用即可。
異步IO模型使用了Proactor設(shè)計(jì)模式實(shí)現(xiàn)了這一機(jī)制。
如圖6,Proactor模式和Reactor模式在結(jié)構(gòu)上比較相似,不過(guò)在用戶(Client)使用方式上差別較大。Reactor模式中,用戶線程通過(guò)向Reactor對(duì)象注冊(cè)感興趣的事件監(jiān)聽(tīng),然后事件觸發(fā)時(shí)調(diào)用事件處理函數(shù)。而Proactor模式中,用戶線程將AsynchronousOperation(讀/寫(xiě)等)、Proactor以及操作完成時(shí)的CompletionHandler注冊(cè)到AsynchronousOperationProcessor。AsynchronousOperationProcessor使用Facade模式提供了一組異步操作API(讀/寫(xiě)等)供用戶使用,當(dāng)用戶線程調(diào)用異步API后,便繼續(xù)執(zhí)行自己的任務(wù)。AsynchronousOperationProcessor 會(huì)開(kāi)啟獨(dú)立的內(nèi)核線程執(zhí)行異步操作,實(shí)現(xiàn)真正的異步。當(dāng)異步IO操作完成時(shí),AsynchronousOperationProcessor將用戶線程與AsynchronousOperation一起注冊(cè)的Proactor和CompletionHandler取出,然后將CompletionHandler與IO操作的結(jié)果數(shù)據(jù)一起轉(zhuǎn)發(fā)給Proactor,Proactor負(fù)責(zé)回調(diào)每一個(gè)異步操作的事件完成處理函數(shù)handle_event。雖然Proactor模式中每個(gè)異步操作都可以綁定一個(gè)Proactor對(duì)象,但是一般在操作系統(tǒng)中,Proactor被實(shí)現(xiàn)為Singleton模式,以便于集中化分發(fā)操作完成事件。
如圖7所示,異步IO模型中,用戶線程直接使用內(nèi)核提供的異步IO API發(fā)起read請(qǐng)求,且發(fā)起后立即返回,繼續(xù)執(zhí)行用戶線程代碼。不過(guò)此時(shí)用戶線程已經(jīng)將調(diào)用的AsynchronousOperation和CompletionHandler注冊(cè)到內(nèi)核,然后操作系統(tǒng)開(kāi)啟獨(dú)立的內(nèi)核線程去處理IO操作。當(dāng)read請(qǐng)求的數(shù)據(jù)到達(dá)時(shí),由內(nèi)核負(fù)責(zé)讀取socket中的數(shù)據(jù),并寫(xiě)入用戶指定的緩沖區(qū)中。***內(nèi)核將read的數(shù)據(jù)和用戶線程注冊(cè)的CompletionHandler分發(fā)給內(nèi)部Proactor,Proactor將IO完成的信息通知給用戶線程(一般通過(guò)調(diào)用用戶線程注冊(cè)的完成事件處理函數(shù)),完成異步IO。
用戶線程使用異步IO模型的偽代碼描述為:
void UserCompletionHandler::handle_event(buffer) {
process(buffer);
}
{
aio_read(socket, new UserCompletionHandler);
}
用戶需要重寫(xiě)CompletionHandler的handle_event函數(shù)進(jìn)行處理數(shù)據(jù)的工作,參數(shù)buffer表示Proactor已經(jīng)準(zhǔn)備好的數(shù)據(jù),用戶線程直接調(diào)用內(nèi)核提供的異步IO API,并將重寫(xiě)的CompletionHandler注冊(cè)即可。
相比于IO多路復(fù)用模型,異步IO并不十分常用,不少高性能并發(fā)服務(wù)程序使用IO多路復(fù)用模型+多線程任務(wù)處理的架構(gòu)基本可以滿足需求。況且目前操作系統(tǒng)對(duì)異步IO的支持并非特別完善,更多的是采用IO多路復(fù)用模型模擬異步IO的方式(IO事件觸發(fā)時(shí)不直接通知用戶線程,而是將數(shù)據(jù)讀寫(xiě)完畢后放到用戶指定的緩沖區(qū)中)。Java7之后已經(jīng)支持了異步IO,感興趣的讀者可以嘗試使用。
本文從基本概念、工作流程和代碼示例三個(gè)層次簡(jiǎn)要描述了常見(jiàn)的四種高性能IO模型的結(jié)構(gòu)和原理,理清了同步、異步、阻塞、非阻塞這些容易混淆的概念。通過(guò)對(duì)高性能IO模型的理解,可以在服務(wù)端程序的開(kāi)發(fā)中選擇更符合實(shí)際業(yè)務(wù)特點(diǎn)的IO模型,提高服務(wù)質(zhì)量。希望本文對(duì)你有所幫助。
本文版權(quán)歸作者和博客園共有,作者:Florian。