看進(jìn)程小 P 講述它的網(wǎng)絡(luò)性能故事!
本文轉(zhuǎn)載自微信公眾號(hào)「開發(fā)內(nèi)功修煉」,作者張彥飛allen 。轉(zhuǎn)載本文請(qǐng)聯(lián)系開發(fā)內(nèi)功修煉公眾號(hào)。
大家好,我是飛哥!
今天給大家?guī)淼氖且粋€(gè)漫畫故事!
01
大家好,我是一個(gè)進(jìn)程,我的名字的小 P。
我和很多其它小伙伴一樣,都由老大操作系統(tǒng)創(chuàng)建和管理。
要問我是怎么來的,噓小點(diǎn)聲,不能讓那幫應(yīng)用開發(fā)們聽見。
其實(shí)就是內(nèi)核的開發(fā)都認(rèn)為應(yīng)用開發(fā)是傻逼,怕應(yīng)用開發(fā)的代碼把服務(wù)器給搞壞。就設(shè)計(jì)了我們進(jìn)程出來,專門運(yùn)行各種用戶態(tài)的代碼。
我們天然和內(nèi)核里的小伙伴們被隔離開來。我們大部分時(shí)間都運(yùn)行在用戶態(tài),其它的兄弟們都一直運(yùn)行在內(nèi)核態(tài)。
我們沒有權(quán)限訪問硬盤、網(wǎng)卡等設(shè)備。
如果我們需要這些功能的時(shí)候,需要通過系統(tǒng)調(diào)用先陷入到內(nèi)核態(tài)中。不過在陷入之前,系統(tǒng)調(diào)用入口要對(duì)我們執(zhí)行嚴(yán)格的安檢。
好了背景就是這樣,今天我給大家講講我和我的好朋友們之間是怎么配合處理網(wǎng)絡(luò)IO的。
02
我們進(jìn)程通過一個(gè)叫 socket 的哥們來和我們的用戶通信。但是實(shí)際上所有的 socket 以及整臺(tái)機(jī)器上的網(wǎng)絡(luò)包都是在內(nèi)核態(tài)來把控著的,我們只能拿到 socket 的編號(hào)。
在很久很久以前,我們一般只處理一條 TCP 連接。
我們通過一個(gè)叫 recvfrom 的系統(tǒng)調(diào)用來讀取我們的用戶發(fā)送過來的數(shù)據(jù)。假如運(yùn)氣好的話,我們 recvfrom 的時(shí)候就可以把數(shù)據(jù)取走!
但是其實(shí)根本我們不知道用戶那邊啥時(shí)候給我們打數(shù)據(jù)包過來,所以大部分情況下都不會(huì)運(yùn)氣那么好。
如果 read 的時(shí)候數(shù)據(jù)包沒有就緒,我們就得按照規(guī)矩主動(dòng)把 CPU 讓出來。
不過那時(shí)我們也確實(shí)只處理一條連接,連接上沒請(qǐng)求被阻塞掉也正常。
后來老板不斷的壓榨我們,讓我們一個(gè)進(jìn)程處理成百上千條連接。這時(shí)候 read 某條連接的時(shí)候,沒有數(shù)據(jù)就把我們掛起來,我們哪兒受得了哇, 我們還有其它好多連接要處理呢。
而且頻繁的阻塞導(dǎo)致我的工作效率特別低下。 第一我們阻塞要花不少的時(shí)間保存我們當(dāng)前的工作狀態(tài),第二我們?cè)?L1/L2/L3 等 cache 里準(zhǔn)備了好多工作時(shí)要用的緩存這下全沒用了。
后來我們就給操作系統(tǒng)老大求了個(gè)情,要求把連接設(shè)置成非阻塞。
我:“哥,我只是來看看這條連接上有沒有數(shù)據(jù)哈,有就給我,沒有也別阻塞我可以不?”
操作系統(tǒng):“準(zhǔn)!”
這下就好了,我就可以用循環(huán)遍歷的方式把我所有的 socket 挨個(gè)到內(nèi)核中去看一遍。
但是我的問題是我還是不知道用戶啥時(shí)候把數(shù)據(jù)發(fā)過來。如果沒有就緒的,那我只能就頻繁循環(huán)地不斷地來內(nèi)核詢問。
“去看看 1 號(hào) socket 上有數(shù)據(jù)了沒?” “沒有”
“去看看 2 號(hào) socket 上有數(shù)據(jù)了沒?” “沒有”
“去看看 3 號(hào) socket 上有數(shù)據(jù)了沒?” “沒有”
...
“去看看 1 號(hào) socket 上有數(shù)據(jù)了沒?” “沒有”
“去看看 2 號(hào) socket 上有數(shù)據(jù)了沒?” “沒有”
“去看看 3 號(hào) socket 上有數(shù)據(jù)了沒?” “終于有啦”
干這事可特么把我累壞個(gè)屁的了,運(yùn)氣不好的時(shí)候我得訪問成千上萬次才能等到數(shù)據(jù)真正到來!
03
終于!!!
后來操作系統(tǒng)老大在內(nèi)核態(tài)搞出了各種支持多路復(fù)用的新系統(tǒng)調(diào)用,它們是 select、poll、和 epoll。
不過嘿嘿,我最喜歡 epoll 這個(gè)新家伙。
我把需要觀察的 socket 都交給他,他替我都維護(hù)了起來了,據(jù)說是內(nèi)部用了一個(gè)叫啥紅黑樹的高深技術(shù)。
不過其實(shí)愛用啥用啥,我只關(guān)注能解放我的體力就行。
我是終于不用再不斷的輪詢了,每次我想要知道哪個(gè) socket 上有請(qǐng)求的時(shí)候,直接進(jìn)入內(nèi)核態(tài)查看一下就緒隊(duì)列就行了。
這種爽歪歪的感覺,你們真的無法體會(huì)。這就是我喜歡用這個(gè)家伙的原因。
如果請(qǐng)求很多,那我就可以一直 epoll_wait 獲取請(qǐng)求,一直處理,而不用阻塞。
直到時(shí)間片耗盡被再次丟到就緒隊(duì)列等待調(diào)度。
我的工作效率發(fā)揮到了極致,能處理的并發(fā)也越來越多。
在 redis 上,我最高能達(dá)到每秒 10W 的qps,怎么樣厲害吧!
不過在所有的連接上都沒有數(shù)據(jù)的時(shí)候,我也需要阻塞起來。
這個(gè)我是接受的,畢竟沒活兒干的時(shí)候還占著 CPU 資源,我也會(huì)覺得怪不好意思。
等網(wǎng)卡收到我的數(shù)據(jù)請(qǐng)求包的時(shí)候,我的另外一個(gè)兄弟軟中斷會(huì)從 epoll 的 wq 上找到我,把我叫醒。
不過我所謂的叫醒,其實(shí)只是推入到就緒隊(duì)列而已。真正的調(diào)度還得等進(jìn)程調(diào)度器老哥把我拉起來。
看,我和 epoll、軟中斷、進(jìn)程調(diào)度器等幾兄弟配合的是不是天衣無縫!
結(jié)語
理解 epoll 這種內(nèi)核級(jí)的技術(shù)會(huì)極大地提升你的內(nèi)功能力。之前飛哥從源碼級(jí)別講了一遍,反響非常不錯(cuò),在一萬粉的情況下竟然達(dá)到了 5000 的閱讀數(shù)。