CPU 核數(shù)與線程數(shù)有什么關(guān)系?
作為一名美食資淺愛好者,盡管小風(fēng)哥我廚藝拙計(jì),但依然阻擋不了我對烹飪的熱愛。
那小風(fēng)哥我通常是怎么做菜的呢?
大廚與菜譜
你沒猜錯,做菜之前先去下一份菜譜,照著菜譜一步步來:起鍋燒油、蔥姜蒜末下鍋爆香、倒入切好的食材、大火翻炒、加入適量醬油、加入適量鹽、繼續(xù)翻炒、出鍋嘍!
這樣一道色香味俱佳的小炒大功告成,裝盤端出來拿起筷子一嘗,難吃死了。
火候有點(diǎn)過,醬油加的有點(diǎn)少,鹽加多了,中餐里的“火候”以及“適量”是最為神秘的存在,可以意會不可言傳。因此相對肯德基麥當(dāng)勞之類的標(biāo)準(zhǔn)工業(yè)品,中餐更像是藝術(shù)。每個(gè)人炒出來的菜味道都不一樣,顯然嘛,每個(gè)人對火候以及適量的理解是不一樣的。
對不起,跑題了。
雖然小風(fēng)哥我廚藝不怎么樣,但輸廚藝不能輸氣場,有時(shí)我會幾樣一起來,這邊炒著A菜,那邊炒著B菜。
也就是說,我可以同時(shí)按照兩份菜譜去做飯,如果小風(fēng)哥足夠快,那么我可以同時(shí)炒 N 樣菜。
炒菜與線程
實(shí)際上CPU和廚師一樣,都是按照菜譜(機(jī)器指令)去執(zhí)行某個(gè)動作,從操作系統(tǒng)的角度講當(dāng)CPU切換回用戶態(tài)后,CPU執(zhí)行的一段指令就是線程,或者說屬于某個(gè)線程。
這和炒菜一樣,我可以按照菜譜抄魚香肉絲,那么炒菜時(shí)這就是魚香肉絲線程;我可以按照菜譜抄宮保雞丁,那么炒菜時(shí)這就是宮保雞丁線程。
廚師個(gè)數(shù)就好比CPU核心數(shù),炒菜的樣數(shù)就好比線程數(shù),這時(shí)我問你,你覺得廚師的個(gè)數(shù)和可以同時(shí)抄幾樣菜有關(guān)系嗎?
答案當(dāng)然是沒有。
CPU的核心數(shù)和線程個(gè)數(shù)沒有什么必然的關(guān)系。
單個(gè)核心上可以跑任意多個(gè)線程,只要你的內(nèi)存夠就行;計(jì)算機(jī)系統(tǒng)內(nèi)也可以有任意多核數(shù),只要你有錢就行。
看到這個(gè)答案你是不是覺得有點(diǎn)疑惑、有點(diǎn)疑問、有點(diǎn)不明所以,這好像和其它人說的不一樣啊!
別著急,我們慢慢講。
傻傻的CPU
CPU根本不理解自己執(zhí)行的指令屬于哪個(gè)線程,CPU也不需要理解這些,CPU需要做的事情就是根據(jù)PC寄存器中的地址從內(nèi)存中取出后執(zhí)行,其它沒了。
你看CPU才不管你系統(tǒng)內(nèi)有多少線程。
有多少線程是誰需要來關(guān)心的呢?是操作系統(tǒng)。
線程是操作系統(tǒng)的把戲。
操作系統(tǒng)與多任務(wù)
很久很久以前,計(jì)算機(jī)一次只能執(zhí)行一個(gè)任務(wù),你不能像現(xiàn)在這樣在計(jì)算機(jī)上一邊看電影一邊在下小電影,哦,不對,一邊寫代碼,一邊下載資料。
要么你先寫代碼,寫完代碼后再去下資料,要么你先下資料然后再寫代碼,總之,這兩個(gè)任務(wù)不能同時(shí)進(jìn)行。
這顯然很不方便,就這樣,多任務(wù)——Multi-Tasking,誕生了。
你CPU不是只知道執(zhí)行機(jī)器指令嗎?很好,那我操作系統(tǒng)就通過修改你的PC寄存器,讓你CPU執(zhí)行A任務(wù)的機(jī)器指令一段時(shí)間,然后下一段時(shí)間再去執(zhí)行B任務(wù)的機(jī)器指令,再然后下一個(gè)時(shí)間段去執(zhí)行C任務(wù)的機(jī)器指令,由于每一段時(shí)間非常少,通常在毫秒級別,那么在人類看來A、B、C三個(gè)任務(wù)在“同時(shí)”運(yùn)行。
這就是多任務(wù)的本質(zhì)。
進(jìn)程與線程
CPU不知道執(zhí)行的某一段機(jī)器指令屬于A任務(wù)還是B任務(wù),只有操作系統(tǒng)知道,同時(shí)操作系統(tǒng)還能知道任務(wù)A和B任務(wù)是否屬于同一個(gè)地址空間。
如果屬于同一個(gè)地址空間,那么任務(wù)A和任務(wù)B就是我們熟悉的“多線程”;如果不屬于同一個(gè)地址空間,那么任務(wù)A和任務(wù)B就是我們熟悉的“多進(jìn)程”,現(xiàn)在你應(yīng)該明白這兩個(gè)概念了吧。
這里出現(xiàn)了一個(gè)有點(diǎn)拗口的名詞,地址空間,Address Space,關(guān)于地址空間的概念以及進(jìn)程線程這一部分更加詳細(xì)的講解,請參考小風(fēng)哥的《深入理解操作系統(tǒng)》第7章,關(guān)注公眾號"碼農(nóng)的荒島求生"并回復(fù)”操作系統(tǒng)“即可。
值得注意的是,計(jì)算機(jī)系統(tǒng)還在單核時(shí)代就已經(jīng)有多線程的概念了,我們之前說過,即使是單核也可以執(zhí)行多個(gè)線程,那么有的同學(xué)可能會有疑問,在單核的系統(tǒng)中開啟多個(gè)線程有什么意義嗎?
單核與多線程
假設(shè)現(xiàn)在有兩個(gè)任務(wù),任務(wù)A和任務(wù)B,每個(gè)任務(wù)需要的計(jì)算時(shí)間都是5分鐘,那么無論是任務(wù)A和任務(wù)B串行執(zhí)行還是放到兩個(gè)線程中并行執(zhí)行,在單核環(huán)境下執(zhí)行完這兩個(gè)任務(wù)總需要10分鐘,因此有的同學(xué)覺得單核下多線程沒什么用。
實(shí)際上,線程這個(gè)概念為程序員提供了一種編程抽象,我們可以把一項(xiàng)任務(wù)進(jìn)行劃分,然后把每一個(gè)子任務(wù)放到一個(gè)個(gè)線程中去運(yùn)行。
假如你的程序帶有圖形界面,某個(gè)UI元素背后需要的大量運(yùn)算,這時(shí)為了防止執(zhí)行該運(yùn)算時(shí)UI產(chǎn)生卡頓,那么可以把這個(gè)運(yùn)算任務(wù)放到一個(gè)單獨(dú)的線程中去。
因此如果你的目的是防止當(dāng)前線程因執(zhí)行某項(xiàng)操作而不得不等待,那么在這樣的應(yīng)用場景下,你根本就不需要關(guān)心系統(tǒng)內(nèi)是單核還是多核以及有多少個(gè)核。
阻塞式I/O
這也是使用線程的經(jīng)典場景。
如果沒有線程,那么執(zhí)行阻塞式I/O時(shí)整個(gè)進(jìn)程會被操作系統(tǒng)暫停,但如果你開啟兩個(gè)線程,其中一個(gè)線程被阻塞時(shí)另一個(gè)線程依然可以繼續(xù)向前推進(jìn)。
這樣的話你就不需要去使用反人類的異步IO了。
當(dāng)然,這一切的前提是你的場景不涉及高性能以及高并發(fā),如果涉及的話那這就是另一個(gè)話題了,如果你想了解這一話題,關(guān)注公眾號“碼農(nóng)的荒島求生”并回復(fù)“高并發(fā)”即可。
在這種簡單的場景下,你創(chuàng)建線程時(shí)也不需要關(guān)心系統(tǒng)中是單核還是多核。
多核時(shí)代
實(shí)際上,線程這個(gè)概念是從2003年左右才開始流行的,為什么?因?yàn)檫@一時(shí)期,多核時(shí)代到來了。
之所以產(chǎn)生多核,是因?yàn)閱魏说男阅芴嵘絹碓嚼щy了。
盡管采用多進(jìn)程也可以充分利用多核,但畢竟多進(jìn)程編程是很繁瑣的,這涉及復(fù)雜的進(jìn)程間通信機(jī)制、進(jìn)程間切換的較高性能損耗、進(jìn)程間內(nèi)存相互隔離帶來的對內(nèi)存消耗等。
線程這個(gè)概念很好的解決了上述問題,開始成為多核時(shí)代的主角,要想充分利用多核資源,線程是程序員的首選工具。
真正的并行
有了多核后,運(yùn)行在兩個(gè)線程中的任務(wù)A和任務(wù)B實(shí)現(xiàn)了真正的并行。
此前這樣一句話廣為引用,這句話是這么說的:
threads are for people who can't program state machines
“線程是為那些不懂狀態(tài)機(jī)的人準(zhǔn)備的”,這句話在單核時(shí)代有它的道理,因?yàn)樵趩魏藭r(shí)代,所有的任務(wù)都不是在同時(shí)向前推進(jìn),而是“交錯”前進(jìn),A前進(jìn)一點(diǎn),然后B前進(jìn)一點(diǎn),線程并不是實(shí)現(xiàn)這種“偽并行”唯一的方法,狀態(tài)機(jī)也可以。
但在多核時(shí)代,這句話就不再適用了,對于大多數(shù)程序員來說多進(jìn)程多線程幾乎是充分利用多核資源的唯一方法。
如果你的場景是想充分利用多核,那么這時(shí)你的確需要知道系統(tǒng)內(nèi)有多少核數(shù),一般來說你創(chuàng)建的線程數(shù)需要與核數(shù)保持線性關(guān)系。
也就是說,如果你的核數(shù)翻倍,那么創(chuàng)建的線程數(shù)也要翻倍。
需要多少線程?
值得注意的是,線程不是越多越好。
如果你的線程是不涉及任何I/O、沒有任何同步互斥之類的純計(jì)算類型,那么每個(gè)核心一個(gè)線程通常是最佳選擇。但通常來說,線程都需要一定的I/O,可能需要一定的同步互斥,那么這時(shí)適當(dāng)增加線程可能會提高性能,但當(dāng)線程數(shù)量到達(dá)一個(gè)臨界值后性能開始下降,這時(shí)線程間切換的開銷將顯著增加。
這里之所以用適當(dāng)這個(gè)詞,是因?yàn)檫@很難去量化,只能用你實(shí)際的程序根據(jù)真正的場景進(jìn)行測試才能得到這個(gè)值。
總結(jié)
線程數(shù)和CPU核心數(shù)可以沒有任何關(guān)聯(lián),如果在使用線程時(shí)僅僅針對上述提到的幾個(gè)簡單場景,那么你根本不需要關(guān)心CPU是單核還是多核。
但當(dāng)你需要利用線程充分發(fā)揮多核威力時(shí),通常情況下你創(chuàng)建的線程數(shù)與核數(shù)要保持一種線性關(guān)系,最佳系數(shù)通常需要測試才能得到。
我是小風(fēng)哥,希望這篇文章對大家理解多核以及多線程有所幫助。