哪些因素影響Java調用的性能?
當時發(fā)生了什么?
這得從一個小故事說起。我在一個Java核心庫的郵件列表中提交了一個修改 ——重寫了一些本是 final 的
方法。一石激起千層浪,這一改動引發(fā)了幾番討論。而其中一個討論的話題是:調用一個去除 final
標記的方法,將導致哪種程度的性能下降(performance regression)。
我不能確定這一改變是否會導致性能下降,但當我決定將此暫時擱置一邊,試著尋找在這個討論里是否有人公布過任何相關的完整基準測試(sane benchmarks)時,結果空手而歸。我不能肯定地說有關的基準測試是不存在的,或者說其他人沒做過這方面的探討。但我能肯定的是,在這里,連任何公 開的代碼評審都沒有。唉,看來是時候寫一個基準測試了。
基準測試的方法論
我決定選用一個相當不錯的框架 —— JMH 來構建基準測試。如果你質疑它測試的準確性,那么建議你看下對這個框架作者(Aleksey Shipilev)的訪談,或者閱讀一下由Nitsan Wakart撰寫的一篇彰顯此框架風采的博文。
現(xiàn)在,我想知道哪些因素影響了Java方法調用的性能。所以我決定以不同方式調用方法,并測算它們的性能開銷。以單一變量為前提來構造一套基準測試,我便能逐個排除或確定,哪些因素或哪種組合會影響到方法調用的性能。
內聯(lián)
讓我們把這些方法調用點壓扁
方法調用的有無,是一個影響程度既是最高又是最低的因素——對于編譯器來說,徹底優(yōu)化方法調用所帶來的開銷并非不可能,有兩種方法可以實現(xiàn)這樣的需 求:直接內聯(lián)該方法本身和使用內聯(lián)緩存(inline cache)。千萬別被引入的這些術語給嚇倒——它們都是通俗易懂的?,F(xiàn)在我們假設有一個叫Foo
的類,該類定義了一個叫bar
的方法:
class Foo {
void bar() { ... }
}
我們以如下的方式調用bar
方法:
Foo foo = new Foo();
foo.bar();
這里有一個重要的知識點:實際調用 bar
的位置,即 foo.bar()
,稱為調用點(callsite)。 當我們說一個方法“被內聯(lián)”,意指方法體被插入到了調用點的位置上,以代替方法調用。對于那些由許多短小的方法所構成的程序——我稱之為被適當分解的程序 ——內聯(lián)可以有效地提升性能。這是因為結束以后可以發(fā)現(xiàn),程序并沒有把所有時間用在方法調用上,實際上程序并沒有工作!我們在JMH中可以借由 CompilerControl
注釋控制一個方法是否被內聯(lián)。關于內聯(lián)緩存的概念,我稍后再來說明。
層次結構深度與重寫子類方法
是因為父母讓孩子慢下來了嗎?
如果我們移除一個方法的 final
關鍵字,便意味著我們能夠重寫它。所以這是另一個在進行測試我們需要考慮的情況。我會選擇在同一層次結構中不同層次的子類里調用一些方法,并且在這些方法里有一些是會被不同層次的子類重寫的。這樣的測試能讓我們確定或排除深的層次結構是否影響到重寫所帶來的性能開銷。
多態(tài)性
動物世界:多態(tài)是如何表現(xiàn)的
先前我提到調用點這一概念時,我偷偷地回避了一個相當重要的問題——因為在子類中可以重寫一個非 final
方法,這使得調用點可以調用不同的方法?,F(xiàn)假設我傳入一個 Foo 的實例或一個重寫了 bar
子類—— Baz的實例,編譯器如何得知要調用哪一個 bar
方 法呢?在默認情況下,方法將在Java中被虛擬化(可重寫)。對于任一調用點,編譯器需要在一個稱為虛擬表(vtable)的表中尋找與其對應的方法。這 是個非常耗時的過程,所以,能進行優(yōu)化的編譯器,總是會試圖減少這種查詢帶來的開銷。一種方法就是先前提到的內聯(lián),這的確是個良策,但前提是編譯器能證明 在給定的調用點上調用的方法唯一。而這樣的調用點我們稱為單態(tài)(monomorphic)調用點。
不幸的是,進行這種分析需要耗費大量時間。所以在實際過程中,確定一個調用點是否單態(tài)是個不太可取的方法。對此,JIT編譯器傾向于使用一種替代方 法:列出哪些類可以在此調用點被調用,接著根據之前的N個相同的調用猜測此調用點是否是單態(tài)的。以假定某個調用點永遠為單態(tài),來進行投機性質的優(yōu)化往往是 可取的行為。因為這樣的優(yōu)化往往都是正確的,但也因它無法確保永遠正確,編譯器需要在方法調用之前注入一個用于檢查方法類型的防護機制。
除了單態(tài)的調用點以外,還有兩種調用點我們希望對其進行優(yōu)化。一種稱為雙態(tài)(bimorphic) 調用點,在該點上有兩個候選方法。對此你依然可以實現(xiàn)內聯(lián)——借助防護代碼,讓其檢測應調用哪一個方法,并引導程序跳轉至內聯(lián)在調用點的兩個方法體中真正 對應的那一個。這樣的方式還是比查看所有虛擬表的方式要快得多。但在某些情況下,我們得利用內聯(lián)緩存來進行優(yōu)化。內聯(lián)緩存需要借助一張?zhí)囟ǖ奶D表 ( jump table),這種表類似于對虛擬表查找做的一份緩存。hotsopt JIT編譯器支持雙態(tài)內聯(lián)緩存,并定義那些擁有三個及三個以上候選方法的調用點為超多狀態(tài)(megamorphic)調用點。
這就使得我在基準測試與探究當中,需要額外地把調用情況劃分為三類:單態(tài)、雙態(tài)、超多狀態(tài)。
結果
讓我們把結果分類組織,以便研究細節(jié)。我已經提供了統(tǒng)計產生的原始數據。但我們的興 趣點不應放在性能測試結果的具體數值上,而應是不同類型的方法調用的性能開銷之間的比率以及各自的錯誤率是否夠低。如果最快與最慢的結果之間比率為 6.26,則說明這是一個顯著性差異。由于測試時使用的是空方法(詳見源代碼),所以在實際應用中,這樣的差異會更大。
你可以在 github上查看此次基準測試的源代碼。為了避免產生困惑,待會所有的結果將分塊顯示。最后顯示的多態(tài)的基準測試是在 PolymorphicBenchmark
類中進行,其它的則在 JavaFinalBenchmark
類中。
簡單調用點
最先看到的的一組結果,是比較調用一個 virtual 方法、一個 final
方法和一個擁有很深的層級結構,同時被所有子類重寫的方法所帶來的開銷。注意,調用這些方法的時候我們都強制編譯器不要內聯(lián)它們。我們可以看到:三者在時間花費上相差甚微,并且各自的誤差率都小到可以忽略。對此我們可以斷定,僅添加一個 final
關鍵字并不會大幅度提升調用性能,重寫一個方法也不見得會帶來什么影響。
內聯(lián)簡單調用
現(xiàn)在,我們在開啟內聯(lián)的情況下再來一次相同的測試。由結果可見,final
方 法和 virtual 方法的時間花費依舊相近,并比在沒有內聯(lián)的情況下快了4倍,我將此歸功于內聯(lián)優(yōu)化。相比而言,被所有子類重寫的方法的結果可就沒那么好看了。我推測這是由 于此方法有多個子類實現(xiàn),使得編譯器必須插入一個類型保護。有關的細節(jié)我們將在研究多態(tài)性的結果時進行闡述。
類層次結構的影響
哇噢——這兒有好幾個的方法!方法名稱的編號(1~4)代表該方法調用的層次。因此,parentMethod4 表示我們調用的方法位于class的上面第四級。(譯注:在源代碼中該方法位于頂層的父類)。由此結果我們能斷定,結構層次的深度對性能開銷沒有影響。在開啟內聯(lián)的實例中,結論也是一樣。這個測試中,被內聯(lián)的方法的性能與 inlinableAlwaysOverriddenMethod
相當,但稍遜于 inlinableVirtualInvoke
。我依舊認為這與使用了類型保護有關。事實上JIT編譯器能剖析所有候選方法,從而只內聯(lián)對應的那一個,但這并不證明它總會這么干。
類的層級結構對final
方法的影響
該測試的結論與第一個測試一樣 —— final
關鍵字不會產生任何影響。我本以為該測試將證明 inlinableParentFinalMethod4
以無類型保護的方式進行內聯(lián),但結果表明事實并非如此。
多態(tài)性
最后,我們來看涉及多態(tài)分派(polymorphic dispatch)的測試結果。單態(tài)調用的性能開銷與之前virtual方法相近。但對于雙態(tài)與超多狀態(tài)調用,由于需要在一張較大的虛擬表上面進行查找, 所以需要更多的時間。而一旦我們開啟內聯(lián)支持,類型分析(type profiling )將會在單態(tài)或雙態(tài)的調用點啟用,使得在這些調用點上的方法調用的開銷減少。但與層級結構的實例一樣,這只會減少少量的時間。相比而言,超多狀態(tài)的實例則 依舊耗時較長。記住,我并沒有說在這個測試中hotspot禁用了內聯(lián),它只是沒有實現(xiàn)多態(tài)調用點的多態(tài)內聯(lián)緩存。
我們從中學到了什么?
我認為,需要我們引起注意的是,很多人沒有認識到不同方式的方法調用所花費的時間是不一樣的。即便有些人發(fā)現(xiàn)了這種問題,但他們不去證明是否真的如此。作為第一個吃螃蟹的人,我列出了各種壞的假設,因此我希望這份研究能夠幫助到大家。以下是我很樂于與大家分享的一些結論:
-
最快與最短的方法調用的類型之間存在巨大的性能差別。
-
在實際應用中,添加或刪除
final
關鍵字并不會真正影響性能。但如果除此以外,你還在層級結構上進行某些操作,那這些行為則可能導致性能下降。 -
更深的類的層次結構并不會真正影響到調用的性能。
-
單態(tài)調用比雙態(tài)調用更快。
-
雙態(tài)調用比超多狀態(tài)調用更快。
-
我們在能夠進行剖析(profile-ably),但是不能進行查驗的單態(tài)調用點中看到類型保護,這種保護會使得這些調用點的調用性能低于那些能夠進行查驗的單態(tài)調用點。
我想說的是,對我而言,類型保護帶來的性能開銷是一個“重大發(fā)現(xiàn)”。這是一個我之前很少提及,并且總是當做無關事物忽視掉的因素。
注意事項與進一步工作
本文不能囊括這個話題的全部內容。因為:
-
這篇博文所關注的影響到方法調用的性能的因素,只與類型有關。所以,有一個因素我并未提及:方法的長短或者說調用棧的深度——如果方法太長,那么它將不會被內聯(lián),為此你必須承受方法調用所帶來的開銷。另外,為了使代碼具有易讀性,你也應當把方法寫得短小一些。
-
在本次測試的所有我并沒有嘗試引入接口。如果你對此有興趣的話,這里有一篇有關接口調用的性能的研究Mechanical Sympathy。
-
還有一個因素被我完全忽視了,那就是方法內聯(lián)的優(yōu)化方式在不同編譯器上的效果差異。當編譯器是僅關注某個方法(內部過程優(yōu)化)時,它們需要足夠地信息才能有效優(yōu)化。內聯(lián)的限制可以有效地減少其它優(yōu)化所需要關注的范圍。
-
試著站在匯編語言的層面進行解釋的話,會涉及更多的細節(jié)內容。
或許以上內容已經超出了本文的范疇,需要另寫博文進行討論。