通過(guò)禁止比較讓Go二進(jìn)制文件變小

作者：Dave Cheney 2020-05-22 18:00:26

本文中我會(huì)深入講解在 Go 程序的上下文中“相等”的意義，以及為什么像這樣的修改會(huì)對(duì) Go 程序的大小有重大的影響。

大家常規(guī)的認(rèn)知是，Go 程序中聲明的類型越多，生成的二進(jìn)制文件就越大。這個(gè)符合直覺，畢竟如果你寫的代碼不去操作定義的類型，那么定義一堆類型就沒有意義了。然而，鏈接器的部分工作就是檢測(cè)沒有被程序引用的函數(shù)（比如說(shuō)它們是一個(gè)庫(kù)的一部分，其中只有一個(gè)子集的功能被使用），然后把它們從最后的編譯產(chǎn)出中刪除。常言道，“類型越多，二進(jìn)制文件越大”，對(duì)于多數(shù) Go 程序還是正確的。

本文中我會(huì)深入講解在 Go 程序的上下文中“相等”的意義，以及為什么像這樣的修改會(huì)對(duì) Go 程序的大小有重大的影響。

定義兩個(gè)值相等

Go 的語(yǔ)法定義了“賦值”和“相等”的概念。賦值是把一個(gè)值賦給一個(gè)標(biāo)識(shí)符的行為。并不是所有聲明的標(biāo)識(shí)符都可以被賦值，如常量和函數(shù)就不可以。相等是通過(guò)檢查標(biāo)識(shí)符的內(nèi)容是否相等來(lái)比較兩個(gè)標(biāo)識(shí)符的行為。

作為強(qiáng)類型語(yǔ)言，“相同”的概念從根源上被植入標(biāo)識(shí)符的類型中。兩個(gè)標(biāo)識(shí)符只有是相同類型的前提下，才有可能相同。除此之外，值的類型定義了如何比較該類型的兩個(gè)值。

例如，整型是用算數(shù)方法進(jìn)行比較的。對(duì)于指針類型，是否相等是指它們指向的地址是否相同。映射和通道等引用類型，跟指針類似，如果它們指向相同的地址，那么就認(rèn)為它們是相同的。

上面都是按位比較相等的例子，即值占用的內(nèi)存的位模式是相同的，那么這些值就相等。這就是所謂的 memcmp，即內(nèi)存比較，相等是通過(guò)比較兩個(gè)內(nèi)存區(qū)域的內(nèi)容來(lái)定義的。

記住這個(gè)思路，我過(guò)會(huì)兒再來(lái)談。

結(jié)構(gòu)體相等

除了整型、浮點(diǎn)型和指針等標(biāo)量類型，還有復(fù)合類型：結(jié)構(gòu)體。所有的結(jié)構(gòu)體以程序中的順序被排列在內(nèi)存中。因此下面這個(gè)聲明：

type S struct {
    a, b, c, d int64
}

會(huì)占用 32 字節(jié)的內(nèi)存空間；a 占用 8 個(gè)字節(jié)，b 占用 8 個(gè)字節(jié)，以此類推。Go 的規(guī)則說(shuō)如果結(jié)構(gòu)體所有的字段都是可以比較的，那么結(jié)構(gòu)體的值就是可以比較的。因此如果兩個(gè)結(jié)構(gòu)體所有的字段都相等，那么它們就相等。

a := S{1, 2, 3, 4}
b := S{1, 2, 3, 4}
fmt.Println(a == b) // 輸出 true

編譯器在底層使用 memcmp 來(lái)比較 a 的 32 個(gè)字節(jié)和 b 的 32 個(gè)字節(jié)。

填充和對(duì)齊

然而，在下面的場(chǎng)景下過(guò)分簡(jiǎn)單化的按位比較的策略會(huì)返回錯(cuò)誤的結(jié)果：

type S struct {
    a byte
    b uint64
    c int16
    d uint32
}
 
func main()
    a := S{1, 2, 3, 4}
    b := S{1, 2, 3, 4}
    fmt.Println(a == b) // 輸出 true
}

編譯代碼后，這個(gè)比較表達(dá)式的結(jié)果還是 true，但是編譯器在底層并不能僅依賴比較 a 和 b 的位模式，因?yàn)榻Y(jié)構(gòu)體有填充。

Go 要求結(jié)構(gòu)體的所有字段都對(duì)齊。2 字節(jié)的值必須從偶數(shù)地址開始，4 字節(jié)的值必須從 4 的倍數(shù)地址開始，以此類推 ¹。編譯器根據(jù)字段的類型和底層平臺(tái)加入了填充來(lái)確保字段都對(duì)齊。在填充之后，編譯器實(shí)際上看到的是 ²：

type S struct {
    a byte
    _ [7]byte // 填充
    b uint64
    c int16
    _ [2]int16 // 填充
    d uint32
}

填充的存在保證了字段正確對(duì)齊，而填充確實(shí)占用了內(nèi)存空間，但是填充字節(jié)的內(nèi)容是未知的。你可能會(huì)認(rèn)為在 Go 中填充字節(jié)都是 0，但實(shí)際上并不是 — 填充字節(jié)的內(nèi)容是未定義的。由于它們并不是被定義為某個(gè)確定的值，因此按位比較會(huì)因?yàn)榉植荚?s 的 24 字節(jié)中的 9 個(gè)填充字節(jié)不一樣而返回錯(cuò)誤結(jié)果。

Go 通過(guò)生成所謂的相等函數(shù)來(lái)解決這個(gè)問(wèn)題。在這個(gè)例子中，s 的相等函數(shù)只比較函數(shù)中的字段略過(guò)填充部分，這樣就能正確比較類型 s 的兩個(gè)值。

類型算法

呵，這是個(gè)很大的設(shè)置，說(shuō)明了為什么，對(duì)于 Go 程序中定義的每種類型，編譯器都會(huì)生成幾個(gè)支持函數(shù)，編譯器內(nèi)部把它們稱作類型的算法。如果類型是一個(gè)映射的鍵，那么除相等函數(shù)外，編譯器還會(huì)生成一個(gè)哈希函數(shù)。為了維持穩(wěn)定，哈希函數(shù)在計(jì)算結(jié)果時(shí)也會(huì)像相等函數(shù)一樣考慮諸如填充等因素。

憑直覺判斷編譯器什么時(shí)候生成這些函數(shù)實(shí)際上很難，有時(shí)并不明顯，（因?yàn)椋┻@超出了你的預(yù)期，而且鏈接器也很難消除沒有被使用的函數(shù)，因?yàn)榉瓷渫鶎?dǎo)致鏈接器在裁剪類型時(shí)變得更保守。

通過(guò)禁止比較來(lái)減小二進(jìn)制文件的大小

現(xiàn)在，我們來(lái)解釋一下 Brad 的修改。向類型添加一個(gè)不可比較的字段 ³，結(jié)構(gòu)體也隨之變成不可比較的，從而強(qiáng)制編譯器不再生成相等函數(shù)和哈希函數(shù)，規(guī)避了鏈接器對(duì)那些類型的消除，在實(shí)際應(yīng)用中減小了生成的二進(jìn)制文件的大小。作為這項(xiàng)技術(shù)的一個(gè)例子，下面的程序：

package main
 
import "fmt"
 
func main() {
    type t struct {
        // _ [0][]byte // 取消注釋以阻止比較
        a byte
        b uint16
        c int32
        d uint64
    }
    var a t
    fmt.Println(a)
}

用 Go 1.14.2（darwin/amd64）編譯，大小從 2174088 降到了 2174056，節(jié)省了 32 字節(jié)。單獨(dú)看節(jié)省的這 32 字節(jié)似乎微不足道，但是考慮到你的程序中每個(gè)類型及其傳遞閉包都會(huì)生成相等和哈希函數(shù)，還有它們的依賴，這些函數(shù)的大小隨類型大小和復(fù)雜度的不同而不同，禁止它們會(huì)大大減小最終的二進(jìn)制文件的大小，效果比之前使用 -ldflags="-s -w" 還要好。

最后總結(jié)一下，如果你不想把類型定義為可比較的，可以在源碼層級(jí)強(qiáng)制實(shí)現(xiàn)像這樣的奇技淫巧，會(huì)使生成的二進(jìn)制文件變小。

責(zé)任編輯：龐桂玉來(lái)源： Linux中國(guó)