編譯器如何生成匯編
理解什么是匯編,以及編譯器如何生成它,對于理解 WebAssembly 是很有幫助的。
在上一篇關(guān)于 JIT 的文章中,我介紹了和計(jì)算機(jī)打交道,就像同外星人打交道一樣。
現(xiàn)在來思考一下“外星人”的大腦是如何工作的——機(jī)器的“大腦”是如何對我們輸入給它的內(nèi)容進(jìn)行分析和理解的。
“大腦”中,有一部分負(fù)責(zé)思考——處理加法、減法或者邏輯運(yùn)算。還有其他的部分分別負(fù)責(zé)短暫記憶和長期記憶的。
這些不同的部分都有自己的名字:
- 負(fù)責(zé)思考的部分叫做算數(shù)邏輯單元(ALU)
- 寄存器提供短暫記憶功能
- 隨機(jī)存取存儲器(RAM)提供長期記憶功能
機(jī)器代碼中的語句稱作指令。
那么在指令進(jìn)入“大腦”以后都發(fā)生了什么呢?它們會被切分為不同的部分傳送到不同的單元進(jìn)行處理。
“大腦”切分指令通過不同連接線路進(jìn)行。舉個例子,“大腦”會將指令最開始的 6 比特通過管道送到 ALU 中。而 ALU 會通過 0 和 1 的位置來決定對兩個數(shù)做加法。
這串 01 串就叫做“操作碼”,它告訴了 ALU 要執(zhí)行什么樣的操作。
然后“大腦”會取后面兩個連續(xù)的 3 比特 01 串來確定把哪兩個數(shù)加到一起,而這 3 比特指的是寄存器的地址。
注意看上面機(jī)器碼的注釋:“ADD R1 R2”,這對于人類來講很容易理解其含義。這就是匯編,也叫符號機(jī)器碼,它使人類也能看懂機(jī)器代碼的含義。
可以看到匯編和這臺機(jī)器的機(jī)器碼之間有直接的映射關(guān)系。正是因?yàn)槿绱?,擁有不同機(jī)器結(jié)構(gòu)的計(jì)算機(jī)會有不同的匯編系統(tǒng)。如果你有一個機(jī)器,它有自己的內(nèi)部結(jié)構(gòu),那么它就需要它所獨(dú)有的匯編語言。
從上面的分析可以知道我們進(jìn)行機(jī)器碼的翻譯并不是只有一種,不同的機(jī)器有不同的機(jī)器碼,就像我們?nèi)祟愐舱f各種各樣的語言一樣,機(jī)器也“說”不同的語言。
人類和外星人之間的語言翻譯,可能會從英語、德語或中文翻譯到外星語 A 或者外星語 B。而在程序的世界里,則是從 C、C++ 或者 JAVA 翻譯到 x86 或者 ARM。
你想要從任意一個高級語言翻譯到眾多匯編語言中的一種(依賴機(jī)器內(nèi)部結(jié)構(gòu)),其中一種方式是創(chuàng)建不同的翻譯器來完成各種高級語言到匯編的映射。
這種翻譯的效率實(shí)在太低了。為了解決這個問題,大多數(shù)編譯器都會在中間多加一層。它會把高級語言翻譯到一個低層,而這個低層又沒有低到機(jī)器碼這個層級。這就是中間代碼( intermediate representation,IR)。
這就是說編譯器會把高級語言翻譯到 IR 語言,而編譯器另外的部分再把 IR 語言編譯成特定目標(biāo)結(jié)構(gòu)的可執(zhí)行代碼。
重新總結(jié)一下:編譯器的前端把高級語言翻譯到 IR,編譯器的后端把 IR 翻譯成目標(biāo)機(jī)器的匯編代碼。
總結(jié)
本文介紹了什么是匯編以及編譯器是如何把高級語言翻譯成匯編語言的,在下一篇文章中,我們來介紹 WebAssembly 的工作原理。