漫談C++編譯的9個(gè)階段
在C++程序中進(jìn)行開(kāi)發(fā)時(shí),首先遇到的就是C++編譯的問(wèn)題,其通過(guò)編譯器進(jìn)行編譯,編譯器最后通過(guò)后綴名來(lái)辨識(shí)是否編譯該文件,因此“.h”的頭文件一概不理會(huì),這個(gè)就是C++中的編譯工作。
例如ifdef/ifndef就是從一個(gè)文件中有選擇性的挑出一些符合條件的代碼來(lái)交給下一步的編譯階段來(lái)處理。這里面最復(fù)雜的莫過(guò)于include了,其實(shí)也很簡(jiǎn)單,就是相當(dāng)于把那個(gè)對(duì)應(yīng)的文件里面的內(nèi)容一下子替換到這條include***語(yǔ)句的地方來(lái)。
其次是編譯,這一步很重要,C++編譯是以一個(gè)個(gè)獨(dú)立的文件作為單元的,一個(gè)文件就會(huì)編譯出一個(gè)目標(biāo)文件。(這里插入一點(diǎn)關(guān)于編譯的文件的說(shuō)明,編譯器通過(guò)后綴名來(lái)辨識(shí)是否編譯該文件,因此“.h”的頭文件一概不理會(huì)。
而“.cpp”的源文件一律都要被編譯,我實(shí)驗(yàn)過(guò)把.h文件的后綴名改為.cpp,然后在include的地方相應(yīng)的改為***.cpp,這樣一來(lái),編譯器就會(huì)編譯許多不必要的頭文件,只不過(guò)頭文件里我們通常只放置聲明而不是定義。
因此最后鏈接生成的可執(zhí)行文件的大小是不會(huì)改變的)清楚C++編譯是以一個(gè)個(gè)單獨(dú)的文件為單元的,這一點(diǎn)很重要,因此編譯只負(fù)責(zé)本單元的那些事,而對(duì)外部的事情一概不理會(huì),在這一步里,我們可以調(diào)用一個(gè)函數(shù)而不必給出這個(gè)函數(shù)的定義。#t#
但是要在調(diào)用前得到這個(gè)函數(shù)的聲明(其實(shí)這就是include的本質(zhì),不就是為了給你提前提供個(gè)聲明而好讓你使用嗎?至于那個(gè)函數(shù)到底是如何實(shí)現(xiàn)的,需要在鏈接這一步里去找函數(shù)的入口地址。
因此提供聲明的方式可以是用include把放在別的文件中的聲明拿過(guò)來(lái),也可以是在調(diào)用之前自己寫(xiě)一句void max(int,int);都行。),編譯階段剩下的事情就是分析語(yǔ)法的正確性之類的工作了。好啦,總結(jié)一下,可以粗略的認(rèn)為C++編譯階段分兩步:第一步,檢驗(yàn)函數(shù)或者變量是否存在它們的聲明;第二步,檢查語(yǔ)句是否符合C++語(yǔ)法。
最后一步是鏈接,它會(huì)把所有編譯好的單元全部鏈接為一個(gè)整體文件,其實(shí)這一步可以比作一個(gè)“連線”的過(guò)程,比如A文件用了B文件中的函數(shù),那么鏈接的這一步會(huì)建立起這個(gè)關(guān)聯(lián)。
鏈接時(shí)最重要的我認(rèn)為是檢查全局空間里面是不是有重復(fù)定義或者缺失定義。這也就解釋了為什么我們一般不在頭文件中出現(xiàn)定義,因?yàn)轭^文件有可能被釋放到多個(gè)源文件中,每個(gè)源文件都會(huì)單獨(dú)編譯,鏈接時(shí)就會(huì)發(fā)現(xiàn)全局空間中有多個(gè)定義了。
標(biāo)準(zhǔn)C和C++編譯過(guò)程定義為9個(gè)階段(Phases of Translation):
1.字符映射(Character Mapping)文件中的物理源字符被映射到源字符集中,其中包括三字符運(yùn)算符的替換、控制字符(行尾的回車換行)的替換。許多非美式鍵盤不支持基本源字符集中的一些字符,文件中可用三字符來(lái)代替這些基本源字符,以??為前導(dǎo)。
但如果所用鍵盤是美式鍵盤,有些編譯器可能不對(duì)三字符進(jìn)行查找和替換,需要增加-trigraphs編譯參數(shù)。在C++程序中,任何不在基本源字符集中的字符都被它的通用字符名替換。
2.行合并(Line Splicing)以反斜杠\結(jié)束的行和它接下來(lái)的行合并。
3.標(biāo)記化(Tokenization)每一條注釋被一個(gè)單獨(dú)的空字符所替換。C++雙字符運(yùn)算符被識(shí)別為標(biāo)記(為了開(kāi)發(fā)可讀性更強(qiáng)的程序,C++為非ASCII碼開(kāi)發(fā)者定義了一套雙字符運(yùn)算符集和新的保留字集)。源代碼被分析成預(yù)處理標(biāo)記。
4.預(yù)處理(Preprocessing)調(diào)用預(yù)處理指令并擴(kuò)展宏。使用#include指令包含的文件,重復(fù)步驟1到4。上述四個(gè)階段統(tǒng)稱為預(yù)處理階段。
5.字符集映射(Character-set Mapping)源字符集成員、轉(zhuǎn)義序列被轉(zhuǎn)換成等價(jià)的執(zhí)行字符集成員。例如:'\a'在ASCII環(huán)境下會(huì)被轉(zhuǎn)換成值為一個(gè)字節(jié),值為7。
6.字符串連接(String Concatenation)相鄰的字符串被連接。例如:"""hahaha""huohuohuo"將成為"hahahahuohuohuo"。
7.翻譯(Translation)進(jìn)行語(yǔ)法和語(yǔ)義分析C++編譯,并翻譯成目標(biāo)代碼。
8.處理模板處理模板實(shí)例。
9.連接(Linkage)解決外部引用的問(wèn)題,準(zhǔn)備好程序映像以便執(zhí)行。






