自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="hsrnp"><i id="hsrnp"></i></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

實現(xiàn)一個簡單的編譯器

作者：Yunba云巴 2016-11-08 18:53:08

開發(fā) 開發(fā)工具

簡單的說編譯器就是語言翻譯器，它一般將高級語言翻譯成更低級的語言，如 GCC 可將 C/C++ 語言翻譯成可執(zhí)行機器語言，Java 編譯器可以將 Java 源代碼翻譯成 Java 虛擬機可以執(zhí)行的字節(jié)碼。

簡單的說編譯器就是語言翻譯器，它一般將高級語言翻譯成更低級的語言，如 GCC 可將 C/C++ 語言翻譯成可執(zhí)行機器語言，Java 編譯器可以將 Java 源代碼翻譯成 Java 虛擬機可以執(zhí)行的字節(jié)碼。

編譯器如此神奇，那么它到底是如何工作的呢?本文將簡單介紹編譯器的原理，并實現(xiàn)一個簡單的編譯器，使它能編譯我們自定義語法格式的源代碼。(文中使用的源碼都已上傳至 GitHub 以方便查看)。

自定義語法

為了簡潔易懂，我們的編譯器將只支持以下簡單功能：

數(shù)據(jù)類型只支持整型，這樣不需要數(shù)據(jù)類型符;
支持加(+)，減(-)，乘(*)，除(/) 運算
支持函數(shù)調用
支持 extern(為了調用 printf 打印計算結果)

以下是我們要支持的源碼實例 demo.xy：

extern printi(val) 
 
sum(a, b) { 
  return a + b 
} 
 
mult(a, b) { 
  return a * b 
} 
 
printi(mult(4, 5) - sum(4, 5))

編譯原理簡介

一般編譯器有以下工作步驟：

詞法分析(Lexical analysis)：此階段的任務是從左到右一個字符一個字符地讀入源程序，對構成源程序的字符流進行掃描然后根據(jù)構詞規(guī)則識別單詞(Token)，完成這個任務的組件是詞法分析器(Lexical analyzer，簡稱Lexer)，也叫掃描器(Scanner);
語法分析(Syntactic analysis，也叫 Parsing)：此階段的主要任務是由詞法分析器生成的單詞構建抽象語法樹(Abstract Syntax Tree ，AST)，完成此任務的組件是語法分析器(Parser);
目標碼生成：此階段編譯器會遍歷上一步生成的抽象語法樹，然后為每個節(jié)點生成機器 / 字節(jié)碼。

編譯器完成編譯后，由鏈接器(Linker) 將生成的目標文件鏈接成可執(zhí)行文件，這一步并不是必須的，一些依賴于虛擬機運行的語言(如 Java，Erlang)就不需要鏈接。

工具簡介

對應編譯器工作步驟我們將使用以下工具，括號里標明了所使用的版本號：

Flex(2.6.0): Flex 是 Lex 開源替代品，他們都是詞法分析器制作工具，它可以根據(jù)我們定義的規(guī)則生成詞法分析器的代碼;
Bison(3.0.4)： Bison 是語法分析器的制作工具，同樣它可以根據(jù)我們定義的規(guī)則生成語法分析器的代碼;
LLVM(3.8.0)： LLVM 是構架編譯器的框架系統(tǒng)，我們會利用他來完成從抽象語法樹生成目標碼的過程。

在 ubuntu 上可以通過以下命令安裝這些工具：

sudo apt-get install flex 
sudo apt-get install bison 
sudo apt-get install llvm-3.8*

介紹完工具，現(xiàn)在我們可以開始實現(xiàn)我們的編譯器了。

詞法分析器

前面提到詞法分析器要將源程序分解成單詞，我們的語法格式很簡單，只包括：標識符，數(shù)字，數(shù)學運算符，括號和大括號等，我們將通過 Flex 來生成詞法分析器的源碼，給 Flex 使用的規(guī)則文件 lexical.l 如下：

%{ 
#include <string> 
#include "ast.h" 
#include "syntactic.hpp" 
 
#define SAVE_TOKEN  yylval.string = new std::string(yytext, yyleng) 
#define TOKEN(t)    (yylval.token = t) 
%} 
 
%option noyywrap 
 
%% 
 
[ \t\n]                 ; 
"extern"                return TOKEN(TEXTERN); 
"return"                return TOKEN(TRETURN); 
[a-zA-Z_][a-zA-Z0-9_]*  SAVE_TOKEN; return TIDENTIFIER; 
[0-9]+                  SAVE_TOKEN; return TINTEGER; 
 
"="                     return TOKEN(TEQUAL); 
"=="                    return TOKEN(TCEQ); 
"!="                    return TOKEN(TCNE); 
 
"("                     return TOKEN(TLPAREN); 
")"                     return TOKEN(TRPAREN); 
"{"                     return TOKEN(TLBRACE); 
"}"                     return TOKEN(TRBRACE); 
 
","                     return TOKEN(TCOMMA); 
 
"+"                     return TOKEN(TPLUS); 
"-"                     return TOKEN(TMINUS); 
"*"                     return TOKEN(TMUL); 
"/"                     return TOKEN(TDIV); 
 
.                       printf("Unknown token!\n"); yyterminate(); 
 
%%

我們來解釋一下，這個文件被 2 個 %% 分成 3 部分，第 1 部分用 %{ 與 %} 包括的是一些 C++ 代碼，會被原樣復制到 Flex 生成的源碼文件中，還可以在指定一些選項，如我們使用了 %option noyywrap，也可以在這定義宏供后面使用;第 2 部分用來定義構成單詞的規(guī)則，可以看到每條規(guī)都是一個正則表達式和動作，很直白，就是詞法分析器發(fā)現(xiàn)了匹配的單詞后執(zhí)行相應的動作代碼，大部分只要返回單詞給調用者就可以了;第 3 部分可以定義一些函數(shù)，也會原樣復制到生成的源碼中去，這里我們留空沒有使用。

現(xiàn)在我們可以通過調用 Flex 生成詞法分析器的源碼：

flex -o lexical.cpp lexical.l

生成的　lexical.cpp　里會有一個 yylex() 函數(shù)供　語法分析器　調用;你可能發(fā)現(xiàn)了，有些宏和變量并沒有被定義(如TEXTERN，yylval，yytext 等)，其實有些是 Flex 會自動定義的內(nèi)置變量(如 yytext)，有些是后面語法分析器生成工具里定義的變量(如 yylval)，我們后面會看到。

語法分析器

語法分析器的作用是構建抽象語法樹，通俗的說抽象語法樹就是將源碼用樹狀結構來表示，每個節(jié)點都代表源碼中的一種結構;對于我們要實現(xiàn)的語法，其語法樹是很簡單的，如下：

現(xiàn)在我們使用 Bison 生成語法分析器代碼，同樣 Bison 需要一個規(guī)則文件，我們的規(guī)則文件 syntactic.y 如下，限于篇幅，省略了某些部分，可以通過鏈接查看完整內(nèi)容：

%{ 
    #include "ast.h" 
    #include <cstdio> 
 
... 
 
    extern int yylex(); 
    void yyerror(const char *s) { std::printf("Error: %s\n", s);std::exit(1); } 
%} 
 
... 
 
%token <token> TLPAREN TRPAREN TLBRACE TRBRACE TCOMMA 
 
... 
 
%% 
 
program: 
  stmts { programBlock = $1; } 
        ; 
... 
 
func_decl: 
  ident TLPAREN func_decl_args TRPAREN block { $$ = new NFunctionDeclaration(*$1, *$3, *$5); delete $3; } 
; 
 
... 
 
%%

是不是發(fā)現(xiàn)和 Flex 的規(guī)則文件很像呢?確實是這樣，它也是分 3 個部分組成，同樣，第一部分的 C++ 代碼會被復制到生成的源文件中，還可以看到這里通過以下這樣的語法定義前面了 Flex 使用的宏：

%token <token> TLPAREN TRPAREN TLBRACE TRBRACE TCOMMA

比較不同的是第 2 部分，不像 Flex 通過正則表達式通過定義規(guī)則，這里使用的是巴科斯范式(BNF: Backus-Naur Form) 的形式定義了我們識別的語法結構。如下的語法表示函數(shù)：

func_decl: 
  ident TLPAREN func_decl_args TRPAREN block { $$ = new NFunctionDeclaration(*$1, *$3, *$5); delete $3; } 
;

可以看到后面大括號中間的也是動作代碼，上例的動作是在抽象語法樹中生成一個函數(shù)的節(jié)點，其實這部分的其他規(guī)則也是生成相應類型的節(jié)點到語法樹中。像 NFunctionDeclaration 這是一個我們自己定義的節(jié)點類，我們在 ast.h 中定義了我們所要用到的節(jié)點，同樣的，我們摘取一段代碼如下：

... 
 
class NFunctionDeclaration : public NStatement { 
public: 
    const NIdentifier& id; 
    VariableList arguments; 
    NBlock& block; 
    NFunctionDeclaration(const NIdentifier& id, 
            const VariableList& arguments, NBlock& block) : 
        id(id), arguments(arguments), block(block) { } 
    virtual llvm::Value* codeGen(CodeGenContext& context); 
}; 
 
...

可以看到，它有標識符(id)，參數(shù)列表(arguments)，函數(shù)體(block) 這些成員，在語法分析階段會設置好這些成員的內(nèi)容供后面的目標碼生成階段使用。還可以看到有一個 codeGen() 虛函數(shù)，你可能猜到了，后面就是通過調用它來生成相應的目標代碼。

我們可以通過以下命令調用 Bison 生成語法分析器的源碼文件，這里我們使用 -d 使頭文件和源文件分開，因為前面詞法分析器的源碼使用了這里定義的一些宏，所以需要使用這個頭文件，這里將會生成 syntactic.cpp 和 syntactic.hpp：

bison -d -o syntactic.cpp syntactic.y

目標碼生成

這是最后一步了，這一步的主角是前面提到 LLVM，LLVM 是一個構建編譯器的框架系統(tǒng)，我們使用他遍歷語法分析階段生成的抽象語法樹，然后為每個節(jié)點生成相應的目標碼。當然，無法避免的是我們需要使用 LLVM 提供的函數(shù)來編寫生成目標碼的源碼，就是實現(xiàn)前面提到的虛函數(shù) codeGen()，是不是有點拗口?不過確實是這樣。我們在 gen.cpp 中編寫了不同節(jié)點的生成代碼，我們摘取一段看一下：

... 
 
Value *NMethodCall::codeGen(CodeGenContext &context) { 
    Function *function = context.module->getFunction(id.name.c_str()); 
    if (function == NULL) { 
        std::cerr << "no such function " << id.name << endl; 
    } 
    std::vector<Value *> args; 
    ExpressionList::const_iterator it; 
    for (it = arguments.begin(); it != arguments.end(); it++) { 
        args.push_back((**it).codeGen(context)); 
    } 
    CallInst *call = CallInst::Create(function, makeArrayRef(args), "", context.currentBlock()); 
    std::cout << "Creating method call: " << id.name << endl; 
    return call; 
} 
 
...

看起來有點復雜，簡單來說就是通過 LLVM 提供的接口來生成目標碼，需要了解更多的話可以去 LLVM 的官網(wǎng)學習一下。

至此，我們所有的工作基本都做完了。簡單回顧一下：我們先通過 Flex 生成詞法分析器源碼文件 lexical.cpp，然后通過 Bison 生成語法分析器源碼文件 syntactic.cpp 和頭文件 syntactic.hpp，我們自己編寫了抽象語法樹節(jié)點定義文件 ast.h 和目標碼生成文件 ast.cpp，還有一個 gen.h 包含一點 LLVM 環(huán)境相關的代碼，為了輸出我們程序的結果，還在 printi.cpp 里簡單的通過調用 C 語言庫函數(shù)實現(xiàn)了輸出一個整數(shù)。

對了，我們還需要一個 main 函數(shù)作為編譯器的入口函數(shù)，它在 main.cpp 里：

... 
 
int main(int argc, char **argv) { 
    yyparse(); 
    InitializeNativeTarget(); 
    InitializeNativeTargetAsmPrinter(); 
    InitializeNativeTargetAsmParser(); 
    CodeGenContext context; 
    context.generateCode(*programBlock); 
    context.runCode(); 
 
    return 0; 
}

我們可以看到其調用了 yyparse() 做語法分析，(yyparse() 內(nèi)部會先調用 yylex() 做詞法分析);然后是一系列的 LLVM 初始化代碼，context.generateCode(*programBlock) 是開始生成目標碼;最后是 context.runCode() 來運行代碼，這里使用了 LLVM 的 JIT(Just In Time) 來直接運行代碼，沒有鏈接的過程。

現(xiàn)在我們可以用這些文件生成我們的編譯器了，需要說明一下，因為詞法分析器的源碼使用了一些語法分析器頭文件中的宏，所以正確的生成順序是這樣的：

bison -d -o syntactic.cpp syntactic.y 
flex -o lexical.cpp lexical.l syntactic.hpp 
g++ -c `llvm-config --cppflags` -std=c++11 syntactic.cpp gen.cpp lexical.cpp printi.cpp main.cpp 
g++ -o xy-complier syntactic.o gen.o main.o lexical.o printi.o `llvm-config --libs` `llvm-config --ldflags` -lpthread -ldl -lz -lncurses -rdynamic

如果你下載了 GitHub 的源碼，那么直接：

cd src 
make

就可以完成以上過程了，正常會生成一個二進制文件 xy-complier，它就是我們的編譯器了。

編譯測試

我們使用之前提到實例 demo.xy 來測試，將其內(nèi)容傳給 xy-complier 的標準輸入就可以看到運行結果了：

cat demo.xy | ./xy-complier

也可以直接通過

make test

來測試，輸出如下：

... 
 
define internal i64 @mult(i64 %a1, i64 %b2) { 
entry: 
  %a = alloca i64 
  %0 = load i64, i64* %a 
  store i64 %a1, i64* %a 
  %b = alloca i64 
  %1 = load i64, i64* %b 
  store i64 %b2, i64* %b 
  %2 = load i64, i64* %b 
  %3 = load i64, i64* %a 
  %4 = mul i64 %3, %2 
  ret i64 %4 
} 
Running code: 
11 
Exiting...

可以看到最后正確輸出了期望的結果，至此我們簡單的編譯器就完成了。

責任編輯：龐桂玉來源： segmentfault

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<center id="d7e6q"></center>

<kbd id="d7e6q"><form id="d7e6q"><strong id="d7e6q"></strong></form></kbd>