2000 行代碼,帶你寫一個自己的 SQL 數(shù)據(jù)庫
在 C 被當做“高級語言”,雷布斯和小馬哥還在寫代碼的年代,數(shù)據(jù)庫還不是一個成熟的事物。
和很多技術從簡單到復雜的發(fā)展歷程不太一樣,數(shù)據(jù)庫首先成熟并被大規(guī)模使用的是 RDBMS(關系型數(shù)據(jù)管理系統(tǒng)),后來才逐漸興起了實現(xiàn)相對簡單,以 Redis 為代表的 KV 型的數(shù)據(jù)庫。
數(shù)據(jù)庫從后端的技術上看是一個算法、數(shù)據(jù)結構、系統(tǒng)工程、性能優(yōu)化的交匯點。
筆者一直對數(shù)據(jù)庫領域充滿了興趣,前前后后主導和參與了很多數(shù)據(jù)庫及相關系統(tǒng)的開發(fā)。這三年的主要業(yè)余時間都在研究數(shù)據(jù)庫,由于大多數(shù)數(shù)據(jù)庫項目都歷史悠久,代碼量基本都在50萬行以上,閱讀起來讓人頗感頭疼。咬牙堅持了兩年,有了一點點心得。
因此決定寫一個代碼量盡量少,但又能有現(xiàn)代數(shù)據(jù)庫的基本架構的項目,于是花了一周時間寫了“GO SQL DB”。
“Go SQL DB” 是一個研究目的的支持SQL查詢的關系型數(shù)據(jù)庫。主要目標是為了向數(shù)據(jù)庫愛好者展示一個關系型數(shù)據(jù)庫的基本原理和關鍵設計。
因此,為了便于理解,采取了很多取巧但不是很嚴謹?shù)脑O計,代碼量控制在了 2000 行左右(包含了 400 多行的單元測試代碼)。
特性列表
- 純 Golang 實現(xiàn),不依賴任何第三方包。僅在單元測試中引入了 goconvey
- 單元測試覆蓋率≈ 73.5%
存儲引擎
- 基于 B+Tree 的數(shù)據(jù)檢索結構
- 基于 4KB 分頁的磁盤持久化引擎
- 接近 POD(Plain Old Data)的序列化 & 反序列化
SQL Parser
- Tokenizer 基于 text/scanner 實現(xiàn)
- 支持簡單的 SELECT、INSERT 語法
- SELECT 支持數(shù)值類型的 WHERE
- 支持 LIMIT,但暫不支持 ORDER BY
- 如果你想要了解可以生產(chǎn)可用的 SQL Parser 是如何實現(xiàn)的,請參考我從 CrockroachDB 剝離的 SQL-2011 標準支持的 SQL Parser[1]
執(zhí)行計劃 Planner
- 基于火山模型(Volcano Model)的 Select 實現(xiàn)[2]
- 基于 HTTP 的查詢和插入接口
實現(xiàn)的局限
- 暫時沒有實現(xiàn) DDL,僅有固定的 Schemastruct Row { Id uint32 Sex byte Age uint8 Username [32]byte Email [128]byte Phone [64]byte }
- SQL 語法的有限支持,參見單測用例[3]
Tokenizer 由于是基于 Golang 語言本身的一個取巧實現(xiàn),對于一些字符串里的特殊字符支持會出現(xiàn)問題,可以通過加 “ 解決
傳送門
GitHub地址:
https://github.com/auxten/go-sqldb
[1] SQL-2011 SQL Parser:
https://github.com/auxten/postgresql-parser
[2] 基于火山模型(Volcano Model)的 Select 實現(xiàn):
https://github.com/auxten/go-sqldb/blob/main/planner/select.go
[3] 單測用例:
https://github.com/auxten/go-sqldb/blob/main/parser/parser_test.go
特別感謝
- Marshal/Unmarshal Code generation:https://github.com/andyleap/gencode/
- Document-oriented, embedded SQL database: genji:https://github.com/genjidb/genji
- CockroachDB:https://github.com/cockroachdb/cockroach
- Let’s Build a Simple Database:https://cstack.github.io/db_tutorial/
SQL數(shù)據(jù)庫的歷史
最后說一下SQL數(shù)據(jù)庫的歷史吧。
上世紀 60 年代,由于 IT 技術尚未普及,硬件能力也捉襟見肘。程序員面臨的業(yè)務邏輯還不是很復雜,但更可怕的是當時沒有 Google,更沒有 GitHub、Stack Overflow。即使是構建一個最簡單的增刪改查系統(tǒng)也需要自己手動調(diào)用操作系統(tǒng)反人類的 API,應用各種數(shù)據(jù)結構、算法去完成數(shù)據(jù)的存儲和檢索。
和很多技術從簡單到復雜的發(fā)展歷程不太一樣,數(shù)據(jù)庫首先成熟并被大規(guī)模使用的是 RDBMS(關系型數(shù)據(jù)管理系統(tǒng)),后來才逐漸興起了實現(xiàn)相對簡單,以 Redis 為代表的 KV 型的數(shù)據(jù)庫。
關系型數(shù)據(jù)庫的大規(guī)模應用和 SQL 被普遍認可成為了關系型數(shù)據(jù)庫的標準查詢語言有很大的關系:
SQL 編程語言最初是 IBM 研究人員 Raymond Boyce 和 Donald Chamberlin 在 1970 年代開發(fā) “System R” 的過程中落地的。SQL 當時被稱為 SEQUEL(這也是SQL普遍讀法的由來)后來由于注冊商標的問題,才改名為 SQL。SQL 的發(fā)明很大程度上是參考了 Edgar Frank Codd 于 1970 年發(fā)布論文《A Relational Model of Data for Large Shared Data Banks》。
1977 年,32 歲的程序員 Larry 從在 IBM 工作的好基友 Oates 那里拿到一本內(nèi)部期刊《IBM Research Journal》,從上面讀到了 System R 的一些消息。由于技術人員對技術的敏感性,他們覺得這玩意兒一定會大火,于是三個 30 多歲的程序員決定去創(chuàng)業(yè),于是自己湊錢創(chuàng)建了一個軟件開發(fā)公司。公司名也是取得相當直白:SDL(Software Development Labs,”軟件開發(fā)實驗室”)。隨著 IBM System R 的推出市場,SQL 語言迅速普及,Larry 原來只是想開發(fā)一個兼容 System R 的數(shù)據(jù)庫系統(tǒng),跟在 IBM 后面喝點湯。
但 System R 竟然把返回的 Error Codes 當成了秘密保護了起來。不讓我加入,那我就跟你打,于是 Larry 把公司名改成 “Relational Software, Inc” 準備跟 IBM 死磕。1 年后,他們開發(fā)出了數(shù)據(jù)庫產(chǎn)品的第一個版本并把它命名為 “Oracle”,更讓大家開心的是他們成功的把產(chǎn)品賣給了美國海軍和中央情報局等政府部門。于是大家買了個蛋糕給公司過了一個一周歲的生日,留下了這張照片:
1979 年,RSI 公司發(fā)布了 Oracle v2 和一個自己的 SQL 版本……
7 年之后 Oracle 上市,程序員 Larry 和 Oates 走上人生巔峰,持劍少年變惡龍……
System R 把 Error Codes 作為機密保護起來的做法像極了日后 Oracle 收購 Sun MicroSystems 獲得了 Java 的版權后把 Java 的函數(shù)接口申請專利的做法。
Oracle 上市的同年,SQL 正式被 ANSI(American National Standards Institute)定為標準,第二年 SQL 成為了 ISO 標準,編號:ISO/IEC 9075。此后分別在:1989, 1992, 1996, 1999, 2003, 2006, 2008, 2011, 2016 年不斷增補,就有了后世經(jīng)常提到的 SQL-89、SQL-92、SQL:2011 等叫法。