淺析分布式系統(tǒng)Travis CI
Travis CI 一開始僅僅是個想法,在當時甚至還有些理想化。在這個項目啟動之前,開源社區(qū)還沒有一個可用的持續(xù)集成系統(tǒng)。
隨著作為開源協(xié)作平臺的Github越來越被人認可,Github也非常需要可以持續(xù)對貢獻代碼進行測試的服務(wù),來保證一個開源項目始終處于穩(wěn)定健康的狀態(tài)。
Travis CI開始于2011年初,而且很快得到了一些試用客戶。到了2011年夏天,我們每天進行700次構(gòu)建。所有這些構(gòu)建都是在一臺構(gòu)建服務(wù)器上進行的。Travis CI跟Github完美集成,目前Github還是Travis CI的主要平臺。
Travis CI在持續(xù)集成領(lǐng)域并沒有驚天動地的大動作,但它的確重新定義了一些原有的概念,并增加了一些新的想法。其中一個就是你可以在你的測試運行過程中,接近實時的看這個項目的構(gòu)建日志流。
最重要的一點,Travis CI允許你通過源碼里的文件(.travis.yml)來對構(gòu)建過程進行配置,而不是復(fù)雜的用戶界面。
Travis CI一開始的架構(gòu)很簡單。通過Web組件可以讓項目和它的構(gòu)建過程可見,同時,只要一個新的commit提交到了項目,Travis CI就可以接收到來自Github的消息,從而觸發(fā)構(gòu)建。
另外一個叫做hub的組件,是負責(zé)處理新的提交,將他們轉(zhuǎn)化成一次構(gòu)建,并且處理構(gòu)建任務(wù)運行和結(jié)束時產(chǎn)生的結(jié)果數(shù)據(jù)。
這兩個組件都是跟PostgreSQL數(shù)據(jù)庫打交道。
第三部分就是用來控制構(gòu)建任務(wù)本身的線程集合,它們可以用來在虛擬機實例上執(zhí)行一系列的命令。
本質(zhì)上,hub會顯得比其他部分稍微復(fù)雜一些。當hub處理構(gòu)建日志時,它需要與RabbitMQ進行消息傳遞。日志會以chunks流的形式從控制構(gòu)建任務(wù)的線程中得到。
Hub更新數(shù)據(jù)庫中的日志和構(gòu)建結(jié)果信息,并且hub推送他們到Pusher。通過Pusher,Travis CI可以在構(gòu)建開始或結(jié)束的時候更新用戶界面。
這樣的架構(gòu)一直維持到了2012年,當時我們每天進行7000個構(gòu)建任務(wù)。我們欣喜的看到Travis CI在開源社區(qū)越來越廣泛的使用,并且開始支持11種語言,包括PHP,Python,Perl,Java 和 Erlang。
隨著越來越多的使用,Travis CI越來越像是一個開源項目的必備服務(wù)了。但是不幸的是,這個系統(tǒng)從一開始構(gòu)建的時候就沒有考慮過監(jiān)控。
過去,總是來自社區(qū)的用戶通知我們系統(tǒng)沒有正常運行,構(gòu)建任務(wù)遇到異常,或是任務(wù)信息沒有被處理好。
那可真是令人尷尬。我們的第一個挑戰(zhàn)就是給系統(tǒng)增加監(jiān)控,數(shù)據(jù)指標和日志,讓Travis CI從一個業(yè)務(wù)愛好的項目轉(zhuǎn)變?yōu)橐粋€重要的商業(yè)平臺。我們準備發(fā)布Travis CI的正式生產(chǎn)版本。
被用戶告知系統(tǒng)沒有正常運行直到今天仍然是我最大的噩夢,我們不得不努力工作建設(shè)好數(shù)據(jù)監(jiān)控,以使系統(tǒng)能夠在出現(xiàn)問題的一開始就及時通知。
如果沒有任何數(shù)據(jù)記錄或者良好的日志,我們根本不可能去搞清我們這個小分布式系統(tǒng)到底發(fā)生了什么。無論是從哪個方面看,Travis CI都已經(jīng)是一個分布式系統(tǒng)了。
加入監(jiān)控指標和日志是一次循序漸進的學(xué)習(xí)過程,但是最終,它們讓我們可以了解這個系統(tǒng)正在做什么,無論是通過圖表還是日志。
這對我們而言是一個巨大的提升??梢娦詫τ谶\行一個分布式系統(tǒng)是非常重要的。
當你寫一個系統(tǒng)時,考慮好如何監(jiān)控它。
做好監(jiān)控會有助于你的系統(tǒng)更好的在生產(chǎn)環(huán)境運行,而不僅僅是通過測試。
關(guān)鍵是,更多的監(jiān)控不僅僅是讓你可以對系統(tǒng)更了解,你也會發(fā)現(xiàn)那些你以前未曾想到或見到的問題。系統(tǒng)更高的可見性帶來更多的責(zé)任感。現(xiàn)在我們需要去面對這樣的事實:我們對系統(tǒng)的錯誤有了更多的了解,所以我們必須更有效的工作來減少這些錯誤所帶來的影響。
原文鏈接: Mathias Meyer
譯文鏈接: http://blog.jobbole.com/52397/