億流量大考:日增上億數(shù)據(jù),把MySQL直接搞宕機了
一、背景引入
首先簡單介紹一下項目背景,公司對合作商家提供一個付費級產(chǎn)品,這個商業(yè)產(chǎn)品背后涉及到數(shù)百人的研發(fā)團隊協(xié)作開發(fā),包括各種業(yè)務(wù)系統(tǒng)來提供很多強大的業(yè)務(wù)功能,同時在整個平臺中包含了一個至關(guān)重要的核心數(shù)據(jù)產(chǎn)品,這個數(shù)據(jù)產(chǎn)品的定位是全方位支持用戶的業(yè)務(wù)經(jīng)營和快速決策。
這篇文章就聊聊這個數(shù)據(jù)產(chǎn)品背后對應(yīng)的一套大型商家數(shù)據(jù)平臺,看看這個平臺在分布式、高并發(fā)、高可用、高性能、海量數(shù)據(jù)等技術(shù)挑戰(zhàn)下的架構(gòu)演進歷程。
因為整套系統(tǒng)規(guī)模過于龐大,涉及研發(fā)人員很多,持續(xù)時間很長,文章難以表述出其中各種詳細(xì)的技術(shù)細(xì)節(jié)以及方案,因此本文主要從整體架構(gòu)演進的角度來闡述。
至于選擇這個商家數(shù)據(jù)平臺項目來聊架構(gòu)演進過程,是因為這個平臺基本跟業(yè)務(wù)耦合度較低,不像我們負(fù)責(zé)過的C端類的電商平臺以及其他業(yè)務(wù)類平臺有那么重的業(yè)務(wù)在里面,文章可以專注闡述技術(shù)架構(gòu)的演進,不需要牽扯太多的業(yè)務(wù)細(xì)節(jié)。
此外,這個平臺項目在筆者帶的團隊負(fù)責(zé)過的眾多項目中,相對算比較簡單的,但是前后又涉及到各種架構(gòu)的演進過程,因此很適合通過文字的形式來展現(xiàn)出來。
二、商家數(shù)據(jù)平臺的業(yè)務(wù)流程
下面幾點,是這個數(shù)據(jù)產(chǎn)品最核心的業(yè)務(wù)流程:
- 每天從用戶使用的大量業(yè)務(wù)系統(tǒng)中實時的采集過來各種業(yè)務(wù)數(shù)據(jù)
- 接著存儲在自己的數(shù)據(jù)中心里
- 然后實時的運算大量的幾百行~上千行的SQL來生成各種數(shù)據(jù)報表
- 最后就可以提供這些數(shù)據(jù)報表給用戶來分析。
基本上用戶在業(yè)務(wù)系統(tǒng)使用過程中,只要數(shù)據(jù)一有變動,立馬就反饋到各種數(shù)據(jù)報表中,用戶立馬就可以看到數(shù)據(jù)報表中的各種變化,進而快速的指導(dǎo)自己的決策和管理。
整個過程,大家看看下面的圖就明白了。
三、從0到1的過程中上線的最low版本
看著上面那張圖好像非常的簡單,是不是?
看整個過程,似乎數(shù)據(jù)平臺只要想個辦法把業(yè)務(wù)系統(tǒng)的數(shù)據(jù)采集過來,接著放在MySQL的各種表里,直接咔嚓一下運行100多個幾百行的大SQL,然后SQL運行結(jié)果再寫到另外一些MySQL的表里作為報表數(shù)據(jù),接著用戶直接點擊報表頁面查詢MySQL里的報表數(shù)據(jù),就可以了!
其實任何一個系統(tǒng)從0到1的過程,都是比較low的,剛開始為了快速開發(fā)出來這個數(shù)據(jù)平臺,還真的就是用了這種架構(gòu)來開發(fā),大家看下面的圖。
其實在剛開始業(yè)務(wù)量很小,請求量很小,數(shù)據(jù)量很小的時候,上面那種架構(gòu)也沒啥問題,還挺簡單的。
我們直接基于自己研發(fā)的數(shù)據(jù)庫binlog采集中間件(這個是另外一套復(fù)雜系統(tǒng)了,不在本文討論的范圍里,以后有機會可以聊聊),感知各個業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫中的數(shù)據(jù)變更,毫秒級同步到數(shù)據(jù)平臺自己的MySQL庫里;
接著數(shù)據(jù)平臺里做一些定時調(diào)度任務(wù),每隔幾秒鐘就運行上百個復(fù)雜大SQL,計算各種報表的數(shù)據(jù)并將結(jié)果存儲到MySQL庫中;
最后用戶只要對報表刷新一下,立馬就可以從MySQL庫里查到最新的報表數(shù)據(jù)。
基本上在無任何技術(shù)挑戰(zhàn)的前提下,這套簡易架構(gòu)運行的會很順暢,效果很好。然而,事情往往不是我們想的那么簡單的,因為大家都知道國內(nèi)那些互聯(lián)網(wǎng)巨頭公司最大的優(yōu)勢和資源之一,就是有豐富以及海量的C端用戶以及B端的合作商家。
對C端用戶,任何一個互聯(lián)網(wǎng)巨頭推出一個新的C端產(chǎn)品,很可能迅速就是上億用戶量;
對B端商家,任何一個互聯(lián)網(wǎng)巨頭如果打B端市場,憑借巨大的影響力以及合作資源,很可能迅速就可以聚攏數(shù)十萬,乃至上百萬的付費B端用戶。
因此,很不幸,接下來的一兩年內(nèi),這套系統(tǒng)將要面臨業(yè)務(wù)的高速增長帶來的巨大技術(shù)挑戰(zhàn)和壓力。
四、海量數(shù)據(jù)存儲和計算的技術(shù)挑戰(zhàn)
其實跟很多大型系統(tǒng)遇到的第一個技術(shù)挑戰(zhàn)一樣,這套系統(tǒng)遇到的第一個大問題,就是海量數(shù)據(jù)的存儲。
你一個系統(tǒng)剛開始上線也許就幾十個商家用,接著隨著你們產(chǎn)品的銷售持續(xù)大力推廣,可能幾個月內(nèi)就會聚攏起來十萬級別的用戶。
這些用戶每天都會大量的使用你提供的產(chǎn)品,進而每天都會產(chǎn)生大量的數(shù)據(jù),大家可以想象一下,在數(shù)十萬規(guī)模的商家用戶使用場景下,每天你新增的數(shù)據(jù)量大概會是幾千萬條數(shù)據(jù),記住,這可是每天新增的數(shù)據(jù)!這將會給上面你看到的那個很low的架構(gòu)帶來巨大的壓力。
如果你在負(fù)責(zé)上面那套系統(tǒng),結(jié)果慢慢的發(fā)現(xiàn),每天都要涌入MySQL幾千萬條數(shù)據(jù),這種現(xiàn)象是令人感到崩潰的,因為你的MySQL中的單表數(shù)據(jù)量會迅速膨脹,很快就會達到單表幾億條數(shù)據(jù),甚至是數(shù)十億條數(shù)據(jù),然后你對那些怪獸一樣的大表運行幾百行乃至上千行的SQL?其中包含了N層嵌套查詢以及N個各種多表連接?
我跟你打賭,如果你愿意試一下,你會發(fā)現(xiàn)你的數(shù)據(jù)平臺系統(tǒng)直接卡死,因為一個大SQL可能都要幾個小時才能跑完。然后MySQL的cpu負(fù)載壓力直接100%,弄不好就把MySQL數(shù)據(jù)庫服務(wù)器給搞宕機了。
所以這就是第一個技術(shù)挑戰(zhàn),數(shù)據(jù)量越來越大,SQL跑的越來越慢,MySQL服務(wù)器壓力越來越大。
我們當(dāng)時而言,已經(jīng)看到了業(yè)務(wù)的快速增長,因此絕對要先業(yè)務(wù)一步來重構(gòu)系統(tǒng)架構(gòu),不能讓上述情況發(fā)生,第一次架構(gòu)重構(gòu),勢在必行!
五、離線計算與實時計算的拆分
其實在幾年前我們做這個項目的時候,大數(shù)據(jù)技術(shù)已經(jīng)在國內(nèi)開始運用得不錯了,而且尤其在一些大型互聯(lián)網(wǎng)公司內(nèi),我們基本上都運用大數(shù)據(jù)技術(shù)支撐過很多生產(chǎn)環(huán)境的項目了,在大數(shù)據(jù)這塊技術(shù)的經(jīng)驗積累,也是足夠的。
針對這個數(shù)據(jù)產(chǎn)品的需求,我們完全可以做到,將昨天以及昨天以前的數(shù)據(jù)都放在大數(shù)據(jù)存儲中,進行離線存儲和離線計算,然后只有今天的數(shù)據(jù)是實時的采集的。
因此在這種技術(shù)挑戰(zhàn)下,第一次架構(gòu)重構(gòu)的核心要義,就是將離線計算與實時計算進行拆分。
大家看上面那張圖,新的架構(gòu)之下,分為了離線與實時兩條計算鏈路。
一條是離線計算鏈路:每天凌晨,我們將業(yè)務(wù)系統(tǒng)MySQL庫中的昨天以前的數(shù)據(jù),作為離線數(shù)據(jù)導(dǎo)入Hadoop HDFS中進行離線存儲,然后凌晨就基于Hive / Spark對離線存儲中的數(shù)據(jù)進行離線計算。
在離線計算鏈路全面采用大數(shù)據(jù)相關(guān)技術(shù)來支撐過后,完美解決了海量數(shù)據(jù)的存儲,哪怕你一天進來上億條數(shù)據(jù)都沒事,分布式存儲可以隨時擴容,同時基于分布式計算技術(shù)天然適合海量數(shù)據(jù)的離線計算。
即使是每天凌晨耗費幾個小時將昨天以前的數(shù)據(jù)完成計算,這個也沒事,因為凌晨一般是沒人看這個數(shù)據(jù)的,所以主要在人家早上8點上班以前,完成數(shù)據(jù)計算就可以了。
另外一條是實時計算鏈路:每天零點過后,當(dāng)天最新的數(shù)據(jù)變更,全部還是走之前的老路子,秒級同步業(yè)務(wù)庫的數(shù)據(jù)到數(shù)據(jù)平臺存儲中,接著就是數(shù)據(jù)平臺系統(tǒng)定時運行大量的SQL進行計算。同時在每天零點的時候,還會從數(shù)據(jù)平臺的存儲中清理掉昨天的數(shù)據(jù),僅僅保留當(dāng)天一天的數(shù)據(jù)而已。
實時計算鏈路最大的改變,就是僅僅在數(shù)據(jù)平臺的本地存儲中保留當(dāng)天一天的數(shù)據(jù)而已,這樣就大幅度降低了要放在MySQL中的數(shù)據(jù)量了。
舉個例子:比如一天就幾千萬條數(shù)據(jù)放在MySQL里,那么單表數(shù)據(jù)量被維持在了千萬的級別上,此時如果對SQL對應(yīng)索引以及優(yōu)化到極致之后,勉強還是可以在幾十秒內(nèi)完成所有報表的計算。
六、持續(xù)增長的數(shù)據(jù)量和計算壓力
但是如果僅僅只是做到上面的架構(gòu),還是只能暫時性的緩解系統(tǒng)架構(gòu)的壓力,因為業(yè)務(wù)還在加速狂飆,繼續(xù)增長。
你老是期望單日的數(shù)據(jù)量在千萬級別,怎么可能?業(yè)務(wù)是不會給你這個機會的。很快就可以預(yù)見到單日數(shù)據(jù)量將會達到幾億,甚至十億的級別。
如果一旦單日數(shù)據(jù)量達到了數(shù)十億的級別,單表數(shù)據(jù)量上億,你再怎么優(yōu)化SQL性能,有無法保證100多個幾百行的復(fù)雜SQL可以快速的運行完畢了。
到時候又會回到最初的問題,SQL計算過慢會導(dǎo)致數(shù)據(jù)平臺核心系統(tǒng)卡死,甚至給MySQL服務(wù)器過大壓力,CPU 100%負(fù)載后宕機。
而且此外還有另外一個問題,那就是單個MySQL數(shù)據(jù)庫服務(wù)器的存儲容量是有限的,如果一旦單日數(shù)據(jù)量達到甚至超過了單臺MySQL數(shù)據(jù)庫服務(wù)器的存儲極限,那么此時也會導(dǎo)致單臺MySQL數(shù)據(jù)庫無法容納所有的數(shù)據(jù)了,這也是一個很大的問題!
第二次架構(gòu)重構(gòu),勢在必行!
七、大數(shù)據(jù)領(lǐng)域的實時計算技術(shù)的缺陷
在幾年前做這個項目的背景下,當(dāng)時可供選擇的大數(shù)據(jù)領(lǐng)域的實時計算技術(shù),主要還是Storm,算是比較成熟的一個技術(shù),另外就是Spark生態(tài)里的Spark Streaming。當(dāng)時可沒有什么現(xiàn)在較火的Flink、Druid等技術(shù)。
在仔細(xì)調(diào)研了一番過后發(fā)現(xiàn),根本沒有任何一個大數(shù)據(jù)領(lǐng)域的實時計算技術(shù)可以支撐這個需求。
因為Storm是不支持SQL的,而且即使勉強你讓他支持了,他的SQL支持也會很弱,完全不可能運行幾百行甚至上千行的復(fù)雜SQL在這種流式計算引擎上的執(zhí)行。
Spark Streaming也是同理,當(dāng)時功能還是比較弱小的,雖然可以支持簡單SQL的執(zhí)行,但是完全無法支持這種復(fù)雜SQL的精準(zhǔn)運算。
因此很不幸的是,在當(dāng)時的技術(shù)背景下,遇到的這個實時數(shù)據(jù)運算的痛點,沒有任何開源的技術(shù)是可以解決的。必須得自己根據(jù)業(yè)務(wù)的具體場景,從0開始定制開發(fā)自己的一套數(shù)據(jù)平臺系統(tǒng)架構(gòu)。
八、分庫分表解決數(shù)據(jù)擴容問題
首先我們要先解決第一個痛點,就是一旦單臺數(shù)據(jù)庫服務(wù)器無法存儲下當(dāng)日的數(shù)據(jù),該怎么辦?
第一個首選的方案當(dāng)然就是分庫分表了。我們需要將一個庫拆分為多庫,不用的庫放在不同的數(shù)據(jù)庫服務(wù)器上,同時每個庫里放多張表。
采用這套分庫分表架構(gòu)之后,可以做到每個數(shù)據(jù)庫服務(wù)器放一部分的數(shù)據(jù),而且隨著數(shù)據(jù)量日益增長,可以不斷地增加更多的數(shù)據(jù)庫服務(wù)器來容納更多的數(shù)據(jù),做到按需擴容。
同時,每個庫里單表分為多表,這樣可以保證單表數(shù)據(jù)量不會太大,控制單表的數(shù)據(jù)量在幾百萬的量級,基本上性能優(yōu)化到極致的SQL語句跑起來效率還是不錯的,秒級出結(jié)果是可以做到的。
同樣,給大家來一張圖,大家直觀的感受一下:
九、讀寫分離降低數(shù)據(jù)庫服務(wù)器的負(fù)載
此時分庫分表之后,又面臨著另外一個問題,就是現(xiàn)在如果對每個數(shù)據(jù)庫服務(wù)器又是寫入又是讀取的話,會導(dǎo)致數(shù)據(jù)庫服務(wù)器的CPU負(fù)載和IO負(fù)載非常的高!
為什么這么說呢?因為在此時寫數(shù)據(jù)庫的每秒并發(fā)已經(jīng)達到幾千了,同時還頻繁的運行那種超大SQL來查詢數(shù)據(jù),數(shù)據(jù)庫服務(wù)器的CPU運算會極其的繁忙。
因此我們將MySQL做了讀寫分離的部署,每個主數(shù)據(jù)庫服務(wù)器都掛了多個從數(shù)據(jù)庫服務(wù)器,寫只能寫入主庫,查可以從從庫來查。
大家一起來看看下面這張圖:
十、自研的滑動窗口動態(tài)計算引擎
但是光是做到這一點還是不夠的,因為其實在生產(chǎn)環(huán)境發(fā)現(xiàn),哪怕單表數(shù)據(jù)量限制在了幾百萬的級別,你運行幾百個幾百行復(fù)雜SQL,也要幾十秒甚至幾分鐘的時間,這個時效性對付費級的產(chǎn)品已經(jīng)有點無法接受,產(chǎn)品提出的極致性能要求是,秒級!
因此對上述系統(tǒng)架構(gòu),我們再次做了架構(gòu)的優(yōu)化,在數(shù)據(jù)平臺中嵌入了自己純自研的滑動窗口計算引擎,核心思想如下:
- 在數(shù)據(jù)庫binlog采集中間件采集的過程中,要將數(shù)據(jù)的變更切割為一個一個的滑動時間窗口,每個滑動時間窗口為幾秒鐘,對每個窗口內(nèi)的數(shù)據(jù)打上那個窗口的標(biāo)簽
- 同時需要維護一份滑動時間窗口的索引數(shù)據(jù),包括每個分片的數(shù)據(jù)在哪個窗口里,每個窗口的數(shù)據(jù)的一些具體的索引信息和狀態(tài)
- 接著數(shù)據(jù)平臺中的核心計算引擎,不再是每隔幾十秒就運行大量SQL對當(dāng)天所有的數(shù)據(jù)全部計算一遍了,而是對一個接一個的滑動時間窗口,根據(jù)窗口標(biāo)簽提取出那個窗口內(nèi)的數(shù)據(jù)進行計算,計算的僅僅是最近一個滑動時間窗口內(nèi)的數(shù)據(jù)
- 接著對這個滑動時間窗口內(nèi)的數(shù)據(jù),可能最多就千條左右吧,運行所有的復(fù)雜SQL計算出這個滑動時間窗口內(nèi)的報表數(shù)據(jù),然后將這個窗口數(shù)據(jù)計算出的結(jié)果,與之前計算出來的其他窗口內(nèi)的計算結(jié)果進行合并,最后放入MySQL中的報表內(nèi)
- 此外,這里需要考慮到一系列的生產(chǎn)級機制,包括滑動時間窗口如果計算失敗怎么辦?如果一個滑動時間窗口計算過慢怎么辦?滑動窗口計算過程中系統(tǒng)宕機了如何在重啟之后自動恢復(fù)計算?等等
通過這套滑動窗口的計算引擎,我們直接將系統(tǒng)計算性能提升了幾十倍,基本上每個滑動窗口的數(shù)據(jù)只要幾秒鐘就可以完成全部報表的計算,相當(dāng)于一下子把最終呈現(xiàn)給用戶的實時數(shù)據(jù)的時效性提升到了幾秒鐘,而不是幾十秒。
同樣,大家看看下面的圖。
十一、離線計算鏈路的性能優(yōu)化
實時計算鏈路的性能問題通過自研滑動窗口計算引擎來解決了,但是離線計算鏈路此時又出現(xiàn)了性能問題。。。
因為每天凌晨從業(yè)務(wù)庫中離線導(dǎo)入的是歷史全量數(shù)據(jù),接著需要在凌晨針對百億量級的全量數(shù)據(jù),運行很多復(fù)雜的上千行復(fù)雜SQL來進行運算,當(dāng)數(shù)據(jù)量達到百億之后,這個過程耗時很長,有時候要從凌晨一直計算到上午。
關(guān)鍵問題就在于,離線計算鏈路,每天都是導(dǎo)入全量數(shù)據(jù)來進行計算,這就很坑了。
之所以這么做,是因為從業(yè)務(wù)庫同步數(shù)據(jù)時,每天都涉及到數(shù)據(jù)的更新操作,而hadoop里的數(shù)據(jù)是沒法跟業(yè)務(wù)庫那樣來進行更新的,因此最開始都是每天導(dǎo)入全量歷史數(shù)據(jù),作為一個最新快照來進行全量計算。
在這里,我們對離線計算鏈路進行了優(yōu)化,主要就是全量計算轉(zhuǎn)增量計算:每天數(shù)據(jù)在導(dǎo)入hadoop之后,都會針對數(shù)據(jù)的業(yè)務(wù)時間戳來分析和提取出來每天變更過的增量數(shù)據(jù),將這些增量數(shù)據(jù)放入獨立的增量數(shù)據(jù)表中。
同時需要根據(jù)具體的業(yè)務(wù)需求,自動分析數(shù)據(jù)計算的基礎(chǔ)血緣關(guān)系,有可能增量數(shù)據(jù)需要與部分全量數(shù)據(jù)混合才能完成計算,此時可能會提取部分全量歷史數(shù)據(jù),合并完成計算。計算完成之后,將計算結(jié)果與歷史計算結(jié)果進行合并。
在完成這個全量計算轉(zhuǎn)增量計算的過程之后,離線計算鏈路在凌晨基本上百億級別的數(shù)據(jù)量,只要對昨天的增量數(shù)據(jù)花費一兩個小時完成計算之后,就可以完成離線計算的全部任務(wù),性能相較于全量計算提升至少十倍以上。
十二、階段性總結(jié)
到此為止,就是這套系統(tǒng)在最初一段時間做出來的一套架構(gòu),不算太復(fù)雜,還有很多缺陷,不完美,但是在當(dāng)時的業(yè)務(wù)背景下效果相當(dāng)?shù)牟诲e。
在這套架構(gòu)對應(yīng)的早期業(yè)務(wù)背景下,每天新增數(shù)據(jù)大概是億級左右,但是分庫分表之后,單表數(shù)據(jù)量在百萬級別,單臺數(shù)據(jù)庫服務(wù)器的高峰期寫入壓力在2000/s,查詢壓力在100/s,數(shù)據(jù)庫集群承載的總高峰寫入壓力在1萬/s,查詢壓力在500/s,有需要還可以隨時擴容更多的數(shù)據(jù)庫服務(wù)器,承載更多的數(shù)據(jù)量,更高的寫入并發(fā)與查詢并發(fā)。
而且,因為做了讀寫分離,因此每個數(shù)據(jù)庫服務(wù)器的CPU負(fù)載和IO負(fù)載都不會在高峰期打滿,避免數(shù)據(jù)庫服務(wù)器的負(fù)載過高。
而基于滑動時間窗口的自研計算引擎,可以保證當(dāng)天更新的實時數(shù)據(jù)主要幾秒鐘就可以完成一個微批次的計算,反饋到用戶看到的數(shù)據(jù)報表中。
同時這套引擎自行管理著計算的狀態(tài)與日志,如果出現(xiàn)某個窗口的計算失敗、系統(tǒng)宕機、計算超時,等各種異常的情況,這個套引擎可以自動重試與恢復(fù)。
此外,昨天以前的海量數(shù)據(jù)都是走Hadoop與Spark生態(tài)的離線存儲與計算。經(jīng)過性能優(yōu)化之后,每天凌晨花費一兩個小時,算好昨天以前所有的數(shù)據(jù)即可。
最后實時與離線的計算結(jié)果在同一個MySQL數(shù)據(jù)庫中融合,此時用戶如果對業(yè)務(wù)系統(tǒng)做出操作,實時數(shù)據(jù)報表在幾秒后就會刷新,如果要看昨天以前的數(shù)據(jù)可以隨時選擇時間范圍查看即可,暫時性是滿足了業(yè)務(wù)的需求。
早期的幾個月里,日增上億數(shù)據(jù),離線與實時兩條鏈路中的整體數(shù)據(jù)量級達到了百億級別,無論是存儲擴容,還是高效計算,這套架構(gòu)基本是撐住了。
十三、下一階段的展望
這個大型系統(tǒng)架構(gòu)演進實踐是一個系列的文章,將會包含很多篇文章,因為一個大型的系統(tǒng)架構(gòu)演進的過程,會持續(xù)很長時間,做出很多次的架構(gòu)升級與重構(gòu),不斷的解決日益增長的技術(shù)挑戰(zhàn),最終完美的抗住海量數(shù)據(jù)、高并發(fā)、高性能、高可用等場景。