Go在百萬億級搜索引擎中的應(yīng)用
Poseidon 系統(tǒng)是由 360 開源的日志搜索平臺,目前已經(jīng)用到了生產(chǎn)環(huán)節(jié)中,可以在數(shù)百萬億條、數(shù)百 PB 大小的日志數(shù)據(jù)中快速分析和檢索特定字符串。因為 Golang 得天獨厚的支持并發(fā)編程,Poseidon 的核心搜索引擎、發(fā)報器、查詢代理是用 Golang 開發(fā)的,在核心引擎查詢、多天查詢、多天數(shù)據(jù)異步下載中大量使用了 goroutine+channel 。
大家上午好,我是郭軍,很高興今天在這里和大家交流。我今天演講題目,Golang 在百萬億搜索引擎中的應(yīng)用。Poseidon在希臘意思是海神,在這里是海量數(shù)據(jù)集的主宰者。
之前我的工作一直面向海量用戶,去年年中我接觸大數(shù)據(jù)以及海量數(shù)據(jù)這樣的場景,在今天的演講中,主要會涉及以下幾方面內(nèi)容:
- 設(shè)計目標(biāo)
- Go 應(yīng)用場景與遭遇的挑戰(zhàn)
- 怎樣應(yīng)對?
- 開源的改變
- 總結(jié)
設(shè)計目標(biāo)
首先說一下為什么要做這個系統(tǒng)。這是一個安全公司,APT ( 高危威脅持續(xù)性事件)。在追查APT事件的時候,我們通常會找一個樣本在某一樣時間之內(nèi)到底做了什么事情。在海量日志中找這些信息的話,運氣好不堵塞的時候,大約兩、三小時可以跑出來,如果運氣不好,跑的任務(wù)太多堵塞的話就要修復(fù),可能一天兩天才能出來數(shù)據(jù),顯然這樣的效率是不高的。
我們的設(shè)計目標(biāo),我們總的數(shù)據(jù)量保留三年的歷史數(shù)據(jù),一共有一百萬億條,大小有 100 PB。秒級交互式搜索響應(yīng),從前端發(fā)起請求到某一天數(shù)據(jù),我們會在幾秒鐘之內(nèi)給你返回。我們之前設(shè)定秒級60秒返回就可以,實際上做完之后測試的結(jié)果都在3秒到5秒之內(nèi),90%請求在10秒之內(nèi)。每天要支持兩千億數(shù)據(jù)量灌入,原始數(shù)據(jù)僅存一份,對現(xiàn)有 MR 任務(wù)無侵略。ES 原始數(shù)據(jù)不止存一份,會再存一份,我們這么大數(shù)據(jù)量來說,再存副本的話,維護成本以及代價是非常大的。ES 支持不了百萬億級數(shù)據(jù)量,現(xiàn)在業(yè)界做到一千億,我們只做到300多G。然后自定義的分詞策略,我們每一個業(yè)務(wù)的日志格式都不一樣,分詞策略需要特別靈活;然后故障轉(zhuǎn)移節(jié)點負(fù)載均衡,自動恢復(fù),支持原始日志的批量下載。
圖1是我們總體流程,這個圖比較復(fù)雜,我們之前有同事分享過這個架構(gòu)。如果今天再分享架構(gòu)可能時間會不夠,圖2是它的一個非常簡單的粗略圖。
Go 應(yīng)用場景與遭遇的挑戰(zhàn)
首先原始日志。 在轉(zhuǎn)化的時候我們把每 128 行原始日志抽取出來作為一個文檔,多個文檔聯(lián)結(jié)在一起形成一個文件。這里會有人問為什么選擇 128 行,我們每天日志量是700億,按照每一行一個文檔我們有700 億文檔。一行日志一個文檔,700 億文檔占用空間太大;700 億數(shù)據(jù)會膨脹。選擇 128 行是因為:***,700 億除 128 ,大約是 5.46 億左右,在一定范圍內(nèi)可以承受;第二,因為我們的ID都是數(shù)字形式,以發(fā)號器形式發(fā)出來的,我們壓縮數(shù)字的時候,肯定要采取各種各樣的壓縮辦法,我們在這個地方用的插分,對于128 數(shù)字的壓縮是比較好的。壓縮 128 行日志對比壓縮1行日志高很多。我們每天原始日志,我說的業(yè)務(wù)每天原始日志有 60 ,壓縮之后我們能打成 10 左右,這是每天的數(shù)據(jù)。我們在輸出的時候,這個是原始的日志,***就要到原始日志里面找,***就要構(gòu)建數(shù)據(jù)。因為我們要存入進去的時候,剛剛我說的一句話,很多人不明白,多個連接起來形成一個文件。有一個非常大的優(yōu)勢,里面的數(shù)據(jù)我放到另外一個文件里面,我一直疊加,***這個文件可以被解壓。換一種方式來說,把文件都輸出到一個文件里面,作為這一個文件,我從這個文件里面取出某一段來,我就可以解壓出來,這是一個非常大的特性。因為我需要讀一段日志,我肯定要知道這個我從哪個地方讀到哪個地方,我要知道我讀的壓縮文件,解壓出來就是128行日志。我們把整個原數(shù)據(jù)放到這里面,去建索引以及原數(shù)據(jù),大體就是這樣一個流程。首先看一下離線引擎,客戶端請求日志,包括 PC 衛(wèi)士、網(wǎng)絡(luò)以及瀏覽器等等,這塊相當(dāng)于傳統(tǒng)搜索引擎的爬蟲。下面會具體講到,離線生成 DocGz 、DocGzmeta ,然后構(gòu)建原數(shù)據(jù)。在線引擎,web 我們做簡單的頁面開發(fā),到 proxy 集群,再發(fā)到 searcher 集群,然后走到 readHDFS ,readHDFS這個服務(wù)是用 Java開發(fā),用 Java 開發(fā)有很多坑,但是又不得不用,因為java仍然是操作hadoop最合適的語言。
來說一下數(shù)據(jù)結(jié)構(gòu)。 我們用 ProtrBuffer 描述核心數(shù)據(jù)結(jié)構(gòu)。每一個 ID 下面分為兩段,那個 docID 就是我這個文檔的編號;第二是 rowIndex,每個里面都會對應(yīng)多行日志,我這里面對應(yīng) 128 行里面哪一行日志,就是這個做的定位。我們用 map 的形式描述出來,這個是由 DocID 形成的列表,每一個里面會對應(yīng)多個DocIDList。map 和 string 里面,我要先找到 map ,然后再把數(shù)據(jù)拿出來。如圖3所示。
說一下搜索引擎的核心技術(shù)。 首先倒排索引,倒排索引有一個趨勢,DocidList 非常長。我們一個分詞會先計算出來 hashid ,知道 hashid 之后要查詢的時候我們要做一個平臺,給出要查詢哪一個業(yè)務(wù),比如我要查網(wǎng)絡(luò)等等這些,我們以業(yè)務(wù)的簡寫拼接上hashid,然后要查詢的時間,查詢哪一天的數(shù)據(jù),我們引擎不是實時,因為數(shù)據(jù)量太大做不了實時,只能做到今天查昨天。然后解析 invertedindex 拿到對應(yīng)的文檔信息在里面,找到這個位置之后,把我們所有的需要的原數(shù)據(jù)抽出來,然后解壓。我們就知道某一個分詞對應(yīng)著 DocidList 是哪一個,根據(jù) DocidList 去查要查的 map 信息在哪個地方,獲取之后再拼一個路徑,把原始數(shù)據(jù)拿出來。拿出原始數(shù)據(jù)之后,一個文件里面會有 128 行日志,這 128 行日志Doc里面rowindx 找到文檔在哪一行,做過濾就可以了。用非常簡單的話來總結(jié)一下,因為 Docid 比較長,我們存一個位置,我們的 DocidList 每一個 Docid 對應(yīng)的文檔也比較多,我們讀原始文檔的時候,也會存一個位置,在計算機領(lǐng)域中,各種難以解決的問題都可以添加一個間接的中間層來解決這個問題。如圖4所示。這句話在我們系統(tǒng)中有了很好的嘗試,不僅是這一塊。
再來說一下 idgeneratror 。 按照每天業(yè)務(wù) 27700 億來算,分詞以后是 100 億,每一個分詞對應(yīng) 277 行日志,這是平均數(shù),每天 Docid 有 27700 億個。按照每個 4 字節(jié)來計算,光是 Docid 數(shù)字將近 11TB。在這里進行了處理,采用分段區(qū)間獲取降低 qps,每天的 id 重新從 0 開始分配。我們每天 Docid 倒排索引量在2.4T。每天 27700 億我們做起來也稍微有點發(fā)怵,我們想了一個辦法,我們業(yè)務(wù)名加時間作為 key,每天id 從零開始重新分配,這樣就可以保證我每天的量不至于太高,而且分出來的 Docid 不用太大,如果太大的話,可能數(shù)據(jù)就會比較膨脹。我現(xiàn)在建了索引是哪個業(yè)務(wù),什么時間段,哪一天的,我這次要請求哪一個區(qū)段,如果說我請求了 1 到 100 個這個區(qū)段,在 idgeneratro 會提前預(yù)留出 1 到 100 這個空隙。
Proxy/Searcher詳細(xì)設(shè)計。 Searcher核心引擎就是走四級索引里面做的事情,其中包括過濾和模糊查詢等等,這些不是主干業(yè)務(wù)我沒有說。從里面拿出map數(shù)據(jù),然后再取原始數(shù)據(jù),取完數(shù)據(jù)以后,我們有很多原始數(shù)據(jù)非常大,大約有幾十兆左右,如果放在處理器前端,前面會直接卡死,我們會把原始數(shù)據(jù)比較大的業(yè)務(wù),在頁面上面給大家展示,點擊查看原始數(shù)據(jù)這么一個鏈接,點了以后再過來請求一遍,這是一個非常簡單的架構(gòu)。如圖5所示。
Searcher并發(fā)模型。 因為讀 四級索引的時候,讀 Docid 的過程一模一樣,所以我在這里用讀 Docid 舉例子,比如我拿到 DocidList 的數(shù)據(jù),我會給每一個 Docid 分配一個 Goroutine ,拼接出來 doc path ,讀取原始日志,然后做過濾,***返回給前端。如圖6所示。
怎樣應(yīng)用
***個瓶頸。 我們團隊的基礎(chǔ)組件全是 c++,我們團隊核心業(yè)務(wù),以及在線引擎、核心引擎都是c++ 來做的。我們用到 gdb 進行調(diào)試,進程過多,用 c++ 組件一開始想偷懶,然后編輯進C,再放到 Go 里面去。每一個讀取 Docid 中,每一個文件都會去讀,我們的運用程序經(jīng)常就掛,當(dāng)時也沒有原因,***我們才看到執(zhí)行 CGO 的時候,我們收到一個信號,就是 signal exit,然后我們進行GDB調(diào)試,說是進程太多,因為CGO在執(zhí)行的時候會新建一個M。
解決方案:用Go重新實現(xiàn)一遍,將組件作為http服務(wù),Go Client調(diào)用,做集中式處理。
第二個瓶頸。 在系統(tǒng)中,我們大量使用 Goroutine,子寫程 panic 在主寫程不能被處理掉。
解決方案:我們在通道類型里面為struct,封裝正常數(shù)據(jù)和error,在主協(xié)程取取出數(shù)據(jù),統(tǒng)一做處理。
經(jīng)驗小結(jié)。
- 即使精通很多語言,***不要混用,要非常謹(jǐn)慎引入其他語言的解決方案。
- 不要完全相信recover,它不能恢復(fù)runtime的一些panic。
看一下我們的Proxy多天并發(fā)查詢設(shè)計。 如圖7所示。要做 多天查詢有兩種方案。***種方案把多天查詢加上,這樣使我們核心查詢引擎變得非常臃腫,我們還是那句話,加一個中間層。把多天變成單天,然后在Proxy 拿到所有的單天數(shù)據(jù),就形成了多天查詢。
我們還有另外一個項目,請求Poseidon的數(shù)據(jù),我們想到兩種解決方案,***種解決方案,你在自己第三方系統(tǒng)里面做緩存,要不我們做緩存,我們是這樣取舍。如果第三方系統(tǒng)里面做緩存,所有的查詢,緩存只能在第三方系統(tǒng)里面用。如果在我們這里緩存,他們發(fā)了請求到我們這來,其他所有第三方里面都有可能能用上。我們是這樣做的,首先請求 Searcher 拿到當(dāng)天的數(shù)據(jù),比如查一個月的數(shù)據(jù),請求 Searcher 單天的數(shù)據(jù),如果每一個Goroutine 去查一天,每一個 Goroutine 拿到 Searcher 單天數(shù)據(jù)之后,把它解出來,看一下是不是錯誤數(shù)據(jù)。如果是錯誤數(shù)據(jù)的話,直接給客戶端把這條數(shù)據(jù)返回錯誤,并不是給客戶端整個錯誤,因為只是這一天某一條數(shù)據(jù)有錯誤。而不至于我們在查詢 30 天數(shù)據(jù)的時候,里面只要某一天某一條數(shù)據(jù)有錯誤,就直接返回給用戶,我這個系統(tǒng)不可用。如果不是錯誤數(shù)據(jù),會根據(jù)請求參數(shù),請求參數(shù)有很多。除了這些之外,還有查詢的時間,根據(jù)這個來做一個Cace Key,然后打回給前端。
我們遇到一個問題,每一個用戶會把整個索引流程都跑一遍,也就是說用戶會給我們實時測試。在同一個時間之內(nèi),同一份數(shù)據(jù)在緩存時間之內(nèi)不會走完整個 readhdfs 流程。build index 程序化,我們會有監(jiān)控,如果程序化我們會知道,程序掛了會報警感知,但是數(shù)據(jù)錯誤卻是未知,我們現(xiàn)在還沒有做到這種監(jiān)控。但是這個數(shù)據(jù)錯誤是未知的,我們修復(fù)索引就會花費大量時間,去重新寫日志,跑 Docid,還要解決漏洞。
我們的解決方案,***個減少緩存時間,在可容忍錯誤數(shù)據(jù)時間之內(nèi),用戶查詢能及時發(fā)現(xiàn)問題,恢復(fù)一天兩天數(shù)據(jù)還可以,不至于緩存 30 天或者一、兩個月,到***錯誤數(shù)據(jù)會越來越多。第二個解決方案,參考 NSQ,利用 for+select 的不確定性來分餾,隨機流量到 chanel 和 hdfs 做熱測試。缺點,就是開發(fā)成本相對***種方案來說有點高。這塊要注意,開發(fā)成本并不是非常高,因為 select 而只能從 chanel 拿數(shù)據(jù)。
第二個經(jīng)驗小結(jié)。 不要選擇非常高大上的一些技術(shù),或者說一些我們所說的黑科技,簡單、有效、夠用能解決問題完全可以。利用 Goroutine 設(shè)計并發(fā)程序很方便,但是并發(fā)運行模型一定要 hold 住。我們之前Gopher 群里面發(fā)過一個博客,里面發(fā)了很多動態(tài)圖,一些 Go 的 Goroutine 和 channel 如何并發(fā),動態(tài)圖畫的非常炫。我們在寫自己業(yè)務(wù)的時候,我們看了 Goroutine 以及 Goroutine 和 channel 怎么聯(lián)動,我們自己有概念。我要表達觀點的時候,我一時也找不到非常恰當(dāng)?shù)拿~來描述,我不知道這個名詞之前有沒有,或者有沒有其他的意義。
Proxy多天異步下載。 如圖8所示。前端發(fā)起請求,要選擇下載多少天,下載多少數(shù)據(jù),服務(wù)端接受到請求之后,馬上給客戶端返回,我已經(jīng)收到了,把這個消息寫到channel。剛開始我們已經(jīng)說過在readHDFS是是用JAVA寫的,Goroutine太多,底層掛掉。兩個Searcher到HDFS的時候,一個分詞對應(yīng)上百個Docid,可能對應(yīng)著上百個文件,因為每一個Docid不一定在一個文件里面。在Searcher里面的時候,看起來進來一個請求,實際上往后會越來越大,到***可能就是指數(shù)級的增長,像我們滾雪球一樣。
首先JAVA做了簡單的連接池,然后有熔斷機制,如果超出一定的連接數(shù),直接返回error。像我們很早之前的時候,保險絲,家里面的電率大的時候,保險絲是用鉛絲做的,鉛絲會熔化掉。
再說一下GC的變化。 首先我說一下GC在我們整個系統(tǒng)中,從來都不是瓶頸。在這里說的幾點,是我們升級之后簡單做的測試,在這里和大家交流一下。如果有其他做測試比我們更細(xì)的同學(xué),可以交流一下。
Go 1.7。 我們之前用的 1.5,升級到 1.7 之后,我們的 GC 下降到了三分之一。
nginx 代理問題,之前我做分享的時候,有同學(xué)問我在 Go 前端要不要加nginx代理。我之前做的系統(tǒng)面向海量用戶,我們只把 GoServer 打包成二進制的可執(zhí)行包,請求打到 lvs 的80 端口然后再轉(zhuǎn)發(fā)到 GoServer 8080,非常簡單。在這個項目我們用了 nginx,我們有用它的理由。
訪問控制和負(fù)載均衡。 負(fù)載均衡我們可以用 LVS 做,我們這個項目的場景,使用的人非常少。***我們是一個內(nèi)部項目,權(quán)限問題,我們所在前端端口只能讓開放的一些機器來訪問,除了我們自己的前端器會訪問以外,其實還有其他的一些團隊,會過來直接寫腳本請求我們的數(shù)據(jù)。我們nginx里面直接用了這兩個,這樣我不需要在Go里面做,前面就可以直接用nginx做了簡單的負(fù)載均衡。要不要nginx,完全取決于自己業(yè)務(wù)的場景。因為在這個場景中,加了nginx也只是給運維稍微增加了負(fù)擔(dān),但是ip限制和負(fù)載均衡不需要重新開發(fā)了,之前沒有用因為它沒有在里面起到任何作用,而且之前是對外的服務(wù),不需要有任何的限制,任何人都可以過來請求。
開源的改變
我們考慮開源。 在去年11月份的時候,我們開源了系統(tǒng),系統(tǒng)有66%代碼是用Golang寫的。我們有兩個問題需要解決,***個問題第三方依賴的問題,我們開源主體方案沒有用到我們自己的內(nèi)部依賴包,這些第三方的組件,我們應(yīng)該如何維護它,我當(dāng)時和很多人交流過,這種方式也比較多,但是他們各有各的優(yōu)點和缺點,幾乎沒有一個非常***的方案,能解決到依賴?yán)锩嬖偬滓蕾嚕约岸鄬右蕾囮P(guān)系,至少我沒有找到,既然沒有的話,就選擇***眾化,最簡單的方案,用這個方式來解決。
在我們整個服務(wù)里面,我們自己開發(fā)了幾個服務(wù),一共有五個。我們當(dāng)時考慮過,如果讓用戶部署五個服務(wù),即使我們寫好了腳本,部署起來在每個用戶端操作系統(tǒng)不同,CPU位數(shù)不同等等,都會出各種各樣的問題。排查起問題來,不知道排查哪一個服務(wù),對于我們這些開發(fā)者來說,我們排查問題的時候,也會根據(jù)日志一個服務(wù)一個服務(wù)去找。我們考慮到,我們把所有的服務(wù)打成一個ALL in One一個包。在實際交流試用中,我們了解到有很多人沒有選擇All in One而選擇這五個服務(wù)獨立部署。
我們開源有五個月,有很多人想讓我們把模糊查詢以及過濾開源出來。模糊查詢我們做的非常簡單,我們用了一個數(shù)據(jù)庫,有并發(fā)能力。我們先把我們需要模糊查詢的分詞給分出來,放到數(shù)據(jù)庫里面,在數(shù)據(jù)庫里面我就可以操作,我們平常用到的模糊查詢關(guān)鍵詞,也就是幾十億左右,幾十億的量做一個操作,那簡直太簡單了,查到之后就知道關(guān)鍵詞,拿到關(guān)鍵詞之后,接下來的方案就是一個用多個關(guān)鍵詞查詢多天的場景,用多個關(guān)鍵詞和單個關(guān)鍵詞是一樣的。多個關(guān)鍵詞去查詢和用多天查詢是一樣的,每個關(guān)鍵詞分一個Goroutine去查詢,就可以解決問題了。
總結(jié)回顧
首先Go的開發(fā)體驗比較好,性能比較高,服務(wù)很穩(wěn)定,我們除了線上有一次事故之后,好像就再也沒有過。我們線上是用自己寫的做監(jiān)控,如果它掛掉就會自動拉起來,當(dāng)然這是一種比較low的方式,因為它可能沒有掛,但是它的確死掉了??梢詽M足大部分的需求場景,GO語言程序開發(fā)需要在代碼可讀性和性能之間做平衡取舍,應(yīng)用程序并發(fā)模型需要在控制之內(nèi)。我們有很多人在群里面問連接池以及對象池,連接池我們不說,因為很多客戶端都會實現(xiàn)連接池這個功能,我們考慮對象池。對象池優(yōu)點的確很大,因為它可以復(fù)用對象減輕壓力,這是最核心的功能。復(fù)用對象解決了gc壓力,但還有一個代碼可讀性的問題,引進對象池,對象池和業(yè)務(wù)沒有關(guān)系,你要看對象池怎么做,代碼可讀性會非常差。還要說的是,對象池這種解決方案,在Go1.2的時候,用起來很爽,但是目前為止1.4到1.7的時候,對象池這種方案已經(jīng)遠(yuǎn)遠(yuǎn)用不到了,因為gc已經(jīng)不是那么明顯。除非在非常極端的情況下,我們可能會用到這種非常極端的方式解決問題,但是我想大部分的公司都不太會遇到這種問題。我們知道Go在開發(fā)安卓,我們現(xiàn)在用的最多就是它和c++以及c的配合然后在用CGO引入到GO,謹(jǐn)慎與其他語言合用,即使對語言都非常熟,你也并不知道他們兩個結(jié)合起來說不定引發(fā)一個問題,可能是你永遠(yuǎn)解決不了的問題。要合理引進第三方解決方案,在運維成本和系統(tǒng)維護成本要做平衡。