求求你,別再問我Elasticsearch了!
如今,越來越多的企業(yè)在業(yè)務場景是使用 Elasticsearch(下文統(tǒng)一稱為 ES) 存儲自己的非結構化數(shù)據(jù)。
圖片來自 Pexels
例如電商業(yè)務實現(xiàn)商品站內(nèi)搜索,數(shù)據(jù)指標分析,日志分析等,ES 作為傳統(tǒng)關系型數(shù)據(jù)庫的補充,提供了關系型數(shù)據(jù)庫不具備的一些能力。
ES 最先進入大眾視野的是其能夠實現(xiàn)全文搜索的能力,也是由于基于 Lucene 的實現(xiàn),內(nèi)部有一種倒排索引的數(shù)據(jù)結構。
本文作者將介紹 ES 的分布式架構,以及 ES 的存儲索引機制,本文不會詳細介紹 ES 的 API,會從整體架構層面進行分析。
什么是倒排索引
要講明白什么是倒排索引,首先我們先梳理下什么索引,比如一本書,書的目錄頁,有章節(jié),章節(jié)名稱,我們想看哪個章節(jié),我們通過目錄頁,查到對應章節(jié)和頁碼,就能定位到具體的章節(jié)內(nèi)容。
通過目錄頁的章節(jié)名稱查到章節(jié)的頁碼,進而看到章節(jié)內(nèi)容,這個過程就是一個索引的過程,那么什么是倒排索引呢?
比如查詢《java 編程思想》這本書的文章,翻開書本可以看到目錄頁,記錄這個章節(jié)名字和章節(jié)地址頁碼。
通過查詢章節(jié)名字“繼承”可以定位到“繼承”這篇章節(jié)的具體地址,查看到文章的內(nèi)容,我們可以看到文章內(nèi)容中包含很多“對象”這個詞。
那么如果我們要在這本書中查詢所有包含有“對象”這個詞的文章,那該怎么辦呢?
按照現(xiàn)在的索引方式無疑大海撈針,假設我們有一個“對象”--→文章的映射關系,不就可以了嗎?類似這樣的反向建立映射關系的就叫倒排索引。
如圖 1 所示,將文章進行分詞后得到關鍵詞,在根據(jù)關鍵詞建立倒排索引,關鍵詞構建成一個詞典,詞典中存放著一個個詞條(關鍵詞),每個關鍵詞都有一個列表與其對應。
圖 1
這個列表就是倒排表,存放的是章節(jié)文檔編號和詞頻等信息,倒排列表中的每個元素就是一個倒排項。
最后可以看到,整個倒排索引就像一本新華字典,所有單詞的倒排列表往往順序地存儲在磁盤的某個文件里,這個文件被稱之為倒排文件。
詞典和倒排文件是 Lucene 的兩種基本數(shù)據(jù)結構,但是存儲方式不同,詞典在內(nèi)存中存儲,倒排文件在磁盤上。
本文不會去介紹分詞,tf-idf,BM25,向量空間相似度等構建倒排索引和查詢倒排索引所用到的技術,讀者只需要對倒排索引有個基本的認識即可。
ES 的集群架構
集群節(jié)點
一個 ES 集群可以有多個節(jié)點構成,一個節(jié)點就是一個 ES 服務實例,通過配置集群名稱 cluster.name 加入集群。
那么節(jié)點是如何通過配置相同的集群名稱加入集群的呢?要搞明白這個問題,我們必須先搞清楚 ES 集群中節(jié)點的角色。
ES 中節(jié)點有角色的區(qū)分的,通過配置文件 conf/elasticsearch.yml 中配置以下配置進行角色的設定。
- node.master: true/false
- node.data: true/false
集群中單個節(jié)點既可以是候選主節(jié)點也可以是數(shù)據(jù)節(jié)點,通過上面的配置可以進行兩兩組合形成四大分類:
- 僅為候選主節(jié)點
- 既是候選主節(jié)點也是數(shù)據(jù)節(jié)點
- 僅為數(shù)據(jù)節(jié)點
- 既不是候選主節(jié)點也不是數(shù)據(jù)節(jié)點
候選主節(jié)點:只有是候選主節(jié)點才可以參與選舉投票,也只有候選主節(jié)點可以被選舉為主節(jié)點。
主節(jié)點:負責索引的添加、刪除,跟蹤哪些節(jié)點是群集的一部分,對分片進行分配、收集集群中各節(jié)點的狀態(tài)等,穩(wěn)定的主節(jié)點對集群的健康是非常重要。
數(shù)據(jù)節(jié)點:負責對數(shù)據(jù)的增、刪、改、查、聚合等操作,數(shù)據(jù)的查詢和存儲都是由數(shù)據(jù)節(jié)點負責,對機器的 CPU,IO 以及內(nèi)存的要求比較高,一般選擇高配置的機器作為數(shù)據(jù)節(jié)點。
此外還有一種節(jié)點角色叫做協(xié)調(diào)節(jié)點,其本身不是通過設置來分配的,用戶的請求可以隨機發(fā)往任何一個節(jié)點,并由該節(jié)點負責分發(fā)請求、收集結果等操作,而不需要主節(jié)點轉發(fā)。
這種節(jié)點可稱之為協(xié)調(diào)節(jié)點,集群中的任何節(jié)點都可以充當協(xié)調(diào)節(jié)點的角色。每個節(jié)點之間都會保持聯(lián)系。
圖 2
發(fā)現(xiàn)機制
前文說到通過設置一個集群名稱,節(jié)點就可以加入集群,那么 ES 是如何做到這一點的呢?
這里就要講一講 ES 特殊的發(fā)現(xiàn)機制 ZenDiscovery。
ZenDiscovery 是 ES 的內(nèi)置發(fā)現(xiàn)機制,提供單播和多播兩種發(fā)現(xiàn)方式,主要職責是集群中節(jié)點的發(fā)現(xiàn)以及選舉 Master 節(jié)點。
多播也叫組播,指一個節(jié)點可以向多臺機器發(fā)送請求。生產(chǎn)環(huán)境中 ES 不建議使用這種方式,對于一個大規(guī)模的集群,組播會產(chǎn)生大量不必要的通信。
單播,當一個節(jié)點加入一個現(xiàn)有集群,或者組建一個新的集群時,請求發(fā)送到一臺機器。
當一個節(jié)點聯(lián)系到單播列表中的成員時,它就會得到整個集群所有節(jié)點的狀態(tài),然后它會聯(lián)系 Master 節(jié)點,并加入集群。
只有在同一臺機器上運行的節(jié)點才會自動組成集群。ES 默認被配置為使用單播發(fā)現(xiàn),單播列表不需要包含集群中的所有節(jié)點,它只是需要足夠的節(jié)點,當一個新節(jié)點聯(lián)系上其中一個并且通信就可以了。
如果你使用 Master 候選節(jié)點作為單播列表,你只要列出三個就可以了。
這個配置在 elasticsearch.yml 文件中:
- discovery.zen.ping.unicast.hosts: ["host1", "host2:port"]
集群信息收集階段采用了 Gossip 協(xié)議,上面配置的就相當于一個 seed nodes,Gossip 協(xié)議這里就不多做贅述了。
ES 官方建議 unicast.hosts 配置為所有的候選主節(jié)點,ZenDiscovery 會每隔 ping_interval(配置項)ping 一次。
每次超時時間是 discovery.zen.ping_timeout(配置項),3 次(ping_retries 配置項)ping 失敗則認為節(jié)點宕機,宕機的情況下會觸發(fā) failover,會進行分片重分配、復制等操作。
如果宕機的節(jié)點不是 Master,則 Master 會更新集群的元信息,Master 節(jié)點將最新的集群元信息發(fā)布出去,給其他節(jié)點。
其他節(jié)點回復 Ack,Master 節(jié)點收到 discovery.zen.minimum_master_nodes 的值 -1 個候選主節(jié)點的回復,則發(fā)送 Apply 消息給其他節(jié)點,集群狀態(tài)更新完畢。
如果宕機的節(jié)點是 Master,則其他的候選主節(jié)點開始 Master 節(jié)點的選舉流程。
①選主
Master 的選主過程中要確保只有一個 master,ES 通過一個參數(shù) quorum 的代表多數(shù)派閾值,保證選舉出的 master 被至少 quorum 個的候選主節(jié)點認可,以此來保證只有一個 master。
選主的發(fā)起由候選主節(jié)點發(fā)起,當前候選主節(jié)點發(fā)現(xiàn)自己不是 master 節(jié)點,并且通過 ping 其他節(jié)點發(fā)現(xiàn)無法聯(lián)系到主節(jié)點。
并且包括自己在內(nèi)已經(jīng)有超過 minimum_master_nodes 個節(jié)點無法聯(lián)系到主節(jié)點,那么這個時候則發(fā)起選主。
選主流程圖如下:
圖 3
選主的時候按照集群節(jié)點的參數(shù)
排序后第一個節(jié)點即為 Master 節(jié)點。當一個候選主節(jié)點發(fā)起一次選舉時,它會按照上述排序策略選出一個它認為的 Master。
②腦裂
提到分布式系統(tǒng)選主,不可避免的會提到腦裂這樣一個現(xiàn)象,什么是腦裂呢?如果集群中選舉出多個 Master 節(jié)點,使得數(shù)據(jù)更新時出現(xiàn)不一致,這種現(xiàn)象稱之為腦裂。
簡而言之集群中不同的節(jié)點對于 Master 的選擇出現(xiàn)了分歧,出現(xiàn)了多個 Master 競爭。
一般而言腦裂問題可能有以下幾個原因造成:
- 網(wǎng)絡問題:集群間的網(wǎng)絡延遲導致一些節(jié)點訪問不到 Master,認為 Master 掛掉了,而 master 其實并沒有宕機,而選舉出了新的 Master,并對 Master 上的分片和副本標紅,分配新的主分片。
- 節(jié)點負載:主節(jié)點的角色既為 Master 又為 Data,訪問量較大時可能會導致 ES 停止響應(假死狀態(tài))造成大面積延遲,此時其他節(jié)點得不到主節(jié)點的響應認為主節(jié)點掛掉了,會重新選取主節(jié)點。
- 內(nèi)存回收:主節(jié)點的角色既為 Master 又為 Data,當 Data 節(jié)點上的 ES 進程占用的內(nèi)存較大,引發(fā) JVM 的大規(guī)模內(nèi)存回收,造成 ES 進程失去響應。
如何避免腦裂:我們可以基于上述原因,做出優(yōu)化措施:
- 適當調(diào)大響應超時時間,減少誤判。通過參數(shù) discovery.zen.ping_timeout 設置節(jié)點 ping 超時時間,默認為 3s,可以適當調(diào)大。
- 選舉觸發(fā),我們需要在候選節(jié)點的配置文件中設置參數(shù) discovery.zen.munimum_master_nodes 的值。
這個參數(shù)表示在選舉主節(jié)點時需要參與選舉的候選主節(jié)點的節(jié)點數(shù),默認值是 1,官方建議取值(master_eligibel_nodes/2)+1,其中 master_eligibel_nodes 為候選主節(jié)點的個數(shù)。
這樣做既能防止腦裂現(xiàn)象的發(fā)生,也能最大限度地提升集群的高可用性,因為只要不少于 discovery.zen.munimum_master_nodes 個候選節(jié)點存活,選舉工作就能正常進行。
當小于這個值的時候,無法觸發(fā)選舉行為,集群無法使用,不會造成分片混亂的情況。
- 角色分離,即是上面我們提到的候選主節(jié)點和數(shù)據(jù)節(jié)點進行角色分離,這樣可以減輕主節(jié)點的負擔,防止主節(jié)點的假死狀態(tài)發(fā)生,減少對主節(jié)點宕機的誤判。
索引如何寫入的
寫索引原理
①分片
ES 支持 PB 級全文搜索,通常我們數(shù)據(jù)量很大的時候,查詢性能都會越來越慢,我們能想到的一個方式的將數(shù)據(jù)分散到不同的地方存儲。
ES 也是如此,ES 通過水平拆分的方式將一個索引上的數(shù)據(jù)拆分出來分配到不同的數(shù)據(jù)塊上,拆分出來的數(shù)據(jù)庫塊稱之為一個分片 Shard,很像 MySQL 的分庫分表。
不同的主分片分布在不同的節(jié)點上,那么在多分片的索引中數(shù)據(jù)應該被寫入哪里?
肯定不能隨機寫,否則查詢的時候就無法快速檢索到對應的數(shù)據(jù)了,這需要有一個路由策略來確定具體寫入哪一個分片中,怎么路由我們下文會介紹。
在創(chuàng)建索引的時候需要指定分片的數(shù)量,并且分片的數(shù)量一旦確定就不能修改。
②副本
副本就是對分片的復制,每個主分片都有一個或多個副本分片,當主分片異常時,副本可以提供數(shù)據(jù)的查詢等操作。
主分片和對應的副本分片是不會在同一個節(jié)點上的,避免數(shù)據(jù)的丟失,當一個節(jié)點宕機的時候,還可以通過副本查詢到數(shù)據(jù),副本分片數(shù)的最大值是 N-1(其中 N 為節(jié)點數(shù))。
對 doc 的新建、索引和刪除請求都是寫操作,這些寫操作是必須在主分片上完成,然后才能被復制到對應的副本上。
ES 為了提高寫入的能力這個過程是并發(fā)寫的,同時為了解決并發(fā)寫的過程中數(shù)據(jù)沖突的問題,ES 通過樂觀鎖的方式控制,每個文檔都有一個 _version 號,當文檔被修改時版本號遞增。
一旦所有的副本分片都報告寫成功才會向協(xié)調(diào)節(jié)點報告成功,協(xié)調(diào)節(jié)點向客戶端報告成功。
圖 4
③Elasticsearch 的寫索引流程
上面提到了寫索引是只能寫在主分片上,然后同步到副本分片,那么如圖 4 所示,這里有四個主分片分別是 S0、S1、S2、S3,一條數(shù)據(jù)是根據(jù)什么策略寫到指定的分片上呢?
這條索引數(shù)據(jù)為什么被寫到 S0 上而不寫到 S1 或 S2 上?這個過程是根據(jù)下面這個公式?jīng)Q定的:
- shard = hash(routing) % number_of_primary_shards
以上公式的值是在 0 到 number_of_primary_shards-1 之間的余數(shù),也就是數(shù)據(jù)檔所在分片的位置。
routing 通過 Hash 函數(shù)生成一個數(shù)字,然后這個數(shù)字再除以 number_of_primary_shards(主分片的數(shù)量)后得到余數(shù)。
routing 是一個可變值,默認是文檔的 _id ,也可以設置成一個自定義的值。
在一個寫請求被發(fā)送到某個節(jié)點后,該節(jié)點按照前文所述,會充當協(xié)調(diào)節(jié)點,會根據(jù)路由公式計算出寫哪個分片,當前節(jié)點有所有其他節(jié)點的分片信息,如果發(fā)現(xiàn)對應的分片是在其他節(jié)點上,再將請求轉發(fā)到該分片的主分片節(jié)點上。
在 ES 集群中每個節(jié)點都通過上面的公式知道數(shù)據(jù)的在集群中的存放位置,所以每個節(jié)點都有接收讀寫請求的能力。
那么為什么在創(chuàng)建索引的時候就確定好主分片的數(shù)量,并且不可修改?因為如果數(shù)量變化了,那么所有之前路由計算的值都會無效,數(shù)據(jù)也就再也找不到了。
圖 5
如上圖 5 所示,當前一個數(shù)據(jù)通過路由計算公式得到的值是 shard=hash(routing)%4=0。
則具體流程如下:
- 數(shù)據(jù)寫請求發(fā)送到 node1 節(jié)點,通過路由計算得到值為 1,那么對應的數(shù)據(jù)會應該在主分片 S1 上。
- node1 節(jié)點將請求轉發(fā)到 S1 主分片所在的節(jié)點 node2,node2 接受請求并寫入到磁盤。
- 并發(fā)將數(shù)據(jù)復制到三個副本分片 R1 上,其中通過樂觀并發(fā)控制數(shù)據(jù)的沖突。一旦所有的副本分片都報告成功,則節(jié)點 node2 將向 node1 節(jié)點報告成功,然后 node1 節(jié)點向客戶端報告成功。
這種模式下,只要有副本在,寫入延時最小也是兩次單分片的寫入耗時總和,效率會較低。
但是這樣的好處也很明顯,避免寫入后單個機器硬件故障導致數(shù)據(jù)丟失,在數(shù)據(jù)完整性和性能方面,一般都是優(yōu)先選擇數(shù)據(jù),除非一些允許丟數(shù)據(jù)的特殊場景。
在 ES 里為了減少磁盤 IO 保證讀寫性能,一般是每隔一段時間(比如 30 分鐘)才會把數(shù)據(jù)寫入磁盤持久化。
對于寫入內(nèi)存,但還未 flush 到磁盤的數(shù)據(jù),如果發(fā)生機器宕機或者掉電,那么內(nèi)存中的數(shù)據(jù)也會丟失,這時候如何保證?
對于這種問題,ES 借鑒數(shù)據(jù)庫中的處理方式,增加 CommitLog 模塊,在 ES 中叫 transLog,在下面的 ES 存儲原理中會介紹。
存儲原理
上面介紹了在 ES 內(nèi)部的寫索引處理流程,數(shù)據(jù)在寫入到分片和副本上后,目前數(shù)據(jù)在內(nèi)存中,要確保數(shù)據(jù)在斷電后不丟失,還需要持久化到磁盤上。
我們知道 ES 是基于 Lucene 實現(xiàn)的,內(nèi)部是通過 Lucene 完成的索引的創(chuàng)建寫入和搜索查詢。
Lucene 工作原理如下圖所示,當新添加一片文檔時,Lucene 進行分詞等預處理,然后將文檔索引寫入內(nèi)存中,并將本次操作寫入事務日志(transLog)。
transLog 類似于 MySQL 的 binlog,用于宕機后內(nèi)存數(shù)據(jù)的恢復,保存未持久化數(shù)據(jù)的操作日志。
默認情況下,Lucene 每隔 1s(refresh_interval 配置項)將內(nèi)存中的數(shù)據(jù)刷新到文件系統(tǒng)緩存中,稱為一個 segment(段)。
一旦刷入文件系統(tǒng)緩存,segment 才可以被用于檢索,在這之前是無法被檢索的。
因此 refresh_interval 決定了 ES 數(shù)據(jù)的實時性,因此說 ES 是一個準實時的系統(tǒng)。
segment 在磁盤中是不可修改的,因此避免了磁盤的隨機寫,所有的隨機寫都在內(nèi)存中進行。
隨著時間的推移,segment 越來越多,默認情況下,Lucene 每隔 30min 或 segment 空間大于 512M,將緩存中的 segment 持久化落盤,稱為一個 commit point,此時刪掉對應的 transLog。
當我們在進行寫操作的測試的時候,可以通過手動刷新來保障數(shù)據(jù)能夠被及時檢索到,但是不要在生產(chǎn)環(huán)境下每次索引一個文檔都去手動刷新,刷新操作會有一定的性能開銷。一般業(yè)務場景中并不都需要每秒刷新。
可以通過在 Settings 中調(diào)大 refresh_interval = "30s" 的值,來降低每個索引的刷新頻率,設值時需要注意后面帶上時間單位,否則默認是毫秒。
當 refresh_interval=-1 時表示關閉索引的自動刷新。
圖 6
索引文件分段存儲并且不可修改,那么新增、更新和刪除如何處理呢?
- 新增,新增很好處理,由于數(shù)據(jù)是新的,所以只需要對當前文檔新增一個段就可以了。
- 刪除,由于不可修改,所以對于刪除操作,不會把文檔從舊的段中移除而是通過新增一個 .del 文件,文件中會列出這些被刪除文檔的段信息,這個被標記刪除的文檔仍然可以被查詢匹配到, 但它會在最終結果被返回前從結果集中移除。
- 更新,不能修改舊的段來進行文檔的更新,其實更新相當于是刪除和新增這兩個動作組成。會將舊的文檔在 .del 文件中標記刪除,然后文檔的新版本中被索引到一個新的段??赡軆蓚€版本的文檔都會被一個查詢匹配到,但被刪除的那個舊版本文檔在結果集返回前就會被移除。
segment 被設定為不可修改具有一定的優(yōu)勢也有一定的缺點。
優(yōu)點:
- 不需要鎖。如果你從來不更新索引,你就不需要擔心多進程同時修改數(shù)據(jù)的問題。
- 一旦索引被讀入內(nèi)核的文件系統(tǒng)緩存,便會留在哪里,由于其不變性。只要文件系統(tǒng)緩存中還有足夠的空間,那么大部分讀請求會直接請求內(nèi)存,而不會命中磁盤。這提供了很大的性能提升.
- 其它緩存(像 Filter 緩存),在索引的生命周期內(nèi)始終有效。它們不需要在每次數(shù)據(jù)改變時被重建,因為數(shù)據(jù)不會變化。
- 寫入單個大的倒排索引允許數(shù)據(jù)被壓縮,減少磁盤 I/O 和需要被緩存到內(nèi)存的索引的使用量。
缺點:
- 當對舊數(shù)據(jù)進行刪除時,舊數(shù)據(jù)不會馬上被刪除,而是在 .del 文件中被標記為刪除。而舊數(shù)據(jù)只能等到段更新時才能被移除,這樣會造成大量的空間浪費。
- 若有一條數(shù)據(jù)頻繁的更新,每次更新都是新增新的,標記舊的,則會有大量的空間浪費。
- 每次新增數(shù)據(jù)時都需要新增一個段來存儲數(shù)據(jù)。當段的數(shù)量太多時,對服務器的資源例如文件句柄的消耗會非常大。
- 在查詢的結果中包含所有的結果集,需要排除被標記刪除的舊數(shù)據(jù),這增加了查詢的負擔。
①段合并
由于每當刷新一次就會新建一個 segment(段),這樣會導致短時間內(nèi)的段數(shù)量暴增,而 segment 數(shù)目太多會帶來較大的麻煩。
大量的 segment 會影響數(shù)據(jù)的讀性能。每一個 segment 都會消耗文件句柄、內(nèi)存和 CPU 運行周期。
更重要的是,每個搜索請求都必須輪流檢查每個 segment 然后合并查詢結果,所以 segment 越多,搜索也就越慢。
因此 Lucene 會按照一定的策略將 segment 合并,合并的時候會將那些舊的已刪除文檔從文件系統(tǒng)中清除。被刪除的文檔不會被拷貝到新的大 segment 中。
合并的過程中不會中斷索引和搜索,倒排索引的數(shù)據(jù)結構使得文件的合并是比較容易的。
段合并在進行索引和搜索時會自動進行,合并進程選擇一小部分大小相似的段,并且在后臺將它們合并到更大的段中,這些段既可以是未提交的也可以是已提交的。
合并結束后老的段會被刪除,新的段被刷新到磁盤,同時寫入一個包含新段且排除舊的和較小的段的新提交點,新的段被打開,可以用來搜索。
段合并的計算量龐大,而且還要吃掉大量磁盤 I/O,并且段合并會拖累寫入速率,如果任其發(fā)展會影響搜索性能。
ES 在默認情況下會對合并流程進行資源限制,所以搜索性能可以得到保證。
圖 7
寫在最后
本文對 ES 的架構原理和索引存儲和寫機制進行介紹,ES 的整體架構體系相對比較巧妙,我們在進行系統(tǒng)設計的時候可以借鑒其設計思路,本文只介紹 ES 整體架構部分。
作者:官網(wǎng)商城開發(fā)團隊
編輯:陶家龍
出處:轉載自公眾號vivo互聯(lián)網(wǎng)技術(ID:vivoVMIC)