自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<u id="nuurd"><th id="nuurd"></th></u>

<sub id="nuurd"></sub>

<blockquote id="nuurd"></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

Elasticsearch用得好，下班下得早！

作者：李猛（ynuosoft） 2020-05-12 08:16:43

開發(fā) 架構開發(fā)工具

入行 Elastic-Stack 技術棧很久了，為了免于知識匱乏眼光局限，有必要到外面的世界看看，豐富自己的世界觀。

入行 Elastic-Stack 技術棧很久了，為了免于知識匱乏眼光局限，有必要到外面的世界看看，豐富自己的世界觀。

圖片來自 Pexels

本篇內(nèi)容從 Elastic 的競爭產(chǎn)品角度分析探討：

哪些應用場景下使用 Elasticsearch 最佳?
哪些應用場景下不使用 Elasticsearch 最好?

Elasticsearch 當前熱度排名很高

本文僅代表個人的觀點，不代表社區(qū)技術陣營觀點，無意口水之爭，限于本人的經(jīng)驗知識有限，可能與讀者觀點認知不一致。

競爭產(chǎn)品

Elasticseach 從做搜索引擎開始，到現(xiàn)在主攻大數(shù)據(jù)分析領域，逐步進化成了一個全能型的數(shù)據(jù)產(chǎn)品。

在 Elasticsearch 諸多優(yōu)秀的功能中，與很多數(shù)據(jù)產(chǎn)品有越來越多的交叉競爭，有的功能很有特色，有的功能只是附帶，了解這些產(chǎn)品特點有助于更好的應用于業(yè)務需求。

Elasticsearch 競爭圖譜示意圖

Lucene

Lucene 是一個搜索的核心庫，Elastic 也是在 Lucene 基礎之上構建，它們之間的競爭關系是由 Lucene 本身決定的。

在互聯(lián)網(wǎng) 2.0 時代，考驗各互聯(lián)網(wǎng)公司最簡單的技術要求，就是看他們的搜索做的怎么樣，那時大家的做法幾乎一樣，都基于 Lucene 核心庫構建一套搜索引擎，剩下的就看各公司的開發(fā)者們的水平。

筆者有幸在 2012 年之前，基于 Lucene 做過垂直行業(yè)的搜索引擎，遇到很多問題有必要說一下：

項目基于 Lucene 包裝，業(yè)務代碼與核心庫一起構建發(fā)布，代碼耦合度很高，每次有數(shù)據(jù)字段變更，都需要重新編譯打包發(fā)布，這個過程非常的繁瑣，且相當危險。
程序重新發(fā)布，需要關閉原有的程序，涉及到進程切換問題。
索引數(shù)據(jù)定期全量重新生成，也涉及到新舊索引切換，索引實時刷新等問題，都需要設計一套復雜的程序機制保障
每個獨立業(yè)務線需求，都需要單獨構建一個 Lucene 索引進程，業(yè)務線多了之后，管理是個麻煩的事情
當單個 Lucene 索引數(shù)據(jù)超過單實例限制之后，需要做分布式，這個原有 Lucene 是沒有辦法的，所以常規(guī)的做法也是按照某特定分類，拆分成多個索引進程，客戶端查詢時帶上特定分類，后端根據(jù)特定分類路由到具體的索引。
Lucene 庫本身的掌控難度，對于功力尚淺的開發(fā)工程師，需要考慮的因素實在太多了，稍微不慎，就會出現(xiàn)很大的程序問題。

Lucene 內(nèi)部索引構建與查詢過程

Elasticsearch 與 Lucene 核心庫競爭的優(yōu)勢在于：

完美封裝了 Lucene 核心庫，設計了友好的 Restful-API，開發(fā)者無需過多關注底層機制，直接開箱即用。
分片與副本機制，直接解決了集群下性能與高可用問題。

Elastic 近年的快速發(fā)展，市面上已經(jīng)很少發(fā)現(xiàn)基于 Lucene 構建搜索引擎的項目，幾乎清一色選擇 Elasticsearch 作為基礎數(shù)據(jù)庫服務。

由于其開源特性，廣大云廠商也在此基礎上定制開發(fā)，與自己的云平臺深度集成，但也沒有獨自發(fā)展一個分支。本次的競爭中，Elasticsearch 完勝。

Solr

Solr 是第一個基于 Lucene 核心庫功能完備的搜索引擎產(chǎn)品，誕生遠早于 Elasticsearch。

早期在全文搜索領域，Solr 有非常大的優(yōu)勢，幾乎完全壓倒 Elastic，在近幾年大數(shù)據(jù)發(fā)展時代，Elastic 由于其分布式特性，滿足了很多大數(shù)據(jù)的處理需求。

特別是后面 ELK 這個概念的流行，幾乎完全忘記了 Solr 的存在，雖然也推出了 Solr-Coud 分布式產(chǎn)品，但已經(jīng)基本無優(yōu)勢。

接觸過幾個數(shù)據(jù)類公司，全文搜索都基于 Solr 構建，且是單節(jié)點模式，偶然出現(xiàn)一些問題，找咨詢顧問排查問題，人員難找，后面都遷移到 Elasticsearch 之上。

現(xiàn)在市面上幾乎大大小小公司都在使用 Elasticsearch，除了老舊系統(tǒng)有的基于 Solr 的，新系統(tǒng)項目應該全部是 Elasticsearch。

個人認為有以下幾個原因：

ES 比 Solr 更加友好簡潔，門檻更低。
ES 比 Solr 產(chǎn)品功能特點更加豐富，分片機制，數(shù)據(jù)分析能力。
ES 生態(tài)發(fā)展，Elastic-stack 整個技術棧相當全，與各種數(shù)據(jù)系統(tǒng)都很容易集成。
ES 社區(qū)發(fā)展更加活躍，Solr 幾乎沒有專門的技術分析大會。

Solr 產(chǎn)品功能模塊內(nèi)部架構圖

本次競爭中，Elasticsearch 完勝。

RDBMS

關系型數(shù)據(jù)庫與 Elasticsarch 相比主要優(yōu)點是事務隔離機制無可替代，但其局限性很明顯。

主要幾個方面如下：

關系型數(shù)據(jù)庫查詢性能，數(shù)據(jù)量超過百萬級千萬級之后下降厲害，本質(zhì)是索引的算法效率不行，B+ 樹算法不如倒排索引算法高效。
關系型數(shù)據(jù)庫索引最左原則限制，查詢條件字段不能任意組合，否則索引失效，相反 Elasticserach 可以任意組合，此場景在數(shù)據(jù)表關聯(lián)查詢時特別明顯，Elasticsearch 可以采用大寬表解決，而關系型數(shù)據(jù)庫不能。
關系型數(shù)據(jù)庫分庫分表之后多條件查詢，難于實現(xiàn)，Elasticsearch 天然分布式設計，多個索引多個分片皆可聯(lián)合查詢。
關系型數(shù)據(jù)庫聚合性能低下，數(shù)據(jù)量稍微多點，查詢列基數(shù)多一點性能下降很快，Elasticsearch 在聚合上采用的是列式存儲，效率極高。
關系型數(shù)據(jù)庫側重均衡性，Elasticsearch 側重專一查詢速度。

若數(shù)據(jù)無需嚴格事務機制隔離，個人認為都可以采用 Elasticsearch 替代。若數(shù)據(jù)既要事務隔離，也要查詢性能，可以采用 DB 與 ES 混合實現(xiàn)。

RDBMS 與 ES 各自優(yōu)勢示意圖

OpenTSDB

OpenTSDB 內(nèi)部基于 HBase 實現(xiàn)，屬于時間序列數(shù)據(jù)庫，主要針對具有時間特性和需求的數(shù)據(jù)，進行過數(shù)據(jù)結構的優(yōu)化和處理，從而適合存儲具有時間特性的數(shù)據(jù)，如監(jiān)控數(shù)據(jù)、溫度變化數(shù)據(jù)等。

小米公司開源監(jiān)控體系 open-falcon 的就是基于 OpenTSDB 實現(xiàn)。

OpenTSDB 時間序列數(shù)據(jù)庫內(nèi)部實現(xiàn)

Elastic 產(chǎn)品本身無意時間序列這個領域，隨著 ELK 的流行，很多公司采用ELK來構建監(jiān)控體系，雖然在數(shù)值類型上不像時間序列數(shù)據(jù)庫做過特別處理，但由于其便利的使用，以及生態(tài)技術棧的優(yōu)勢，我們也接受了這樣的事實。

Elasticsearch 構建時間序列很簡單，性能也相當不錯：

索引創(chuàng)建規(guī)則，可以按年、按月、按周、按星期、按天、按小時等都創(chuàng)建索引，非常便利。
數(shù)據(jù)填充方面，定制一個時間字段做區(qū)分排序，其余的字段無需。
數(shù)據(jù)查詢方面，除了按實際序列查詢外，還可以有更多的搜索條件。
除非對于時間序列數(shù)據(jù)有非?？量痰谋O(jiān)控需求，否則選擇 Elasticsearch 會更加合適一些。

HBase

HBase 是列式數(shù)據(jù)庫的代表，其內(nèi)部有幾個致命設計大大限制了它的應用范圍：

訪問 HBase 數(shù)據(jù)只能基于 Rowkey，Rowkey 設計的好壞直接決定了HBase使用優(yōu)劣。
本身不支持二級索引，若要實現(xiàn)，則需要引入第三方。

關于其各種技術原理就不多說了，說說它的一些使用情況。

公司所屬物流速運行業(yè)，一個與車輛有關的項目，記錄所有車輛行駛軌跡，車載設備會定時上報車子的軌跡信息，后端數(shù)據(jù)存儲基于 HBase，數(shù)據(jù)量在幾十 TB 級以上。

由于業(yè)務端需要依據(jù)車輛軌跡信息計算它的公里油耗以及相關成本，所以要按查詢條件批量查詢數(shù)據(jù)，查詢條件有一些非 Rowkey 的字段，如時間范圍，車票號，城市編號等，這幾乎無法實現(xiàn)，原來暴力的做過，性能問題堪憂。

此項目的問題首先也在于 Rowkey 難設計滿足查詢條件的需求，其次是二級索引問題，查詢的條件很多。

如果用列式數(shù)據(jù)庫僅限于 Rowkey 訪問場景，其實采用 Elastic 也可以，只要設計好 _id，與 HBase 可以達到相同的效果。

如果用列式數(shù)據(jù)庫查詢還需要引入三方組件，那還不如直接在 Elasticsearch 上構建更直接。

除非對使用列式數(shù)據(jù)庫有非?？量痰囊?，否則 Elasticsearch 更具備通用性，業(yè)務需求場景適用性更多。

列式數(shù)據(jù)庫內(nèi)部數(shù)據(jù)結構示意圖

MongoDB

MongoDB 是文檔型數(shù)據(jù)庫的代表，數(shù)據(jù)模型基于 Bson，而 Elasticsearch 的文檔數(shù)據(jù)模型是 Json，Bson 本質(zhì)是 Json 的一種擴展，可以相互直接轉(zhuǎn)換，且它們的數(shù)據(jù)模式都是可以自由擴展的，基本無限制。

MongoDB 本身定位與關系型數(shù)據(jù)庫競爭，支持嚴格的事務隔離機制，在這個層面實際上與 Elasticsearch 產(chǎn)品定位不一樣，但實際工作中，幾乎沒有公司會將核心業(yè)務數(shù)據(jù)放在 MongoDB 上，關系型數(shù)據(jù)庫依然是第一選擇。

若超出這個定位，則 Elasticsearh 相比 MongoDB 有如下優(yōu)點：

文檔查詢性能，倒排索引/KDB-Tree 比 B+Tree 厲害。
數(shù)據(jù)的聚合分析能力，ES 本身提供了列式數(shù)據(jù) doc_value，比 MongoDB 的行式要快不少。
集群分片副本機制，ES 架構設計更勝一籌。
ES 特色功能比 MongoDB 提供的更多，適用的場景范圍更寬泛。
文檔數(shù)據(jù)樣例，ObjectId 由 MongoDB 內(nèi)置自動生成。

公司剛好有個項目，原來數(shù)據(jù)層基于 MongoDB 設計構建的，查詢問題不少，后面成功遷移到 Elasticsearch 平臺上，服務器數(shù)據(jù)量從 15 臺降低到 3 臺，查詢性能還大幅度提升十倍。

詳細可閱讀筆者另一篇文章《為什么要從MongoDB遷移到Elasticsearch?》拋開數(shù)據(jù)事務隔離，Elasticsearch 可以完全替代 MongoDB。

ClickHouse

ClickHouse 是一款 MPP 查詢分析型數(shù)據(jù)庫，近幾年活躍度很高，很多頭部公司都引入其中。

我們?yōu)槭裁匆肽?，原因可能跟其他頭部公司不太一樣，如下：

筆者長期從事大數(shù)據(jù)工作，經(jīng)常會碰到數(shù)據(jù)聚合的實時查詢需求，早期我們會選擇一款關系型數(shù)據(jù)庫來做做聚合查詢，如 MySQL/PostgreSQL，稍微不注意就很容易出現(xiàn)性能瓶頸。
后面引入 Elasticsearch 產(chǎn)品，其基于列式設計以及分片架構，性能各方面確實明顯優(yōu)于單節(jié)點的關系型數(shù)據(jù)庫。
Elasticsearch 局限性也很明顯，一是數(shù)據(jù)量超過千萬或者億級時，若聚合的列數(shù)太多，性能也到達瓶頸;二是不支持深度二次聚合，導致一些復雜的聚合需求，需要人工編寫代碼在外部實現(xiàn)，這又增加很多開發(fā)工作量。
后面引入了 ClickHouse，替代 Elasticserach 做深度聚合需求，性能表現(xiàn)不錯，在數(shù)據(jù)量千萬級億級表現(xiàn)很好，且資源消耗相比之前降低不少，同樣的服務器資源可以承擔更多的業(yè)務需求。

ClickHouse 與 Elasticsearch 一樣，都采用列式存儲結構，都支持副本分片。

不同的是 ClickHouse 底層有一些獨特的實現(xiàn)，如下：

MergeTree 合并樹表引擎，提供了數(shù)據(jù)分區(qū)、一級索引、二級索引。
Vector Engine 向量引擎，數(shù)據(jù)不僅僅按列存儲，同時還按向量(列的一部分)進行處理，這樣可以更加高效地使用 CPU。

ClickHouse 在大數(shù)據(jù)平臺中的位置

Druid

Durid 是一個大數(shù)據(jù) MPP 查詢型數(shù)據(jù)產(chǎn)品，核心功能 Rollup，所有的需要 Rollup 原始數(shù)據(jù)必須帶有時間序列字段。

Elasticsearch 在 6.3.X 版本之后推出了此功能，此時兩者產(chǎn)品形成競爭關系，誰高誰下，看應用場景需求。

Druid 樣本數(shù)據(jù)，必須帶有 time 時間字段。

筆者之前負責過公司所有 Elasticsearch 技術棧相關數(shù)據(jù)項目，當時也有碰到一些實時聚合查詢返回部分數(shù)據(jù)的需求。

但我們的需求不太一樣，索引數(shù)據(jù)屬于離線型更新，每天都會全部刪除并重新創(chuàng)建索引插入數(shù)據(jù)。

此時使用 Elastic 的版本是 6.8.X，僅支持離線型數(shù)據(jù) Rollup，所以此功能沒用上，Elastic 在 7.2.X 版本之后才推出實時 Rollup 功能。

Druid 更加專注，產(chǎn)品設計圍繞 Rollup 展開，Elastic 只是附帶。

Druid 支持多種外接數(shù)據(jù)，直接可以對接 Kafka 數(shù)據(jù)流，也可以直接對接平臺自身內(nèi)部數(shù)據(jù);而 Elastic 僅支持內(nèi)部索引數(shù)據(jù)，外部數(shù)據(jù)需要借助三方工具導入到索引里。

Druid 在數(shù)據(jù) Rollup 之后，會丟棄原始數(shù)據(jù);Elastic 在原有索引基礎之后，生成新的 Rollup 之后的索引數(shù)據(jù)。

Druid 與 Elastic 的技術架構非常類似，都支持節(jié)點職責分離，都支持橫向擴展。

Druid 與 Elastic 在數(shù)據(jù)模型上都支持倒排索引，基于此的搜索與過濾。

Druid 產(chǎn)品技術架構體系示意圖

關于 Rollup 這個大數(shù)據(jù)分析領域，若有大規(guī)模的 Rollup 的場景需求，個人更傾向于 Druid。

結語

總結：

Elasticsearch 產(chǎn)品功能全面，適用范圍廣，性能也不錯，綜合應用是首選。
Elasticsearch 在搜索查詢領域，幾乎完勝所有競爭產(chǎn)品，在筆者的技術?？磥恚P系型數(shù)據(jù)庫解決數(shù)據(jù)事務問題，Elasticsearch 幾乎解決一切搜索查詢問題。
Elasticsearch 在數(shù)據(jù)分析領域，產(chǎn)品能力偏弱一些，簡單通用的場景需求可以大規(guī)模使用，但在特定業(yè)務場景領域，還是要選擇更加專業(yè)的數(shù)據(jù)產(chǎn)品，如前文中提到的復雜聚合、大規(guī)模 Rollup、大規(guī)模的 Key-Value。
Elasticsearch 越來越不像一個搜索引擎，更像是一個全能型的數(shù)據(jù)產(chǎn)品，幾乎所有行業(yè)都在使用，業(yè)界非常受歡迎。
Elasticsearch 用得好，下班下得早。

注：內(nèi)容來源于筆者實際工作中運用多種技術棧實現(xiàn)場景需求，得出的一些實戰(zhàn)經(jīng)驗與總結思考，提供后來者借鑒參考。

本文圍繞 Elastic 的競爭產(chǎn)品對比僅限概要性分析，粒度較粗，深度有限，之后會有更加專業(yè)深入競爭產(chǎn)品分析文章，敬請期待。

作者：李猛(ynuosoft)

簡介：Elastic-stack 產(chǎn)品深度用戶，ES 認證工程師，2012 年接觸 Elasticsearch，對 Elastic-Stack 開發(fā)、架構、運維等方面有深入體驗，實踐過多種 Elasticsearch 項目，最暴力的大數(shù)據(jù)分析應用，最復雜的業(yè)務系統(tǒng)應用;業(yè)余為企業(yè)提供 Elastic-Stack 咨詢培訓以及調(diào)優(yōu)實施。

編輯：陶家龍

出處：轉(zhuǎn)載自微信公眾號 DBAplus 社群(ID：dbaplus)

責任編輯：武曉燕來源： DBAplus 社群

Elasticsearch 數(shù)據(jù)Lucene

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<rt id="mpllf"></rt>