自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="akhxv"><i id="akhxv"></i></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

基于Hadoop的數(shù)據(jù)倉庫Hive基礎(chǔ)知識

作者：小六子 2017-02-28 09:21:56

大數(shù)據(jù) 數(shù)據(jù)倉庫 Hadoop

Hive是基于Hadoop的數(shù)據(jù)倉庫工具，可對存儲在HDFS上的文件中的數(shù)據(jù)集進行數(shù)據(jù)整理、特殊查詢和分析處理，提供了類似于SQL語言的查詢語言–HiveQL，可通過HQL語句實現(xiàn)簡單的MR統(tǒng)計，Hive將HQL語句轉(zhuǎn)換成MR任務(wù)進行執(zhí)行。

Hive是基于Hadoop的數(shù)據(jù)倉庫工具，可對存儲在HDFS上的文件中的數(shù)據(jù)集進行數(shù)據(jù)整理、特殊查詢和分析處理，提供了類似于SQL語言的查詢語言–HiveQL，可通過HQL語句實現(xiàn)簡單的MR統(tǒng)計，Hive將HQL語句轉(zhuǎn)換成MR任務(wù)進行執(zhí)行。

一、概述

1-1 數(shù)據(jù)倉庫概念

數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反應(yīng)歷史變化(Time Variant)的數(shù)據(jù)集合，用于支持管理決策。

數(shù)據(jù)倉庫體系結(jié)構(gòu)通常含四個層次：數(shù)據(jù)源、數(shù)據(jù)存儲和管理、數(shù)據(jù)服務(wù)、數(shù)據(jù)應(yīng)用。

數(shù)據(jù)源：是數(shù)據(jù)倉庫的數(shù)據(jù)來源，含外部數(shù)據(jù)、現(xiàn)有業(yè)務(wù)系統(tǒng)和文檔資料等;

數(shù)據(jù)集成：完成數(shù)據(jù)的抽取、清洗、轉(zhuǎn)換和加載任務(wù)，數(shù)據(jù)源中的數(shù)據(jù)采用ETL(Extract-Transform-Load)工具以固定的周期加載到數(shù)據(jù)倉庫中。

數(shù)據(jù)存儲和管理：此層次主要涉及對數(shù)據(jù)的存儲和管理，含數(shù)據(jù)倉庫、數(shù)據(jù)集市、數(shù)據(jù)倉庫檢測、運行與維護工具和元數(shù)據(jù)管理等。

數(shù)據(jù)服務(wù)：為前端和應(yīng)用提供數(shù)據(jù)服務(wù)，可直接從數(shù)據(jù)倉庫中獲取數(shù)據(jù)供前端應(yīng)用使用，也可通過OLAP(OnLine Analytical Processing，聯(lián)機分析處理)服務(wù)器為前端應(yīng)用提供負責(zé)的數(shù)據(jù)服務(wù)。

數(shù)據(jù)應(yīng)用：此層次直接面向用戶，含數(shù)據(jù)查詢工具、自由報表工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具和各類應(yīng)用系統(tǒng)。

1-2 傳統(tǒng)數(shù)據(jù)倉庫的問題

無法滿足快速增長的海量數(shù)據(jù)存儲需求，傳統(tǒng)數(shù)據(jù)倉庫基于關(guān)系型數(shù)據(jù)庫，橫向擴展性較差，縱向擴展有限。

無法處理不同類型的數(shù)據(jù)，傳統(tǒng)數(shù)據(jù)倉庫只能存儲結(jié)構(gòu)化數(shù)據(jù)，企業(yè)業(yè)務(wù)發(fā)展，數(shù)據(jù)源的格式越來越豐富。

傳統(tǒng)數(shù)據(jù)倉庫建立在關(guān)系型數(shù)據(jù)倉庫之上，計算和處理能力不足，當數(shù)據(jù)量達到TB級后基本無法獲得好的性能。

1-3 Hive

Hive是建立在Hadoop之上的數(shù)據(jù)倉庫，由Facebook開發(fā)，在某種程度上可以看成是用戶編程接口，本身并不存儲和處理數(shù)據(jù)，依賴于HDFS存儲數(shù)據(jù)，依賴MR處理數(shù)據(jù)。有類SQL語言HiveQL，不完全支持SQL標準，如，不支持更新操作、索引和事務(wù)，其子查詢和連接操作也存在很多限制。

Hive把HQL語句轉(zhuǎn)換成MR任務(wù)后，采用批處理的方式對海量數(shù)據(jù)進行處理。數(shù)據(jù)倉庫存儲的是靜態(tài)數(shù)據(jù)，很適合采用MR進行批處理。Hive還提供了一系列對數(shù)據(jù)進行提取、轉(zhuǎn)換、加載的工具，可以存儲、查詢和分析存儲在HDFS上的數(shù)據(jù)。

1-4 Hive與Hadoop生態(tài)系統(tǒng)中其他組件的關(guān)系

Hive依賴于HDFS存儲數(shù)據(jù)，依賴MR處理數(shù)據(jù);

Pig可作為Hive的替代工具，是一種數(shù)據(jù)流語言和運行環(huán)境，適合用于在Hadoop平臺上查詢半結(jié)構(gòu)化數(shù)據(jù)集，用于與ETL過程的一部分，即將外部數(shù)據(jù)裝載到Hadoop集群中，轉(zhuǎn)換為用戶需要的數(shù)據(jù)格式;

HBase是一個面向列的、分布式可伸縮的數(shù)據(jù)庫，可提供數(shù)據(jù)的實時訪問功能，而Hive只能處理靜態(tài)數(shù)據(jù)，主要是BI報表數(shù)據(jù)，Hive的初衷是為減少復(fù)雜MR應(yīng)用程序的編寫工作，HBase則是為了實現(xiàn)對數(shù)據(jù)的實時訪問。

1-5 Hive與傳統(tǒng)數(shù)據(jù)庫的對比

1-6 Hive的部署和應(yīng)用

1-6-1 Hive在企業(yè)大數(shù)據(jù)分析平臺中的應(yīng)用

當前企業(yè)中部署的大數(shù)據(jù)分析平臺，除Hadoop的基本組件HDFS和MR外，還結(jié)合使用Hive、Pig、HBase、Mahout，從而滿足不同業(yè)務(wù)場景需求。

上圖是企業(yè)中一種常見的大數(shù)據(jù)分析平臺部署框架，在這種部署架構(gòu)中：

Hive和Pig用于報表中心，Hive用于分析報表，Pig用于報表中數(shù)據(jù)的轉(zhuǎn)換工作。

HBase用于在線業(yè)務(wù)，HDFS不支持隨機讀寫操作，而HBase正是為此開發(fā)，可較好地支持實時訪問數(shù)據(jù)。

Mahout提供一些可擴展的機器學(xué)習(xí)領(lǐng)域的經(jīng)典算法實現(xiàn)，用于創(chuàng)建商務(wù)智能(BI)應(yīng)用程序。

二、Hive系統(tǒng)架構(gòu)

下圖顯示Hive的主要組成模塊、Hive如何與Hadoop交互工作、以及從外部訪問Hive的幾種典型方式。

Hive主要由以下三個模塊組成：

用戶接口模塊，含CLI、HWI、JDBC、Thrift Server等，用來實現(xiàn)對Hive的訪問。CLI是Hive自帶的命令行界面;HWI是Hive的一個簡單網(wǎng)頁界面;JDBC、ODBC以及Thrift Server可向用戶提供進行編程的接口，其中Thrift Server是基于Thrift軟件框架開發(fā)的，提供Hive的RPC通信接口。
驅(qū)動模塊(Driver)，含編譯器、優(yōu)化器、執(zhí)行器等，負責(zé)把HiveQL語句轉(zhuǎn)換成一系列MR作業(yè)，所有命令和查詢都會進入驅(qū)動模塊，通過該模塊的解析變異，對計算過程進行優(yōu)化，然后按照指定的步驟執(zhí)行。
元數(shù)據(jù)存儲模塊(Metastore)，是一個獨立的關(guān)系型數(shù)據(jù)庫，通常與MySQL數(shù)據(jù)庫連接后創(chuàng)建的一個MySQL實例，也可以是Hive自帶的Derby數(shù)據(jù)庫實例。此模塊主要保存表模式和其他系統(tǒng)元數(shù)據(jù)，如表的名稱、表的列及其屬性、表的分區(qū)及其屬性、表的屬性、表中數(shù)據(jù)所在位置信息等。

喜歡圖形界面的用戶，可采用幾種典型的外部訪問工具：Karmasphere、Hue、Qubole等。

三、Hive工作原理

3-1 SQL語句轉(zhuǎn)換成MapReduce作業(yè)的基本原理

3-1-1 用MapReduce實現(xiàn)連接操作

假設(shè)連接(join)的兩個表分別是用戶表User(uid,name)和訂單表Order(uid,orderid)，具體的SQL命令：

SELECT name, orderid FROM User u JOIN Order o ON u.uid=o.uid;

上圖描述了連接操作轉(zhuǎn)換為MapReduce操作任務(wù)的具體執(zhí)行過程。

首先，在Map階段，

User表以uid為key，以name和表的標記位(這里User的標記位記為1)為value，進行Map操作，把表中記錄轉(zhuǎn)換生成一系列KV對的形式。比如，User表中記錄(1,Lily)轉(zhuǎn)換為鍵值對(1,<1,Lily>)，其中第一個“1”是uid的值，第二個“1”是表User的標記位，用來標示這個鍵值對來自User表;

同樣，Order表以uid為key，以orderid和表的標記位(這里表Order的標記位記為2)為值進行Map操作，把表中的記錄轉(zhuǎn)換生成一系列KV對的形式;

接著，在Shuffle階段，把User表和Order表生成的KV對按鍵值進行Hash，然后傳送給對應(yīng)的Reduce機器執(zhí)行。比如KV對(1,<1,Lily>)、(1,<2,101>)、(1,<2,102>)傳送到同一臺Reduce機器上。當Reduce機器接收到這些KV對時，還需按表的標記位對這些鍵值對進行排序，以優(yōu)化連接操作;

最后，在Reduce階段，對同一臺Reduce機器上的鍵值對，根據(jù)“值”(value)中的表標記位，對來自表User和Order的數(shù)據(jù)進行笛卡爾積連接操作，以生成最終的結(jié)果。比如鍵值對(1,<1,Lily>)與鍵值對(1,<2,101>)、(1,<2,102>)的連接結(jié)果是(Lily,101)、(Lily,102)。

3-1-2 用MR實現(xiàn)分組操作

假設(shè)分數(shù)表Score(rank, level)，具有rank(排名)和level(級別)兩個屬性，需要進行一個分組(Group By)操作，功能是把表Score的不同片段按照rank和level的組合值進行合并，并計算不同的組合值有幾條記錄。SQL語句命令如下：

SELECT rank,level,count(*) as value FROM score GROUP BY rank,level;

上圖描述分組操作轉(zhuǎn)化為MapReduce任務(wù)的具體執(zhí)行過程。

首先，在Map階段，對表Score進行Map操作，生成一系列KV對，其鍵為<rank, level>，值為“擁有該<rank, level>組合值的記錄的條數(shù)”。比如，Score表的第一片段中有兩條記錄(A,1)，所以進行Map操作后，轉(zhuǎn)化為鍵值對(<A,1>,2);

接著在Shuffle階段，對Score表生成的鍵值對，按照“鍵”的值進行Hash，然后根據(jù)Hash結(jié)果傳送給對應(yīng)的Reduce機器去執(zhí)行。比如，鍵值對(<A,1>,2)、(<A,1>,1)傳送到同一臺Reduce機器上，鍵值對(<B,2>,1)傳送另一Reduce機器上。然后，Reduce機器對接收到的這些鍵值對，按“鍵”的值進行排序;

在Reduce階段，把具有相同鍵的所有鍵值對的“值”進行累加，生成分組的最終結(jié)果。比如，在同一臺Reduce機器上的鍵值對(<A,1>,2)和(<A,1>,1)Reduce操作后的輸出結(jié)果為(A,1,3)。

3-2 Hive中SQL查詢轉(zhuǎn)換成MR作業(yè)的過程

當Hive接收到一條HQL語句后，需要與Hadoop交互工作來完成該操作。HQL首先進入驅(qū)動模塊，由驅(qū)動模塊中的編譯器解析編譯，并由優(yōu)化器對該操作進行優(yōu)化計算，然后交給執(zhí)行器去執(zhí)行。執(zhí)行器通常啟動一個或多個MR任務(wù)，有時也不啟動(如SELECT * FROM tb1，全表掃描，不存在投影和選擇操作)

上圖是Hive把HQL語句轉(zhuǎn)化成MR任務(wù)進行執(zhí)行的詳細過程。

由驅(qū)動模塊中的編譯器–Antlr語言識別工具，對用戶輸入的SQL語句進行詞法和語法解析，將HQL語句轉(zhuǎn)換成抽象語法樹(AST Tree)的形式;

遍歷抽象語法樹，轉(zhuǎn)化成QueryBlock查詢單元。因為AST結(jié)構(gòu)復(fù)雜，不方便直接翻譯成MR算法程序。其中QueryBlock是一條最基本的SQL語法組成單元，包括輸入源、計算過程、和輸入三個部分;

遍歷QueryBlock，生成OperatorTree(操作樹)，OperatorTree由很多邏輯操作符組成，如TableScanOperator、SelectOperator、FilterOperator、JoinOperator、GroupByOperator和ReduceSinkOperator等。這些邏輯操作符可在Map、Reduce階段完成某一特定操作;

Hive驅(qū)動模塊中的邏輯優(yōu)化器對OperatorTree進行優(yōu)化，變換OperatorTree的形式，合并多余的操作符，減少MR任務(wù)數(shù)、以及Shuffle階段的數(shù)據(jù)量;

遍歷優(yōu)化后的OperatorTree，根據(jù)OperatorTree中的邏輯操作符生成需要執(zhí)行的MR任務(wù);

啟動Hive驅(qū)動模塊中的物理優(yōu)化器，對生成的MR任務(wù)進行優(yōu)化，生成最終的MR任務(wù)執(zhí)行計劃;

最后，有Hive驅(qū)動模塊中的執(zhí)行器，對最終的MR任務(wù)執(zhí)行輸出。

Hive驅(qū)動模塊中的執(zhí)行器執(zhí)行最終的MR任務(wù)時，Hive本身不會生成MR算法程序。它通過一個表示“Job執(zhí)行計劃”的XML文件，來驅(qū)動內(nèi)置的、原生的Mapper和Reducer模塊。Hive通過和JobTracker通信來初始化MR任務(wù)，而不需直接部署在JobTracker所在管理節(jié)點上執(zhí)行。通常在大型集群中，會有專門的網(wǎng)關(guān)機來部署Hive工具，這些網(wǎng)關(guān)機的作用主要是遠程操作和管理節(jié)點上的JobTracker通信來執(zhí)行任務(wù)。Hive要處理的數(shù)據(jù)文件常存儲在HDFS上，HDFS由名稱節(jié)點(NameNode)來管理。

JobTracker/TaskTracker
NameNode/DataNode

四、Hive HA基本原理

在實際應(yīng)用中，Hive也暴露出不穩(wěn)定的問題，在極少數(shù)情況下，會出現(xiàn)端口不響應(yīng)或進程丟失問題。Hive HA(High Availablity)可以解決這類問題。

在Hive HA中，在Hadoop集群上構(gòu)建的數(shù)據(jù)倉庫是由多個Hive實例進行管理的，這些Hive實例被納入到一個資源池中，由HAProxy提供統(tǒng)一的對外接口?？蛻舳说牟樵冋埱?，首先訪問HAProxy，由HAProxy對訪問請求進行轉(zhuǎn)發(fā)。HAProxy收到請求后，會輪詢資源池中可用的Hive實例，執(zhí)行邏輯可用性測試。

如果某個Hive實例邏輯可用，就會把客戶端的訪問請求轉(zhuǎn)發(fā)到Hive實例上;

如果某個實例不可用，就把它放入黑名單，并繼續(xù)從資源池中取出下一個Hive實例進行邏輯可用性測試。

對于黑名單中的Hive，Hive HA會每隔一段時間進行統(tǒng)一處理，首先嘗試重啟該Hive實例，如果重啟成功，就再次把它放入資源池中。

由于HAProxy提供統(tǒng)一的對外訪問接口，因此，對于程序開發(fā)人員來說，可把它看成一臺超強“Hive”。

五、Impala

5-1 Impala簡介

Impala由Cloudera公司開發(fā)，提供SQL語義，可查詢存儲在Hadoop和HBase上的PB級海量數(shù)據(jù)。Hive也提供SQL語義，但底層執(zhí)行任務(wù)仍借助于MR，實時性不好，查詢延遲較高。

Impala作為新一代開源大數(shù)據(jù)分析引擎，最初參照Dremel(由Google開發(fā)的交互式數(shù)據(jù)分析系統(tǒng))，支持實時計算，提供與Hive類似的功能，在性能上高出Hive3~30倍。Impala可能會超過Hive的使用率能成為Hadoop上最流行的實時計算平臺。Impala采用與商用并行關(guān)系數(shù)據(jù)庫類似的分布式查詢引擎，可直接從HDFS、HBase中用SQL語句查詢數(shù)據(jù)，不需把SQL語句轉(zhuǎn)換成MR任務(wù)，降低延遲，可很好地滿足實時查詢需求。

Impala不能替換Hive，可提供一個統(tǒng)一的平臺用于實時查詢。Impala的運行依賴于Hive的元數(shù)據(jù)(Metastore)。Impala和Hive采用相同的SQL語法、ODBC驅(qū)動程序和用戶接口，可統(tǒng)一部署Hive和Impala等分析工具，同時支持批處理和實時查詢。

5-2 Impala系統(tǒng)架構(gòu)

上圖是Impala系統(tǒng)結(jié)構(gòu)圖，虛線模塊數(shù)據(jù)Impala組件。Impala和Hive、HDFS、HBase統(tǒng)一部署在Hadoop平臺上。Impala由Impalad、State Store和CLI三部分組成。

Implalad：是Impala的一個進程，負責(zé)協(xié)調(diào)客戶端提供的查詢執(zhí)行，給其他Impalad分配任務(wù)，以及收集其他Impalad的執(zhí)行結(jié)果進行匯總。Impalad也會執(zhí)行其他Impalad給其分配的任務(wù)，主要是對本地HDFS和HBase里的部分數(shù)據(jù)進行操作。Impalad進程主要含Query Planner、Query Coordinator和Query Exec Engine三個模塊，與HDFS的數(shù)據(jù)節(jié)點(HDFS DataNode)運行在同一節(jié)點上，且完全分布運行在MPP(大規(guī)模并行處理系統(tǒng))架構(gòu)上。

State Store：收集分布在集群上各個Impalad進程的資源信息，用于查詢的調(diào)度，它會創(chuàng)建一個statestored進程，來跟蹤集群中的Impalad的健康狀態(tài)及位置信息。statestored進程通過創(chuàng)建多個線程來處理Impalad的注冊訂閱以及與多個Impalad保持心跳連接，此外，各Impalad都會緩存一份State Store中的信息。當State Store離線后，Impalad一旦發(fā)現(xiàn)State Store處于離線狀態(tài)時，就會進入恢復(fù)模式，并進行返回注冊。當State Store重新加入集群后，自動恢復(fù)正常，更新緩存數(shù)據(jù)。

CLI：CLI給用戶提供了執(zhí)行查詢的命令行工具。Impala還提供了Hue、JDBC及ODBC使用接口。

5-3 Impala查詢執(zhí)行過程

注冊和訂閱。當用戶提交查詢前，Impala先創(chuàng)建一個Impalad進程來負責(zé)協(xié)調(diào)客戶端提交的查詢，該進程會向State Store提交注冊訂閱信息，State Store會創(chuàng)建一個statestored進程，statestored進程通過創(chuàng)建多個線程來處理Impalad的注冊訂閱信息。

提交查詢。通過CLI提交一個查詢到Impalad進程，Impalad的Query Planner對SQL語句解析，生成解析樹;Planner將解析樹變成若干PlanFragment，發(fā)送到Query Coordinator。其中PlanFragment由PlanNode組成，能被分發(fā)到單獨的節(jié)點上執(zhí)行，每個PlanNode表示一個關(guān)系操作和對其執(zhí)行優(yōu)化需要的信息。

獲取元數(shù)據(jù)與數(shù)據(jù)地址。Query Coordinator從MySQL元數(shù)據(jù)庫中獲取元數(shù)據(jù)(即查詢需要用到哪些數(shù)據(jù))，從HDFS的名稱節(jié)點中獲取數(shù)據(jù)地址(即數(shù)據(jù)被保存到哪個數(shù)據(jù)節(jié)點上)，從而得到存儲這個查詢相關(guān)數(shù)據(jù)的所有數(shù)據(jù)節(jié)點。

分發(fā)查詢?nèi)蝿?wù)。Query Coordinator初始化相應(yīng)的Impalad上的任務(wù)，即把查詢?nèi)蝿?wù)分配給所有存儲這個查詢相關(guān)數(shù)據(jù)的數(shù)據(jù)節(jié)點。

匯聚結(jié)果。Query Executor通過流式交換中間輸出，并由Query Coordinator匯聚來自各個Impalad的結(jié)果。

返回結(jié)果。Query Coordinator把匯總后的結(jié)果返回給CLI客戶端。

5-4 Impala與Hive

不同點：

Hive適合長時間批處理查詢分析;而Impala適合進行交互式SQL查詢。

Hive依賴于MR計算框架，執(zhí)行計劃組合成管道型MR任務(wù)模型進行執(zhí)行;而Impala則把執(zhí)行計劃表現(xiàn)為一棵完整的執(zhí)行計劃樹，可更自然地分發(fā)執(zhí)行計劃到各個Impalad執(zhí)行查詢。

Hive在執(zhí)行過程中，若內(nèi)存放不下所有數(shù)據(jù)，則會使用外存，以保證查詢能夠順利執(zhí)行完成;而Impala在遇到內(nèi)存放不下數(shù)據(jù)時，不會利用外存，所以Impala處理查詢時會受到一定的限制。

相同點：

使用相同的存儲數(shù)據(jù)池，都支持把數(shù)據(jù)存儲在HDFS和HBase中，其中HDFS支持存儲TEXT、RCFILE、PARQUET、AVRO、ETC等格式的數(shù)據(jù)，HBase存儲表中記錄。

使用相同的元數(shù)據(jù)。

對SQL的解析處理比較類似，都是通過詞法分析生成執(zhí)行計劃。

責(zé)任編輯：武曉燕來源： 36大數(shù)據(jù)

Hadoop Hive 數(shù)據(jù)倉庫

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<thead id="aca1d"></thead>}

<sub id="aca1d"><p id="aca1d"><li id="aca1d"></li></p></sub>

<center id="aca1d"><samp id="aca1d"></samp></center>