自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="zue6d"><rt id="zue6d"></rt></sub>

<sub id="zue6d"><p id="zue6d"></p></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

大數(shù)據(jù)干貨：Hadoop 面試中 7 個必問問題及答案

作者：大數(shù)據(jù)三十四號 2019-10-30 15:08:09

大數(shù)據(jù) Hadoop

Hadoop是一個開源軟件框架，用于存儲大量數(shù)據(jù)，并發(fā)處理/查詢在具有多個商用硬件(即低成本硬件)節(jié)點的集群上的那些數(shù)據(jù)。

1.什么是Hadoop?

Hadoop是一個開源軟件框架，用于存儲大量數(shù)據(jù)，并發(fā)處理/查詢在具有多個商用硬件(即低成本硬件)節(jié)點的集群上的那些數(shù)據(jù)?？傊?，Hadoop包括以下內(nèi)容：

HDFS(Hadoop Distributed File System，Hadoop分布式文件系統(tǒng))：HDFS允許你以一種分布式和冗余的方式存儲大量數(shù)據(jù)。例如，1 GB(即1024 MB)文本文件可以拆分為16 * 128MB文件，并存儲在Hadoop集群中的8個不同節(jié)點上。每個分裂可以復(fù)制3次，以實現(xiàn)容錯，以便如果1個節(jié)點故障的話，也有備份。HDFS適用于順序的“一次寫入、多次讀取”的類型訪問。

大數(shù)據(jù)干貨：Hadoop 面試中 7個必問問題及答案

MapReduce：一個計算框架。它以分布式和并行的方式處理大量的數(shù)據(jù)。當你對所有年齡> 18的用戶在上述1 GB文件上執(zhí)行查詢時，將會有“8個映射”函數(shù)并行運行，以在其128 MB拆分文件中提取年齡> 18的用戶，然后“reduce”函數(shù)將運行以將所有單獨的輸出組合成單個最終結(jié)果。

YARN(Yet Another Resource Nagotiator，又一資源定位器)：用于作業(yè)調(diào)度和集群資源管理的框架。

Hadoop生態(tài)系統(tǒng)，擁有15多種框架和工具，如Sqoop，F(xiàn)lume，Kafka，Pig，Hive，Spark，Impala等，以便將數(shù)據(jù)攝入HDFS，在HDFS中轉(zhuǎn)移數(shù)據(jù)(即變換，豐富，聚合等)，并查詢來自HDFS的數(shù)據(jù)用于商業(yè)智能和分析。某些工具(如Pig和Hive)是MapReduce上的抽象層，而Spark和Impala等其他工具則是來自MapReduce的改進架構(gòu)/設(shè)計，用于顯著提高的延遲以支持近實時(即NRT)和實時處理。

大數(shù)據(jù)干貨：Hadoop 面試中 7個必問問題及答案

2.為什么組織從傳統(tǒng)的數(shù)據(jù)倉庫工具轉(zhuǎn)移到基于Hadoop生態(tài)系統(tǒng)的智能數(shù)據(jù)中心?

Hadoop組織正在從以下幾個方面提高自己的能力：

現(xiàn)有數(shù)據(jù)基礎(chǔ)設(shè)施：

主要使用存儲在高端和昂貴硬件中的“structured data，結(jié)構(gòu)化數(shù)據(jù)”
主要處理為ETL批處理作業(yè)，用于將數(shù)據(jù)提取到RDBMS和數(shù)據(jù)倉庫系統(tǒng)中進行數(shù)據(jù)挖掘，分析和報告，以進行關(guān)鍵業(yè)務(wù)決策。
主要處理以千兆字節(jié)到兆字節(jié)為單位的數(shù)據(jù)量

基于Hadoop的更智能的數(shù)據(jù)基礎(chǔ)設(shè)施，其中

結(jié)構(gòu)化(例如RDBMS)，非結(jié)構(gòu)化(例如images，PDF，docs )和半結(jié)構(gòu)化(例如logs，XMLs)的數(shù)據(jù)可以以可擴展和容錯的方式存儲在較便宜的商品機器中。
可以通過批處理作業(yè)和近實時(即，NRT，200毫秒至2秒)流(例如Flume和Kafka)來攝取數(shù)據(jù)。
數(shù)據(jù)可以使用諸如Spark和Impala之類的工具以低延遲(即低于100毫秒)的能力查詢。
可以存儲以兆兆字節(jié)到千兆字節(jié)為單位的較大數(shù)據(jù)量。

這使得組織能夠使用更強大的工具來做出更好的業(yè)務(wù)決策，這些更強大的工具用于獲取數(shù)據(jù)，轉(zhuǎn)移存儲的數(shù)據(jù)(例如聚合，豐富，變換等)，以及使用低延遲的報告功能和商業(yè)智能。

3.更智能&更大的數(shù)據(jù)中心架構(gòu)與傳統(tǒng)的數(shù)據(jù)倉庫架構(gòu)有何不同?

傳統(tǒng)的企業(yè)數(shù)據(jù)倉庫架構(gòu)

大數(shù)據(jù)干貨：Hadoop 面試中 7個必問問題及答案

基于Hadoop的數(shù)據(jù)中心架構(gòu)

大數(shù)據(jù)干貨：Hadoop 面試中 7個必問問題及答案

4.基于Hadoop的數(shù)據(jù)中心的好處是什么?

隨著數(shù)據(jù)量和復(fù)雜性的增加，提高了整體SLA(即服務(wù)水平協(xié)議)。例如，“Shared Nothing”架構(gòu)，并行處理，內(nèi)存密集型處理框架，如Spark和Impala，以及YARN容量調(diào)度程序中的資源搶占。

縮放數(shù)據(jù)倉庫可能會很昂貴。添加額外的高端硬件容量以及獲取數(shù)據(jù)倉庫工具的許可證可能會顯著增加成本?；贖adoop的解決方案不僅在商品硬件節(jié)點和開源工具方面更便宜，而且還可以通過將數(shù)據(jù)轉(zhuǎn)換卸載到Hadoop工具(如Spark和Impala)來補足數(shù)據(jù)倉庫解決方案，從而更高效地并行處理大數(shù)據(jù)。這也將釋放數(shù)據(jù)倉庫資源。

探索新的渠道和線索。Hadoop可以為數(shù)據(jù)科學家提供探索性的沙盒，以從社交媒體，日志文件，電子郵件等地方發(fā)現(xiàn)潛在的有價值的數(shù)據(jù)，這些數(shù)據(jù)通常在數(shù)據(jù)倉庫中不可得。

更好的靈活性。通常業(yè)務(wù)需求的改變，也需要對架構(gòu)和報告進行更改?；贖adoop的解決方案不僅可以靈活地處理不斷發(fā)展的模式，還可以處理來自不同來源，如社交媒體，應(yīng)用程序日志文件，image，PDF和文檔文件的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。

5.大數(shù)據(jù)解決方案的關(guān)鍵步驟是什么?

提取數(shù)據(jù)，存儲數(shù)據(jù)(即數(shù)據(jù)建模)和處理數(shù)據(jù)(即數(shù)據(jù)加工，數(shù)據(jù)轉(zhuǎn)換和查詢數(shù)據(jù))。

提取數(shù)據(jù)

從各種來源提取數(shù)據(jù)，例如：

RDBM(Relational Database Management Systems)關(guān)系數(shù)據(jù)庫管理系統(tǒng)，如Oracle，MySQL等。
ERPs(Enterprise Resource Planning)企業(yè)資源規(guī)劃(即ERP)系統(tǒng)，如SAP。
CRM(Customer Relationships Management)客戶關(guān)系管理系統(tǒng)，如Siebel，Salesforce等
社交媒體Feed和日志文件。
平面文件，文檔和圖像。

并將其存儲在基于“Hadoop分布式文件系統(tǒng)”(簡稱HDFS)的數(shù)據(jù)中心上?？梢酝ㄟ^批處理作業(yè)(例如每15分鐘運行一次，每晚一次，等)，近實時(即100毫秒至2分鐘)流式傳輸和實時流式傳輸(即100毫秒以下)去采集數(shù)據(jù)。

Hadoop中使用的一個常用術(shù)語是“Schema-On-Read”。這意味著未處理(也稱為原始)的數(shù)據(jù)可以被加載到HDFS，其具有基于處理應(yīng)用的需求在處理之時應(yīng)用的結(jié)構(gòu)。這與“Schema-On-Write”不同，后者用于需要在加載數(shù)據(jù)之前在RDBM中定義模式。

存儲數(shù)據(jù)

數(shù)據(jù)可以存儲在HDFS或NoSQL數(shù)據(jù)庫，如HBase。HDFS針對順序訪問和“一次寫入和多次讀取”的使用模式進行了優(yōu)化。HDFS具有很高的讀寫速率，因為它可以將I / O并行到多個驅(qū)動器。HBase在HDFS之上，并以柱狀方式將數(shù)據(jù)存儲為鍵/值對。列作為列家族在一起。HBase適合隨機讀/寫訪問。在Hadoop中存儲數(shù)據(jù)之前，你需要考慮以下幾點：

數(shù)據(jù)存儲格式：有許多可以應(yīng)用的文件格式(例如CSV，JSON，序列，AVRO，Parquet等)和數(shù)據(jù)壓縮算法(例如snappy，LZO，gzip，bzip2等)。每個都有特殊的優(yōu)勢。像LZO和bzip2的壓縮算法是可拆分的。
數(shù)據(jù)建模：盡管Hadoop的無模式性質(zhì)，模式設(shè)計依然是一個重要的考慮方面。這包括存儲在HBase，Hive和Impala中的對象的目錄結(jié)構(gòu)和模式。Hadoop通常用作整個組織的數(shù)據(jù)中心，并且數(shù)據(jù)旨在共享。因此，結(jié)構(gòu)化和有組織的數(shù)據(jù)存儲很重要。
元數(shù)據(jù)管理：與存儲數(shù)據(jù)相關(guān)的元數(shù)據(jù)。
多用戶：更智能的數(shù)據(jù)中心托管多個用戶、組和應(yīng)用程序。這往往導(dǎo)致與統(tǒng)治、標準化和管理相關(guān)的挑戰(zhàn)。

處理數(shù)據(jù)

Hadoop的處理框架使用HDFS。它使用“Shared Nothing”架構(gòu)，在分布式系統(tǒng)中，每個節(jié)點完全獨立于系統(tǒng)中的其他節(jié)點。沒有共享資源，如CPU，內(nèi)存以及會成為瓶頸的磁盤存儲。Hadoop的處理框架(如Spark，Pig，Hive，Impala等)處理數(shù)據(jù)的不同子集，并且不需要管理對共享數(shù)據(jù)的訪問。 “Shared Nothing”架構(gòu)是非?？蓴U展的，因為更多的節(jié)點可以被添加而沒有更進一步的爭用和容錯，因為每個節(jié)點是獨立的，并且沒有單點故障，系統(tǒng)可以從單個節(jié)點的故障快速恢復(fù)。

6.你會如何選擇不同的文件格式存儲和處理數(shù)據(jù)?

設(shè)計決策的關(guān)鍵之一是基于以下方面關(guān)注文件格式：

使用模式，例如訪問50列中的5列，而不是訪問大多數(shù)列。
可并行處理的可分裂性。
塊壓縮節(jié)省存儲空間vs讀/寫/傳輸性能
模式演化以添加字段，修改字段和重命名字段。

CSV文件

CSV文件通常用于在Hadoop和外部系統(tǒng)之間交換數(shù)據(jù)。CSV是可讀和可解析的。 CSV可以方便地用于從數(shù)據(jù)庫到Hadoop或到分析數(shù)據(jù)庫的批量加載。在Hadoop中使用CSV文件時，不包括頁眉或頁腳行。文件的每一行都應(yīng)包含記錄。CSV文件對模式評估的支持是有限的，因為新字段只能附加到記錄的結(jié)尾，并且現(xiàn)有字段不能受到限制。CSV文件不支持塊壓縮，因此壓縮CSV文件會有明顯的讀取性能成本。

JSON文件

JSON記錄與JSON文件不同;每一行都是其JSON記錄。由于JSON將模式和數(shù)據(jù)一起存儲在每個記錄中，因此它能夠?qū)崿F(xiàn)完整的模式演進和可拆分性。此外，JSON文件不支持塊級壓縮。

序列文件

序列文件以與CSV文件類似的結(jié)構(gòu)用二進制格式存儲數(shù)據(jù)。像CSV一樣，序列文件不存儲元數(shù)據(jù)，因此只有模式進化才將新字段附加到記錄的末尾。與CSV文件不同，序列文件確實支持塊壓縮。序列文件也是可拆分的。序列文件可以用于解決“小文件問題”，方式是通過組合較小的通過存儲文件名作為鍵和文件內(nèi)容作為值的XML文件。由于讀取序列文件的復(fù)雜性，它們更適合用于在飛行中的(即中間的)數(shù)據(jù)存儲。

注意：序列文件是以Java為中心的，不能跨平臺使用。

Avro文件

適合于有模式的長期存儲。Avro文件存儲具有數(shù)據(jù)的元數(shù)據(jù)，但也允許指定用于讀取文件的獨立模式。啟用完全的模式進化支持，允許你通過定義新的獨立模式重命名、添加和刪除字段以及更改字段的數(shù)據(jù)類型。Avro文件以JSON格式定義模式，數(shù)據(jù)將采用二進制JSON格式。Avro文件也是可拆分的，并支持塊壓縮。更適合需要行級訪問的使用模式。這意味著查詢該行中的所有列。不適用于行有50+列，但使用模式只需要訪問10個或更少的列。Parquet文件格式更適合這個列訪問使用模式。

Columnar格式，例如RCFile，ORC

RDBM以面向行的方式存儲記錄，因為這對于需要在獲取許多列的記錄的情況下是高效的。如果在向磁盤寫入記錄時已知所有列值，則面向行的寫也是有效的。但是這種方法不能有效地獲取行中的僅10%的列或者在寫入時所有列值都不知道的情況。這是Columnar文件更有意義的地方。所以Columnar格式在以下情況下工作良好

在不屬于查詢的列上跳過I / O和解壓縮
用于僅訪問列的一小部分的查詢。
用于數(shù)據(jù)倉庫型應(yīng)用程序，其中用戶想要在大量記錄上聚合某些列。

RC和ORC格式是專門用Hive寫的而不是通用作為Parquet。

Parquet文件

Parquet文件是一個columnar文件，如RC和ORC。Parquet文件支持塊壓縮并針對查詢性能進行了優(yōu)化，可以從50多個列記錄中選擇10個或更少的列。Parquet文件寫入性能比非columnar文件格式慢。Parquet通過允許在最后添加新列，還支持有限的模式演變。Parquet可以使用Avro API和Avro架構(gòu)進行讀寫。

所以，總而言之，相對于其他，你應(yīng)該會更喜歡序列，Avro和Parquet文件格式;序列文件用于原始和中間存儲，Avro和Parquet文件用于處理。

責任編輯：未麗燕來源：今日頭條

大數(shù)據(jù)Hadoop 數(shù)據(jù)中心

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="xzlcp"></sub>

<sup id="xzlcp"><rt id="xzlcp"></rt></sup>