自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

SQL—大數(shù)據(jù)環(huán)境的重要工具

譯文
大數(shù)據(jù)
這篇文章將幫助您理解為什么SQL對于在大數(shù)據(jù)領(lǐng)域開始職業(yè)生涯或從傳統(tǒng)RDBMS轉(zhuǎn)型的人來說是一種必不可少的編程語言。本文還將回顧Hadoop引擎上廣泛使用的,可以有效地用于數(shù)據(jù)轉(zhuǎn)換和探索的SQL語言。

【51CTO.com快譯】對于那些在大數(shù)據(jù)領(lǐng)域開始職業(yè)生涯或從傳統(tǒng)RDBMS轉(zhuǎn)型的人來說,SQL是一種必不可少的編程語言。

介紹

大數(shù)據(jù)系統(tǒng)的最新進(jìn)展實現(xiàn)了數(shù)據(jù)湖和數(shù)據(jù)倉庫進(jìn)行更快的處理、高效的分發(fā)和數(shù)據(jù)存儲。因此導(dǎo)致了傳統(tǒng)關(guān)系數(shù)據(jù)庫領(lǐng)域的分析技術(shù)向大數(shù)據(jù)領(lǐng)域的巨大遷移。

由于SQL是大數(shù)據(jù)系統(tǒng)中的查詢語言,這種轉(zhuǎn)變并不像預(yù)期的那么困難。

另一方面,一些工程師和分析師也開始逐漸涉足大數(shù)據(jù)領(lǐng)域。SQL是大數(shù)據(jù)系統(tǒng)中的高級語言,對于每個人來說都是必不可少的技能。

這篇文章將幫助您理解為什么SQL對于在大數(shù)據(jù)領(lǐng)域開始職業(yè)生涯或從傳統(tǒng)RDBMS轉(zhuǎn)型的人來說是一種必不可少的編程語言。本文還將回顧Hadoop引擎上廣泛使用的,可以有效地用于數(shù)據(jù)轉(zhuǎn)換和探索的SQL語言。

為什么要學(xué)習(xí)SQL

結(jié)構(gòu)化查詢語言(SQL)是一種廣泛采用的聲明性語言,自關(guān)系數(shù)據(jù)庫系統(tǒng)開始以來就已經(jīng)存在。

由于具有聲明性,因此易于學(xué)習(xí)和理解,并且符合美國國家標(biāo)準(zhǔn)協(xié)會(ANSI)的標(biāo)準(zhǔn)。這意味著,除每個數(shù)據(jù)庫提供的附錄功能外,SQL語句的基本結(jié)構(gòu)也可以使用ANSI的數(shù)據(jù)庫進(jìn)行維護(hù),同時有助于使用其他數(shù)據(jù)庫。

由于SQL使用率很高,因此諸如Hadoop之類的大數(shù)據(jù)范例技術(shù)使SQL-on-Hadoop引擎運(yùn)行在分析引擎之上。其中包括蜂巢、黑斑羚和其他處理引擎。

從就業(yè)能力的角度來看,SQL被認(rèn)為是數(shù)據(jù)專業(yè)人員最重要的語言,因此,SQL已成為數(shù)據(jù)專業(yè)人員的必然技能。

SQL-On-Hadoop

開源SQL-On-Hadoop引擎在不同的Hadoop技術(shù)和大數(shù)據(jù)處理引擎上運(yùn)行。如果精通SQL的話,那么這些工具應(yīng)該很容易就能從基于分布式文件系統(tǒng)構(gòu)建的數(shù)據(jù)湖和數(shù)據(jù)倉庫中查詢數(shù)據(jù)。

為特定問題選擇正確的SQL-On-Hadoop引擎可能非常困難。以下針對每個引擎的說明列表可以幫助您確定

Spark SQL

在Apache Spark之上運(yùn)行的SQL引擎是Spark SQL。Apache Spark 3.0.0以后的版本符合是ANSI的,因此用戶可以利用Spark SQL的本機(jī)特性以及本機(jī)ANSI兼容的操作和功能。更好的是,一些云服務(wù)提供商還提供spark分析引擎作為PAAS(平臺即服務(wù))模型,稱為Databricks,具有靈活的自動伸縮功能、協(xié)作功能,并與云服務(wù)提供商(如AWS和Microsoft Azure)耦合。

許可: 開源Apache許可(Spark),付費(fèi)PAAS(Databricks)

數(shù)據(jù)格式:所有標(biāo)準(zhǔn)Hadoop文件格式-JDBC / ODBC、列格式(Parquet、ORC等)、配置單元表、對象存儲格式(JSON)、平面文件(CSV、TSV等)

關(guān)鍵要點:

  •  如果需要處理引擎來執(zhí)行原始計算、執(zhí)行機(jī)器學(xué)習(xí)以及對海量數(shù)據(jù)負(fù)載進(jìn)行數(shù)字運(yùn)算,那么它是最合適的選擇。
  •  不建議使用低數(shù)據(jù)量。

Apache Drill

Apache Dril是一個完全符合ANSI的大型并行處理引擎。Apache Drill的一個有趣的方面是它負(fù)責(zé)連接到多個數(shù)據(jù)源,存儲為JSON數(shù)據(jù)模型,并在檢索到的數(shù)據(jù)之上執(zhí)行聚合。還可以從Spark中運(yùn)行Apache Drill來檢索數(shù)據(jù)。

許可:開源Apache許可

數(shù)據(jù)格式:所有標(biāo)準(zhǔn)Hadoop文件格式

關(guān)鍵要點:

  • 由于符合ANSI SQL,因此具有很高的采用率。
  • 適合同時查詢多個來源的數(shù)據(jù)。
  • 不適合機(jī)器學(xué)習(xí)和原始數(shù)據(jù)計算。
  • 無需定義架構(gòu)。

Apache Hive上的HQL

Hive是Hadoop 文件系統(tǒng)上的查詢引擎,用戶可以使用HQL(Hive Query Language)在Hive上進(jìn)行查詢。它是一種類似SQL的查詢語言,不完全符合ANSI。Hive對數(shù)據(jù)進(jìn)行批處理,這些數(shù)據(jù)只不過是在后臺運(yùn)行的Map Reduce作業(yè)。

許可: 開源Apache許可

數(shù)據(jù)位置:僅結(jié)構(gòu)化格式

關(guān)鍵要點:

  • 批處理相對較慢。
  • 不適合JSON等非結(jié)構(gòu)化格式。
  • 不適合運(yùn)行交互式查詢。

Presto

Teradata支持由Facebook開發(fā)的開源并行處理Hadoop查詢引擎。該查詢引擎能夠跨越多個數(shù)據(jù)源并執(zhí)行交互式查詢,這與能夠進(jìn)行批處理的Apache Hive不同。

許可: 開源Apache許可

數(shù)據(jù)位置:所有標(biāo)準(zhǔn)Hadoop文件格式

關(guān)鍵要點:

  • 適用于交互式查詢。
  • 如果是本地托管,則需要進(jìn)行大量實驗。

Apache Impala

Impala是又一個大規(guī)模并行處理查詢引擎,可以在Hadoop和HBase上進(jìn)行交互式查詢。Impala支持HQL,與Hive不同,它不使用Map-Reduce,因此與Hive相比,查詢速度更快。

許可:開源Apache許可

數(shù)據(jù)位置:除ORC之外的所有標(biāo)準(zhǔn)Hadoop文件格式。

關(guān)鍵要點:

  • 適用于交互式查詢。
  • 適用于同時查詢HDFS和HBase。
  • ORC支持尚未投入生產(chǎn),因此實木復(fù)合地板比ORC更受青睞。

來源:DZone
地址:https://dzone.com/articles/sql-as-an-essential-tool-for-the-big-data-landscap

【51CTO譯稿,合作站點轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】

 

責(zé)任編輯:梁菲 來源: DZone
相關(guān)推薦

2020-10-22 17:19:48

大數(shù)據(jù)

2017-11-20 08:13:26

大數(shù)據(jù)大數(shù)據(jù)技術(shù)數(shù)據(jù)

2017-11-14 05:59:40

大數(shù)據(jù)數(shù)據(jù)分析大數(shù)據(jù)技術(shù)

2022-03-21 13:57:00

大數(shù)據(jù)數(shù)據(jù)分析技術(shù)

2021-03-26 23:49:52

大數(shù)據(jù)JAVA技術(shù)

2013-05-07 14:56:27

大數(shù)據(jù)應(yīng)用工具數(shù)據(jù)中心網(wǎng)絡(luò)

2012-09-13 09:52:14

大數(shù)據(jù)數(shù)據(jù)應(yīng)用開源工具

2022-09-01 23:34:18

大數(shù)據(jù)數(shù)據(jù)分析工具

2022-08-31 17:01:56

大數(shù)據(jù)工具數(shù)據(jù)治理

2013-03-20 15:49:28

大數(shù)據(jù)

2021-11-19 16:18:33

大數(shù)據(jù)環(huán)境技術(shù)

2023-06-27 15:54:40

數(shù)據(jù)中心再生能源

2023-12-20 14:10:53

2016-10-10 13:25:18

2024-02-18 13:30:18

大數(shù)據(jù)

2012-10-23 09:48:37

2013-03-11 10:42:27

2017-05-31 14:35:17

大數(shù)據(jù)運(yùn)行環(huán)境數(shù)據(jù)管道

2016-10-13 09:52:53

大數(shù)據(jù)搜索技術(shù)

2015-05-26 11:33:26

布線綜合布線
點贊
收藏

51CTO技術(shù)棧公眾號