自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<var id="5kv53"></var>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Sqoop：SQL與NoSQL間的數(shù)據(jù)橋梁

作者：云戒 2016-02-22 10:10:48

大數(shù)據(jù)

很多企業(yè)中，業(yè)務(wù)數(shù)據(jù)都是存放在MySQL數(shù)據(jù)庫中的，當(dāng)數(shù)據(jù)量太大后，單機版本的MySQL很難滿足業(yè)務(wù)分析的各種需求。此時，可能就需要將數(shù)據(jù)存入Hadoop集群環(huán)境中，那么本文的主角Sqoop便適時的出現(xiàn)了，用來架起SQL與NoSQL之間的數(shù)據(jù)橋梁。

SQL處理二維表格數(shù)據(jù)，是一種最樸素的工具，NoSQL是Not Only SQL，即不僅僅是SQL。從MySQL導(dǎo)入數(shù)據(jù)到HDFS文件系統(tǒng)中，最簡單的一種方式就是使用Sqoop，然后將HDFS中的數(shù)據(jù)和Hive建立映射。通過Sqoop作為數(shù)據(jù)橋梁，將傳統(tǒng)的數(shù)據(jù)也存入到NoSQL中來了，有了數(shù)據(jù)，猴戲才剛剛開始。

猴年伊始

SQL處理二維表格數(shù)據(jù)，是一種最樸素的工具，查詢、更新、修改、刪除這四種對數(shù)據(jù)的基本操作，是處理數(shù)據(jù)的一個巨大進步。近些年，各種新的數(shù)據(jù)處理技術(shù)興起了，都想革SQL的命，這些技術(shù)也被大家統(tǒng)稱為NoSQL。

NoSQL最初的意思是No SQL，估計應(yīng)該是想和SQL劃清界線，就像GNU的遞歸縮寫GNU is Not Unix一樣。后來發(fā)現(xiàn)，雖然大量的NoSQL技術(shù)起來了，但SQL還是活得好好的，照樣發(fā)揮著很多不可替代的作用。漸漸地，大家也發(fā)現(xiàn)，原來這些新技術(shù)，也只是在不同的應(yīng)用場景下對SQL的補充，因此也慢慢為NoSQL正名了，原來是Not Only SQL，即不僅僅是SQL，還有很多其它的處理非結(jié)構(gòu)化數(shù)據(jù)和應(yīng)用于各種場景的技術(shù)。甚至很多技術(shù)，雖然是在NoSQL的框架下，但也慢慢的又往SQL方向發(fā)展。

NoSQL是一種技術(shù)或者框架的統(tǒng)稱，包括以Mongodb，Hadoop，Hive，Cassandra，Hbase，Redis等為代表的框架技術(shù)，這些都在特定的領(lǐng)域有很多實際的應(yīng)用。而SQL領(lǐng)域的開源代表自然是MySQL了。

很多企業(yè)中，業(yè)務(wù)數(shù)據(jù)都是存放在MySQL數(shù)據(jù)庫中的，當(dāng)數(shù)據(jù)量太大后，單機版本的MySQL很難滿足業(yè)務(wù)分析的各種需求。此時，可能就需要將數(shù)據(jù)存入Hadoop集群環(huán)境中，那么本文的主角Sqoop便適時的出現(xiàn)了，用來架起SQL與NoSQL之間的數(shù)據(jù)橋梁。

MySQL導(dǎo)入HDFS

從MySQL導(dǎo)入到HDFS文件系統(tǒng)中，是最簡單的一種方式了，相當(dāng)于直接將表的內(nèi)容，導(dǎo)出成文件，存放到HDFS中，以便后用。

Sqoop最簡單的使用方式，就是一條命令，唯一需要的是配置相應(yīng)的參數(shù)。sqoop可以將所有參數(shù)寫在一行上，也可以寫在配置文件里面。因為導(dǎo)入的選項過多，通常我們都把參數(shù)寫在配置文件里面，以便更好的調(diào)試。在導(dǎo)入到HDFS的過程中，需要配置以下參數(shù)：

使用import指令
數(shù)據(jù)源配置：驅(qū)動程序，IP地址，庫，表，用戶名，密碼
導(dǎo)入路徑，以及是否刪除存在的路徑
并行進程數(shù)，以及使用哪個字段進行切分
字段選擇，以及字段分隔符
查詢語句：自定義查詢，Limit可以在此處使用
查詢條件：自定義條件

配置文件示例：

# 文件名：your_table.options
import

--connect
jdbc:mysql://1.2.3.4/db_name
--username
your_username
--password
your_passwd
--table
your_table

--null-string
NULL

--columns
id, name

# --query
# select id, name, concat(id,name) from your_table where $CONDITIONS limit 100

# --where
# "status != 'D'"

--delete-target-dir
--target-dir
/pingjia/open_model_detail

--fields-terminated-by
'\001'

--split-by
id
--num-mappers
1

示例參數(shù)說明：

import指令，說明是導(dǎo)入，這兒的“入”是相對于hdfs來說的，即從MySQL導(dǎo)入到hdfs文件系統(tǒng)中。
以雙橫線開頭的是參數(shù)，其中connect配置數(shù)據(jù)庫驅(qū)動及來源，此處配置了mysql及ip地址和數(shù)據(jù)庫名。
username, password配置用戶名密碼。table配置來源表名，此處需要注意，如果后面使用了query的方式，即指定了查詢語句，此處table需要注釋。
columns配置了從表中讀取的字段，可以是全部，也可以是部分。同上所求，如果指定了query則不需要配置columns
query是自己指定導(dǎo)出的sql語句，如果需要自定義導(dǎo)出，則使用。注意，這兒有一個where條件，無論是否使用條件，都需要帶上where $CONDITIONS，$CONDITIONS是后面配置的條件。
where用于單獨設(shè)置查詢條件
target-dir用于指定導(dǎo)入的目錄，從mysql中導(dǎo)入到hdfs中的數(shù)據(jù)是直接導(dǎo)入到目錄，而不是直接指定文件，文件名會自動生成。另外，如果需要在hive中使用分區(qū)，此處應(yīng)該用子分區(qū)的名字。比如，增加一個year=2015的分區(qū)，那么，建立目錄的時候，把數(shù)據(jù)存入子目錄 year=2015中去，這樣后面在hive中直接增加分區(qū)映射即可。delete-target-dir是如果目錄存在便刪除，否則會報錯。
fields-terminated-by用于配置導(dǎo)出的各字段之間，使用的分隔符，為防止數(shù)據(jù)內(nèi)容里面包括空格，通常不推薦用空格，'\001'也是Hive中推薦的字段分隔符，當(dāng)然，我們也是為了更好的在Hive中使用數(shù)據(jù)才這樣設(shè)置。
num-mappers是指定并行的mapper(進程數(shù))，這也是使用sqoop的一大優(yōu)勢，并行可以加快速度，默認使用4個進程并行。同時，split-by需要設(shè)置為一個字段名，通常是id主鍵，即在這個字段上進行切分成4個部分，每個進程導(dǎo)入一部分。另外，配置幾個進程數(shù)，最后目錄中生成的文件便是幾個，因此對于小表，建立設(shè)置num-mappers為1，最后只生成一個文件。

上面使用了配置文件的方式，在配置文件中，可以使用#注釋，也可以使用空行，這樣方便做調(diào)試。配置好上面的參數(shù)文件，即可調(diào)用測試：

sqoop --options-file your_table.options

如果不報錯，最后會顯示導(dǎo)入的文件大小與文件行數(shù)。

這是一個導(dǎo)入速度的記錄，供參考：

Transferred 3.9978 GB in 811.4697 seconds (5.0448 MB/sec)
Retrieved 18589739 records.

Transferred 3.4982 GB in 350.2751 seconds (10.2266 MB/sec)
Retrieved 16809945 records.

Transferred 846.5802 MB in 164.0938 seconds (5.1591 MB/sec)
Retrieved 5242290 records.

Transferred 172.9216 MB in 72.2055 seconds (2.3949 MB/sec)
Retrieved 1069275 records.

增量導(dǎo)入

HDFS文件系統(tǒng)是不允許對記錄進行修改的，只能對文件進行刪除，或者追加新文件到目錄中。但Mysql數(shù)據(jù)中的增、刪、改是最基本的操作，因此導(dǎo)入的數(shù)據(jù)，可能一會兒就過期了。

從這兒也可以看出，并非所有數(shù)據(jù)都適合導(dǎo)入到HDFS，通常是日志數(shù)據(jù)或者非常大的需要統(tǒng)計分析的數(shù)據(jù)。通常不太大的表，也建議直接完整導(dǎo)入，因為本身導(dǎo)入速度已經(jīng)夠快了，千萬級別的數(shù)據(jù)，也只是幾分鐘而已。

如果不考慮數(shù)據(jù)的修改問題，只考慮數(shù)據(jù)的增加問題，可以使用append模式導(dǎo)入。如果需要考慮數(shù)據(jù)修改，則使用lastmodified的模式。

增量的方式，需要指定以下幾個參數(shù)：

--check-column
filed_name
--incremental
append|lastmodified
--last-value
value

check_colume：配置檢查增量的字段，通常是id字段，或者時間字段
incremental: 增量的方式，追加或者最后修改，追加從上一次id開始，只追加大于這個id的數(shù)據(jù)，通常用于日志數(shù)據(jù)，或者數(shù)據(jù)不常更新的數(shù)據(jù)。最后修改，需要本身在 Mysql里面，數(shù)據(jù)每次更新，都更新維護一個時間字段。在此，表示從指定的時間開始，大于這個時間的數(shù)據(jù)都是更新過的，都要導(dǎo)入
last-value: 指定了上一次的id值或者上一次的時間

映射到hive

導(dǎo)入到HDFS中的數(shù)據(jù)，要進行統(tǒng)計分析，甚至?xí)枰獙Χ鄠€文檔進行關(guān)聯(lián)分析，還是有不便之處，此時可以再使用Hive來進行數(shù)據(jù)關(guān)聯(lián)。

首先，需要在Hive中建立表結(jié)構(gòu)，只選擇性的建立導(dǎo)入的數(shù)據(jù)字段，比如導(dǎo)入了id和name兩個字段，則Hive表也只建立這兩個字段。

另外，最好通過external關(guān)鍵字指定建立外部表，這樣Hive只管理表的元數(shù)據(jù)，真實的數(shù)據(jù)還是由HDFS來存儲和手工進行更新。即使刪除了Hive中的表，數(shù)據(jù)依然會存在于HDFS中，還可以另做它用。

建表，要指定字段的數(shù)據(jù)格式，通常只需要用四數(shù)據(jù)來替換Mysql的數(shù)據(jù)：

string ==> 替換char,varchar

int ==> 替換int

float ==> 替換float

timestamp ==> 替換datetime

另外，還需要指定存儲格式，字符分隔符和分區(qū)等，常用的一個建表語句如：

CREATE external TABLE your_table (
id int,
name string
)
PARTITIONED BY (pdyear string)
ROW FORMAT DELIMITED fields terminated by '\001'
STORED AS TEXTFILE

上面指定了一個分區(qū)pdyear，字段分隔符為'\001'，存儲成TEXTFILE格式，數(shù)據(jù)文件的目錄為/path/your_table(從MySQL導(dǎo)入到HDFS的目錄)。

如果導(dǎo)入的數(shù)據(jù)，配置了分區(qū)，即如下目錄結(jié)構(gòu)：

/path/your_table/pdyear=2015

/path/your_table/pdyear=2016

則建立表后，表里面沒有對應(yīng)上數(shù)據(jù)，需要添加分區(qū)到hive表中，在hive中執(zhí)行以下語句：

alter table your_table add partition (pdyear='2015') location '/path/your_table/pdyear=2015';
alter table your_table add partition (pdyear='2016') location '/path/your_table/pdyear=2016';

完成上面的操作后，即可以在Hive中進行查詢和測試，查看是否有數(shù)據(jù)。Hive的hql語法，源于mysql的語法，只是對部分細節(jié)支持不一樣，因此可能需要調(diào)試一下。

HDFS導(dǎo)出到MySQL

在Hive中進行了一系列的復(fù)雜統(tǒng)計分析后，最后的結(jié)論可能還是需要存儲到Mysql中，那么可以在Hive語句中，將分析結(jié)果導(dǎo)出到HDFS中存儲起來，最后再使用Sqoop將HDFS的文件導(dǎo)入到MySQL表中，方便業(yè)務(wù)使用。

導(dǎo)出的配置示例：

export

--connect
jdbc:mysql://1.2.3.4/db_name
--username
your_username
--password
your_passwd
--table
your_table

--input-null-string
'\\N'

--update-mode
allowinsert
--update-key
id
--export-dir
/path/your_table/
--columns
id,name
--input-fields-terminated-by
'\001'

參數(shù)說明：

export：指令說明是導(dǎo)出
update-mode：allowinsert，配置了，使用更新模式，即如果Mysql中已經(jīng)有數(shù)據(jù)了，則進行更新，如果沒有，則插入。判斷的字段使用update-key參數(shù)配置，需要這個字段是唯一索引的字段。
input-null-string：Hive中，導(dǎo)出的NULL為字符\N，要還原到Mysql中，依然為MyQL的Null的話，需要使用這個配置，指定NULL的字符串為'\N'
另外，導(dǎo)出的時候，如果Mysql表中有自動增長的主鍵字段，可以留空，生成數(shù)據(jù)的時候會自動填充。

猴戲開始

將MySQL中的數(shù)據(jù)導(dǎo)入到HDFS中，又將HDFS中的數(shù)據(jù)建立了到Hive表的映射。至此，通過Sqoop工具作為SQL與NoSQL的數(shù)據(jù)橋梁，將傳統(tǒng)的數(shù)據(jù)也存入到NoSQL中來了，有了數(shù)據(jù)，便是開始。

責(zé)任編輯：Ophira 來源：簡書

Sqoop SQL NoSQL

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<thead id="rmqtx"></thead>}