自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據倉庫中的SQL性能優(yōu)化(Hive篇)

大數(shù)據 數(shù)據倉庫
一個Hive查詢生成多個map reduce job,一個map reduce job又有map,reduce,spill,shuffle,sort等多個階段,所以針對hive查詢的優(yōu)化可以大致分為針對M/R中單個步驟的優(yōu)化,針對M/R全局的優(yōu)化,和針對整個查詢(多M/R job)的優(yōu)化,下文會分別闡述。

 一個Hive查詢生成多個map reduce job,一個map reduce job又有map,reduce,spill,shuffle,sort等多個階段,所以針對hive查詢的優(yōu)化可以大致分為針對M/R中單個步驟的優(yōu)化,針對M/R全局的優(yōu)化,和針對整個查詢(多M/R job)的優(yōu)化,下文會分別闡述。

要說明的是,這個優(yōu)化只是針對Hive 0.9版本。由于Hortonwork發(fā)起了Stinger項目,Hive后續(xù)版本應該能更加快速的響應查詢。目前已經發(fā)布的Hive 0.11就有不少新feature,比如針對數(shù)據倉庫中常用的星型模型的優(yōu)化等等,這些就不在本文的討論范圍之內了。  

 

 

Map階段的優(yōu)化

Map階段的優(yōu)化,主要是確定合適的map數(shù)。那么首先要了解map數(shù)的計算公式,即:

  1. num_map_tasks = max[${mapred.min.split.size}, 
  2. min(${dfs.block.size}, ${mapred.max.split.size})]  

其中mapred.min.split.size指的是數(shù)據的最小分割單元大小;mapred.max.split.size指的是數(shù)據的***分割單元大小;dfs.block.size指的是HDFS設置的數(shù)據塊大小。

一般來說dfs.block.size這個值是一個已經指定好的值,而且這個參數(shù)默認情況下hive是識別不到的(除非在hive-site.xml中明確指定),即:

  1. hive> set dfs.block.size
  2. dfs.block.size is undefined  

所以默認情況下只有mapred.min.split.size和mapred.max.split.size這兩個參數(shù)(本節(jié)內容后面就以min和max指代這兩個參數(shù))來決定map數(shù)量。

在hive中min的默認值是1B,max的默認值是256MB,即:

  1. hive> set mapred.min.split.size
  2. mapred.min.split.size=1 
  3. hive> set mapred.max.split.size
  4. mapred.max.split.size=256000000  

所以如果不做修改的話,就是1個map task處理256MB數(shù)據,我們就以調整max為主。通過調整max可以起到調整map數(shù)的作用,減小max可以增加map數(shù),增大max可以減少map數(shù)。需要提醒的是,直接調整mapred.map.tasks這個參數(shù)是沒有效果的。

調整大小的時機根據查詢的不同而不同,總的來講可以通過觀察map task的完成時間來確定是否需要增加map資源。如果map task的完成時間都是接近1分鐘,甚至幾分鐘了,那么往往增加map數(shù)量,使得每個map task處理的數(shù)據量減少,能夠讓map task更快完成;而如果map task的運行時間已經很少了,比如10-20秒,這個時候增加map不太可能讓map task更快完成,反而可能因為map需要的初始化時間反而讓job總體速度變慢,這個時候反而需要考慮是否可以把map的數(shù)量減少,這樣可以節(jié)省更多資源給其他Job。

Reduce階段的優(yōu)化

這里說的reduce階段,是指前面流程圖中的reduce phase(實際的reduce計算)而非圖中整個reduce task。Reduce階段優(yōu)化的主要工作也是選擇合適的reduce task數(shù)量,跟上面的map優(yōu)化類似。

與map優(yōu)化不同的是,reduce優(yōu)化時,可以直接設置mapred.reduce.tasks參數(shù)從而直接指定reduce的個數(shù)。當然直接指定reduce個數(shù)雖然比較方便,但是不利于自動擴展。Reduce數(shù)的設置雖然相較map更靈活,但是也需要像map一樣設定一個自動生成規(guī)則,這樣運行定時job的時候就不用擔心原來設置的固定reduce數(shù)會由于數(shù)據量的變化而不合適。

Hive估算reduce數(shù)量的時候,使用的是下面的公式:

  1. num_reduce_tasks = min(${hive.exec.reducers.max}, 
  2. ${input.size} / ${ hive.exec.reducers.bytes.per.reducer})  

也就是說,根據輸入的數(shù)據量大小來決定reduce的個數(shù),默認hive.exec.reducers. bytes.per.reducer為1G,而且reduce個數(shù)不能超過一個上限參數(shù)值,這個參數(shù)的默認取值為999。所以我們以調整hive.exec.reducers.bytes.per.reducer為主來設置reduce個數(shù)。

設置reduce數(shù)同樣也是根據運行時間作為參考調整,并且可以根據特定的業(yè)務需求、工作負載類型總結出經驗,所以不再贅述。

Map與Reduce之間的優(yōu)化

所謂map和reduce之間,主要有3道工序。首先要把map輸出的結果進行排序后做成中間文件,其次這個中間文件就能分發(fā)到各個reduce,***reduce端在執(zhí)行reduce phase之前把收集到的排序子文件合并成一個排序文件。

***個階段中,由于內存不夠,數(shù)據可能沒辦法在內存中一次性排序完成,那么就只能把局部排序的文件先保存到磁盤上,這個動作叫spill,然后spill出來的多個文件可以在***進行merge。如果發(fā)生spill,可以通過設置io.sort.mb來增大mapper輸出buffer的大小,避免spill的發(fā)生。另外合并時可以通過設置io.sort.factor來使得一次性能夠合并更多的數(shù)據。調試參數(shù)的時候,一個要看spill的時間成本,一個要看merge的時間成本,還需要注意不要撐爆內存(io.sort.mb是算在map的內存里面的)。Reduce端的merge也是一樣可以用io.sort.factor。一般情況下這兩個參數(shù)很少需要調整,除非很明確知道這個地方是瓶頸。

關于文件從map端copy到reduce端,默認情況下在5%的map完成的情況下reduce就開始啟動copy,這個有時候是很浪費資源的,因為reduce一旦啟動就被占用,一直等到map全部完成,收集到所有數(shù)據才可以進行后面的動作,所以我們可以等比較多的map完成之后再啟動reduce流程,這個比例可以通過mapred.reduce.slowstart. completed.maps去調整,他的默認值就是5%。如果覺得這么做會減慢reduce端copy的進度,可以把copy過程的線程增大。tasktracker.http.threads可以決定作為server端的map用于提供數(shù)據傳輸服務的線程,mapred.reduce.parallel.copies可以決定作為client端的reduce同時從map端拉取數(shù)據的并行度(一次同時從多少個map拉數(shù)據),修改參數(shù)的時候這兩個注意協(xié)調一下,server端能處理client端的請求即可。

文件格式的優(yōu)化

文件格式方面有兩個問題,一個是給輸入和輸出選擇合適的文件格式,另一個則是小文件問題。小文件問題在目前的hive環(huán)境下已經得到了比較好的解決,hive的默認配置中就可以在小文件輸入時自動把多個文件合并給1個map處理(當然,如果能直接讀取大文件更好),輸出時如果文件很小也會進行一輪單獨的合并,所以這里就不專門討論了。相關的參數(shù)可以在這里找到。

關于文件格式,Hive中目前主要是3種,textfile,sequencefile和rcfile。總體上來說,rcfile的壓縮比例和查詢時間稍好一點,所以推薦使用。

關于使用方法,在建表結構時可以指定格式,然后指定壓縮插入:

  1. create table rc_file_test( col int ) stored as rcfile; 
  2. set hive.exec.compress.output = true
  3. insert overwrite table rc_file_test 
  4. select * from source_table;  

另外create table as select時也可以指定輸出格式,這個時候就要通過hive.default. fileformat來設定: 

  1. set hive.default.fileformat = SequenceFile; 
  2. set hive.exec.compress.output = true
  3. set mapred.output.compression.type = BLOCK; /*對于sequence file,壓縮方式有record和block兩種可選擇,block壓縮比更高*/ 
  4. insert overwrite table seq_file_test 
  5. select * from source_table;  

***要說的是,sequencefile和rcfile都是不支持空表要導入本地數(shù)據的,但是textfile格式的表可以支持文本在本地壓縮完成之后直接以壓縮格式導入,具體的做法可以看這里的詳細介紹。

Job整體優(yōu)化

有一些問題必須從job的整體角度去觀察。這里討論幾個問題:Job執(zhí)行模式(本地執(zhí)行v.s.分布式執(zhí)行)、索引、Join算法、以及數(shù)據傾斜。

Job執(zhí)行模式

Hadoop的map reduce job可以有3種模式執(zhí)行,即本地模式,偽分布式,還有真正的分布式。本地模式和偽分布式都是在最初學習hadoop的時候往往被說成是做單機開發(fā)的時候用到。但是實際上對于處理數(shù)據量非常小的job,直接啟動分布式job會消耗大量資源,而真正執(zhí)行計算的時間反而非常少。這個時候就應該使用本地模式執(zhí)行mr job,這樣執(zhí)行的時候不會啟動分布式job,執(zhí)行速度就會快很多。比如一般來說啟動分布式job,無論多小的數(shù)據量,執(zhí)行時間一般不會少于20s,而使用本地mr模式,10秒左右就能出結果。

設置執(zhí)行模式的主要參數(shù)有三個,一個是hive.exec.mode.local.auto,把他設為true就能夠自動開啟local mr模式。但是這還不足以啟動local mr,輸入的文件數(shù)量和數(shù)據量大小必須要控制,這兩個參數(shù)分別為hive.exec.mode.local.auto.tasks.max和hive.exec.mode.local.auto.inputbytes.max,默認值分別為4和128MB,即默認情況下,map處理的文件數(shù)不超過4個并且總大小小于128MB就啟用local mr模式。

索引

總體上來說,hive的索引目前還是一個不太適合使用的東西,這里只是考慮到敘述完整性,對其進行基本的介紹。

Hive中的索引架構開放了一個接口,允許你根據這個接口去實現(xiàn)自己的索引。目前hive自己有一個參考的索引實現(xiàn)(CompactIndex),后來在0.8版本中又加入位圖索引。這里就講講CompactIndex。

CompactIndex的實現(xiàn)原理類似一個lookup table,而非傳統(tǒng)數(shù)據庫中的B樹。如果你對table A的col1做了索引,索引文件本身就是一個table,這個table會有3列,分別是col1的枚舉值,每個值對應的數(shù)據文件位置,以及在這個文件位置中的偏移量。通過這種方式,可以減少你查詢的數(shù)據量(偏移量可以告訴你從哪個位置開始找,自然只需要定位到相應的block),起到減少資源消耗的作用。但是就其性能來說,并沒有很大的改善,很可能還不如構建索引需要花的時間。所以在集群資源充足的情況下,沒有太大必要考慮索引。

CompactIndex的還有一個缺點就是使用起來不友好,索引建完之后,使用之前還需要根據查詢條件做一個同樣剪裁才能使用,索引的內部結構完全暴露,而且還要花費額外的時間。具體看看下面的使用方法就了解了: 

  1. /*在index_test_table表的id字段上創(chuàng)建索引*/ 
  2. create index idx on table index_test_table(id)  
  3. as 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler' 
  4. with deferred rebuild; 
  5. alter index idx on index_test_table rebuild; 
  6.   
  7. /*索引的剪裁。找到上面建的索引表,根據你最終要用的查詢條件剪裁一下。如果你想跟RDBMS一樣建完索引就用,那是不行的,會直接報錯,這也是其麻煩的地方。*/ 
  8. create table my_index 
  9. as select `_bucketname`, `_offsets` 
  10. from default__index_test_table_idx__ where id = 10; 
  11.   
  12. /*現(xiàn)在可以用索引了,注意最終查詢條件跟上面的剪裁條件一致*/ 
  13. set hive.index.compact.file = /user/hive/warehouse/my_index; 
  14. set hive.input.format = org.apache.hadoop.hive.ql.index.compact.HiveCompactIndexInputFormat; 
  15. select count(*) from index_test_table where id = 10;  

Join算法

處理分布式join,一般有兩種方法。一種是replication join:把其中一個表復制到所有節(jié)點,這樣另一個表在每個節(jié)點上面的分片就可以跟這個完整的表join了;另一種方法是repartition join:把兩份數(shù)據按照join key進行hash重分布,讓每個節(jié)點處理hash值相同的join key數(shù)據,也就是做局部的join。這兩種方式在M/R Job中分別對應了map side join和reduce side join。在一些MPP DB中,數(shù)據可以按照某列字段預先進行hash分布,這樣在跟這個表以這個字段為join key進行join的時候,該表肯定不需要做數(shù)據重分布了,這種功能是以HDFS作為底層文件系統(tǒng)的hive所沒有的。

在默認情況下,hive的join策略是進行reduce side join。當兩個表中有一個是小表的時候,就可以考慮用map join了,因為小表復制的代價會好過大表shuffle的代價。使用map join的配置方法有兩種,一種直接在sql中寫hint,語法是/*+MAPJOIN (tbl)*/,其中tbl就是你想要做replication的表。另一種方法是設置hive.auto.convert.join = true,這樣hive會自動判斷當前的join操作是否合適做map join,主要是找join的兩個表中有沒有小表。至于多大的表算小表,則是由hive.smalltable.filesize決定,默認25MB。

但是有的時候,沒有一個表足夠小到能夠放進內存,但是還是想用map join怎么辦?這個時候就要用到bucket map join。其方法是兩個join表在join key上都做hash bucket,并且把你打算復制的那個(相對)小表的bucket數(shù)設置為大表的倍數(shù)。這樣數(shù)據就會按照join key做hash bucket。小表依然復制到所有節(jié)點,map join的時候,小表的每一組bucket加載成hashtable,與對應的一個大表bucket做局部join,這樣每次只需要加載部分hashtable就可以了。

然后在兩個表的join key都具有唯一性的時候(也就是可做主鍵),還可以進一步做sort merge bucket map join。做法還是兩邊要做hash bucket,而且每個bucket內部要進行排序。這樣一來當兩邊bucket要做局部join的時候,只需要用類似merge sort算法中的merge操作一樣把兩個bucket順序遍歷一遍即可完成,這樣甚至都不用把一個bucket完整的加載成hashtable,這對性能的提升會有很大幫助。

然后這里以一個完整的實驗說明這幾種join算法如何操作。

首先建表要帶上bucket:

  1. create table map_join_test(id int
  2. clustered by (id) sorted by (id) into 32 buckets 
  3. stored as textfile;  

然后插入我們準備好的800萬行數(shù)據,注意要強制劃分成bucket(也就是用reduce劃分hash值相同的數(shù)據到相同的文件):

  1. set hive.enforce.bucketing = true
  2. insert overwrite table map_join_test 
  3. select * from map_join_source_data;  

這樣這個表就有了800萬id值(且里面沒有重復值,所以可以做sort merge),占用80MB左右。

接下來我們就可以一一嘗試map join的算法了。首先是普通的map join:

  1. select /*+mapjoin(a) */count(*) 
  2. from map_join_test a 
  3. join map_join_test b on a.id = b.id;  

然后就會看到分發(fā)hash table的過程: 

  1. 2013-08-31 09:08:43     Starting to launch local task to process map join;      maximum memory = 1004929024 
  2. 2013-08-31 09:08:45     Processing rows:   200000  Hashtable size: 199999  Memory usage:   38823016        rate:   0.039 
  3. 2013-08-31 09:08:46     Processing rows:   300000  Hashtable size: 299999  Memory usage:   56166968        rate:   0.056 
  4. …… 
  5. …… 
  6. …… 
  7. 2013-08-31 09:12:39     Processing rows:  4900000 Hashtable size: 4899999 Memory usage:   896968104       rate:   0.893 
  8. 2013-08-31 09:12:47     Processing rows:  5000000 Hashtable size: 4999999 Memory usage:   922733048       rate:   0.918 
  9. Execution failed with exit status: 2 
  10. Obtaining error information 
  11.   
  12. Task failed! 
  13. Task ID: 
  14. Stage-4  

不幸的是,居然內存不夠了,直接做map join失敗了。但是80MB的大小為何用1G的heap size都放不下?觀察整個過程就會發(fā)現(xiàn),平均一條記錄需要用到200字節(jié)的存儲空間,這個overhead太大了。不過這里我也搞不清楚hive為什么需要這么大空間,是否可以修改,總之對于map join的小表size一定要好好評估,如果有幾十萬記錄數(shù)就要小心了。

所以接下來我們就用bucket map join,之前分的bucket就派上用處了。只需要在上述sql的前面加上如下的設置:

  1. set hive.optimize.bucketmapjoin = true

然后還是會看到hash table分發(fā): 

  1. 2013-08-31 09:20:39     Starting to launch local task to process map join;      maximum memory = 1004929024 
  2. 2013-08-31 09:20:41     Processing rows:   200000  Hashtable size: 199999  Memory usage:   38844832        rate:   0.039 
  3. 2013-08-31 09:20:42     Processing rows:   275567  Hashtable size: 275567  Memory usage:   51873632        rate:   0.052 
  4. 2013-08-31 09:20:42     Dump the hashtable into file: file:/tmp/hadoop/hive_2013-08-31_21-20-37_444_1135806892100127714/-local-10003/HashTable-Stage-1/MapJoin-a-10-000000_0.hashtable 
  5. 2013-08-31 09:20:46     Upload 1 File to: file:/tmp/hadoop/hive_2013-08-31_21-20-37_444_1135806892100127714/-local-10003/HashTable-Stage-1/MapJoin-a-10-000000_0.hashtable File size: 11022975 
  6. 2013-08-31 09:20:47     Processing rows:   300000  Hashtable size: 24432   Memory usage:   8470976 rate:   0.008 
  7. 2013-08-31 09:20:47     Processing rows:   400000  Hashtable size: 124432  Memory usage:   25368080        rate:   0.025 
  8. 2013-08-31 09:20:48     Processing rows:   500000  Hashtable size: 224432  Memory usage:   42968080        rate:   0.043 
  9. 2013-08-31 09:20:49     Processing rows:   551527  Hashtable size: 275960  Memory usage:   52022488        rate:   0.052 
  10. 2013-08-31 09:20:49     Dump the hashtable into file: file:/tmp/hadoop/hive_2013-08-31_21-20-37_444_1135806892100127714/-local-10003/HashTable-Stage-1/MapJoin-a-10-000001_0.hashtable 
  11. ……  

這次就會看到每次構建完一個hash table(也就是所對應的對應一個bucket),會把這個hash table寫入文件,重新構建新的hash table。這樣一來由于每個hash table的量比較小,也就不會有內存不足的問題,整個sql也能成功運行。不過光光是這個復制動作就要花去3分半的時間,所以如果整個job本來就花不了多少時間的,那這個時間就不可小視。

***我們試試sort merge bucket map join,在bucket map join的基礎上加上下面的設置即可:

  1. set hive.optimize.bucketmapjoin.sortedmerge = true
  2. set hive.input.format = org.apache.hadoop.hive.ql.io.BucketizedHiveInputFormat;  

sort merge bucket map join是不會產生hash table復制的步驟的,直接開始做實際map端join操作了,數(shù)據在join的時候邊做邊讀。跳過復制的步驟,外加join算法的改進,使得sort merge bucket map join的效率要明顯好于bucket map join。

關于join的算法雖然有這么些選擇,但是個人覺得,對于日常使用,掌握默認的reduce join和普通的(無bucket)map join已經能解決大多數(shù)問題。如果小表不能完全放內存,但是小表相對大表的size量級差別也非常大的時候也可以試試bucket map join,不過其hash table分發(fā)的過程會浪費不少時間,需要評估下是否能夠比reduce join更高效。而sort merge bucket map join雖然性能不錯,但是把數(shù)據做成bucket本身也需要時間,另外其發(fā)動條件比較特殊,就是兩邊join key必須都唯一(很多介紹資料中都不提這一點。強調下必須都是唯一,哪怕只有一個表不唯一,出來的結果也是錯的)。這樣的場景相對比較少見,“用戶基本表 join 用戶擴展表”以及“用戶今天的數(shù)據快照 join 用戶昨天的數(shù)據快照”這類場景可能比較合適。

數(shù)據傾斜

所謂數(shù)據傾斜,說的是由于數(shù)據分布不均勻,個別值集中占據大部分數(shù)據量,加上hadoop的計算模式,導致計算資源不均勻引起性能下降。

還是拿博客網站的訪問日志說事吧。假設網站訪問日志中會記錄用戶的user_id,并且對于注冊用戶使用其用戶表的user_id,對于非注冊用戶使用一個user_id=0代表。那么鑒于大多數(shù)用戶是非注冊用戶(只看不寫),所以user_id=0占據了絕大多數(shù)。而如果進行計算的時候如果以user_id作為group by的維度或者是join key,那么個別reduce會收到比其他reduce多得多的數(shù)據——因為它要接收所有user_id=0的記錄進行處理,使得其處理效果會非常差,其他reduce都跑完很久了它還在運行。

group by造成的傾斜和join造成的傾斜需要分開看。group by造成的傾斜有兩個參數(shù)可以解決,一個是hive.map.aggr,默認值已經為true,意思是會做map端的combiner。所以如果你的group by查詢只是做count(*)的話,其實是看不出傾斜效果的,但是如果你做的是count(distinct),那么還是會看出一點傾斜效果。另一個參數(shù)是hive.groupby.skewindata。這個參數(shù)的意思是做reduce操作的時候,拿到的key并不是所有相同值給同一個reduce,而是隨機分發(fā),然后reduce做聚合,做完之后再做一輪MR,拿前面聚合過的數(shù)據再算結果。所以這個參數(shù)其實跟hive.map.aggr做的是類似的事情,只是拿到reduce端來做,而且要額外啟動一輪job,所以其實不怎么推薦用,效果不明顯。

join造成的傾斜就比如上面描述的網站訪問日志和用戶表兩個表join:

  1. select a.* from logs a join users b on a.user_id = b.user_id; 

hive給出的解決方案是,把這種user_id = 0的特殊值先不在reduce端計算掉,而是先寫入hdfs,然后啟動一輪map join專門做這個特殊值的計算,期望能提高計算這部分值的處理速度。當然你要告訴hive這個join是個skew join,即set hive.optimize.skewjoin = true;還有要告訴hive如何判斷特殊值,根據hive.skewjoin.key設置的數(shù)量hive可以知道,比如默認值是100000,那么超過100000條記錄的值就是特殊值。

另外對于特殊值的處理往往跟業(yè)務有關系,所以也可以從業(yè)務角度重寫sql解決。比如前面這種傾斜join,可以把特殊值隔離開來(從業(yè)務角度說,users表應該不存在user_id = 0的情況,但是這里還是假設有這個值,使得這個寫法更加具有通用性): 

  1. select a.* from 
  2. select a.* 
  3. from (select * from logs where user_id = 0)  a 
  4. join (select * from users where user_id = 0) b 
  5. on a.user_id =  b.user_id 
  6. union all 
  7. select a.* 
  8. from logs a join users b 
  9. on a.user_id <> 0 and a.user_id = b.user_id 
  10. )t;  

SQL整體優(yōu)化

前面對于單個job如何做優(yōu)化已經做過詳細討論,但是hive查詢會生成多個job,針對多個job,有什么地方需要優(yōu)化?

首先,在hive生成的多個job中,在有些情況下job之間是可以并行的,典型的就是子查詢。當需要執(zhí)行多個子查詢union all或者join操作的時候,job間并行就可以使用了。比如下面的代碼就是一個可以并行的場景示意: 

  1. select * from 
  2. select count(*) from logs 
  3. where log_date = 20130801 and item_id = 1 
  4. union all 
  5. select count(*) from logs 
  6. where log_date = 20130802 and item_id = 2 
  7. union all 
  8. select count(*) from logs 
  9. where log_date = 20130803 and item_id = 3 
  10. ) t

設置job間并行的參數(shù)是hive.exec.parallel,將其設為true即可。默認的并行度***為8,也就是允許sql中8個job并行。如果想要更高的并行度,可以通過hive.exec.parallel. thread.number參數(shù)進行設置,但要避免設置過大而占用過多資源。

另外在實際開發(fā)過程中也發(fā)現(xiàn),一些實現(xiàn)思路會導致生成多余的job而顯得不夠高效。比如這個需求:取出cnblog某一天訪問日志中同時看過博主“小張”和博主“小李”的人數(shù)。低效的思路是面向明細的,先取出看過博主“小張”的用戶,再取出看過博主“小李”的用戶,然后取交集,代碼如下: 

  1. select count(*) from 
  2. (select distinct user_id 
  3.  from cnblogs_visit_20130801 where blog_owner = ‘小張’) a 
  4. join 
  5. (select distinct user_id 
  6.  from cnblogs_visit_20130801 where blog_owner = ‘小李’) b 
  7. on a.user_id = b.user_id;  

這樣一來,就要產生2個求子查詢的job(當然,可以并行),一個join job,還有一個計算count的job。

但是我們直接用面向統(tǒng)計的方法去計算的話,則會更加符合M/R的模式: 

  1. select count(*) from 
  2.  select user_id, 
  3.  count(case when blog_owner = ‘小張’ then 1 endas visit_z, 
  4.  count(case when blog_owner = ‘小李’ then 1 endas visit_l 
  5.  from cnblogs_visit_20130801 group by user_id 
  6. ) t 
  7. where visit_z > 0 and visit_l > 0;  

這種實現(xiàn)方式轉換成job就只會有2個:內層的子查詢和外層的統(tǒng)計,更少的job也就帶來更高效的執(zhí)行結果。

***種查詢方法符合思考問題的直覺,是工程師和分析師在實際查數(shù)據中***想到的寫法,然而想要更加快速的跑出結果,懂一點工具的內部機理,也是必須的。

【本文為51CTO專欄作者“王森豐”的原創(chuàng)稿件,轉載請注明出處】

責任編輯:龐桂玉 來源: 神算子
相關推薦

2021-04-15 07:40:44

數(shù)據倉庫Hive環(huán)境搭建

2013-03-20 16:23:53

數(shù)據清洗

2023-08-14 16:56:53

2018-03-15 08:50:46

Hive-數(shù)據存儲

2016-11-08 09:16:54

數(shù)據倉庫優(yōu)化

2017-02-28 09:21:56

HadoopHive數(shù)據倉庫

2010-07-20 09:26:17

SQL Server

2023-12-13 07:26:24

數(shù)據湖倉數(shù)據倉庫性能

2021-09-01 10:03:44

數(shù)據倉庫云數(shù)據倉庫數(shù)據庫

2022-06-24 09:38:43

數(shù)據庫大數(shù)據

2009-01-19 14:48:02

ETL優(yōu)化過程原理

2025-03-25 10:49:24

2010-06-30 08:20:05

SQL Server

2016-08-15 12:57:01

數(shù)據倉庫索引架構維度索引

2009-01-20 14:22:49

ODS數(shù)據倉庫教程

2023-10-08 16:26:23

數(shù)據倉庫

2017-05-16 10:23:51

數(shù)據倉庫拉鏈表

2009-02-25 08:56:26

數(shù)據倉庫SQL Server SQL Server

2009-02-24 12:14:27

微軟SQLServer20數(shù)據倉庫

2009-01-19 15:52:20

OracleOSFA數(shù)據倉庫
點贊
收藏

51CTO技術棧公眾號