自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

mapreduce top n實現(xiàn)方式實例

云計算
在最初接觸mapreduce時,top n 問題的解決辦法是將mapreduce輸出(排序后)放入一個集合中,取前n個,但這種寫法過于簡單,內(nèi)存能夠加載的集合的大小是有上限的,一旦數(shù)據(jù)量大,很容易出現(xiàn)內(nèi)存溢出。今天在這里介紹另一種實現(xiàn)方式,雖然也不是最好的方式,但能有效得到top 最大的前n條記錄。

在最初接觸mapreduce時,top n 問題的解決辦法是將mapreduce輸出(排序后)放入一個集合中,取前n個,但這種寫法過于簡單,內(nèi)存能夠加載的集合的大小是有上限的,一旦數(shù)據(jù)量大,很容易出現(xiàn)內(nèi)存溢出。

今天在這里介紹另一種實現(xiàn)方式,當然這也不是***的方式,不過正所謂一步一個腳印,邁好每一步,以后的步伐才能更堅定,哈哈說了點題外話。恩恩,以后還會有更好的方式需求,得到top ***的前n條記錄。

這里只給出一些核心的代碼,其他job等配置的代碼略。

Configuration conf = new Configuration(); 

conf.setInt("N"5); 

初始化job之前需要 conf.setInt("N",5); 意在在mapreduce階段讀取N,N就代表著top N。

以下是map

 

  1. package com.lzz.one; 
  2. import java.io.IOException; 
  3. import java.util.Arrays; 
  4. import org.apache.hadoop.io.IntWritable; 
  5. import org.apache.hadoop.io.LongWritable; 
  6. import org.apache.hadoop.io.Text; 
  7. import org.apache.hadoop.mapreduce.Mapper; 
  8.   
  9.   
  10. /** 
  11.  * topN 
  12. *  #orderid,userid,payment,productid 
  13. * [root@x00 hd]# cat seventeen_a.txt 
  14. * 1,9819,100,121 
  15. * 2,8918,2000,111 
  16. * 3,2813,1234,22 
  17. * 4,9100,10,1101 
  18. * 5,3210,490,111 
  19. * 6,1298,28,1211 
  20. * 7,1010,281,90 
  21. * 8,1818,9000,20 
  22. * [root@x00 hd]# cat seventeen_b.txt 
  23. * 100,3333,10,100 
  24. * 101,9321,1000,293 
  25. * 102,3881,701,20 
  26. * 103,6791,910,30 
  27. * 104,8888,11,39 
  28.    
  29. * 預測結果:(求 Top N=5 的結果) 
  30. * 1 9000 
  31. * 2 2000 
  32. * 3 1234 
  33. * 4 1000 
  34. * 5 910 
  35.  * @author Administrator 
  36.  * 
  37.  */ 
  38. public class TopNMapper extends Mapper<LongWritable, Text, IntWritable, IntWritable>{ 
  39.     int len; 
  40.     int top[]; 
  41.     @Override 
  42.     public void setup(Context context) throws IOException,InterruptedException { 
  43.         len = context.getConfiguration().getInt("N"10); 
  44.         top = new int[len+1]; 
  45.     } 
  46.    
  47.     @Override 
  48. public void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException { 
  49.     String line = value.toString(); 
  50.     String arr []= line.split(","); 
  51.     if(arr != null && arr.length == 4){ 
  52.         int pay = Integer.parseInt(arr[2]); 
  53.         add(pay); 
  54.     } 
  55.   
  56.   
  57. public void add(int pay){ 
  58.     top[0] = pay; 
  59.     Arrays.sort(top); 
  60.    
  61. @Override 
  62. public void cleanup(Context context) throws IOException,InterruptedException { 
  63.     for(int i=1;i<=len;i++){ 
  64.         <span></span>context.write(new IntWritable(top[i]),new IntWritable(top[i])); 
  65.     <span></span>} 
  66.  } 
  67.    
  68.   
  69.    
  70.    
  71.    
  72.    
  73.  <div> 
  74.   
  75.   
  76.    
  77.    
  78.    
  79.    
  80.  </div> 

接下來是reduce

  1. package com.lzz.one; 
  2.  
  3. import java.io.IOException; 
  4. import java.util.Arrays; 
  5.  
  6. import org.apache.hadoop.io.IntWritable; 
  7. import org.apache.hadoop.mapreduce.Reducer; 
  8.  
  9. public class TopNReduce extends Reducer<IntWritable, IntWritable, IntWritable, IntWritable>{ 
  10. int len; 
  11. int top[]; 
  12. @Override 
  13. public void setup(Context context) 
  14. throws IOException, InterruptedException { 
  15. len = context.getConfiguration().getInt("N"10); 
  16. top = new int[len+1]; 
  17.  
  18. @Override 
  19. public void reduce(IntWritable key, Iterable<IntWritable> values, 
  20. Context context) 
  21. throws IOException, InterruptedException { 
  22. for(IntWritable val : values){ 
  23. add(val.get()); 
  24.  
  25. public void add(int pay){ 
  26. top[0] = pay; 
  27. Arrays.sort(top); 
  28.  
  29. @Override 
  30. public void cleanup(Context context) 
  31. throws IOException, InterruptedException { 
  32. for(int i=len;i>0;i--){ 
  33. context.write(new IntWritable(len-i+1),new IntWritable(top[i])); 

說一下邏輯,雖然畫圖比較清晰,但是時間有限,畫圖水平有限,只用語言來描述吧,希望能說的明白。

如果要取top 5,則應該定義一個長度為為6的數(shù)組,map所要做的事情就是將每條日志的那個需要排序的字段放入數(shù)組***個元素中,調(diào)用Arrays.sort(Array[])方法可以將數(shù)組按照正序,從數(shù)字角度說是從小到大排序,比如***條記錄是9000,那么排序結果是[0,0,0,0,0,9000],第二條日志記錄是8000,排序結果是[0,0,0,0,8000,9000],第三條日志記錄是8500,排序結果是[0,0,0,8000,8500,9000],以此類推,每次放進去一個數(shù)字如果大于數(shù)組里面最小的元素,相當于將最小的覆蓋掉了,也就是說數(shù)組中元素永遠是拿到日志中***的那些個記錄。

ok,map將數(shù)組原封不動按照順序輸出,reduce接收到從每個map拿到的五個排好序的元素,在進行跟map一樣的排序,排序后數(shù)組里面就是按照從小到大排好序的元素,將這些元素倒序輸出就是最終我們要的結果了。

與之前的方式做個比較,之前的map做的事情很少,在reduce中排序后哪前5條,reduce的壓力是很大的,要把所有的數(shù)據(jù)都處理一遍,而一般設置reduce的個數(shù)較少,一旦數(shù)據(jù)較多,reduce就會承受不了,悲劇了。而現(xiàn)在的方式巧妙的將reduce的壓力轉移到了map,而map是集群效應的,很多臺服務器來做這件事情,減少了一臺機器上的負擔,每個map其實只是輸出了5個元素而已,如果有5個map,其實reduce才對5*5個數(shù)據(jù)進行了操作,也就不會出現(xiàn)內(nèi)存溢出等問題了。

原文出自:http://my.oschina.net/u/1378204/blog/343666

責任編輯:Ophira 來源: 壞壞一笑的博客
相關推薦

2010-05-26 13:03:34

MySQL top n

2010-05-26 11:00:57

MySQL top n

2010-05-05 09:03:07

Oracle實現(xiàn)top

2010-05-06 15:38:10

Oracle實現(xiàn)SEL

2010-04-23 10:42:20

Oracle實現(xiàn)

2010-04-30 10:40:19

Oracle實現(xiàn)

2010-04-21 10:23:13

Oracle實現(xiàn)

2014-10-15 16:32:43

MapReducehadoop

2013-12-17 10:39:24

命令top

2021-07-26 08:31:17

算法

2010-06-03 14:33:56

HadoopStudi

2021-11-02 07:44:36

CSS 技巧進度條

2010-06-07 13:35:16

Hadoop簡介

2022-03-18 09:42:54

JavaString

2023-03-06 09:20:33

CSS顏色混合

2009-03-10 10:01:00

WLAN802.11n

2010-06-03 16:18:07

Hadoop MapR

2021-12-06 08:31:18

Oracle數(shù)據(jù)庫后端開發(fā)

2009-09-09 14:40:15

C# XML解析

2010-06-22 13:23:18

Linux at命令詳
點贊
收藏

51CTO技術棧公眾號