自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="rqwys"><p id="rqwys"></p></sub>^{<blockquote id="rqwys"></blockquote>}

<cite id="rqwys"><track id="rqwys"></track></cite>

<legend id="rqwys"><track id="rqwys"><dfn id="rqwys"></dfn></track></legend>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

三臺(tái)主機(jī)建立Hadoop小集群

作者：石頭兒 2012-05-21 09:42:12

開(kāi)發(fā) 開(kāi)發(fā)工具 Hadoop

我們將介紹如何用三臺(tái)主機(jī)建立Hadoop小集群，先用VMWare安裝三臺(tái)虛擬機(jī)（可以先安裝一臺(tái)，然后clone兩臺(tái)），按照節(jié)點(diǎn)安排及網(wǎng)絡(luò)拓?fù)渑渲镁W(wǎng)絡(luò)。

部署環(huán)境：

OS：Redhat 5.5 Enterprise

JDK：jdk1.6.0_32

Hadoop：Hadoop-0.20.2

VMWare：7.0

節(jié)點(diǎn)安排及網(wǎng)絡(luò)拓?fù)洌?/strong>

節(jié)點(diǎn)類(lèi)型　　　　　　節(jié)點(diǎn)IP　　　　　　節(jié)點(diǎn)hostname

master節(jié)點(diǎn)　　　　 192.168.40.5　　master

slave節(jié)點(diǎn)　　　　　 192.168.40.5　　master(此時(shí)，master既是master節(jié)點(diǎn)，也是slave節(jié)點(diǎn))

　　　　　　　　　　192.168.40.6　　salve1

　　　　　　　　　　192.168.40.7　　slave2

secondaryName節(jié)點(diǎn)192.168.40.5　　master(此時(shí)，master既是master節(jié)點(diǎn)，也是slave節(jié)點(diǎn)，也是secondaryNameNode)

配置步驟：

一、網(wǎng)絡(luò)配置

首先關(guān)閉三臺(tái)虛擬機(jī)的防火墻，步驟可參考：關(guān)閉防火墻

先用VMWare安裝三臺(tái)虛擬機(jī)（可以先安裝一臺(tái)，然后clone兩臺(tái)），按照節(jié)點(diǎn)安排及網(wǎng)絡(luò)拓?fù)渑渲镁W(wǎng)絡(luò)，先配置master節(jié)點(diǎn)的網(wǎng)絡(luò)：

① 靜態(tài)網(wǎng)絡(luò)IP配置見(jiàn)VMware Redhat網(wǎng)絡(luò)配置，分別將三臺(tái)虛擬機(jī)的IP進(jìn)行設(shè)置

② 修改主機(jī)名：vi /etc/hosts(解析IP要用)，添加

192.168.40.5 master
192.168.40.6 slave1
192.168.40.7 slave2

③ 按照此過(guò)程及相同數(shù)據(jù)(除了IP地址不同)對(duì)三臺(tái)虛擬機(jī)進(jìn)行配置

二、安裝jdk

Hadoop 是用java開(kāi)發(fā)的，Hadoop的編譯及mapreduce的運(yùn)行都需要使用JDK，所以JDK是必須安裝的

① 下載jdk，http://www.oracle.com/technetwork/java/javase/downloads/index.html

② 在用戶根目錄下，建立bin文件夾：mkdir ~/bin（也可放在其他處，個(gè)人習(xí)慣而已）

③ 改變執(zhí)行權(quán)限：chmod u+x jdk-6u26-linux-i586.bin

④ 執(zhí)行文件：sudo -s ./jdk-6u26-linux-i586.bin，一路確定

⑤ 配置環(huán)境變量：vi ~/.bash_profile,添加：

export JAVA_HOME=/root/bin/jdk1.6.0_32
export PATH=$PATH:$JAVA_HOME/bin

⑥ 使profile文件生效：source ~/.bash_profile

⑦ 驗(yàn)證是否配置成功：which java

[root@master ~]# which java
/root/bin/jdk1.6.0_32/bin/java 配置生效。也可輸入java -version, java, javac進(jìn)一步確定

⑧ 分別相同配置另外兩臺(tái)主機(jī)

<JDK Installation End>

三、建立ssh互信

hadoop 需要通過(guò)ssh互信來(lái)啟動(dòng)slave里表中各個(gè)主機(jī)的守護(hù)進(jìn)程，所以SSH是必須安裝的（redhat 5.5 Enterprise 以默認(rèn)安裝）。但是是否建立ssh互信（即無(wú)密碼登陸）并不是必須的，但是如果不配置，每次啟動(dòng)hadoop，都需要輸入密碼以便登錄到每臺(tái)機(jī)器的Datanode上，而一般的hadoop集群動(dòng)輒數(shù)百或數(shù)千臺(tái)機(jī)器，因此一般來(lái)說(shuō)都會(huì)配置ssh互信。

① 生成密鑰并配置ssh無(wú)密碼登陸主機(jī)(在master主機(jī))

ssh -keygen -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

② 將authorized_keys文件拷貝到兩臺(tái)slave主機(jī)

scp authorized_keys slave1:~/.ssh/
scp authorized_keys slave2:~/.ssh/

③ 檢查是否可以從master無(wú)密碼登陸slave機(jī)

ssh slave1(在master主機(jī)輸入) 登陸成功則配置成功，exit退出slave1返回master

四、配置Hadoop

① 下載：點(diǎn)擊到下載頁(yè)面，選擇hadoop-0.20.2.tar.gz

② 放到~/bin下解壓： tar -xzvf hadoop-0.20.2.tar.gz

③ 解壓后進(jìn)入：~/bin/hadoop-0.20.2/conf/，修改配置文件：

修改hadoop-env.sh:

export JAVA_HOME=/root/bin/jdk1.6.0_32轉(zhuǎn)載注明出處：博客園石頭兒 http://www.cnblogs.com/shitouer/
hadoop-env.sh里面有這一行，默認(rèn)是被注釋的，只需要把注釋去掉，并且把JAVA_HOME 改成你的java安裝目錄即可

修改core-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>



<configuration>
  <property>
    <name>fs.default.name</name>
    <value>hdfs://master:9000</value>
  </property>
  <property>
    <name>Hadoop.tmp.dir</name>
    <value>/tmp/hadoop-root</value>
  </property>
</configuration>

轉(zhuǎn)載注明出處：博客園石頭兒 http://www.cnblogs.com/shitouer/

注釋一：hadoop分布式文件系統(tǒng)文件存放位置都是基于hadoop.tmp.dir目錄的，namenode的名字空間存放地方就是 ${hadoop.tmp.dir}/dfs/name, datanode數(shù)據(jù)塊的存放地方就是 ${hadoop.tmp.dir}/dfs/data，所以設(shè)置好hadoop.tmp.dir目錄后，其他的重要目錄都是在這個(gè)目錄下面，這是一個(gè)根目錄。

注釋二：fs.default.name,設(shè)置namenode所在主機(jī)，端口號(hào)是9000

注釋三：core-site.xml 對(duì)應(yīng)有一個(gè)core-default.xml, hdfs-site.xml對(duì)應(yīng)有一個(gè)hdfs-default.xml,mapred-site.xml對(duì)應(yīng)有一個(gè)mapred-default.xml。這三個(gè)defalult文件里面都有一些默認(rèn)配置，現(xiàn)在我們修改這三個(gè)site文件，目的就覆蓋default里面的一些配置

修改hdfs-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>



<configuration>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>
</configuration>

dfs.replication，設(shè)置數(shù)據(jù)塊的復(fù)制次數(shù)，默認(rèn)是3，如果slave節(jié)點(diǎn)數(shù)少于3，則寫(xiě)成相應(yīng)的1或者2

修改mapred-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>



<configuration>
  <property>
    <name>mapred.job.tracker</name>
    <value>http://master:9001</value>
  </property>
</configuration>

mapred.job.tracker，設(shè)置jobtracker所在機(jī)器，端口號(hào)9001

修改masters

master

雖然masters內(nèi)寫(xiě)的是master，但是個(gè)人感覺(jué)，這個(gè)并不是指定master節(jié)點(diǎn)，而是配置secondaryNameNode

修改slaves

master
slave1
slave2

配置了集群中所有slave節(jié)點(diǎn)

④ 添加hadoop環(huán)境變量，并 source ~/.bash_profile使之生效

export JAVA_HOME=/root/bin/jdk1.6.0_32
export HADOOP_HOME=/root/bin/hadoop-0.20.2
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin

⑤ 將已經(jīng)配置好的hadoop-0.20.2，分別拷貝到另外兩臺(tái)主機(jī)，并做相同配置

⑥ 此時(shí)，hadoop的集群配置已經(jīng)完成，輸入hadoop，則可看到hadoop相關(guān)的操作

[root@master ~]# hadoop
Usage: hadoop [--config confdir] COMMAND
where COMMAND is one of:
  namenode -format     format the DFS filesystem
  secondarynamenode    run the DFS secondary namenode
  namenode             run the DFS namenode
  datanode             run a DFS datanode
  dfsadmin             run a DFS admin client
  mradmin              run a Map-Reduce admin client
  fsck                 run a DFS filesystem checking utility
  fs                   run a generic filesystem user client
  balancer             run a cluster balancing utility
  jobtracker           run the MapReduce job Tracker node
  pipes                run a Pipes job
  tasktracker          run a MapReduce task Tracker node
  job                  manipulate MapReduce jobs
  queue                get information regarding JobQueues
  version              print the version
  jar <jar>            run a jar file
  distcp <srcurl> <desturl> copy file or directories recursively
  archive -archiveName NAME <src>* <dest> create a hadoop archive
  daemonlog            get/set the log level for each daemon
or
  CLASSNAME            run the class named CLASSNAME
Most commands print help when invoked w/o parameters.

⑦ 此時(shí)，首先格式化hadoop

在命令行里執(zhí)行，hadoop namenode -format

⑧ 啟動(dòng)hadoop

在命令行里執(zhí)行，start-all.sh，或者執(zhí)行start-dfs.sh,再執(zhí)行start-mapred.sh

⑨ 輸入jps，查看啟動(dòng)的服務(wù)進(jìn)程

master節(jié)點(diǎn)：[root@master ~]# jps
25429 SecondaryNameNode
25500 JobTracker
25201 NameNode
25328 DataNode
18474 Jps
25601 TaskTracker

slave節(jié)點(diǎn)：[root@slave1 ~]# jps
4469 TaskTracker
4388 DataNode
29622 Jps

如上顯示，則說(shuō)明相應(yīng)的服務(wù)進(jìn)程都啟動(dòng)成功了。

圈10(額，像①一樣的圈出不來(lái)了(⊙o⊙)) 查看hdfs分布式文件系統(tǒng)的文件目錄結(jié)構(gòu)

hadoop fs -ls /

此時(shí)發(fā)現(xiàn)為空，因?yàn)榇_實(shí)什么也沒(méi)有，運(yùn)行一下命令，則可創(chuàng)建一個(gè)文件夾：

hadoop fs -mkdir /newDir

再次執(zhí)行hadoop fs -ls /，則會(huì)看到newDir文件夾，關(guān)于hadoop fs 命令，參見(jiàn)：HDFS 命令

圈11 運(yùn)行hadoop 類(lèi)似hello world的程序

本來(lái)，都是以word count來(lái)運(yùn)行的，但是還得建文件夾之類(lèi)的，有一個(gè)更簡(jiǎn)單的，就是example中的計(jì)算π值的程序，我們來(lái)計(jì)算一下，進(jìn)入hadoop目錄，運(yùn)行如下：

[root@slave1 hadoop-0.20.2]# hadoop jar hadoop-0.20.2-examples.jar pi 4 2
Number of Maps  = 4
Samples per Map = 2
Wrote input for Map #0
Wrote input for Map #1
Wrote input for Map #2
Wrote input for Map #3
Starting Job
12/05/20 09:45:19 INFO mapred.FileInputFormat: Total input paths to process : 4
12/05/20 09:45:19 INFO mapred.JobClient: Running job: job_201205190417_0005
12/05/20 09:45:20 INFO mapred.JobClient:  map 0% reduce 0%
12/05/20 09:45:30 INFO mapred.JobClient:  map 50% reduce 0%
12/05/20 09:45:31 INFO mapred.JobClient:  map 100% reduce 0%
12/05/20 09:45:45 INFO mapred.JobClient:  map 100% reduce 100%
12/05/20 09:45:47 INFO mapred.JobClient: Job complete: job_201205190417_0005
12/05/20 09:45:47 INFO mapred.JobClient: Counters: 18
12/05/20 09:45:47 INFO mapred.JobClient:   Job Counters
12/05/20 09:45:47 INFO mapred.JobClient:     Launched reduce tasks=1
12/05/20 09:45:47 INFO mapred.JobClient:     Launched map tasks=4
12/05/20 09:45:47 INFO mapred.JobClient:     Data-local map tasks=4
12/05/20 09:45:47 INFO mapred.JobClient:   FileSystemCounters
12/05/20 09:45:47 INFO mapred.JobClient:     FILE_BYTES_READ=94
12/05/20 09:45:47 INFO mapred.JobClient:     HDFS_BYTES_READ=472
12/05/20 09:45:47 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=334
12/05/20 09:45:47 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=215
12/05/20 09:45:47 INFO mapred.JobClient:   Map-Reduce Framework
12/05/20 09:45:47 INFO mapred.JobClient:     Reduce input groups=8
12/05/20 09:45:47 INFO mapred.JobClient:     Combine output records=0
12/05/20 09:45:47 INFO mapred.JobClient:     Map input records=4
12/05/20 09:45:47 INFO mapred.JobClient:     Reduce shuffle bytes=112
12/05/20 09:45:47 INFO mapred.JobClient:     Reduce output records=0
12/05/20 09:45:47 INFO mapred.JobClient:     Spilled Records=16
12/05/20 09:45:47 INFO mapred.JobClient:     Map output bytes=72
12/05/20 09:45:47 INFO mapred.JobClient:     Map input bytes=96
12/05/20 09:45:47 INFO mapred.JobClient:     Combine input records=0
12/05/20 09:45:47 INFO mapred.JobClient:     Map output records=8
12/05/20 09:45:47 INFO mapred.JobClient:     Reduce input records=8
Job Finished in 28.952 seconds
Estimated value of Pi is 3.50000000000000000000

計(jì)算PI值為3.5，還算靠近，至于輸出log日志，就不介紹了，以后學(xué)的稍微深入，可多做了解。

Hadoop 三節(jié)點(diǎn)集群的配置就介紹到這里，接下來(lái)，會(huì)介紹一下如何在windows中遠(yuǎn)程連接hadoop，并配置eclipse來(lái)進(jìn)行MapReduce的開(kāi)發(fā)和調(diào)試。

原文鏈接：http://www.cnblogs.com/shitouer/archive/2012/05/21/2511060.html

【編輯推薦】

Apache .htaccess文件的8個(gè)用法

Hadoop 從Yahoo向Google的技術(shù)轉(zhuǎn)折

Hadoop集群與Hadoop性能優(yōu)化

Facebook實(shí)時(shí)信息系統(tǒng)：HBase每月存儲(chǔ)1350億條信息

責(zé)任編輯：彭凡來(lái)源：博客園

Hadoop

分享到微信

微信掃碼分享

分享到微博

相關(guān)推薦

在Docker上建立多節(jié)點(diǎn)的Hadoop集群
在上篇文章中你已經(jīng)看到了在你的devbox創(chuàng)建一個(gè)單點(diǎn)Hadoop集群是多么簡(jiǎn)單?，F(xiàn)在我們提高門(mén)檻，在Docker上創(chuàng)建一個(gè)多點(diǎn)hadoop集群。

2014-07-01 09:53:21

Docker Hadoop集群

超酷的Unix終端/控制臺(tái)工具小集合
這里會(huì)列出32個(gè)命令行下的工具。它們有些不為人知，有些非常有用，有些晦澀難懂——我希望你能夠找到一些你還不知道的有用工具！

2014-03-21 11:08:17

Unix終端 Unix

Linux命令小集
Linux應(yīng)用發(fā)展很快，命令在Linux中表現(xiàn)了很強(qiáng)的生命力。Linux是一個(gè)命令行組成的操作系統(tǒng),精髓在命令，Linux命令有許多強(qiáng)大的功能：從簡(jiǎn)單的磁盤(pán)操作、文件存取、到進(jìn)行復(fù)雜的多媒體圖象和流媒體文件的制作。這篇文章詳細(xì)的講下Linux常用命令，來(lái)幫助大家更有效的學(xué)習(xí)Linux。

2011-01-07 11:00:49

Linux命令

利用heartbeat實(shí)現(xiàn)三臺(tái)主機(jī)自動(dòng)切換網(wǎng)絡(luò)參數(shù)
本文利用heartbeat實(shí)現(xiàn)三臺(tái)主機(jī)自動(dòng)切換網(wǎng)絡(luò)參數(shù)，即兩主一備。

2012-02-17 00:01:21

heartbeat 節(jié)點(diǎn)高可用

vsftpd建立虛擬主機(jī)
下面我們來(lái)進(jìn)行一下vsftpd的虛擬主機(jī)的建立。那么對(duì)于前面的用戶建立我們這里在簡(jiǎn)單地回顧一下。然后具體的過(guò)程已經(jīng)為大家總結(jié)好了。

2010-07-01 13:35:51

vsftpd

如何在單臺(tái)虛擬主機(jī)與故障切換集群之間取舍？
和使用物理服務(wù)器相比，服務(wù)器虛擬化提供了數(shù)不清的優(yōu)勢(shì)，但它至少有一個(gè)明顯的不足之處。虛擬環(huán)境中主機(jī)發(fā)生故障帶來(lái)的后果要比在物理服務(wù)器環(huán)境中更嚴(yán)重。

2017-08-15 15:00:50

虛擬主機(jī)集群服務(wù)器

三大方法保護(hù)Hadoop集群免遭攻擊！
自今年以來(lái)，不少惡意軟件開(kāi)始頻繁向Hadoop集群服務(wù)器下手，受影響最大的莫過(guò)于連接到互聯(lián)網(wǎng)且沒(méi)有啟用安全防護(hù)的Hadoop集群。

2018-11-12 13:45:05

Hadoop 攻擊互聯(lián)網(wǎng)

Hadoop 集群搭建
VirtualBox的虛擬機(jī)有多種網(wǎng)絡(luò)配置模式，包括：橋接、網(wǎng)絡(luò)地址轉(zhuǎn)換(NAT)、NAT、僅主機(jī)等。

2016-10-27 09:37:10

Hadoop 集群配置

Hadoop集群搭建
本文主要像大家介紹有關(guān)Hadoop集群搭建，從配置環(huán)境到簡(jiǎn)單的命令啟動(dòng)一一進(jìn)行了講解。希望對(duì)于想接觸hadoop的你有所幫助。

2011-12-07 16:11:50

Hadoop 集群搭建

JBoss集群中建立JMS集群服務(wù)
本文介紹JBoss集群中建立JMS集群，JMS集群的意義在于提升系統(tǒng)在處理消息時(shí)的并發(fā)能力。

2009-06-12 17:45:16

JMS集群 JBoss集群

Hadoop集群與Hadoop性能優(yōu)化
本文講解一下Hadoop集群、Hadoop性能優(yōu)化、Hadoop機(jī)架感知實(shí)現(xiàn)、Hadoop配置等，下面是有關(guān)這些命令的具體介紹。

2010-05-24 14:59:29

Hadoop集群

探秘淘寶Hadoop集群
據(jù)悉，淘寶Hadoop集群擁有2860個(gè)節(jié)點(diǎn)，清一色基于英特爾處理器的x86服務(wù)器，其總存儲(chǔ)容量50PB，實(shí)際使用容量超過(guò)40PB，日均作業(yè)數(shù)高達(dá)15萬(wàn)，為淘寶網(wǎng)的日常運(yùn)營(yíng)做出了關(guān)鍵支撐。對(duì)了，它還有一個(gè)很美麗的名字：“云梯”。

2012-09-10 15:18:11

云梯淘寶大數(shù)據(jù)

使用VMware主機(jī)客戶端管理單臺(tái)ESXi主機(jī)
VMware主機(jī)客戶端管理主機(jī)資源，包括虛擬機(jī)、網(wǎng)絡(luò)、存儲(chǔ)，當(dāng)vCenter以及vSphereWeb客戶端不可用時(shí)，對(duì)單個(gè)虛擬或者主機(jī)進(jìn)行故障診斷。VMware主機(jī)客戶端最初是由VMwareLabs開(kāi)發(fā)的一個(gè)fling，現(xiàn)在被集成到ESXi部署中。

2017-08-13 08:29:12

VMware 客戶端主機(jī)

京東萬(wàn)臺(tái)規(guī)模Hadoop集群 | 分布式資源管理與作業(yè)調(diào)度
為了增加生產(chǎn)效率和節(jié)約成本，必須要將之前分散在各處的集群資源統(tǒng)一管理起來(lái)，組成一個(gè)超大集群對(duì)外提供服務(wù)，并且要讓各種并行框架可以利用它的存儲(chǔ)和計(jì)算資源進(jìn)行業(yè)務(wù)處理。

2018-07-17 15:05:34

京東 Hadoop集群分布式資源管理

Hadoop高可用集群部署
在master節(jié)點(diǎn)中使用yarnrmadmingetAllServiceState命令查看各個(gè)節(jié)點(diǎn)ResourceManager狀態(tài)，接下來(lái)停止active狀態(tài)節(jié)點(diǎn)的ResourceManage進(jìn)程，ResourceManageactive自動(dòng)跳轉(zhuǎn)到其他節(jié)點(diǎn)，集群仍可用，隨后再啟動(dòng)該節(jié)點(diǎn)ResourceManager進(jìn)程，最后再次查看狀態(tài)，F(xiàn)ailed狀態(tài)恢復(fù)為standby。

2023-11-07 07:30:18

Hadoop 高可用

100個(gè)IP可以服務(wù)多少臺(tái)主機(jī)？
對(duì)于私有IP的存在意義，很多解釋也都說(shuō)是為了解決IPv4不夠用的問(wèn)題，可是從本文看，似乎不用區(qū)分私有IP，純用NAT就能解決問(wèn)題了，那私有IP被劃分出來(lái)的意義是什么呢？

2024-06-13 11:47:17

Hadoop集群系列5:Hadoop安裝配置
本文為Hadoop集群系列第五篇，SecureCRT是一款支持SSH（SSH1和SSH2）的終端仿真程序，同時(shí)支持Telnet和rlogin協(xié)議。

2012-06-25 10:30:06

Hadoop集群

用vsftpd代碼完成虛擬主機(jī)的建立
文章中，我們對(duì)于代碼中的一些vsftpd的運(yùn)用，完成虛擬主機(jī)的建立的過(guò)程進(jìn)行了分析和講解。希望能夠給大家一個(gè)參考作用。

2010-07-13 15:23:10

vsftpd

如何在Hadoop上建立數(shù)據(jù)倉(cāng)庫(kù)
大數(shù)據(jù)平臺(tái)上的數(shù)據(jù)倉(cāng)庫(kù)是許多組織正在探索的標(biāo)準(zhǔn)用例。采用這種方法的原因可能是大數(shù)據(jù)平臺(tái)提供的許多靈活性之一。

2020-04-06 13:52:45

數(shù)據(jù)倉(cāng)庫(kù)大數(shù)據(jù)平臺(tái)Hadoop

Hadoop集群10：MapReduce初級(jí)案例
本文為Hadoop集群系列第九。"數(shù)據(jù)去重"主要是為了掌握和利用并行化思想來(lái)對(duì)數(shù)據(jù)進(jìn)行有意義的篩選。統(tǒng)計(jì)大數(shù)據(jù)集上的數(shù)據(jù)種類(lèi)個(gè)數(shù)、從網(wǎng)站日志中計(jì)算訪問(wèn)地等這些看似龐雜的任務(wù)都會(huì)涉及數(shù)據(jù)去重。下面就進(jìn)入這個(gè)實(shí)例的MapReduce程序設(shè)計(jì)。

2013-04-24 10:47:48

Hadoop集群

相似話題

前端
 28326內(nèi)容

后端
 26350內(nèi)容

測(cè)試
 530內(nèi)容

游戲開(kāi)發(fā)
654內(nèi)容
全部話題

同話題下的熱門(mén)內(nèi)容

Claude + MCP 正在取代 Cursor 與 Windsurf，背后到底發(fā)生了什么？震撼！比 Visio 快十倍的畫(huà)圖工具橫空殺來(lái)，誰(shuí)能頂?shù)米?/a>我的小網(wǎng)站被"薅禿"了，用 Trae 五分鐘給網(wǎng)站增加日志功能，揪出爬蟲(chóng)！這十個(gè) VSCode 插件，幫你大幅度提升開(kāi)發(fā)效率精選 14 款 .NET 開(kāi)源、功能強(qiáng)大的快速開(kāi)發(fā)框架，提高開(kāi)發(fā)生產(chǎn)效率、避免工作996！案例篇：如何用tcpdump和Wireshark識(shí)別潛在威脅日志查看神器 journalctl 詳解 C#性能暴增300%！這五個(gè)編譯器級(jí)黑魔法你絕對(duì)沒(méi)用過(guò)

相關(guān)專(zhuān)題更多

解讀惠普Z(yǔ)系列工作站ZBook Ultra G1a高性能移動(dòng)

HPE ProLiant DL145 Gen11 服務(wù)器解讀

2025-04-21 09:59:50

開(kāi)發(fā)者成長(zhǎng)學(xué)院 | 成長(zhǎng)有徑 · 代碼有方

2025-04-23 08:49:09

我收藏的內(nèi)容

微博

QQ

微信

復(fù)制鏈接

微信掃碼分享

51CTO業(yè)務(wù)

媒體
51CTO CIOAge HC3i Techplur
社區(qū)
51CTO博客軟考社區(qū)鴻蒙開(kāi)發(fā)者社區(qū)AI.x社區(qū)
教育
51CTO學(xué)堂精培企業(yè)培訓(xùn)CTO訓(xùn)練營(yíng)

51CTO學(xué)堂

51CTO學(xué)堂企業(yè)版

51CTO官微

51CTO

關(guān)于我們&條款

關(guān)于我們

新聞動(dòng)態(tài)

站點(diǎn)地圖

意見(jiàn)反饋

English

用戶協(xié)議

隱私協(xié)議

北京市海淀區(qū)中關(guān)村南1條甲1號(hào)ECO中科愛(ài)克大廈6-7層

北京市公安局海淀分局備案編號(hào)：110108002980號(hào)
營(yíng)業(yè)執(zhí)照京ICP備09067568號(hào)

Copyright ? 2005-2025 51CTO.COM 京ICP證060544 版權(quán)所有未經(jīng)許可請(qǐng)勿轉(zhuǎn)載

營(yíng)業(yè)執(zhí)照出版物經(jīng)營(yíng)許可證

友情鏈接

新浪科技騰訊科技網(wǎng)易科技鳳凰科技驅(qū)動(dòng)科技科技行者 TechWeb 艾瑞網(wǎng)站長(zhǎng)之家速途網(wǎng)中國(guó)經(jīng)濟(jì)新聞網(wǎng)IT之家工聯(lián)網(wǎng)極客公園 236視頻會(huì)議中國(guó)IDC圈企業(yè)網(wǎng)D1Net 投資界次方元火山引擎

51CTO技術(shù)棧公眾號(hào)

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

在線客服

媒體
51CTO CIOAge HC3i

社區(qū)
51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育
51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

感谢您访问我们的网站，您可能还对以下资源感兴趣：
自拍偷在线精品自拍偷