想從事大數(shù)據(jù)工作,如何自學(xué)打基礎(chǔ)
海量數(shù)據(jù)分成兩塊,一是系統(tǒng)建設(shè)技術(shù),二,海量數(shù)據(jù)應(yīng)用。
先說系統(tǒng)建設(shè),現(xiàn)在主流的技術(shù)是HADOOP,主要基于mapreduce的分布式框架。目前可以先學(xué)習(xí)這個(gè)。但是我的觀點(diǎn),在分布式系統(tǒng)出來之前,主要是集中式架構(gòu),如DB2,oracle。為什么現(xiàn)在用分布式架構(gòu),那是因?yàn)楝F(xiàn)在集中式架構(gòu)受限于IO性能,出來速度慢,如果又一種硬件技術(shù),可以很快地處理海量數(shù)據(jù),性能上能滿足需求,那么集中式架構(gòu)優(yōu)于分布式架構(gòu),因?yàn)榧惺郊軜?gòu)穩(wěn)定,運(yùn)維壓力小。現(xiàn)在的集中式架構(gòu)要么性能達(dá)不到要求,要么就是過于昂貴。我期待一種技術(shù)出現(xiàn),可以非常快地傳輸和處理數(shù)據(jù),那么集中式架構(gòu)將再次進(jìn)入人們眼球。再說海量數(shù)據(jù)應(yīng)用。海量數(shù)據(jù)應(yīng)用主要是數(shù)據(jù)挖掘和機(jī)器算法。具體有不同的應(yīng)用場景,如個(gè)性化搜索和推薦,社交網(wǎng)絡(luò)發(fā)現(xiàn),精準(zhǔn)營銷,精準(zhǔn)廣告,實(shí)時(shí)***路徑,人工智能等等??茨阆胱鱿到y(tǒng)支撐技術(shù)還是與業(yè)務(wù)結(jié)合的應(yīng)用技術(shù)。
如果現(xiàn)在學(xué)系統(tǒng)建設(shè)技術(shù),可以讀下如下書籍:
如果學(xué)數(shù)據(jù)挖掘和機(jī)器算法,推薦先看數(shù)據(jù)挖掘?qū)д?,統(tǒng)計(jì)分析原理,Mahout,R,MATLAB