處理大數(shù)據(jù)所需的技能
數(shù)據(jù)分析師的工作包括收集、清理、可視化信息塊,并將原始數(shù)據(jù)轉(zhuǎn)換或建模為營銷人員、開發(fā)人員、會計師使用。數(shù)據(jù)分析師的工作流程是由組織的需求定義的,但最終的可交付成果總是相同的:結(jié)構(gòu)良好且易于檢索的數(shù)據(jù)。
作為一名數(shù)據(jù)分析師,需要具有分析頭腦、強大的數(shù)學(xué)技能和靈活性。雖然這主要是數(shù)據(jù)科學(xué)家的先決條件,但也需要一系列的編程知識。
根據(jù)Payscale公司發(fā)布的統(tǒng)計數(shù)據(jù),數(shù)據(jù)分析師的年薪在37,232美元至79,596美元之間,而其薪酬可能因個人的組織和經(jīng)驗水平而異。
由于企業(yè)每天產(chǎn)生大量數(shù)據(jù),對大數(shù)據(jù)分析師的需求很高。人們可以按照以下步驟開始數(shù)據(jù)分析工作。
第1步:獲得相關(guān)專業(yè)的大學(xué)學(xué)位
數(shù)據(jù)分析師開始在職業(yè)生涯的頭一個舉措是獲得相關(guān)專業(yè)的大學(xué)學(xué)位。事實上,如果需要處理大量數(shù)據(jù),則以下專業(yè)更受歡迎:
- 統(tǒng)計
- 信息技術(shù)
- 計算機科學(xué)
- 系統(tǒng)分析
- 數(shù)學(xué)
- 工程設(shè)計
這樣的教育背景將為進一步開發(fā)數(shù)據(jù)分析技能打下良好的基礎(chǔ)。統(tǒng)計和數(shù)據(jù)分析專業(yè)通常很難寫出分析報告,但這不應(yīng)該是人們最關(guān)心的問題。
第2步:獲得支持大數(shù)據(jù)分析認證
除了獲得相關(guān)專業(yè)的大學(xué)學(xué)位外,獲得一些有助于驗證技能的證書也是非常有益的,尤其是在這個行業(yè)沒有太多經(jīng)驗的工作人員。
這些認證被雇主當作一種基準,以確定工作人員在行業(yè)標準方面的分析和解決問題的技能。而這些大數(shù)據(jù)分析師認證將包括以下課程:
- 亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)的大數(shù)據(jù)認證
- 大數(shù)據(jù)的分析和優(yōu)化證書
- Hortonworks認證助理(HCA)
- Cloudera認證專家(CCP)
- Cloudera認證助理(CCA)數(shù)據(jù)分析師
獲得至少兩份這樣的證書將提高入職簡歷的含金量。在獲得認證的同時,繼續(xù)學(xué)習(xí)其他課程或獲得更多的證書。獲得這些認證肯定會在應(yīng)聘工作時派上用場。
第3步:為大數(shù)據(jù)分析開發(fā)正確的技能
隨著大數(shù)據(jù)分析領(lǐng)域的不斷擴展,人們越來越需要提高大數(shù)據(jù)分析中的分析和解決問題的能力。數(shù)據(jù)分析師的所有主要技能如下所述。
(1)數(shù)學(xué)/統(tǒng)計
如果對數(shù)據(jù)分析感興趣,具備足夠的數(shù)學(xué)和統(tǒng)計技能是實施的良好基礎(chǔ)??紤]到處理大量數(shù)字這一事實,必須實現(xiàn)優(yōu)秀的計算能力。然而,大多數(shù)人在大學(xué)期間都會主修這個領(lǐng)域,但學(xué)習(xí)這門課程總比什么都不學(xué)要好。
(2)編程技巧
特定的編程語言和工具廣泛用于大數(shù)據(jù)分析。熟練使用所選行業(yè)中使用的關(guān)鍵編程語言,可以為職業(yè)入門提供支持。
提高分析和解決問題技能所需的編程語言和工具的一些示例:
- R - 該工具被專家廣泛用于數(shù)據(jù)可視化和分析。R語言被認為是適度的工具,但是一旦掌握了這門語言,它就成了不可或缺的工具。
- Python - 專家更喜歡這種編程語言,主要有幾個原因。在大數(shù)據(jù)分析中,Python編程語言可以方便地挖掘和分析數(shù)據(jù)。其具有廣泛的功能主要它是開源軟件,為人們創(chuàng)造了為該語言開發(fā)大量庫的機會。
- Pandas是python中使用的庫之一,用于從數(shù)據(jù)導(dǎo)入、處理、吸收和清理到使用其復(fù)雜的數(shù)據(jù)幀進行一些高級操作。大數(shù)據(jù)分析專家使用的相關(guān)python庫有numpy、scipy、scilkit。學(xué)習(xí)pybrain并在機器學(xué)習(xí)中創(chuàng)建神經(jīng)網(wǎng)絡(luò)。
還其他一些有用的編程語言和工具可以提高大數(shù)據(jù)分析的技能水平和性能,其中包括SQL、Apache Hadoop、Apache Spark和NoSQl。
數(shù)據(jù)探索和數(shù)據(jù)挖掘技能
利用適當?shù)墓ぞ咛剿鞣墙Y(jié)構(gòu)化數(shù)據(jù),并識別其大小、特征、模式以及準確性,以及從現(xiàn)有數(shù)據(jù)庫中提取有用信息的能力是大數(shù)據(jù)分析的全部本質(zhì)。為了提高解決問題的能力,應(yīng)該嘗試將學(xué)到的知識運用到解決日常問題上。
可視化技能集
對于全面的技能集,可以嘗試使用可用的大數(shù)據(jù)存儲庫來建立其實時可視化知識。 Tableau和Power BI是數(shù)據(jù)分析專家使用的可視化工具的示例。大多數(shù)情況下,企業(yè)會要求使用可理解的圖形、圖表或地圖來表示檢索到的數(shù)據(jù)。
最后的想法
建立與大數(shù)據(jù)相關(guān)的適當技能與獲得該領(lǐng)域的具體經(jīng)驗和認證有很大關(guān)系。獲得大學(xué)學(xué)位是一個很好的開始,而專注于開發(fā)上述技能,并獲得與大數(shù)據(jù)相關(guān)的認證,可以有更多機會成為數(shù)據(jù)分析師的高層。設(shè)定真正的目標和一致的實踐可以使企業(yè)獲得成功。以上提到的大多數(shù)工具都擁有一個強大的在線社區(qū),既可以提供幫助又令人鼓舞。