數(shù)據(jù)分析領域的七大熱門職業(yè)
根據(jù)《韋氏詞典》,數(shù)據(jù)指的是用作推理、討論或計算基礎的事實信息。
基于這個定義,我們可以進一步得出:數(shù)據(jù)可以理解為是收集到的任何信息,可以使用、進一步處理和分析以獲得見解。而且通常與計算機聯(lián)系在一起,因為數(shù)據(jù)通常是在計算機中生成和存儲的,然而數(shù)據(jù)存在的時間比我們想象的要長得多。
一. 數(shù)據(jù)的歷史
人類存儲和分析數(shù)據(jù)的最早例子可以追溯到公元前18000年,當時人們發(fā)現(xiàn)史前人類使用計數(shù)棒進行初步計算。這些舊石器時代部落的人在木棍和骨頭上刻上刻痕,以記錄人類的活動,比如交易和監(jiān)控物資。到公元前2400年,在巴比倫發(fā)明出了用于計算的算盤。
縱觀歷史,數(shù)據(jù)收集、處理和分析的不斷發(fā)展是通過石板、粘土、紙莎草、木頭和紙卷上的大量文字來體現(xiàn)的。最終,隨著更多形式的數(shù)據(jù)被發(fā)現(xiàn),處理、收集、存儲和分析數(shù)據(jù)的需求也在不斷發(fā)展。
隨著人類社會的進步,對數(shù)據(jù)處理的要求也越來越高。
19世紀,在美國開始人口普查進行。人口普查中的數(shù)據(jù)點數(shù)量呈指數(shù)增長,美國人口普查局估計,收集和分析人口普查中的所有數(shù)據(jù)需要幾年甚至幾十年的時間。
這是個很大的問題,因為只有在下一次人口普查即將開始時,才會完成對當前人口普查數(shù)據(jù)的匯編和分析。
幸運的是,一位名叫赫爾曼·霍勒里斯的年輕工程師和發(fā)明家開發(fā)了霍勒里斯制表機。這是一種機電式制表機,將收集和分析人口普查數(shù)據(jù)所需的時間從幾年縮短到僅僅幾個月。正因為如此,霍勒里思被視為現(xiàn)代自動計算之父,后來因創(chuàng)立IBM而聞名。
快進到20世紀,計算機出現(xiàn)了。隨著功能更強大的計算機的出現(xiàn),對數(shù)據(jù)存儲的要求也越來越高。
德國-奧地利工程師弗里茨·普夫勒默發(fā)明了一種在磁帶上磁性存儲信息的方法。他的一些發(fā)明原理至今仍被用于數(shù)字數(shù)據(jù)存儲。
在這個時代,“商業(yè)智能”一詞越來越流行,因為對新興軟件以及用于分析商業(yè)和運營績效的系統(tǒng)的需求迅速增加。
1989年,蒂姆·伯納斯·李創(chuàng)建了萬維網(wǎng)(又稱互聯(lián)網(wǎng)),數(shù)據(jù)革命發(fā)生了真正的變化。這導致了全世界人民之間的自動信息共享。這意味著今天有更多的數(shù)據(jù)被共享、創(chuàng)建和存儲,從而產生了收集、使用和分析數(shù)據(jù)的新方法。
二. 向“大數(shù)據(jù)”過渡
由于20世紀90年代互聯(lián)網(wǎng)的驚人增長以及個人電腦和計算設備的穩(wěn)定發(fā)展,在線設備的數(shù)量以及由此產生的數(shù)據(jù)量迅速增長。
雖然大數(shù)據(jù)的概念早在20世紀90年代就已經(jīng)存在,但直到2005年羅杰·穆加拉斯才正式給它貼上標簽。他將其描述為"使用傳統(tǒng)商業(yè)智能工具幾乎無法管理和處理的大量數(shù)據(jù)"。
大數(shù)據(jù)是一個用來描述大量數(shù)據(jù)的術語,包括結構化數(shù)據(jù)和非結構化數(shù)據(jù),這些數(shù)據(jù)每天都會淹沒企業(yè)。它包括信息量、創(chuàng)建和收集信息的速度,以及所覆蓋數(shù)據(jù)點的種類或范圍。
考慮到大數(shù)據(jù)的規(guī)模和復雜性,收集、組織和分析它以發(fā)現(xiàn)模式和其他有用信息的過程已經(jīng)成為幫助許多組織做出商業(yè)決策的一部分。這反過來又催生了數(shù)據(jù)科學——一個跨學科領域,它使用科學方法、流程、算法和系統(tǒng)從大量數(shù)據(jù)中發(fā)現(xiàn)模式,并使商業(yè)領袖能夠獲得見解。
三. 什么是數(shù)據(jù)科學?
根據(jù)IBM的說法,數(shù)據(jù)科學是一種多學科方法,可以從當今組織收集和創(chuàng)建的大量且不斷增加的數(shù)據(jù)中提取可操作的見解。
該領域通常需要計算機科學和純科學技能,因為數(shù)據(jù)科學家在其方法中應用科學方法,并使用預測分析和人工智能從數(shù)據(jù)中提取見解。
如今,“數(shù)據(jù)科學”經(jīng)常被企業(yè)和組織用作處理大量數(shù)據(jù)的通用術語,無論是準備、清理、分析數(shù)據(jù)還是可視化數(shù)據(jù)以揭示模式。
以下我們列出了可從事的七種數(shù)據(jù)相關職業(yè):
1. 數(shù)據(jù)科學家
數(shù)據(jù)科學家需要能夠應用數(shù)學、統(tǒng)計學和科學方法。
使用多種工具和技術來清理和準備數(shù)據(jù);進行預測分析和人工智能;并解釋如何利用這些結果來為商業(yè)問題提供數(shù)據(jù)驅動的解決方案。數(shù)據(jù)科學家需要的技能比數(shù)據(jù)分析師多得多。
2. 數(shù)據(jù)分析師
數(shù)據(jù)分析師收集、處理和執(zhí)行統(tǒng)計數(shù)據(jù)分析,為組織得出有意義的結論。
數(shù)據(jù)分析師將大型數(shù)據(jù)集轉化并處理成可用的形式,如報告或演示。他們還通過研究重要的模式來幫助決策過程,并從數(shù)據(jù)中收集洞察力,然后有效地傳達給組織領導,以幫助商業(yè)決策。
3. 數(shù)據(jù)工程師
數(shù)據(jù)工程師負責準備、處理和管理收集和存儲的數(shù)據(jù),用于分析或操作用途。
像傳統(tǒng)的工程師一樣,數(shù)據(jù)工程師建立和維護數(shù)據(jù) "管道",將數(shù)據(jù)從一個系統(tǒng)連接到另一個系統(tǒng),使數(shù)據(jù)科學家能夠獲得信息。正因為如此,數(shù)據(jù)工程師被要求了解數(shù)據(jù)科學中使用的幾種編程語言,如Python、R和SQL。
4. 數(shù)據(jù)架構師
數(shù)據(jù)架構師主要是設計和創(chuàng)建數(shù)據(jù)管理系統(tǒng)的藍圖,然后由數(shù)據(jù)工程師建立。
類似于傳統(tǒng)的建筑師,數(shù)據(jù)架構師是 "遠見者",因為他們負責可視化和設計一個組織的數(shù)據(jù)管理框架。此外,數(shù)據(jù)架構師改善現(xiàn)有系統(tǒng)的性能,確保數(shù)據(jù)庫管理員和分析師能夠使用這些系統(tǒng)。
5. 商業(yè)智能(BI)開發(fā)人員
商業(yè)智能開發(fā)者是專門的工程師,他們使用軟件工具將數(shù)據(jù)轉化為有用的見解,以幫助商業(yè)決策。
他們負責簡化技術信息,讓公司里的其他人都能輕松理解。簡而言之,他們創(chuàng)建和運行包含他們使用商業(yè)智能工具找到的數(shù)據(jù)的報告,并將信息轉化為更通俗的術語。
6. 統(tǒng)計員
鑒于統(tǒng)計學是數(shù)據(jù)科學的主要基礎之一,許多統(tǒng)計學家可以輕松地過渡到數(shù)據(jù)科學領域。
統(tǒng)計學家主要負責數(shù)據(jù)的收集和處理。他們決定需要什么數(shù)據(jù)以及如何收集數(shù)據(jù)。此外,他們設計實驗,分析和解釋數(shù)據(jù),并報告結論。
7. 機器學習工程師
機器學習工程師是另一組專業(yè)工程師,他們專注于研究、構建和設計人工智能和機器學習系統(tǒng),以實現(xiàn)預測模型的自動化。
基本上,他們開發(fā)的算法使用輸入數(shù)據(jù)并利用統(tǒng)計模型預測輸出,同時在新數(shù)據(jù)可用時不斷更新輸出。
下面我們看看以上這些數(shù)據(jù)科學職業(yè)的最受歡迎程度。下圖顯示了2021年12月8日美國的職位空缺情況。
數(shù)據(jù)架構師是最受歡迎的數(shù)據(jù)科學職業(yè)道路,因為他們在創(chuàng)建其他數(shù)據(jù)科學專業(yè)人員隨后使用的數(shù)據(jù)管理系統(tǒng)方面非常重要。
接下來是機器學習工程師,考慮到利用人工智能預測許多科技公司結果的重要性。
需求最少的是統(tǒng)計人員,主要是因為許多傳統(tǒng)的統(tǒng)計學家現(xiàn)在正在成為數(shù)據(jù)科學家。統(tǒng)計學家從純統(tǒng)計學轉向數(shù)據(jù)科學相對簡單是,他們已經(jīng)擁有成為一名成熟的數(shù)據(jù)科學家所需的基礎知識。
四. 數(shù)據(jù)科學的發(fā)展速度并不慢
毫無疑問,數(shù)據(jù)科學如今非常流行,但更好的問題是,它在未來還會如此流行嗎?根據(jù)就業(yè)預測,情況似乎的確如此。
美國勞工統(tǒng)計局2020-2030就業(yè)預測的數(shù)據(jù)顯示,數(shù)據(jù)科學職業(yè),包括統(tǒng)計學、數(shù)據(jù)科學以及數(shù)據(jù)工程等其他基于數(shù)學和科學的職業(yè),從2020年到2030年的百分比變化來看,將呈現(xiàn)出非常高的增長率。統(tǒng)計學家總體排名第14位,而數(shù)據(jù)科學家和其他數(shù)學科學職業(yè)在數(shù)據(jù)中包含的790個職位中總體排名第31位。
盡管統(tǒng)計學家和數(shù)據(jù)科學家在總勞動力中所占的份額與其他職業(yè)相比很小,但隨著數(shù)據(jù)科學職業(yè)道路變得越來越流行,這些數(shù)字預計將在未來幾年增加。
下圖顯示了統(tǒng)計學家、數(shù)據(jù)科學家和其他數(shù)學科學職業(yè)與其他預計增長率較高的職業(yè)的對比情況。
五. 當之無愧的高收入職業(yè)
數(shù)據(jù)相關職業(yè)備受歡迎的一個主要原因在于其收入高。
下圖顯示了紐約市10種不同職業(yè)--包括數(shù)據(jù)科學家和數(shù)據(jù)分析師的工資范圍。這些數(shù)據(jù)來自Teleport,該網(wǎng)站匯總了不同城市的生活條件,如工資的數(shù)據(jù)。
根據(jù)Teleport的數(shù)據(jù),數(shù)據(jù)科學家的年薪中位數(shù)在紐約市排名第四,為114105美元,僅次于企業(yè)高管和醫(yī)護人員。事實上,在馬尼拉等其他一些城市,數(shù)據(jù)科學家的排名高達第二,僅次于企業(yè)高管。
數(shù)據(jù)分析師的薪資也很可觀,數(shù)據(jù)分析師的年薪中位數(shù)為61818美元,仍然相當于紐約市的平均家庭收入。
六. 就業(yè)市場不斷增長
數(shù)據(jù)科學受歡迎的另一個主要原因是,如今的企業(yè)將數(shù)據(jù)科學的原理整合到日常運作中。下圖顯示了工作中涉及數(shù)據(jù)科學的前10個行業(yè),其中涉及到8000家公司的樣本數(shù)據(jù)。
毫不奇怪,包括谷歌、蘋果和優(yōu)步等科技公司占據(jù)了榜首。畢竟,大數(shù)據(jù)的激增是由互聯(lián)網(wǎng)的誕生引起的,互聯(lián)網(wǎng)與軟件和技術密切相關。數(shù)據(jù)科學實際上是使用各種工具和技術處理大量信息。
接下來是金融服務公司,這是金融科技公司崛起帶來的。作為“金融”和“技術”的門戶,金融科技公司將技術和創(chuàng)新整合到其服務和產品中,以改善其對客戶的交付,擾亂傳統(tǒng)金融服務。由于它涉及處理大量數(shù)據(jù),如客戶信息,金融服務公司看到了數(shù)據(jù)科學工具的潛力,可以幫助簡化和優(yōu)化流程,改進服務。
七. 結語
數(shù)據(jù)科學是一條非常有發(fā)展的職業(yè)道路,而且沒有放緩的跡象。在未來的許多年里,它將繼續(xù)塑造和影響企業(yè)和組織的運作方式。
至于你應該走哪條特定的數(shù)據(jù)科學職業(yè)道路,這主要取決于你的個人優(yōu)勢和總體興趣。重要的是,上述任何職業(yè)都是值得的。