2017年,這兩個(gè)大數(shù)據(jù)崗位一定會(huì)火!
討論哪個(gè)大數(shù)據(jù)崗位會(huì)火之前,我們先來簡單的分析一下大數(shù)據(jù)領(lǐng)域的行情,這里重點(diǎn)說一下當(dāng)前的情況。
2016年,互聯(lián)網(wǎng)行業(yè)遇到了資本寒冬,拋開大公司不說,一些中小型的公司不斷的縮減預(yù)算,因?yàn)楹茈y融到錢。
但是從大數(shù)據(jù)這個(gè)角度出發(fā)去看的話,會(huì)發(fā)現(xiàn)即使其他類型的技術(shù)崗位行情不太好,但大數(shù)據(jù)領(lǐng)域一直還是不錯(cuò)的,這一方面國內(nèi)大數(shù)據(jù)政策推動(dòng)的原因,另一方面是中小型的公司想拿到錢那必須有可談的技術(shù)故事,是的,那就是數(shù)據(jù),或者說數(shù)據(jù)驅(qū)動(dòng)。
所以,不管怎么說,17年,整體大數(shù)據(jù)領(lǐng)域的整體市場需求還是偏良性的(相對(duì)于其他技術(shù)類型來說)。
但是,受14年開始,大數(shù)據(jù)培訓(xùn)市場批量水流線生產(chǎn)大數(shù)據(jù)工程師的影響,目前大數(shù)據(jù)需求市場會(huì)有些小混亂,所謂混亂是指技術(shù)水平參差不齊,包括大量打著大數(shù)據(jù)旗號(hào)的傳統(tǒng)數(shù)據(jù)庫工程師(這個(gè)很大一部分原因也是培訓(xùn)機(jī)構(gòu)造成的);企業(yè)需求招聘不清晰、對(duì)大數(shù)據(jù)崗位定位混亂。
這種亂象,從身邊獲取的簡歷,各種招聘現(xiàn)象,以及各種大數(shù)據(jù)討論社群的相關(guān)話題討論中可以看出。
并且這種亂象會(huì)持續(xù)比較長的一段時(shí)間,直到接受正統(tǒng)知識(shí)體系教育科班大數(shù)據(jù)工程師們充斥需求市場,降低大數(shù)據(jù)速成工種比例,以及企業(yè)公司對(duì)大數(shù)據(jù)有足夠的認(rèn)知之后,才會(huì)逐漸消失,市場價(jià)格才會(huì)逐漸趨于良性(當(dāng)然,那個(gè)時(shí)候大數(shù)據(jù)領(lǐng)域的技術(shù)福利就會(huì)下降了)。
還是以2017年說事,受大數(shù)據(jù)培訓(xùn)市場進(jìn)一步影響,以及受各大院校16年開始往大數(shù)據(jù)市場池子投放正規(guī)軍的影響,低門檻的大數(shù)據(jù)開發(fā),以及相對(duì)基礎(chǔ)要求較低的數(shù)據(jù)分析類的大數(shù)據(jù)職位會(huì)有一些影響。
總體表現(xiàn)就是薪酬好像不會(huì)像以前那般好談了,然后就是缺口也在慢慢的變小,因?yàn)槭袌錾辖^大部分的號(hào)稱大數(shù)據(jù)工程師的都是處于這種階段的。
當(dāng)然,能夠上升到諸如大數(shù)據(jù)架構(gòu)師這種級(jí)別的人,依然是市場的香饃饃。
基于以上這些情況,在大數(shù)據(jù)領(lǐng)域中,還是有些崗位需求量會(huì)走高的。
是的,2017年一定會(huì)火的。
算法以及數(shù)據(jù)挖掘
當(dāng)然,這里指的算法以及數(shù)據(jù)挖掘與傳統(tǒng)的可能還是有所區(qū)別的,不管是模式還是所使用的工具,或者各種工程化的形式,區(qū)別還是蠻大的,可能不變就是算法的原理了。
國內(nèi)四五年的大數(shù)據(jù)發(fā)展落地,拋開大些的公司不說,就絕大部分一般公司來說,在基本數(shù)據(jù)處理,數(shù)據(jù)淺層價(jià)值的挖掘(最典型如報(bào)表價(jià)值的輸出)這塊已經(jīng)有足夠的累積了。
那必然會(huì)往更高層級(jí)去演化,諸如挖掘數(shù)據(jù)中的個(gè)性化,做一些更深層次的預(yù)測,以及研究內(nèi)容的深層價(jià)值,文本挖掘、NLP等,甚至是深度學(xué)習(xí),人工智能AI的層級(jí)。
這些領(lǐng)域除了比較新的深度學(xué)習(xí)、AI等,其他其實(shí)在更早的時(shí)候都有人在研究,那在這里為何把他列到這里來說,那是因?yàn)閭€(gè)人數(shù)據(jù)挖掘與大數(shù)據(jù)關(guān)聯(lián)之后,很多東西都有其獨(dú)特性。
包括數(shù)據(jù)各個(gè)階段處理的模式,應(yīng)用場景的不同,實(shí)際工業(yè)生產(chǎn)中算法設(shè)計(jì)的模式(最典型如大數(shù)據(jù)模式下,偏愛于統(tǒng)計(jì)分析即樣本數(shù)對(duì)結(jié)果影響較大的算法),甚至是算法最終工程化的模式,使用到的工具,都有很大差別。
最起碼,我個(gè)人認(rèn)為,傳統(tǒng)的數(shù)據(jù)挖掘工程師與我這里所說的數(shù)據(jù)挖掘工程師還是兩類人。
但是,我們也知道,學(xué)校里是很難有大數(shù)據(jù)挖掘這種專業(yè)存在的,所以,這個(gè)崗位的人才來源有兩種:
懂算法以及數(shù)據(jù)挖掘相關(guān)東西,補(bǔ)充大數(shù)據(jù)相關(guān)知識(shí)結(jié)構(gòu)體系,逐漸適應(yīng)大數(shù)據(jù)模式下的挖掘模式。
在大數(shù)據(jù)領(lǐng)域摸爬滾打足夠多的年份,逐漸從實(shí)操中補(bǔ)充數(shù)據(jù)挖掘相關(guān)知識(shí)體系結(jié)構(gòu)。
前一種人理論知識(shí)足夠豐富,但是在工程化的能力上以及實(shí)際應(yīng)用場景的映射上稍弱,一不留神只能在大公司能找到角色定位,因?yàn)橹行」攫B(yǎng)不起不能實(shí)際工程化只會(huì)理論的純算法工程師。
后一種人實(shí)操能力會(huì)比較強(qiáng),理論相對(duì)比較薄弱,但能根據(jù)實(shí)際業(yè)務(wù)場景設(shè)計(jì)算法模型,還能負(fù)責(zé)工程化業(yè)務(wù)化,這種人在中小型公司吃得開,在大公司估計(jì)只能淪為純算法研究工程師的工程化助手。
但不管哪種,在2017年,都會(huì)迎來需求新高,并且在百家齊放的時(shí)代,野路子出身的實(shí)操數(shù)據(jù)挖掘選手反倒會(huì)更受歡迎,畢竟純算法研究的人力的成本太高。
數(shù)據(jù)爬取工程師
或許有個(gè)更為熟知的簡稱“爬蟲工程師”。
其實(shí)一直以來,大部分人對(duì)于爬蟲工程師的認(rèn)知,或許并不會(huì)歸于大數(shù)據(jù)領(lǐng)域中來,但我個(gè)人認(rèn)為最起碼從16年開始,應(yīng)該是要?dú)w于大數(shù)據(jù)體系的。
我記得在《DT時(shí)代變革的反思》一文中(這篇是15年寫的,你看現(xiàn)在互聯(lián)網(wǎng)開放數(shù)據(jù)真的是被重視起來了,茫茫多以公開數(shù)據(jù)起家的公司),甚至在其他相關(guān)的文章中,一直強(qiáng)調(diào)大數(shù)據(jù)時(shí)代一個(gè)很重要的數(shù)據(jù)來源,那就是互聯(lián)網(wǎng)公開數(shù)據(jù)集。
在2016年,這個(gè)特征表現(xiàn)的尤為突出,各種公司紛紛把目光定準(zhǔn)互聯(lián)網(wǎng)公開數(shù)據(jù)集,以期通過互聯(lián)網(wǎng)公開數(shù)據(jù),挖掘其中的價(jià)值,意圖變現(xiàn)。
在他領(lǐng)域就不都說,在大數(shù)據(jù)垂直行業(yè),比較典型的就是催生了很多以互聯(lián)網(wǎng)公開數(shù)據(jù)為基礎(chǔ)數(shù)據(jù)來源的各種數(shù)據(jù)分析咨詢顧問公司。
關(guān)注新媒體行業(yè)的,估計(jì)沒幾個(gè)人不關(guān)注的,畢竟沒幾個(gè)人不用微信的,諸如新榜(前幾天的2017新榜大會(huì)還是蠻轟動(dòng)的),其監(jiān)測的數(shù)據(jù)應(yīng)該絕大部分都是通過檢測爬取的方式獲取的。
那么,在2017年,數(shù)據(jù)爬取只會(huì)和大數(shù)據(jù)領(lǐng)域聯(lián)結(jié)的更緊密。
作為大數(shù)據(jù)整個(gè)業(yè)務(wù)鏈路中的***環(huán),負(fù)責(zé)數(shù)據(jù)源的接入,有什么理由把人家單獨(dú)丟開呢?!
在2017年,“內(nèi)容價(jià)值變現(xiàn)”口號(hào)“甚囂塵上”同時(shí),作為抓住內(nèi)容***環(huán),海量數(shù)據(jù)的獲取,數(shù)據(jù)爬取工程師的重要程度會(huì)逐漸被人認(rèn)可。
當(dāng)然,與此同時(shí),上面說到的數(shù)據(jù)挖掘崗位,偏向于文本挖掘、畫像體系構(gòu)建、NLP之類的,也會(huì)更受歡迎。
所以
是的,2017年,這兩個(gè)大數(shù)據(jù)的崗位一定會(huì)火起來,不信,我們到時(shí)候瞧瞧(反正不準(zhǔn)你咬不了我 哈哈)。
其實(shí)還有更大的證據(jù)證明這兩個(gè)崗位一定會(huì)火起來。
我司,俺部門(大數(shù)據(jù)部門)招數(shù)據(jù)挖掘&爬蟲工程師,當(dāng)然還有大數(shù)據(jù)開發(fā)工程師,你看連我司都招了,大數(shù)據(jù)市場這幾個(gè)職位能不火么。
好了,不扯,說正經(jīng)的(好像說著上面都不是正經(jīng)的樣兒):
1、需求數(shù)據(jù)挖掘工程師一枚,不要純搞算法理論的,需要有算法分布式工程化能力,需求文本挖掘項(xiàng)目經(jīng)驗(yàn)。
2、需求大數(shù)據(jù)開發(fā)工程師一枚,三年左右大數(shù)據(jù)技術(shù)背景,各種hadoop生態(tài)組件都玩過點(diǎn),能夠進(jìn)行spark應(yīng)用開發(fā),會(huì)點(diǎn)java后端東西,附帶點(diǎn)數(shù)據(jù)挖掘技能更佳。
3、需求爬蟲工程師一枚,java爬蟲、python爬蟲體系都無所謂,需求能夠規(guī)模化、自動(dòng)化爬取數(shù)據(jù),會(huì)點(diǎn)java后端技能更好,有微信、微博數(shù)據(jù)爬取更佳。
***,講真,這兩個(gè)方向在大數(shù)據(jù)領(lǐng)域真的是有市場的,挖掘算法類的就說了,跟不少獵頭類的朋友也都聊過,一直是剛需,而爬蟲類的,應(yīng)該會(huì)被逐漸重視的,因?yàn)閿?shù)據(jù)獲取的模式逐漸在改變。