大數(shù)據(jù):我們有技術(shù) 但是我們有人才嗎
譯文【51CTO 快譯】許多企業(yè)充斥著大數(shù)據(jù),這為了解和預(yù)測(cè)客戶(hù)喜好和市場(chǎng)發(fā)展提供了大好機(jī)會(huì)。因?yàn)樵诟?jìng)爭(zhēng)異常激烈的全球經(jīng)濟(jì)環(huán)境下,擁有正確的信息就意味著擁有競(jìng)爭(zhēng)優(yōu)勢(shì)。
不過(guò)這里有一個(gè)方面要注意。想成功地駕馭海量信息,公司就需要擁有相應(yīng)技能的人才能如愿以?xún)?。這些人要知道如何管理數(shù)據(jù),建立分析系統(tǒng),并且?guī)椭庾x數(shù)據(jù)。
EMC公司最近針對(duì)數(shù)據(jù)科學(xué)家的一項(xiàng)調(diào)查證實(shí)了這一點(diǎn)。共有83%的調(diào)查對(duì)象認(rèn)為,新技術(shù)會(huì)增加企業(yè)對(duì)數(shù)據(jù)科學(xué)家的需求;64%的調(diào)查對(duì)象認(rèn)為,現(xiàn)有的人才供應(yīng)量將滿足不了需求。實(shí)際上,麥肯錫全球研究所的一項(xiàng)調(diào)查預(yù)測(cè),在未來(lái)六年內(nèi),光美國(guó)就可能面臨缺少14萬(wàn)至19萬(wàn)擁有扎實(shí)分析技能的人才這一窘勢(shì),而且缺少懂得使用相應(yīng)工具分析大數(shù)據(jù)、作出合理決策的150萬(wàn)管理和分析人員。
TechTarget的Beth Stackpole還指出,今天的專(zhuān)業(yè)人員隊(duì)伍雖受過(guò)培訓(xùn),但只會(huì)管理傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)環(huán)境,還沒(méi)有準(zhǔn)備好處理大數(shù)據(jù)環(huán)境以及諸如Hadoop和MapReduce之類(lèi)的開(kāi)源平臺(tái)。“雖然數(shù)據(jù)管理團(tuán)隊(duì)通常有一套定義明確的專(zhuān)門(mén)技能,懂得管理和組織高度結(jié)構(gòu)化的數(shù)據(jù),以及在SQL中建立模型、創(chuàng)建報(bào)表,但是這些傳統(tǒng)技能組合無(wú)法很好地運(yùn)用到大數(shù)據(jù)環(huán)境中非結(jié)構(gòu)化的平面文件數(shù)據(jù);在大數(shù)據(jù)環(huán)境中,命令行和NoSQL數(shù)據(jù)庫(kù)技術(shù)是搭建大多數(shù)新興平臺(tái)的核心基本模塊。”
Hadoop是個(gè)Apache開(kāi)源項(xiàng)目,它由諸多開(kāi)源組件組成,被設(shè)計(jì)成可以存儲(chǔ)來(lái)自多個(gè)節(jié)點(diǎn)的海量數(shù)據(jù),并壓縮成一種易于訪問(wèn)的格式,這種格式名為Hadoop分布式文件系統(tǒng)(HDFS)。MapReduce經(jīng)常與Hadoop結(jié)合使用,它是一種編程構(gòu)件,可用于構(gòu)建分析功能,以便分析數(shù)據(jù)。NoSQL數(shù)據(jù)庫(kù)通常處理非結(jié)構(gòu)化數(shù)據(jù),包括博客、文檔、文本、PDF、視頻和音頻。
與此同時(shí),企業(yè)沒(méi)必要苦苦尋覓,才能找到應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)和機(jī)遇所需要的人才。作為由Informatica和Cloudera共同主辦的一系列網(wǎng)絡(luò)播放活動(dòng)的一部分,我有幸采訪了幾位身在大數(shù)據(jù)環(huán)境一線的主管和顧問(wèn)。
比如說(shuō),Klout公司的首席技術(shù)官兼聯(lián)合創(chuàng)始人Binh Tran指出,技能組合是這家社交網(wǎng)絡(luò)評(píng)級(jí)服務(wù)公司在竭力克服的“第一大”挑戰(zhàn)。“我們開(kāi)辦公司之初,主要工作就是挖掘分析數(shù)據(jù)、編制在線文檔。要找到擁有豐富實(shí)際經(jīng)驗(yàn)的人基本上很難。我們只好從雅虎和Facebook這些公司那里招人。”Tran聲稱(chēng)現(xiàn)在看到更多的大學(xué)設(shè)有Hadoop和MapReduce課程,至少在硅谷地區(qū)是這樣。
Ventana研究公司的分析師David Menninger提到了最近的調(diào)查結(jié)果;調(diào)查結(jié)果發(fā)現(xiàn),169位企業(yè)主管中超過(guò)四分之三的人表示,人員配備和培訓(xùn)問(wèn)題是將大數(shù)據(jù)充分利用起來(lái)的兩大障礙。
Cloudera公司的Omer Trajman指出,技能是很缺乏,但形勢(shì)并非毫無(wú)希望。應(yīng)對(duì)Hadoop等大數(shù)據(jù)解決方案的能力“并非高深莫測(cè),人們可以學(xué)會(huì),”他說(shuō)。僅僅幾年前,“只有個(gè)別人知道Hadoop”——而現(xiàn)在知道Hadoop的人在不斷增多。“我們鼓勵(lì)企業(yè)關(guān)注內(nèi)部擁有的技能組合,注重人員培訓(xùn)。現(xiàn)在有好多人有著合適的背景,可以學(xué)會(huì)使用Hadoop。企業(yè)不僅僅要物色已經(jīng)學(xué)會(huì)的那些人、雇用他們……企業(yè)里面也有一些人其實(shí)能夠逐漸勝任這個(gè)角色……有好多人能學(xué)會(huì)Hadoop。”
下面是有望在大數(shù)據(jù)時(shí)代發(fā)揮作用的崗位:
系統(tǒng)管理員:負(fù)責(zé)集群的日常運(yùn)作。“他們可能直接或間接地管理硬件部件,確定對(duì)額外硬件的需求,并且實(shí)際部署硬件。”Trajman補(bǔ)充說(shuō),系統(tǒng)管理員的職責(zé)還包括監(jiān)測(cè)和配置。“他們還負(fù)責(zé)Hadoop與其他系統(tǒng)的集成。”
開(kāi)發(fā)人員:負(fù)責(zé)搭建平臺(tái)、開(kāi)發(fā)分析應(yīng)用程序。“他們熟悉工具或算法,他們可能要編程、包裝、優(yōu)化或者部署不同的MapReduce事務(wù)。他們將收集和維護(hù)不同的代碼庫(kù),他們的角色類(lèi)似數(shù)據(jù)庫(kù)領(lǐng)域的數(shù)據(jù)庫(kù)管理員(DBA)。”
數(shù)據(jù)分析員/數(shù)據(jù)科學(xué)家:Trajman表示,數(shù)據(jù)分析員和數(shù)據(jù)科學(xué)家其實(shí)屬于同一類(lèi)。這些專(zhuān)業(yè)人員運(yùn)用算法來(lái)解決分析問(wèn)題,并且從事數(shù)據(jù)挖掘工作。“他們最大的本事就是能夠讓數(shù)據(jù)道出真相。Trajman表示,此外,“他們可能擁有某個(gè)領(lǐng)域的專(zhuān)長(zhǎng)。他們將幫助開(kāi)發(fā)數(shù)據(jù)產(chǎn)品,幫助開(kāi)發(fā)推動(dòng)業(yè)務(wù)發(fā)展的數(shù)據(jù)解決方案。”
數(shù)據(jù)專(zhuān)員:最終負(fù)責(zé)收集高質(zhì)量的數(shù)據(jù)。“數(shù)據(jù)專(zhuān)員匯總所有進(jìn)入企業(yè)的數(shù)據(jù),并且編成目錄。企業(yè)里面存在著大量的數(shù)據(jù),Hadoop可以將這些數(shù)據(jù)集中起來(lái)。所以,確定上游數(shù)據(jù)模型,有抽取、轉(zhuǎn)換和加載(ETL)以及數(shù)據(jù)建模方面的背景,這些都是典型的技能組合和背景。”
Trajman說(shuō):“今天許多企業(yè)實(shí)際上都擁有所有這些技能組合。”
【編輯推薦】