數(shù)據(jù)業(yè)務(wù)成功須遵循的7個(gè)步驟
在IT領(lǐng)域,我們都熱愛(ài)炒作和制造流行語(yǔ)。與時(shí)尚潮流一樣,我們似乎有一個(gè)20年的周期,即我們會(huì)回歸到以前的技術(shù),然后賦予其新名稱,并堅(jiān)稱這是每個(gè)人必須立即擁有的技術(shù)。最新的炒作就是:大數(shù)據(jù)。
從Interop大會(huì)到各種云會(huì)議,我們被告知,如果我們沒(méi)有制定大數(shù)據(jù)戰(zhàn)略(并與云戰(zhàn)略相結(jié)合),那我們就落后了。
對(duì)于大數(shù)據(jù),有三個(gè)重要的事實(shí)。首先,它并不是新趨勢(shì)。亞馬遜、微軟和谷歌自上世紀(jì)90年代就開(kāi)始進(jìn)行大數(shù)據(jù)工作。事實(shí)上,幾十年來(lái),很多公司都一直在挖掘數(shù)據(jù)??赡苡捎诋?dāng)時(shí)只有資金雄厚的大型公司才能夠進(jìn)行大數(shù)據(jù)研究,但大數(shù)據(jù)確實(shí)早已存在?,F(xiàn)在,基于廉價(jià)的計(jì)算和存儲(chǔ)能力以及新工具和技術(shù),幾乎每個(gè)人都可以使用高級(jí)數(shù)據(jù)挖掘技術(shù)和算法了。
很多人認(rèn)為大數(shù)據(jù)只是商業(yè)智能(BI)的新名稱,雖然這兩者有相似之處,但大數(shù)據(jù)超出了BI的范疇。
第二個(gè)事實(shí):“大”是相對(duì)的?,F(xiàn)在各行業(yè)各組織確實(shí)正面對(duì)創(chuàng)紀(jì)錄水平的數(shù)據(jù)增長(zhǎng)。據(jù)IDC稱,我們每秒創(chuàng)造超過(guò)58 TB數(shù)據(jù),到2020年,將擁有超過(guò)35ZB的存儲(chǔ)數(shù)據(jù)。然而,大數(shù)據(jù)并不一定是巨大的,大數(shù)據(jù)并不在于其規(guī)模,而在于你需要如何處理它。擁有100 TB的小公司可能也存在大數(shù)據(jù)問(wèn)題,因?yàn)樗麄冃枰崛?、分析?shù)據(jù),并作出決策。
第三,大數(shù)據(jù)處理中使用的數(shù)據(jù)的定義是廣泛的,它可以包含結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。對(duì)于一些公司來(lái)說(shuō),最重要的是大數(shù)據(jù)的元數(shù)據(jù),或者關(guān)于數(shù)據(jù)的數(shù)據(jù)。
麥肯錫將大數(shù)據(jù)定義為“其規(guī)模超出傳統(tǒng)數(shù)據(jù)庫(kù)軟件的捕捉、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集”,筆者補(bǔ)充了這一點(diǎn):“這些數(shù)據(jù)集需要大量運(yùn)行在數(shù)百甚至數(shù)千臺(tái)服務(wù)器(云)的并行軟件(系統(tǒng))來(lái)處理。”
以下是大數(shù)據(jù)成功的7個(gè)步驟:
第1步:承認(rèn)存在問(wèn)題。 這往往是最難的一步。10年前,我們拒絕承認(rèn)我們的網(wǎng)絡(luò)已不再受防火墻和代理服務(wù)器設(shè)置的保護(hù),而我們不得不為員工遠(yuǎn)程訪問(wèn)開(kāi)放基礎(chǔ)設(shè)施并擁抱互聯(lián)網(wǎng)。對(duì)于大數(shù)據(jù),IT領(lǐng)導(dǎo)者需要評(píng)估其數(shù)據(jù)情況:
● 你的數(shù)據(jù)集讓你不堪重負(fù)嗎?
● 你不知道所有數(shù)據(jù)的位置?
● 你(或者企業(yè)領(lǐng)導(dǎo)者)沒(méi)有從你的數(shù)據(jù)中得到所需的信息?
● 企業(yè)領(lǐng)導(dǎo)沒(méi)有基于數(shù)據(jù)來(lái)做決策?
● 有可能提高IT在企業(yè)政策和戰(zhàn)略決策中的相關(guān)性嗎?
如果你像大多數(shù)公司一樣,部分或者所有這些問(wèn)題的答案都是肯定的,那么是時(shí)候控制你的數(shù)據(jù),并從中挖掘出情報(bào)以提供給領(lǐng)導(dǎo)層做決定。
第2步:認(rèn)識(shí)到大數(shù)據(jù)帶來(lái)的大機(jī)會(huì)。 我們總是被告知要緊密聯(lián)系業(yè)務(wù),“業(yè)務(wù)技術(shù)”這一說(shuō)法已存在多年,但我們總是很難看到最新的軟件和流程如何直接影響收入或者全球經(jīng)濟(jì)增長(zhǎng)。而大數(shù)據(jù)卻可以。為什么?因?yàn)樾畔⒕褪橇α浚髽I(yè)領(lǐng)導(dǎo)需要數(shù)據(jù)中挖掘出的信息來(lái)幫助企業(yè)競(jìng)爭(zhēng)和發(fā)展。員工、客戶和市場(chǎng)產(chǎn)生的大量數(shù)據(jù)讓整個(gè)企業(yè)(從銷售到營(yíng)銷部門)都不堪重負(fù)。而大數(shù)據(jù)能夠?yàn)槟闾峁┖?jiǎn)潔且實(shí)時(shí)的價(jià)值信息,幫助增加收入。
第3步:制定大數(shù)據(jù)計(jì)劃。 與任何計(jì)劃一樣,你開(kāi)始就應(yīng)該想到結(jié)果。企業(yè)需要知道什么?他們需要回答的問(wèn)題是什么?在你開(kāi)始使用Hadoop前,解決這些問(wèn)題,并簽訂聯(lián)合協(xié)議。然后按照下列步驟操作(每個(gè)步驟可能需要數(shù)周或者數(shù)月):
1、隔離屬于“大數(shù)據(jù)”的部分?jǐn)?shù)據(jù)
2、分離“產(chǎn)品”大數(shù)據(jù)和“公司”大數(shù)據(jù),例如人力資源分析需要的員工數(shù)據(jù)和電子商務(wù)平臺(tái)的客戶或產(chǎn)品搜索數(shù)據(jù)需要分離
3、認(rèn)識(shí)和了解你的數(shù)據(jù)的波峰和波谷
4、了解哪些技術(shù)允許實(shí)時(shí)(或接近實(shí)時(shí))大數(shù)據(jù)處理
5、確定關(guān)鍵的解決方案/供應(yīng)商
6、從小事做起,評(píng)估與發(fā)展—先做一個(gè)項(xiàng)目,讓你可以快速展示成果和ROI,然后轉(zhuǎn)移到下一個(gè)大數(shù)據(jù)項(xiàng)目
7、繼續(xù)分析、調(diào)整和輸入—大數(shù)據(jù)是靈活的,需要隨著數(shù)據(jù)、情報(bào)和企業(yè)要求的變化進(jìn)行調(diào)整 #p#
第4步:利用分布式系統(tǒng)。 大數(shù)據(jù)要求我們轉(zhuǎn)換對(duì)系統(tǒng)和基礎(chǔ)設(shè)施的想法。正如虛擬化從根本上改變了我們利用服務(wù)器和應(yīng)用程序的方式,分布式系統(tǒng)和處理使我們能夠管理大數(shù)據(jù),因?yàn)榉植际郊軜?gòu)允許我們將問(wèn)題分解成很多小任務(wù),然后將這些任務(wù)分配到多個(gè)系統(tǒng)。好消息是,我們擁有了越來(lái)越多的攻擊和架構(gòu)框架可以利用,包括Cassandra、Hadoop、VMware、Red Hat等。分布式系統(tǒng)并不新鮮,但大數(shù)據(jù)將其帶入到全新的水平,分布式方法包括:
● 多租戶架構(gòu)
● 分布式數(shù)據(jù)庫(kù)
● 虛擬化
● 多線程
● 多核心CPU
● 并行處理
● 分布式文件系統(tǒng)
● 分布式負(fù)載平衡
● RAID算法
第5步:從分布式到分散式。 對(duì)大多數(shù)公司來(lái)說(shuō),這是真正的范式轉(zhuǎn)變,這也是大數(shù)據(jù)和云計(jì)算結(jié)合的地方,鑒于互聯(lián)網(wǎng)是世界上最大的分布式和分散的系統(tǒng),我們應(yīng)該更加充分地利用互聯(lián)網(wǎng)來(lái)實(shí)現(xiàn)大數(shù)據(jù)。
我們很喜歡分布式實(shí)例或者計(jì)算處理,但分散式往往有種失去控制的感覺(jué)。這有必要嗎?對(duì)于大數(shù)據(jù),采用分散式做法是必要的,因?yàn)橛捎谶^(guò)度和孤立的服務(wù),所有未使用的實(shí)例和存儲(chǔ)容量都將浪費(fèi)。
更重要的是,單靠分布式組件無(wú)法讓我們跟上數(shù)據(jù)增長(zhǎng)的步伐。IDC估計(jì),到2020年,產(chǎn)生的數(shù)據(jù)和數(shù)據(jù)中心容量之間的差距將達(dá)到60%。
然而,部分原因在于我們沒(méi)有充分利用我們已經(jīng)擁有的容量。Gartner估計(jì),大多數(shù)計(jì)算機(jī)、服務(wù)器和網(wǎng)絡(luò)只運(yùn)行了30%的容量以準(zhǔn)備好應(yīng)對(duì)峰值或者未來(lái)增長(zhǎng)。雖然我們可能永遠(yuǎn)不會(huì)以90%或者100%的容量運(yùn)行,但我們可以更好地利用現(xiàn)有的容量,節(jié)省數(shù)百萬(wàn)美元,提高現(xiàn)有基礎(chǔ)設(shè)施的總體擁有成本(TCO)。
分散式方法的主要特點(diǎn):
● 沒(méi)有中央瓶頸
● 大量的能力
● 有機(jī)的,需求推動(dòng)容量增長(zhǎng)
● 充分利用現(xiàn)有的基礎(chǔ)設(shè)施和邊緣設(shè)備
● 信息共享
● 假定每個(gè)人/每一個(gè)節(jié)點(diǎn)是“不可信任的”
● 地理分布:
○ 所有權(quán)和參與
○ 成本
○ 管理開(kāi)銷
○ 風(fēng)險(xiǎn)
分散式方法存在很多很好的例子,其中最知名的就是開(kāi)源運(yùn)動(dòng)。
分散式方法還有兩個(gè)新例子,筆者定義為分散式云系統(tǒng):CloudStack和OpenStack。我們?nèi)匀晃挥诜稚⑹椒椒ǖ脑缙陔A段,但隨著數(shù)據(jù)繼續(xù)增長(zhǎng),這將是未來(lái)幾年的重要趨勢(shì)。
第6步:雇傭/培養(yǎng)合適的人才和技能。 云計(jì)算并不意味著更少的IT工作,但云計(jì)算和大數(shù)據(jù)的出現(xiàn)卻是意味著我們需要發(fā)展我們的技能和培養(yǎng)人才。在大數(shù)據(jù)世界,數(shù)據(jù)庫(kù)管理員等現(xiàn)有崗位變得更加重要。你還需要培養(yǎng)和招聘的其他職位包括:
● 數(shù)據(jù)科學(xué)家
● 架構(gòu)師
● 隨機(jī)理論師(算法)
● 業(yè)務(wù)分析師
● UX/UI專家
其中一些職位似乎是合乎邏輯的,但對(duì)于業(yè)務(wù)分析師和UX/UI專家,傳統(tǒng)上不屬于IT部門,你可以將這些人員安排在生產(chǎn)管理中,而在大數(shù)據(jù)解決方案中,他們需要攜手開(kāi)發(fā)和運(yùn)營(yíng)團(tuán)隊(duì)。這是因?yàn)槟悴荒苤苯訉⒋髷?shù)據(jù)信息交給業(yè)務(wù)方面,使用圖表和易于理解的分析是關(guān)鍵。
此外,如果你還沒(méi)有整合開(kāi)發(fā)/運(yùn)營(yíng)團(tuán)隊(duì)來(lái)更好地管理云計(jì)算部署,那么現(xiàn)在可以這樣做了。這兩個(gè)團(tuán)隊(duì)必須攜手合作來(lái)實(shí)現(xiàn)任何云計(jì)算或者大數(shù)據(jù)戰(zhàn)略。
第7步:通過(guò)大數(shù)據(jù)來(lái)利用數(shù)據(jù)。正如IT職位可能開(kāi)始更傾向于業(yè)務(wù),IT需要改變其度量的方式。你的團(tuán)隊(duì)中的每個(gè)人都應(yīng)該熱衷于追蹤和記錄關(guān)鍵性能指標(biāo)(KPI),這些應(yīng)該符合業(yè)務(wù)指標(biāo),而不只是及時(shí)發(fā)布和交付高質(zhì)量代碼。技術(shù)團(tuán)隊(duì)的每個(gè)人都應(yīng)該有明確的指標(biāo),并努力尋找新方法來(lái)提高指標(biāo)結(jié)果。
大數(shù)據(jù)可能不是我們所有人想要的答案,但它確實(shí)給IT創(chuàng)造了幫助企業(yè)提高收入的機(jī)會(huì)。