如何避免失敗,像Google一樣玩轉(zhuǎn)大數(shù)據(jù)
隨著生活的豐富,產(chǎn)生數(shù)據(jù)的設(shè)備也是愈來(lái)愈多,同樣需要處理的數(shù)據(jù)體積也是日益激增,各個(gè)機(jī)構(gòu)也紛紛把眼光投向“大數(shù)據(jù)”這個(gè)術(shù)語(yǔ)。在這場(chǎng)數(shù)據(jù)的淘金中許多公司滿(mǎn)載而歸,然而“大數(shù)據(jù)”投資失敗的公司也不可謂不多,所以就有了之前的一篇文章“ Why Big Data Projects Fail”。對(duì)此,商業(yè)智能工具研發(fā)總監(jiān)、esProc、esCalc高級(jí)顧問(wèn)Jim King否認(rèn)了這個(gè)看法,并以Google為例給大數(shù)據(jù)投資者提出了一些警示。
以下為譯文:
首先看一下大數(shù)據(jù)成功典范Google,看看他們是如何玩轉(zhuǎn)大數(shù)據(jù)的:
1. 收集數(shù)據(jù),捕捉每個(gè)網(wǎng)站、電子郵件、Cookie內(nèi)容,并提取關(guān)鍵信息。
2. 為信息創(chuàng)建復(fù)合索引。不用說(shuō),廣告相關(guān)索引是必不可少的。
3. 將目錄和內(nèi)容儲(chǔ)存在分布式服務(wù)器中。
4. 當(dāng)用戶(hù)瀏覽網(wǎng)站以及搜索或訪問(wèn)電子郵件時(shí),Google會(huì)對(duì)這些請(qǐng)求做復(fù)雜的轉(zhuǎn)換處理,同時(shí)幾個(gè)索引項(xiàng)會(huì)隨之確定。
5. 根據(jù)索引在服務(wù)器中查詢(xún)數(shù)據(jù),返回搜索結(jié)果或者廣告。
在這里不難發(fā)現(xiàn),與Hadoop有關(guān)的只有3和5,也就是數(shù)據(jù)儲(chǔ)存和查詢(xún)。而這兩項(xiàng)也是最容易實(shí)現(xiàn)的兩項(xiàng),比如Hadoop就是個(gè)具有良好擴(kuò)展性及低成本的解決方案。
那么實(shí)現(xiàn)3和5就可以像Google一樣發(fā)玩轉(zhuǎn)大數(shù)據(jù)了?很顯然不行,因?yàn)殛P(guān)鍵選項(xiàng)2和4并沒(méi)有實(shí)現(xiàn),而2和4就是所謂的業(yè)務(wù)分析算法。這些算法由業(yè)務(wù)專(zhuān)家根據(jù)數(shù)據(jù)、業(yè)務(wù)知識(shí)、市場(chǎng)趨勢(shì)精心打造,是許多企業(yè)商業(yè)策略制定的重要手段及核心。這才是4V理論中的“Value”。
這也是現(xiàn)下許多大數(shù)據(jù)投資失敗的原因,因?yàn)楫?dāng)下的大數(shù)據(jù)只提供了數(shù)據(jù)存儲(chǔ)和查詢(xún)的策略,缺乏了提高企業(yè)競(jìng)爭(zhēng)力的業(yè)務(wù)分析解決方案,而恰恰這才是最重要的。事實(shí)上,現(xiàn)在的大數(shù)據(jù)工具都是為IT專(zhuān)家打造的,他們可以通過(guò)C++或者Java實(shí)現(xiàn)MapReduce功能,但是卻無(wú)法提供有價(jià)值的商業(yè)算法。
因此大數(shù)據(jù)成功的關(guān)鍵不在于Hadoop是否部署成功,而在于對(duì)業(yè)務(wù)有幫助算法的制定,而在人才嚴(yán)重缺乏的當(dāng)下,不妨從數(shù)據(jù)工具入手。降低工具使用的門(mén)檻,讓業(yè)務(wù)專(zhuān)家可以參與其中,才能發(fā)揮大數(shù)據(jù)真正的作用,對(duì)業(yè)務(wù)起到立竿見(jiàn)影的改善。
總結(jié)
工具的部署誰(shuí)都可以,關(guān)鍵在于業(yè)務(wù)算法的制定,讓業(yè)務(wù)專(zhuān)家無(wú)縫的參與數(shù)據(jù)的分析才是成功之始。