大數(shù)據(jù)應(yīng)用?你先搞定數(shù)據(jù)獲取再說
譯文【51CTO.com快譯】雖然大數(shù)據(jù)已經(jīng)變得更像一句營銷術(shù)語,但是它仍有巨大的潛力沒有被挖掘出來。不過,得先把數(shù)據(jù)獲取這個(gè)大麻煩解決了。
企業(yè)在面對(duì)數(shù)據(jù)的時(shí)候,比知道怎么處理更多的情況,是在這些數(shù)據(jù)里漫無目的的游泳。遺憾的是,太多的公司將這種現(xiàn)象與大數(shù)據(jù)本身關(guān)聯(lián)起來。從技術(shù)角度來說,大數(shù)據(jù)是非常具體的一件事――結(jié)構(gòu)化數(shù)據(jù)(企業(yè)的專有信息)與非結(jié)構(gòu)化數(shù)據(jù)(社交媒體數(shù)據(jù)流和政府新聞源之類的公共數(shù)據(jù)源)的結(jié)合體。
如果你將非結(jié)構(gòu)化數(shù)據(jù)覆蓋在結(jié)構(gòu)化數(shù)據(jù)之上,通過分析軟件將其可視化,你就會(huì)得到過去從未有過的洞察力――預(yù)測產(chǎn)品銷售、更精準(zhǔn)地目標(biāo)用戶、新的市場機(jī)遇,等等。
大數(shù)據(jù)不再像過去幾年一樣,受限于工具缺乏的問題。那時(shí)候搞大數(shù)據(jù)意味著團(tuán)隊(duì)里必須有數(shù)據(jù)科學(xué)家,還會(huì)被R和Hadoop之類的開源工具搞得心煩意亂。
如今,多少公司都爭著幫你可視化大數(shù)據(jù):從Tableau、Qlik、TIBCO和MicroStrategy之類的專業(yè)公司,到微軟、IBM、SAP和甲骨文之類提供端到端服務(wù)的廠商,不一而足。
不過,據(jù)上周出席奧蘭多中級(jí)市場CIO論壇/中級(jí)市場首席營銷官(CMO)論壇的IT主管們聲稱,許多公司在大數(shù)據(jù)分析中最頭疼的問題,其實(shí)是如何獲取數(shù)據(jù)。
一位CIO說:“我們IT部門的最大問題,是我們?nèi)绾尾拍軐?shù)據(jù)獲取進(jìn)來,這件事非常麻煩。”
這種說法也得到了相關(guān)數(shù)據(jù)的證實(shí)。
數(shù)據(jù)集成公司Xplenty開展的一項(xiàng)調(diào)查聲稱,三分之一的商業(yè)智能專業(yè)人員把50%至90%的時(shí)間,花在了清理原始數(shù)據(jù)和將數(shù)據(jù)錄入到公司的數(shù)據(jù)平臺(tái)的準(zhǔn)備工作上。這種現(xiàn)象的原因,可能與只有28%的公司認(rèn)為自己能從數(shù)據(jù)中獲得戰(zhàn)略性價(jià)值有很大關(guān)系。
數(shù)據(jù)清理的問題還包括,眼下IT行業(yè)許多最搶手的專業(yè)人員,正在花大量時(shí)間處理這項(xiàng)讓人暈頭轉(zhuǎn)向的工作:在分析數(shù)據(jù)之前先篩選并組織整理數(shù)據(jù)集。
這顯然對(duì)于數(shù)據(jù)的可擴(kuò)展性非常不利,也嚴(yán)重限制了大數(shù)據(jù)的潛力。隨著物聯(lián)網(wǎng)不斷發(fā)展,收集更多的數(shù)據(jù)對(duì)我們來說將越來越容易,這個(gè)問題只會(huì)變得更嚴(yán)峻。
有三種可能的方法有望解決這個(gè)問題:
1. 大數(shù)據(jù)分析軟件不斷完善――許多這些公司在過去五年時(shí)一直投入大量精力在大數(shù)據(jù)領(lǐng)域,減輕數(shù)據(jù)清理環(huán)節(jié)壓力的工具不太可能在短期內(nèi)出現(xiàn)重大突破,但有望實(shí)現(xiàn)逐步改進(jìn)。
2. 數(shù)據(jù)準(zhǔn)備人員成為數(shù)據(jù)科學(xué)家的助手――正如律師助理幫助律師處理重要的基礎(chǔ)工作,數(shù)據(jù)準(zhǔn)備人員也會(huì)幫助數(shù)據(jù)科學(xué)家處理基本上同樣的底層任務(wù)。我們已經(jīng)在某種程度上看到了這一幕。不妨閱讀TechRepublic的這篇文章:《“數(shù)據(jù)標(biāo)記”是人工智能時(shí)代的新新藍(lán)領(lǐng)工作嗎?》(http://www.techrepublic.com/article/is-data-labeling-the-new-blue-collar-job-of-the-ai-era/)
3. 利用人工智能清理數(shù)據(jù)――另一種可能性是,用來清理、篩選和分類數(shù)據(jù)的軟件和算法將被編寫出來。這一幕極有可能出現(xiàn),但是我們還應(yīng)預(yù)料到,這也不是“銀彈”。微軟、IBM和亞馬遜正在致力于用人工進(jìn)行軟件無法處理的數(shù)據(jù)標(biāo)記工作――而這正是全球自動(dòng)化和算法領(lǐng)域的三巨頭。
原文標(biāo)題:Big data's biggest problem: It's too hard to get the data in ,作者:Jason Hiner
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】