大數(shù)據(jù)已經(jīng)說濫了?數(shù)據(jù)落地哪兒那么容易
大數(shù)據(jù)已經(jīng)說濫了?數(shù)據(jù)落地哪兒那么容易
曾經(jīng)有一位業(yè)內(nèi)知名廠商的研發(fā)專家表示,對于數(shù)據(jù)更快的處理和擁有更可靠的數(shù)據(jù)質(zhì)量,以及給應(yīng)用市場進(jìn)行更加精細(xì)的花費(fèi),這些都是未來大數(shù)據(jù)時(shí)代我們首當(dāng)其中要做的。
讓數(shù)據(jù)分析處理速度更快
我們現(xiàn)在每天一覺醒來,全球所產(chǎn)生的數(shù)據(jù)量是很龐大的,并且這些數(shù)據(jù)在每小時(shí)、甚至每分鐘當(dāng)中都是以成指數(shù)倍增長的,正因?yàn)榇罅繑?shù)據(jù)成這種增長趨勢,使得我么在數(shù)據(jù)的快速分析技術(shù)方面變得比以前更加緊迫,數(shù)據(jù)不等人!
現(xiàn)在IT業(yè)界凡是在做大數(shù)據(jù)的企業(yè)都在自己產(chǎn)品對于數(shù)據(jù)的處理速度上加大研發(fā)力度和投入,從而大做文章,比如像Hadoop發(fā)布的新品Hadoop 2.0 / YARN,幾乎能實(shí)時(shí)分析數(shù)據(jù)。而下一代大數(shù)據(jù)的計(jì)算牽引框架Apache Spark,它的速度比Hadoop快100倍。
據(jù)行業(yè)內(nèi)部了解,硅谷風(fēng)險(xiǎn)投資機(jī)構(gòu)Andreessen Horowitz,已經(jīng)以1400萬美元的價(jià)格領(lǐng)投了一家以Apache Spark為業(yè)務(wù)核心的初創(chuàng)企業(yè)Databricks。不久前,亞馬遜也上線了實(shí)時(shí)流數(shù)據(jù)服務(wù)Kinesis ,來幫助沒有數(shù)據(jù)處理能力的公司解決這一問題。
現(xiàn)在越來越多的廠商開始認(rèn)識到數(shù)據(jù)處理速度對于大數(shù)據(jù)這個(gè)戰(zhàn)場上的重要性了,每秒處理近TB大小的數(shù)據(jù)量已經(jīng)不足為奇,傳感器數(shù)據(jù)分析、物聯(lián)網(wǎng)在工業(yè)和消費(fèi)級市場快速發(fā)展的勢頭也共同推動了大數(shù)據(jù)的前進(jìn),特別是當(dāng)實(shí)時(shí)處理的傳感器數(shù)據(jù),激增到一天幾TB的時(shí)候。速度!就成了尤為關(guān)鍵的指標(biāo)。
垃圾數(shù)據(jù)?必須清洗掉!
前面我們說了每天大數(shù)據(jù)數(shù)量成指數(shù)倍的激增趨勢,那么對于數(shù)據(jù)質(zhì)量的強(qiáng)化和過濾分析也就讓很多廠商頭疼了,在這一堆龐大的數(shù)據(jù)面前,垃圾數(shù)據(jù)以及很多無用的數(shù)據(jù)不可避免,然而它們也會給我們的機(jī)房乃至數(shù)據(jù)中心帶來數(shù)據(jù)處理上的壓力和負(fù)擔(dān)。
垃圾數(shù)據(jù)一旦產(chǎn)生,就需要我們在數(shù)據(jù)處理的過程當(dāng)中,對垃圾數(shù)據(jù)進(jìn)行過濾和清洗,并且自動決策這些數(shù)據(jù)的去留,這樣的環(huán)境下,如果選擇了一個(gè)壞的數(shù)據(jù),就會像病毒一樣,可能引發(fā)連續(xù)的錯誤決策,甚至讓企業(yè)蒙受經(jīng)濟(jì)損失。試想一下,利用不同算法在股市進(jìn)行交易,每天以毫秒計(jì)時(shí)的股市,一旦出現(xiàn)任何數(shù)據(jù)分析或者垃圾數(shù)據(jù)的事故,這個(gè)經(jīng)濟(jì)損失是不可估量的。
現(xiàn)在,隨著大數(shù)據(jù)的飛速發(fā)展,數(shù)據(jù)質(zhì)量已經(jīng)形成了服務(wù)級別協(xié)議的重要參數(shù),那些無法被屏蔽掉的劣質(zhì)數(shù)據(jù)提供商將會被自動列入黑名單,并且還會面臨很嚴(yán)重的經(jīng)濟(jì)處罰,B2B行業(yè)為早期數(shù)據(jù)質(zhì)量的入局者,他們非常重視數(shù)據(jù)的質(zhì)量,來保持商業(yè)運(yùn)作時(shí)的穩(wěn)定性。甚至,許多企業(yè)計(jì)劃為數(shù)據(jù)質(zhì)量部署實(shí)時(shí)的警告系統(tǒng),這些警告會被發(fā)送于負(fù)責(zé)相應(yīng)問題的專員,由他們提供問題的解決方案。
機(jī)器學(xué)習(xí)系統(tǒng)部署在一個(gè)閉環(huán)的生態(tài)中,通過模式分析與其他的數(shù)據(jù)分析技術(shù),細(xì)化原來的數(shù)據(jù)質(zhì)量規(guī)則。而高質(zhì)量的數(shù)據(jù),能夠保證機(jī)器進(jìn)行正確的行為模式分析。
數(shù)據(jù)基礎(chǔ)應(yīng)用日趨豐富
現(xiàn)在我們正處在大數(shù)據(jù)時(shí)代,我們的工作、生活、學(xué)習(xí)都無時(shí)無刻不在感受大數(shù)據(jù),的確,我們?nèi)谌肫渲?。那么我們每一個(gè)人也就都想利用大數(shù)據(jù)給我們帶來各種便利,從而讓大數(shù)據(jù)能幫我們解決困難,消滅問題,有業(yè)內(nèi)專家曾經(jīng)預(yù)測,在未來,將會有成千上萬的解決某一垂直領(lǐng)域的專業(yè)應(yīng)用,以應(yīng)對來自各行各業(yè)的大數(shù)據(jù)挑戰(zhàn)。
現(xiàn)在我們可以看到,已經(jīng)有一些數(shù)據(jù)分析公司,像eHarmony、 Roambi、 Climate Corporation等,它們已經(jīng)在大數(shù)據(jù)領(lǐng)域小有成就,我們也慢慢發(fā)覺越來越多的應(yīng)用已經(jīng)從不同的渠道慢慢滲透出來,它們不依賴特定的基礎(chǔ)設(shè)備,也不需要雇傭?qū)I(yè)的數(shù)據(jù)科學(xué)家,因?yàn)樯厦嫣岬降哪切?shù)據(jù)公司足矣完成這些內(nèi)容。
現(xiàn)在的數(shù)據(jù)公司數(shù)據(jù)企業(yè)已經(jīng)可以為用戶提供用戶所需要的各種應(yīng)用以及用戶需要的不同類型產(chǎn)品,企業(yè)賺錢也變得更有針對性,吃喝玩樂,衣食住行都在這個(gè)數(shù)據(jù)時(shí)代得到保證和提高,未來的數(shù)據(jù)生活和數(shù)據(jù)應(yīng)用也會變得越來越豐富。