對于大數(shù)據(jù),你了解嗎?常見的大數(shù)據(jù)應(yīng)用場景有哪些?
最早提出“大數(shù)據(jù)”(Big Data)時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運用,預(yù)示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來。
大數(shù)據(jù)的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。大數(shù)據(jù)時代的出現(xiàn)簡單的講是海量數(shù)據(jù)同完美計算能力結(jié)合的結(jié)果,確切的說是移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)產(chǎn)生了海量的數(shù)據(jù),大數(shù)據(jù)計算技術(shù)完美地解決了海量數(shù)據(jù)的收集、存儲、計算、分析的問題。
當我們最初談大數(shù)據(jù)的時候,談的最多的可能是用戶行為分析。即通過各種用戶行為,(以互聯(lián)網(wǎng)行業(yè)為例)包括瀏覽記錄,消費記錄,交往和購物娛樂,行動軌跡等各種用戶行為產(chǎn)生的數(shù)據(jù)。通過對用戶各種行為產(chǎn)生的大數(shù)據(jù)進行分析、預(yù)測, 就可以幫助企業(yè)精準營銷、風險管控,向企業(yè)提供決策支持,并輔助產(chǎn)品設(shè)計,提升企業(yè)的效率。
醫(yī)療大數(shù)據(jù)讓預(yù)防和看病更高效, 生物大數(shù)據(jù)讓改良基因有了可能,金融大數(shù)據(jù)成為投資理財利器,零售大數(shù)據(jù)最懂消費者,電商大數(shù)據(jù)是精準營銷的法寶,農(nóng)牧大數(shù)據(jù)可預(yù)測需求并量化生產(chǎn),交通大數(shù)據(jù)方便百姓暢通出行,教育大數(shù)據(jù)輔助教育工作者因材施教,食品大數(shù)據(jù)可以保障舌尖上的安全,輿情監(jiān)控大數(shù)據(jù)可預(yù)測數(shù)據(jù)預(yù)防犯罪......
大數(shù)據(jù)技術(shù)的發(fā)展帶來企業(yè)經(jīng)營決策模式的轉(zhuǎn)變,驅(qū)動著行業(yè)變革,衍生出新的商機和發(fā)展契機。各行業(yè)的核心數(shù)據(jù)的相關(guān)性再加上可感知設(shè)備的智能數(shù)據(jù)采集,就構(gòu)成一個完整的大數(shù)據(jù)生態(tài)環(huán)境。由此推動了企業(yè)的效率提升、科學決策、精細管理,更重要的是科學管理,數(shù)據(jù)治國。
1
云計算
云計算最初的目標是對資源的管理,管理的主要是計算資源,網(wǎng)絡(luò)資源,存儲資源三個方面。想象你有一大堆的服務(wù)器,交換機,存儲設(shè)備,放在你的機房里面,你最想做的事情就是把這些東西統(tǒng)一的管理起來,最好能達到當別人向你請求分配資源的時候(例如1核1G內(nèi)存,10G硬盤,1M帶寬的機器),能夠達到想什么時候要就能什么時候要,想要多少就有多少的狀態(tài)。
這就是所謂的彈性,俗話說就是靈活性。靈活性分兩個方面,想什么時候要就什么時候要,這叫做時間靈活性,想要多少就要多少,這叫做空間靈活性。
在云計算的發(fā)展過程中,云計算逐漸發(fā)現(xiàn)自己除了資源層面的管理,還能夠進行應(yīng)用層面的管理,而大數(shù)據(jù)應(yīng)用作為越來越重要的應(yīng)用之一,云計算也可以放入PaaS層管理起來,而大數(shù)據(jù)也發(fā)現(xiàn)自己越來越需要大量的計算資源,而且想什么時候要就什么時候要,想要多少就要多少,于是兩者相遇,相識,相知,走在了一起。
2
大數(shù)據(jù)
大數(shù)據(jù)時代,眾人拾柴火焰高
當數(shù)據(jù)量很小時,很少的幾臺機器就能解決。慢慢的,當數(shù)據(jù)量越來越大,最牛的服務(wù)器都解決不了問題時,怎么辦呢?這時就要聚合多臺機器的力量,大家齊心協(xié)力一起把這個事搞定,眾人拾柴火焰高。所以說什么叫做大數(shù)據(jù)?說白了就是一臺機器干不完,大家一起干??墒请S著數(shù)據(jù)量越來越大,很多不大的公司都需要處理相當多的數(shù)據(jù),這些小公司沒有這么多機器可怎么辦呢?
大數(shù)據(jù)需要云計算,云計算需要大數(shù)據(jù)
說到這里,大家想起云計算了吧。當想要干這些活時,需要很多的機器一塊做,真的是想什么時候要就什么時候要,想要多少就要多少。
例如大數(shù)據(jù)分析公司的財務(wù)情況,可能一周分析一次,如果要把這一百臺機器或者一千臺機器都在那放著,一周用一次非常浪費。那能不能需要計算的時候,把這一千臺機器拿出來;不算的時候,讓這一千臺機器去干別的事情?
誰能做這個事兒呢?只有云計算,可以為大數(shù)據(jù)的運算提供資源層的靈活性。而云計算也會部署大數(shù)據(jù)放到它的PaaS平臺上,作為一個非常非常重要的通用應(yīng)用。因為大數(shù)據(jù)平臺能夠使得多臺機器一起干一個事兒,這個東西不是一般人能開發(fā)出來的,也不是一般人玩得轉(zhuǎn)的,怎么也得雇個幾十上百號人才能把這個玩起來。
所以說就像數(shù)據(jù)庫一樣,其實還是需要有一幫專業(yè)的人來玩這個東西?,F(xiàn)在公有云上基本上都會有大數(shù)據(jù)的解決方案了,一個小公司需要大數(shù)據(jù)平臺的時候,不需要采購一千臺機器,只要到公有云上一點,這一千臺機器都出來了,并且上面已經(jīng)部署好了的大數(shù)據(jù)平臺,只要把數(shù)據(jù)放進去算就可以了。
云計算需要大數(shù)據(jù),大數(shù)據(jù)需要云計算,二者就這樣結(jié)合了。
3
人工智能
雖說有了大數(shù)據(jù),人的欲望卻不能夠滿足。雖說在大數(shù)據(jù)平臺里面有搜索引擎這個東西,想要什么東西一搜就出來了。但也存在這樣的情況:我想要的東西不會搜,表達不出來,搜索出來的又不是我想要的。例如音樂軟件推薦了一首歌,這首歌我沒聽過,當然不知道名字,也沒法搜。但是軟件推薦給我,我的確喜歡,這就是搜索做不到的事情。當人們使用這種應(yīng)用時,會發(fā)現(xiàn)機器知道我想要什么,而不是說當我想要時,去機器里面搜索。這個機器真像我的朋友一樣懂我,這就有點人工智能的意思了。
人們很早就在想這個事情了。最早的時候,人們想象,要是有一堵墻,墻后面是個機器,我給它說話,它就給我回應(yīng)。如果我感覺不出它那邊是人還是機器,那它就真的是一個人工智能的東西了。
怎么才能做到這一點呢?人們就想:我首先要告訴計算機人類的推理的能力。你看人重要的是什么?人和動物的區(qū)別在什么?就是能推理。要是把我這個推理的能力告訴機器,讓機器根據(jù)你的提問,推理出相應(yīng)的回答,這樣多好?
其實目前人們慢慢地讓機器能夠做到一些推理了,例如證明數(shù)學公式。這是一個非常讓人驚喜的一個過程,機器竟然能夠證明數(shù)學公式。但慢慢又發(fā)現(xiàn)其實這個結(jié)果也沒有那么令人驚喜。因為大家發(fā)現(xiàn)了一個問題:數(shù)學公式非常嚴謹,推理過程也非常嚴謹,而且數(shù)學公式很容易拿機器來進行表達,程序也相對容易表達。
然而人類的語言就沒這么簡單了。比如今天晚上,你和你女朋友約會,你女朋友說:如果你早來,我沒來;你等著,如果我早來;你沒來,你等著!這個機器就比較難理解了,但人都懂。所以你和女朋友約會,是不敢遲到的。
因此,僅僅告訴機器嚴格的推理是不夠的,還要告訴機器一些知識。但告訴機器知識這個事情,一般人可能就做不來了。
于是人們想到:機器是和人完全不一樣的物種,干脆讓機器自己學習好了。機器怎么學習呢?既然機器的統(tǒng)計能力這么強,基于統(tǒng)計學習,一定能從大量的數(shù)字中發(fā)現(xiàn)一定的規(guī)律。聽起來也沒有那么有道理,但的確能做到,就是這么任性!
人工智能可以做的事情非常多,例如可以鑒別垃圾郵件、鑒別黃色暴力文字和圖片等。這也是經(jīng)歷了三個階段的:
- 第一個階段依賴于關(guān)鍵詞黑白名單和過濾技術(shù),包含哪些詞就是黃色或者暴力的文字。隨著這個網(wǎng)絡(luò)語言越來越多,詞也不斷地變化,不斷地更新這個詞庫就有點顧不過來。
- 第二個階段時,基于一些新的算法,比如說貝葉斯過濾等,你不用管貝葉斯算法是什么,但是這個名字你應(yīng)該聽過,這個一個基于概率的算法。
- 第三個階段就是基于大數(shù)據(jù)和人工智能,進行更加精準的用戶畫像和文本理解和圖像理解。
由于人工智能算法多是依賴于大量的數(shù)據(jù)的,這些數(shù)據(jù)往往需要面向某個特定的領(lǐng)域(例如電商,郵箱)進行長期的積累,如果沒有數(shù)據(jù),就算有人工智能算法也白搭,所以人工智能程序很少像前面的IaaS和PaaS一樣,將人工智能程序給某個客戶安裝一套,讓客戶去用。因為給某個客戶單獨安裝一套,客戶沒有相關(guān)的數(shù)據(jù)做訓練,結(jié)果往往是很差的。
但云計算廠商往往是積累了大量數(shù)據(jù)的,于是就在云計算廠商里面安裝一套,暴露一個服務(wù)接口,比如您想鑒別一個文本是不是涉及黃色和暴力,直接用這個在線服務(wù)就可以了。這種形勢的服務(wù),在云計算里面稱為軟件即服務(wù),SaaS (Software AS A Service),于是工智能程序作為SaaS平臺進入了云計算。
終于云計算的三兄弟湊齊了,分別是IaaS、PaaS和SaaS。所以一般在一個云計算平臺上,云、大數(shù)據(jù)、人工智能都能找得到。一個大數(shù)據(jù)公司,積累了大量的數(shù)據(jù),會使用一些人工智能的算法提供一些服務(wù);一個人工智能公司,也不可能沒有大數(shù)據(jù)平臺支撐。
所以,當云計算、大數(shù)據(jù)、人工智能這樣整合起來,便完成了相遇、相識、相知的過程。