大數(shù)據(jù)和人工智能-從機(jī)械思維到統(tǒng)計(jì)思維
今天準(zhǔn)備寫一篇文章來談大數(shù)據(jù),人工智能和事物認(rèn)知問題解決之間的關(guān)系邏輯。因此這篇文章不會談底層的實(shí)現(xiàn)技術(shù),而更多的會談在整個信息技術(shù)革命下思維邏輯的發(fā)展演進(jìn)過程,并對相互之間的關(guān)系做進(jìn)一步思考。
大數(shù)據(jù)概念和其發(fā)展
大數(shù)據(jù)這個概念在5,6年相當(dāng)火,而最近幾年整體熱度下降得很明顯,類似的又出現(xiàn)了數(shù)據(jù)湖,數(shù)據(jù)中臺這些概念。但是數(shù)據(jù)中臺和數(shù)據(jù)湖,卻很難體現(xiàn)出大數(shù)據(jù)的一些關(guān)鍵特征。
比如我們談大數(shù)據(jù)核心,一般都會談到其4V特征。
- 數(shù)據(jù)量足夠大,PB級別以上
- 數(shù)據(jù)類型多樣化,結(jié)構(gòu)化,非結(jié)構(gòu)化
- 時效性要求高
- 價值創(chuàng)造,大數(shù)據(jù)最終實(shí)現(xiàn)價值
前面幾年大數(shù)據(jù)應(yīng)用更多的是在做數(shù)據(jù)采集,集成,存儲方面的事情,但是對數(shù)據(jù)本身的應(yīng)用和分析卻很少。大數(shù)據(jù)應(yīng)用和分析做得好的可以看到重要是在電商行業(yè),或者類似電信,金融等直接面對客戶的大集團(tuán)行業(yè),應(yīng)用的點(diǎn)也更多在針對性營銷,推薦引擎,客戶畫像等方面。也就是說理想的應(yīng)用場景很多,但是大量落地場景并不多。
很多企業(yè)建大數(shù)據(jù)平臺,投入大量資源,時間和成本,雖然完成了統(tǒng)一的數(shù)據(jù)采集和存儲,但是數(shù)據(jù)本身產(chǎn)生的價值并沒有體現(xiàn)出來。
類似當(dāng)前數(shù)據(jù)中臺,實(shí)際也在談一點(diǎn),大數(shù)據(jù)平臺不能是只做OLAP分析,做分析決策,更多的要考慮數(shù)據(jù)能力實(shí)時開放,反哺業(yè)務(wù),為業(yè)務(wù)服務(wù)。
當(dāng)你構(gòu)建了大數(shù)據(jù)平臺后,你會看到后續(xù)的數(shù)據(jù)運(yùn)維,數(shù)據(jù)管控治理,數(shù)據(jù)分析均需要持續(xù)大量的人員投入,如果數(shù)據(jù)本身無法產(chǎn)生價值,那么平臺最終被荒廢掉也是合理之選。
大數(shù)據(jù)和傳統(tǒng)BI
對于大部分企業(yè)來說,企業(yè)信息化發(fā)展本身也有一個過程。
其前期的數(shù)據(jù)分析更多的還是圍繞結(jié)構(gòu)化數(shù)據(jù)展開,這些數(shù)據(jù)采集集中后上PB級并不容易,同時也全部是結(jié)構(gòu)化數(shù)據(jù),這個時候傳統(tǒng)的BI系統(tǒng)構(gòu)建思路仍然適用,唯一的就是數(shù)據(jù)量大后你可能需要轉(zhuǎn)到類似MPP分布式的數(shù)據(jù)分析庫上來解決性能問題。
如果你完全采用類似Hadoop來構(gòu)建大數(shù)據(jù)技術(shù)平臺來解決上面這些問題,那么實(shí)際上完全沒有必要,你會發(fā)現(xiàn)會引入更多的技術(shù)復(fù)雜度和業(yè)務(wù)建模復(fù)雜度。
為什么這樣講?
對于傳統(tǒng)BI分析里面的維度分析,上鉆下鉆,切片等基于維度建模型形成的分析能力,在Hadoop存儲和處理中并不合適。Hadoop在數(shù)據(jù)存儲擴(kuò)展,分析SQL運(yùn)行效率上有明顯提升,但是很多BI里面并不需要實(shí)時查詢或即席查詢能力。
也就是說企業(yè)如果沒有這種數(shù)據(jù)實(shí)時分析結(jié)果反哺業(yè)務(wù)的需求,那么你更加沒有必要馬上去搭建這種大數(shù)據(jù)平臺來解決你的問題。
相關(guān)性和因果關(guān)系
早期,《大數(shù)據(jù)時代》這本書可以說相當(dāng)?shù)幕?,作者在書中提出?ldquo;大數(shù)據(jù)三原則”:要全體不要抽樣,要效率不要絕對精確,要相關(guān)不要因果。再次提到了大數(shù)據(jù)更加關(guān)注數(shù)據(jù)之間的相關(guān)性而非因果邏輯。
也就是大家熟知的啤酒和尿片的故事。
這個故事產(chǎn)生于20世紀(jì)90年代的美國沃爾瑪超市中,沃爾瑪?shù)某泄芾砣藛T分析銷售數(shù)據(jù)時發(fā)現(xiàn)了一個令人難于理解的現(xiàn)象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關(guān)系的商品會經(jīng)常出現(xiàn)在同一個購物籃中,這種獨(dú)特的銷售現(xiàn)象引起了管理人員的注意,經(jīng)過后續(xù)調(diào)查發(fā)現(xiàn),這種現(xiàn)象出現(xiàn)在年輕的父親身上。
如果這個年輕的父親在賣場只能買到兩件商品之一,則他很有可能會放棄購物而到另一家商店,直到可以一次同時買到啤酒與尿布為止。沃爾瑪發(fā)現(xiàn)了這一獨(dú)特的現(xiàn)象,開始在賣場嘗試將啤酒與尿布擺放在相同的區(qū)域,讓年輕的父親可以同時找到這兩件商品,并很快地完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩件商品、而不是一件,從而獲得了很好的商品銷售收入,這就是“啤酒與尿布” 故事的由來。
認(rèn)知邏輯-從機(jī)械思維到信息論
當(dāng)今天重新回顧這個案例的時候,實(shí)際本身就是我們認(rèn)知世界的方式在發(fā)生大的變化。
我們傳統(tǒng)思考方式就是機(jī)械思維,其中牛頓之一個很大的貢獻(xiàn)值,簡單來說就是自然界發(fā)生的各自現(xiàn)象事件,一定有其內(nèi)在的規(guī)律和原因,同時這個原因我們可以用抽象的公式或模型來進(jìn)行表達(dá)。
那么當(dāng)我們遇到同樣的現(xiàn)象的時候,就可以用公式去解題。
但是機(jī)械思維發(fā)展中出現(xiàn)兩個問題,即有些時候我們沒有辦法做到精確建模,這本身又有兩個原因,其一是對目標(biāo)Y造成影響的X因子太多,無法窮舉和認(rèn)知全;其二是我們的測量系統(tǒng)出現(xiàn)問題,簡單來說采集不全和測量不準(zhǔn)。這些都對我們的確定性思維造成挑戰(zhàn)。
解決該問題本身又有兩種思路:
- 其一是概率和統(tǒng)計(jì)
- 其二是對信息不確定性的量化表達(dá)-信息論和信息熵(香農(nóng))
而信息論則完全相反,建立在不確定性(假設(shè))基礎(chǔ)上,要消息不確定性就必須引入信息。于是我們的思維邏輯發(fā)生了進(jìn)一步變化,即從機(jī)械思維到大數(shù)據(jù)思維的轉(zhuǎn)變。
復(fù)雜時間很難找到確定性和因果關(guān)系-》因此用不確定性眼光看待世界-》把智能問題轉(zhuǎn)化為消除不確定性的問題-》找到消除相應(yīng)不確定性的信息(或者說大量具有相關(guān)性的數(shù)據(jù)可以幫助我們消除這種不確定性)。
例如上面大數(shù)據(jù)的例子。
我們通過數(shù)據(jù)的相關(guān)分析,找到了啤酒與尿布搭配售賣的方法,但是我們并不清楚為何年輕父親會在購買尿片的時候順帶幾瓶啤酒。
在大數(shù)據(jù)時代,我們會產(chǎn)生一個錯覺,因果關(guān)系不再重要,重要的是大數(shù)據(jù)相關(guān)性分析。我們還是回到上面的例子來假設(shè)下可能的因果關(guān)系。
比如最多的調(diào)查結(jié)果可能是年輕父親購買尿片后,小孩換了新尿片可以快速地入睡,年輕父親這個時候才能夠有空閑時間進(jìn)行消遣,能夠產(chǎn)生空閑時間消遣才是推動啤酒購買的關(guān)鍵原因。
當(dāng)你了解清楚因果關(guān)系后,你會發(fā)現(xiàn)年輕的父親消遣的方式不只是喝啤酒,在家里看電影或球賽,打游戲,抽煙都可能是潛在的消遣方式。實(shí)際上你把香煙,口香糖,游戲卡等和尿布放在一起也能夠達(dá)到同樣的暢銷結(jié)果。
簡單總結(jié)一句重要的話就是:
一件事情你只是理解相關(guān)性那么只能是迎合或跟隨,而只有理解了相關(guān)性后面的因果關(guān)系你才可能破局或引領(lǐng)變革。
人工智能和大數(shù)據(jù)
人工智能,簡單來說就是計(jì)算機(jī)要模擬人的大腦來思考和解決問題。
可以看下百度百科對人工智能的一些說明
人工智能是研究使計(jì)算機(jī)來模擬人的某些思維過程和智能行為(如學(xué)習(xí)、推理、思考、規(guī)劃等)的學(xué)科,主要包括計(jì)算機(jī)實(shí)現(xiàn)智能的原理、制造類似于人腦智能的計(jì)算機(jī),使計(jì)算機(jī)能實(shí)現(xiàn)更高層次的應(yīng)用。
人工智能涉及到計(jì)算機(jī)科學(xué)、心理學(xué)、哲學(xué)和語言學(xué)等學(xué)科??梢哉f幾乎是自然科學(xué)和社會科學(xué)的所有學(xué)科,其范圍已遠(yuǎn)遠(yuǎn)超出了計(jì)算機(jī)科學(xué)的范疇,人工智能與思維科學(xué)的關(guān)系是實(shí)踐和理論的關(guān)系,人工智能是處于思維科學(xué)的技術(shù)應(yīng)用層次,是它的一個應(yīng)用分支。
從思維觀點(diǎn)看,人工智能不僅限于邏輯思維,要考慮形象思維、靈感思維才能促進(jìn)人工智能的突破性的發(fā)展,數(shù)學(xué)常被認(rèn)為是多種學(xué)科的基礎(chǔ)科學(xué),數(shù)學(xué)也進(jìn)入語言、思維領(lǐng)域,人工智能學(xué)科也必須借用數(shù)學(xué)工具,數(shù)學(xué)不僅在標(biāo)準(zhǔn)邏輯、模糊數(shù)學(xué)等范圍發(fā)揮作用,數(shù)學(xué)進(jìn)入人工智能學(xué)科,它們將互相促進(jìn)而更快地發(fā)展。
計(jì)算機(jī)具備了人的智能能力。那么人的智能能力包括了識別,定義,歸納,抽象,推理,決策等多個方面的能力。
前面已經(jīng)講到了思考解決問題的一種方式:
即問題輸入-》已有的算法模型-》問題解決
在很早以前的人工智能研究里面,更多的就是想著去模仿人腦思考和推理的過程。通過提供不同的輸入方式讓計(jì)算機(jī)進(jìn)行學(xué)習(xí),產(chǎn)生一個算法模型。然后對于新問題可以用模型去解決。類似人工神經(jīng)網(wǎng)絡(luò),遺傳算法等都是這個思路。但是當(dāng)你提供的輸入不足夠多的時候,這個模型很難快速地收斂,也很難得出一個精確化的確定模型。
在大數(shù)據(jù)出現(xiàn)后,形成了計(jì)算機(jī)解決問題的新思路。
深度學(xué)習(xí)+大數(shù)據(jù) = 人工智能
即從傳統(tǒng)學(xué)習(xí)和建模推理思路轉(zhuǎn)移到基于統(tǒng)計(jì)學(xué)的思路,這個李開復(fù)確實(shí)在里面做出了不小的貢獻(xiàn)。其次就是在統(tǒng)計(jì)學(xué)基礎(chǔ)上引入了深度學(xué)習(xí)的概念,而深度學(xué)習(xí)又依賴于海量大數(shù)據(jù)作為樣本輸入。
在李開復(fù)的《人工智能》一本書里面就談到深度學(xué)習(xí)+大數(shù)據(jù)引領(lǐng)了第三次AI浪潮。簡單來說就是你不需要去搞清楚人工神經(jīng)網(wǎng)絡(luò)這個精確模型是如何形成的?你只需要通過大量的樣本輸入去訓(xùn)練這個模型,最終得到你需要的輸出。
簡單來說一個計(jì)算機(jī)能夠識別一只動物圖片是貓,并不是計(jì)算機(jī)能夠精確地描述出來貓應(yīng)該具備的體型特征,而是圖片中的動物的特征矩陣和數(shù)據(jù)庫里面的動物貓最匹配而已。
對于谷歌的阿拉法狗戰(zhàn)勝李世石在17年也引起了轟動,再次展示了深度學(xué)習(xí)算法和人工智能的威力。對于人工智能來講,計(jì)算機(jī)本身的CPU并行計(jì)算能力遠(yuǎn)超人腦,主要有了合適的深度學(xué)習(xí)方法,計(jì)算機(jī)程序所發(fā)揮出來的人工智能威力巨大。
也就是說在大數(shù)據(jù)時代推動了人工智能的快速發(fā)展。
什么才是真正的智能?
當(dāng)我們做IT系統(tǒng)或應(yīng)用的時候,必須要搞清楚什么才是真正的智能或智慧。
計(jì)算機(jī)在解決問題的時候,實(shí)際上最簡單的就是類似公式計(jì)算或求解,這個可以發(fā)揮計(jì)算機(jī)的強(qiáng)大算力,完勝人類。
其次就是基于固有場景下制定規(guī)則的模式匹配。
我們可以舉一個智慧家庭里面的例子來作為參考。
當(dāng)進(jìn)門監(jiān)控到是男主人回來的時候,自動將空調(diào)溫度設(shè)置到24度并打開窗簾。當(dāng)監(jiān)控到是女主人回來的時候,將空調(diào)設(shè)置到26度,并關(guān)閉窗簾。
這個就是典型的基于場景的規(guī)則設(shè)置并執(zhí)行操作。
這種情況下計(jì)算機(jī)的能力是在類似人臉識別,語音識別方面,而不是在最終的決策執(zhí)行上面。因?yàn)闆Q策完全是基于預(yù)設(shè)的規(guī)則執(zhí)行。
而真正的人工智能應(yīng)該是基于大量的數(shù)據(jù)采集和分析,自己形成了規(guī)則,并且后續(xù)基于規(guī)則進(jìn)行執(zhí)行相關(guān)操作。并不斷基于新數(shù)據(jù)的輸入不斷地調(diào)整和優(yōu)化自己的規(guī)則。
類似完全意義上的自動駕駛,就是典型的人工智能要攻克的場景,也就是說非固有模式,非提前給定規(guī)則下快速的解決問題并做出判斷。
要做到這點(diǎn),你必須有大量的數(shù)據(jù)采集并進(jìn)行快速的分析。沒有大數(shù)據(jù)底層技術(shù),海量大數(shù)據(jù)的輸入,是無法做到智能的。包括前面的AlphGo,如果沒有大量的歷史棋譜的輸入和訓(xùn)練,電腦也是無法戰(zhàn)勝人類的。
電腦基于算力,采用統(tǒng)計(jì)學(xué)的思路找到了機(jī)器智能化的新途徑。
但是正如我前面談到的,如果電腦并沒有理解清楚因果關(guān)系,那么電腦就只能處于跟隨狀態(tài)而非引領(lǐng)狀態(tài)。類似圍棋也是一個道理,如果我們修改了圍棋的一些規(guī)則,同時不給AlphGo新的輸入訓(xùn)練,那么電腦同樣變成白癡。
人為何能夠戰(zhàn)勝電腦,里面有一個重點(diǎn)就是不要放棄對因果和本源的探索。
信息化->數(shù)字化->智能化
在談數(shù)字化轉(zhuǎn)型的時候,實(shí)際上一直在談三個關(guān)鍵點(diǎn):
- 連接:萬物互聯(lián),解決人和人,人和物,物和物的連接問題
- 數(shù)據(jù):連接后產(chǎn)生集成和協(xié)同,協(xié)同過程自然會產(chǎn)生數(shù)據(jù)
- 智能:數(shù)據(jù)經(jīng)過加工和提煉,形成智能化分析應(yīng)用
對于連接你可以看到首先是解決了最基本的業(yè)務(wù)協(xié)同問題。但是連接更加重要的作用是產(chǎn)生和沉淀數(shù)據(jù)。
傳統(tǒng)的連接更多的都是通過人來完成,通過人手工錄入電子表單等數(shù)據(jù)來完成。而在數(shù)字化階段必須解決連接的多樣性問題,數(shù)據(jù)產(chǎn)生多樣性問題,類似采用各種物聯(lián)網(wǎng)傳感設(shè)備,你會看到可以持續(xù)不斷,自動化的產(chǎn)生大量你需要的輸入?;蛘咄ㄟ^開會語音的記錄,視頻記錄同樣產(chǎn)生更多你原來沒有關(guān)注的數(shù)據(jù)。
數(shù)據(jù)本身在萬物互聯(lián)階段才形成了數(shù)量和類型的巨大變化,產(chǎn)生了大數(shù)據(jù)。
在數(shù)字化時代必須又重提大數(shù)據(jù)。
這個大數(shù)據(jù)的積累需要產(chǎn)生兩個方面的作用,一個是直接應(yīng)用到業(yè)務(wù)協(xié)同中,一個是真正提升智能化和智慧化的能力。當(dāng)前大部分企業(yè)仍然在第一階段,而要完全意義上的人工智能仍然在探索。
對于企業(yè)信息化領(lǐng)域同樣適用我前面的說法,即計(jì)算機(jī)能夠自動產(chǎn)生規(guī)則并應(yīng)用規(guī)則,才是完整意義上的人工智能。否則計(jì)算機(jī)只是既定規(guī)則的執(zhí)行者而已。包括我們常說的大數(shù)據(jù)推薦引擎,是計(jì)算機(jī)基于已有的推薦算法進(jìn)行推薦,而不是大數(shù)據(jù)自己形成了推薦算法,這才是關(guān)鍵的區(qū)別點(diǎn)。
類似我原來在智慧交通上舉的一個例子:
現(xiàn)在的智慧交通應(yīng)用往往已經(jīng)能夠很方面地進(jìn)行整個大城市環(huán)境下的交通狀況監(jiān)控并發(fā)布相應(yīng)的道路狀況信息。在GPS導(dǎo)航中往往也可以實(shí)時地看到相應(yīng)的擁堵路況等信息,從而方便駕駛者選擇新的路線。但是這仍然是一種事后分析和處理的機(jī)制,一個好的智能導(dǎo)航和交通流誘導(dǎo)系統(tǒng)一定是基于大量的實(shí)時數(shù)據(jù)分析為每個車輛給出最好的導(dǎo)航路線,而不是在事后進(jìn)行處理。對于智能交通中的交通流分配和誘導(dǎo)等模型很復(fù)雜,而且面對大量的實(shí)時數(shù)據(jù)采集,根據(jù)模型進(jìn)行實(shí)時分分析和計(jì)算,給出有價值的結(jié)果,這個在原有的信息技術(shù)下確實(shí)很難解決。
所以要做到完全的智能化或智慧化并不是一件容易的事情。
真正的智慧一定是面對新事物都能夠自我學(xué)習(xí),自我適應(yīng)調(diào)整,自我優(yōu)化的。而不是基于預(yù)設(shè)的規(guī)則。只要規(guī)則是人在預(yù)設(shè),只要我們還始終保持對事物因果關(guān)系和本源的探索,那么在短期計(jì)算機(jī)就不可能做到完全替代人類。
模型的建立還是人,但是應(yīng)用模型或規(guī)則,基于采集集成的大數(shù)據(jù)進(jìn)行快速的分析決策是機(jī)器的強(qiáng)項(xiàng),這才是是數(shù)字化轉(zhuǎn)型第一階段重點(diǎn)去解決的智能化問題。