自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大數(shù)據(jù)和人工智能-從機械思維到統(tǒng)計思維

人工智能
今天準備寫一篇文章來談大數(shù)據(jù),人工智能和事物認知問題解決之間的關系邏輯。因此這篇文章不會談底層的實現(xiàn)技術(shù),而更多的會談在整個信息技術(shù)革命下思維邏輯的發(fā)展演進過程,并對相互之間的關系做進一步思考。

 [[384196]]

今天準備寫一篇文章來談大數(shù)據(jù),人工智能和事物認知問題解決之間的關系邏輯。因此這篇文章不會談底層的實現(xiàn)技術(shù),而更多的會談在整個信息技術(shù)革命下思維邏輯的發(fā)展演進過程,并對相互之間的關系做進一步思考。

大數(shù)據(jù)概念和其發(fā)展

[[384197]]

大數(shù)據(jù)這個概念在5,6年相當火,而最近幾年整體熱度下降得很明顯,類似的又出現(xiàn)了數(shù)據(jù)湖,數(shù)據(jù)中臺這些概念。但是數(shù)據(jù)中臺和數(shù)據(jù)湖,卻很難體現(xiàn)出大數(shù)據(jù)的一些關鍵特征。

比如我們談大數(shù)據(jù)核心,一般都會談到其4V特征。

數(shù)據(jù)量足夠大,PB級別以上

數(shù)據(jù)類型多樣化,結(jié)構(gòu)化,非結(jié)構(gòu)化

時效性要求高

價值創(chuàng)造,大數(shù)據(jù)最終實現(xiàn)價值

前面幾年大數(shù)據(jù)應用更多的是在做數(shù)據(jù)采集,集成,存儲方面的事情,但是對數(shù)據(jù)本身的應用和分析卻很少。大數(shù)據(jù)應用和分析做得好的可以看到重要是在電商行業(yè),或者類似電信,金融等直接面對客戶的大集團行業(yè),應用的點也更多在針對性營銷,推薦引擎,客戶畫像等方面。也就是說理想的應用場景很多,但是大量落地場景并不多。

很多企業(yè)建大數(shù)據(jù)平臺,投入大量資源,時間和成本,雖然完成了統(tǒng)一的數(shù)據(jù)采集和存儲,但是數(shù)據(jù)本身產(chǎn)生的價值并沒有體現(xiàn)出來。

類似當前數(shù)據(jù)中臺,實際也在談一點,大數(shù)據(jù)平臺不能是只做OLAP分析,做分析決策,更多的要考慮數(shù)據(jù)能力實時開放,反哺業(yè)務,為業(yè)務服務。

當你構(gòu)建了大數(shù)據(jù)平臺后,你會看到后續(xù)的數(shù)據(jù)運維,數(shù)據(jù)管控治理,數(shù)據(jù)分析均需要持續(xù)大量的人員投入,如果數(shù)據(jù)本身無法產(chǎn)生價值,那么平臺最終被荒廢掉也是合理之選。

大數(shù)據(jù)和傳統(tǒng)BI

對于大部分企業(yè)來說,企業(yè)信息化發(fā)展本身也有一個過程。

其前期的數(shù)據(jù)分析更多的還是圍繞結(jié)構(gòu)化數(shù)據(jù)展開,這些數(shù)據(jù)采集集中后上PB級并不容易,同時也全部是結(jié)構(gòu)化數(shù)據(jù),這個時候傳統(tǒng)的BI系統(tǒng)構(gòu)建思路仍然適用,唯一的就是數(shù)據(jù)量大后你可能需要轉(zhuǎn)到類似MPP分布式的數(shù)據(jù)分析庫上來解決性能問題。

如果你完全采用類似Hadoop來構(gòu)建大數(shù)據(jù)技術(shù)平臺來解決上面這些問題,那么實際上完全沒有必要,你會發(fā)現(xiàn)會引入更多的技術(shù)復雜度和業(yè)務建模復雜度。

為什么這樣講?

對于傳統(tǒng)BI分析里面的維度分析,上鉆下鉆,切片等基于維度建模型形成的分析能力,在Hadoop存儲和處理中并不合適。Hadoop在數(shù)據(jù)存儲擴展,分析SQL運行效率上有明顯提升,但是很多BI里面并不需要實時查詢或即席查詢能力。

也就是說企業(yè)如果沒有這種數(shù)據(jù)實時分析結(jié)果反哺業(yè)務的需求,那么你更加沒有必要馬上去搭建這種大數(shù)據(jù)平臺來解決你的問題。

相關性和因果關系

[[384198]]

早期,《大數(shù)據(jù)時代》這本書可以說相當?shù)幕?,作者在書中提出?ldquo;大數(shù)據(jù)三原則”:要全體不要抽樣,要效率不要絕對精確,要相關不要因果。再次提到了大數(shù)據(jù)更加關注數(shù)據(jù)之間的相關性而非因果邏輯。

也就是大家熟知的啤酒和尿片的故事。

這個故事產(chǎn)生于20世紀90年代的美國沃爾瑪超市中,沃爾瑪?shù)某泄芾砣藛T分析銷售數(shù)據(jù)時發(fā)現(xiàn)了一個令人難于理解的現(xiàn)象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關系的商品會經(jīng)常出現(xiàn)在同一個購物籃中,這種獨特的銷售現(xiàn)象引起了管理人員的注意,經(jīng)過后續(xù)調(diào)查發(fā)現(xiàn),這種現(xiàn)象出現(xiàn)在年輕的父親身上。

如果這個年輕的父親在賣場只能買到兩件商品之一,則他很有可能會放棄購物而到另一家商店,直到可以一次同時買到啤酒與尿布為止。沃爾瑪發(fā)現(xiàn)了這一獨特的現(xiàn)象,開始在賣場嘗試將啤酒與尿布擺放在相同的區(qū)域,讓年輕的父親可以同時找到這兩件商品,并很快地完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩件商品、而不是一件,從而獲得了很好的商品銷售收入,這就是“啤酒與尿布” 故事的由來。

認知邏輯-從機械思維到信息論

[[384199]]

當今天重新回顧這個案例的時候,實際本身就是我們認知世界的方式在發(fā)生大的變化。

我們傳統(tǒng)思考方式就是機械思維,其中牛頓之一個很大的貢獻值,簡單來說就是自然界發(fā)生的各自現(xiàn)象事件,一定有其內(nèi)在的規(guī)律和原因,同時這個原因我們可以用抽象的公式或模型來進行表達。

那么當我們遇到同樣的現(xiàn)象的時候,就可以用公式去解題。

但是機械思維發(fā)展中出現(xiàn)兩個問題,即有些時候我們沒有辦法做到精確建模,這本身又有兩個原因,其一是對目標Y造成影響的X因子太多,無法窮舉和認知全;其二是我們的測量系統(tǒng)出現(xiàn)問題,簡單來說采集不全和測量不準。這些都對我們的確定性思維造成挑戰(zhàn)。

解決該問題本身又有兩種思路:

其一是概率和統(tǒng)計

其二是對信息不確定性的量化表達-信息論和信息熵(香農(nóng))

而信息論則完全相反,建立在不確定性(假設)基礎上,要消息不確定性就必須引入信息。于是我們的思維邏輯發(fā)生了進一步變化,即從機械思維到大數(shù)據(jù)思維的轉(zhuǎn)變。

復雜時間很難找到確定性和因果關系-》因此用不確定性眼光看待世界-》把智能問題轉(zhuǎn)化為消除不確定性的問題-》找到消除相應不確定性的信息(或者說大量具有相關性的數(shù)據(jù)可以幫助我們消除這種不確定性)。

例如上面大數(shù)據(jù)的例子。

我們通過數(shù)據(jù)的相關分析,找到了啤酒與尿布搭配售賣的方法,但是我們并不清楚為何年輕父親會在購買尿片的時候順帶幾瓶啤酒。

在大數(shù)據(jù)時代,我們會產(chǎn)生一個錯覺,因果關系不再重要,重要的是大數(shù)據(jù)相關性分析。我們還是回到上面的例子來假設下可能的因果關系。

比如最多的調(diào)查結(jié)果可能是年輕父親購買尿片后,小孩換了新尿片可以快速地入睡,年輕父親這個時候才能夠有空閑時間進行消遣,能夠產(chǎn)生空閑時間消遣才是推動啤酒購買的關鍵原因。

當你了解清楚因果關系后,你會發(fā)現(xiàn)年輕的父親消遣的方式不只是喝啤酒,在家里看電影或球賽,打游戲,抽煙都可能是潛在的消遣方式。實際上你把香煙,口香糖,游戲卡等和尿布放在一起也能夠達到同樣的暢銷結(jié)果。

簡單總結(jié)一句重要的話就是:

一件事情你只是理解相關性那么只能是迎合或跟隨,而只有理解了相關性后面的因果關系你才可能破局或引領變革。

人工智能和大數(shù)據(jù)

[[384200]]

人工智能,簡單來說就是計算機要模擬人的大腦來思考和解決問題。

可以看下百度百科對人工智能的一些說明

人工智能是研究使計算機來模擬人的某些思維過程和智能行為(如學習、推理、思考、規(guī)劃等)的學科,主要包括計算機實現(xiàn)智能的原理、制造類似于人腦智能的計算機,使計算機能實現(xiàn)更高層次的應用。

人工智能涉及到計算機科學、心理學、哲學和語言學等學科??梢哉f幾乎是自然科學和社會科學的所有學科,其范圍已遠遠超出了計算機科學的范疇,人工智能與思維科學的關系是實踐和理論的關系,人工智能是處于思維科學的技術(shù)應用層次,是它的一個應用分支。

從思維觀點看,人工智能不僅限于邏輯思維,要考慮形象思維、靈感思維才能促進人工智能的突破性的發(fā)展,數(shù)學常被認為是多種學科的基礎科學,數(shù)學也進入語言、思維領域,人工智能學科也必須借用數(shù)學工具,數(shù)學不僅在標準邏輯、模糊數(shù)學等范圍發(fā)揮作用,數(shù)學進入人工智能學科,它們將互相促進而更快地發(fā)展。

計算機具備了人的智能能力。那么人的智能能力包括了識別,定義,歸納,抽象,推理,決策等多個方面的能力。

前面已經(jīng)講到了思考解決問題的一種方式:

即問題輸入-》已有的算法模型-》問題解決

在很早以前的人工智能研究里面,更多的就是想著去模仿人腦思考和推理的過程。通過提供不同的輸入方式讓計算機進行學習,產(chǎn)生一個算法模型。然后對于新問題可以用模型去解決。類似人工神經(jīng)網(wǎng)絡,遺傳算法等都是這個思路。但是當你提供的輸入不足夠多的時候,這個模型很難快速地收斂,也很難得出一個精確化的確定模型。

[[384201]]

在大數(shù)據(jù)出現(xiàn)后,形成了計算機解決問題的新思路。

深度學習+大數(shù)據(jù) = 人工智能

即從傳統(tǒng)學習和建模推理思路轉(zhuǎn)移到基于統(tǒng)計學的思路,這個李開復確實在里面做出了不小的貢獻。其次就是在統(tǒng)計學基礎上引入了深度學習的概念,而深度學習又依賴于海量大數(shù)據(jù)作為樣本輸入。

在李開復的《人工智能》一本書里面就談到深度學習+大數(shù)據(jù)引領了第三次AI浪潮。簡單來說就是你不需要去搞清楚人工神經(jīng)網(wǎng)絡這個精確模型是如何形成的?你只需要通過大量的樣本輸入去訓練這個模型,最終得到你需要的輸出。

簡單來說一個計算機能夠識別一只動物圖片是貓,并不是計算機能夠精確地描述出來貓應該具備的體型特征,而是圖片中的動物的特征矩陣和數(shù)據(jù)庫里面的動物貓最匹配而已。

對于谷歌的阿拉法狗戰(zhàn)勝李世石在17年也引起了轟動,再次展示了深度學習算法和人工智能的威力。對于人工智能來講,計算機本身的CPU并行計算能力遠超人腦,主要有了合適的深度學習方法,計算機程序所發(fā)揮出來的人工智能威力巨大。

也就是說在大數(shù)據(jù)時代推動了人工智能的快速發(fā)展。

什么才是真正的智能?

[[384202]]

當我們做IT系統(tǒng)或應用的時候,必須要搞清楚什么才是真正的智能或智慧。

計算機在解決問題的時候,實際上最簡單的就是類似公式計算或求解,這個可以發(fā)揮計算機的強大算力,完勝人類。

其次就是基于固有場景下制定規(guī)則的模式匹配。

我們可以舉一個智慧家庭里面的例子來作為參考。

當進門監(jiān)控到是男主人回來的時候,自動將空調(diào)溫度設置到24度并打開窗簾。當監(jiān)控到是女主人回來的時候,將空調(diào)設置到26度,并關閉窗簾。

這個就是典型的基于場景的規(guī)則設置并執(zhí)行操作。

這種情況下計算機的能力是在類似人臉識別,語音識別方面,而不是在最終的決策執(zhí)行上面。因為決策完全是基于預設的規(guī)則執(zhí)行。

而真正的人工智能應該是基于大量的數(shù)據(jù)采集和分析,自己形成了規(guī)則,并且后續(xù)基于規(guī)則進行執(zhí)行相關操作。并不斷基于新數(shù)據(jù)的輸入不斷地調(diào)整和優(yōu)化自己的規(guī)則。

類似完全意義上的自動駕駛,就是典型的人工智能要攻克的場景,也就是說非固有模式,非提前給定規(guī)則下快速的解決問題并做出判斷。

要做到這點,你必須有大量的數(shù)據(jù)采集并進行快速的分析。沒有大數(shù)據(jù)底層技術(shù),海量大數(shù)據(jù)的輸入,是無法做到智能的。包括前面的AlphGo,如果沒有大量的歷史棋譜的輸入和訓練,電腦也是無法戰(zhàn)勝人類的。

電腦基于算力,采用統(tǒng)計學的思路找到了機器智能化的新途徑。

但是正如我前面談到的,如果電腦并沒有理解清楚因果關系,那么電腦就只能處于跟隨狀態(tài)而非引領狀態(tài)。類似圍棋也是一個道理,如果我們修改了圍棋的一些規(guī)則,同時不給AlphGo新的輸入訓練,那么電腦同樣變成白癡。

人為何能夠戰(zhàn)勝電腦,里面有一個重點就是不要放棄對因果和本源的探索。

信息化->數(shù)字化->智能化

[[384203]]

在談數(shù)字化轉(zhuǎn)型的時候,實際上一直在談三個關鍵點:

連接:萬物互聯(lián),解決人和人,人和物,物和物的連接問題

數(shù)據(jù):連接后產(chǎn)生集成和協(xié)同,協(xié)同過程自然會產(chǎn)生數(shù)據(jù)

智能:數(shù)據(jù)經(jīng)過加工和提煉,形成智能化分析應用

對于連接你可以看到首先是解決了最基本的業(yè)務協(xié)同問題。但是連接更加重要的作用是產(chǎn)生和沉淀數(shù)據(jù)。

傳統(tǒng)的連接更多的都是通過人來完成,通過人手工錄入電子表單等數(shù)據(jù)來完成。而在數(shù)字化階段必須解決連接的多樣性問題,數(shù)據(jù)產(chǎn)生多樣性問題,類似采用各種物聯(lián)網(wǎng)傳感設備,你會看到可以持續(xù)不斷,自動化的產(chǎn)生大量你需要的輸入?;蛘咄ㄟ^開會語音的記錄,視頻記錄同樣產(chǎn)生更多你原來沒有關注的數(shù)據(jù)。

數(shù)據(jù)本身在萬物互聯(lián)階段才形成了數(shù)量和類型的巨大變化,產(chǎn)生了大數(shù)據(jù)。

在數(shù)字化時代必須又重提大數(shù)據(jù)。

這個大數(shù)據(jù)的積累需要產(chǎn)生兩個方面的作用,一個是直接應用到業(yè)務協(xié)同中,一個是真正提升智能化和智慧化的能力。當前大部分企業(yè)仍然在第一階段,而要完全意義上的人工智能仍然在探索。

對于企業(yè)信息化領域同樣適用我前面的說法,即計算機能夠自動產(chǎn)生規(guī)則并應用規(guī)則,才是完整意義上的人工智能。否則計算機只是既定規(guī)則的執(zhí)行者而已。包括我們常說的大數(shù)據(jù)推薦引擎,是計算機基于已有的推薦算法進行推薦,而不是大數(shù)據(jù)自己形成了推薦算法,這才是關鍵的區(qū)別點。

類似我原來在智慧交通上舉的一個例子:

現(xiàn)在的智慧交通應用往往已經(jīng)能夠很方面地進行整個大城市環(huán)境下的交通狀況監(jiān)控并發(fā)布相應的道路狀況信息。在GPS導航中往往也可以實時地看到相應的擁堵路況等信息,從而方便駕駛者選擇新的路線。但是這仍然是一種事后分析和處理的機制,一個好的智能導航和交通流誘導系統(tǒng)一定是基于大量的實時數(shù)據(jù)分析為每個車輛給出最好的導航路線,而不是在事后進行處理。對于智能交通中的交通流分配和誘導等模型很復雜,而且面對大量的實時數(shù)據(jù)采集,根據(jù)模型進行實時分分析和計算,給出有價值的結(jié)果,這個在原有的信息技術(shù)下確實很難解決。

所以要做到完全的智能化或智慧化并不是一件容易的事情。

真正的智慧一定是面對新事物都能夠自我學習,自我適應調(diào)整,自我優(yōu)化的。而不是基于預設的規(guī)則。只要規(guī)則是人在預設,只要我們還始終保持對事物因果關系和本源的探索,那么在短期計算機就不可能做到完全替代人類。

模型的建立還是人,但是應用模型或規(guī)則,基于采集集成的大數(shù)據(jù)進行快速的分析決策是機器的強項,這才是是數(shù)字化轉(zhuǎn)型第一階段重點去解決的智能化問題。

 

責任編輯:梁菲 來源: 今日頭條
相關推薦

2021-02-28 13:57:51

大數(shù)據(jù)人工智能信息

2021-05-07 05:54:43

數(shù)據(jù)庫數(shù)據(jù)湖數(shù)據(jù)

2021-12-09 15:03:10

人工智能AI人類思維

2023-03-14 09:52:48

人工智能

2017-11-15 20:00:29

人工智能大數(shù)據(jù)晉級指南

2017-06-22 13:26:37

人工智能發(fā)展歷史大數(shù)據(jù)

2015-03-06 11:33:33

2020-09-18 16:01:18

大數(shù)據(jù)

2023-02-06 08:11:19

人工智能機器思維模式

2019-09-25 07:34:10

人工智能大數(shù)據(jù)數(shù)據(jù)科學

2019-11-25 16:41:55

人工智能大數(shù)據(jù)物聯(lián)網(wǎng)

2018-11-06 12:58:43

大數(shù)據(jù)人工智能搜索引擎

2017-12-21 12:58:31

人工智能智能鎖智能家居

2024-01-26 10:47:55

2017-10-23 12:19:38

2023-03-24 14:51:05

人工智能大數(shù)據(jù)

2019-10-17 11:13:27

大數(shù)據(jù)人工智能

2024-05-07 11:29:59

2014-04-21 10:25:01

大數(shù)據(jù)

2018-10-24 12:45:19

點贊
收藏

51CTO技術(shù)棧公眾號