自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

狐貍,貝葉斯與大數(shù)據(jù)的思維方式

云計(jì)算
2012年,“大數(shù)據(jù)”是一個(gè)抓住了上到國家政要下到普通老百姓眼球的熱詞。隨著技術(shù)的進(jìn)步,數(shù)據(jù)獲取成本、數(shù)據(jù)存儲(chǔ)與處理成本都在以指數(shù)的速度迅速下降,普通老百姓都能感覺到數(shù)據(jù)將對(duì)人們的生活產(chǎn)生至關(guān)重要的影響。

假設(shè)擲出一枚硬幣,正面朝上的概率是50%,如果連續(xù)99次投擲硬幣都是正面朝上落地,那么下一次投擲硬幣正面朝上落地的概率是多少?這是Taleb在《黑天鵝》一書中給出的一個(gè)假想的問題。在Taleb的書中,受過正統(tǒng)教育的約翰博士給出了教科書教給我們的標(biāo)準(zhǔn)回答,下一次投擲硬幣正面朝上落地的概率仍然為50%,因?yàn)橄乱淮斡矌懦蚺c之前投擲的結(jié)果無關(guān)。而教育背景沒有那么光鮮的胖托尼則認(rèn)為下一次投擲硬幣正面朝上的概率為99%。孰對(duì)孰錯(cuò)?我和讀者都不妨給出自己的判斷。而如果一定要為自己的答案下一萬塊錢的賭注的話,我和Taleb一樣,更傾向于與不是那么教條的胖托尼保持一致,更傾向于相信下一次硬幣正面朝上的幾率為99%,更傾向于相信我之前的有關(guān)正面朝上落地的概率是50%的假設(shè)是錯(cuò)誤的。

2012年,“大數(shù)據(jù)”是一個(gè)抓住了上到國家政要下到普通老百姓眼球的熱詞。隨著技術(shù)的進(jìn)步,數(shù)據(jù)獲取成本、數(shù)據(jù)存儲(chǔ)與處理成本都在以指數(shù)的速度迅速下降,普通老百姓都能感覺到數(shù)據(jù)將對(duì)人們的生活產(chǎn)生至關(guān)重要的影響。雖然,人們談大數(shù)據(jù)時(shí)往往都會(huì)談及利用Hadoop等新興技術(shù)對(duì)海量數(shù)據(jù)處理等技術(shù)問題,也會(huì)談及Facebook、Google等公司所處理的PB級(jí)別數(shù)據(jù)的問題。但是,正如周濤教授所言,大數(shù)據(jù)的核心問題在于預(yù)測(cè)。電子商務(wù)網(wǎng)站通過數(shù)據(jù)預(yù)測(cè)顧客是否會(huì)購買推薦的產(chǎn)品;信貸公司通過數(shù)據(jù)預(yù)測(cè)借款人是否會(huì)違約;執(zhí)法部門用大數(shù)據(jù)預(yù)測(cè)特定地點(diǎn)發(fā)生犯罪的可能性;交通部門利用數(shù)據(jù)預(yù)測(cè)交通流量。但是,預(yù)測(cè)不是大數(shù)據(jù)時(shí)代才有的新問題,它是人類本能的一部分。心理學(xué)家認(rèn)為,對(duì)世界一致性觀點(diǎn)的需求以及對(duì)環(huán)境控制力的需求是人類的兩個(gè)基本需求,而在此基本需求驅(qū)動(dòng)下,人類像“樸素的科學(xué)家”(na?ve scientist)一樣行為,理性地合乎邏輯地驗(yàn)證自己關(guān)于世界的假設(shè)。即使原始人通過他的切身體會(huì)也可以知道,如果將手伸到火中將會(huì)被燙傷。這樣,原始人根據(jù)其直接經(jīng)驗(yàn)可以構(gòu)建關(guān)于火與燙傷之間關(guān)系的關(guān)聯(lián)模型。數(shù)字是人類直接感覺的延伸,正如麥克盧漢所說,“數(shù)字是我們最親密的、相互關(guān)系最密切的(觸覺)的延伸與分離……古代世界不可思議地將數(shù)字與物質(zhì)實(shí)體的性質(zhì)聯(lián)系在一起,與事物的因果關(guān)系聯(lián)系在一起……科學(xué)始終傾向于將一切客體量化……(數(shù)字是)我們的中樞神經(jīng)系統(tǒng)在電力時(shí)代的延伸。”而未來無所不在的傳感器將構(gòu)成地球的中樞神經(jīng)系統(tǒng)(Central Nervous System for the Earth CeNSE)。這個(gè)地球的中樞神經(jīng)系統(tǒng)使得人們能夠超越其直接體驗(yàn),感知到來自地球每個(gè)角落的訊息,這些形式多樣的、海量的、快速的(Variety、Volume、Velocity)信息流將構(gòu)成大數(shù)據(jù)時(shí)代的主要特征。而人們將基于這些信息理解世界,構(gòu)建與驗(yàn)證關(guān)于世界的新的假設(shè),并以此為基礎(chǔ)進(jìn)行預(yù)測(cè),并采取行動(dòng)。

但是,與科學(xué)研究中以求真為目的的構(gòu)建模型不同,大數(shù)據(jù)時(shí)代的模型構(gòu)建將更加以務(wù)實(shí)為目的,即遵循統(tǒng)計(jì)學(xué)家George E. P. Box的觀點(diǎn)“本質(zhì)而言,所有模型都是錯(cuò)誤的,只是有些模型更有用”(Essentially, all models are wrong, but some are useful)。大數(shù)據(jù)時(shí)代的很多模型都是為了指導(dǎo)商業(yè)決策而設(shè)的,而商業(yè)決策通常會(huì)影響決策者的利益。所以,一個(gè)模型是否正確不是最重要的,重要的是決策者對(duì)這個(gè)模型有多大的把握,決策者能否從這個(gè)模型中獲利。所以,大數(shù)據(jù)時(shí)代中最為關(guān)鍵的應(yīng)該是基于數(shù)據(jù)的模型能否說服決策者據(jù)此進(jìn)行決策,并且?guī)椭鷽Q策者改善決策賺取相應(yīng)的利潤。前者表現(xiàn)為決策者愿意將多少錢押在這個(gè)模型上,而后者表現(xiàn)為這個(gè)模型在現(xiàn)實(shí)中的表現(xiàn)如何。所以,如果讓讀者你參加本文開始所設(shè)計(jì)的假想賭局,無論約翰博士看起來多么專業(yè)也不能阻止讀者更相信胖托尼的模型,因?yàn)楫吘惯@涉及到真金白銀。胖托尼也許在最初和約翰博士一樣,相信硬幣正反面朝上面落地的概率各是50%。既然所有模型都是錯(cuò)的,但是胖托尼能夠利用他所觀察到的硬幣一次次正面朝上落地的事實(shí)修訂他的模型,使其越來越接近真實(shí)情況。而約翰博士仍然抱殘守缺,固守著他的50%的最初假設(shè)。

以賽亞*伯林(Isaish Berlin)曾經(jīng)援引古希臘詩人的殘簡“狐貍多知而刺猬有一大知”將知識(shí)分子分為狐貍和刺猬兩類。刺猬用一個(gè)宏大的概念解釋所有現(xiàn)象,如約翰博士一般;狐貍知道很多事情,用多元化的甚至相互矛盾的視角看待問題,狐貍也愿意包容新的證據(jù)以使得自己的模型與之相適應(yīng),如胖托尼一般。Tetlock等人的研究表明,在現(xiàn)實(shí)的預(yù)測(cè)中,狐貍的表現(xiàn)要優(yōu)于刺猬。在大數(shù)據(jù)時(shí)代,人們能夠接觸越來越多的信息,這些信息能否修訂決策者已有的觀念,對(duì)決策者的決策產(chǎn)生影響,這是大數(shù)據(jù)能否發(fā)揮價(jià)值的關(guān)鍵所在。有些刺猬類決策者,他們可能會(huì)有意無意忽略與其觀念相左數(shù)據(jù)而只保留那些能夠證明其想法的數(shù)據(jù),在這里無論系統(tǒng)處理了什么規(guī)模的數(shù)據(jù),這些系統(tǒng)投資也只是粉飾太平的裝飾,沒有太大意義。

很多人都知道亞當(dāng)斯密(Adam Smith)在《國富論》中所描述的市場中的“看不見的手”。在市場中,沒有人掌握有關(guān)生產(chǎn)和消費(fèi)的全局信息,但是人們通過市場交易對(duì)供需的行為作出反應(yīng),從而逐步更新價(jià)格,進(jìn)而達(dá)到平衡。與亞當(dāng)斯密同時(shí)代且同在蘇格蘭接受教育的Thomas Bayes的貝葉斯定理(Bayesian's Theorem)也和亞當(dāng)斯密的“看不見的手”有相通之處。貝葉斯理論允許每個(gè)人擁有有關(guān)世界的先驗(yàn)的信念,胖托尼也許最初認(rèn)為硬幣正面朝上的概率是1/2,如果他看到了99次投擲硬幣的結(jié)果中有50次是正面朝上,他會(huì)認(rèn)為這個(gè)硬幣正面朝上的概率是51/101,大致可以確信硬幣正面朝上的概率是50%。而當(dāng)他看到了連續(xù)99次的硬幣正面朝上落地,則他不斷利用數(shù)據(jù)修改其信念,認(rèn)為這個(gè)硬幣可能有問題,正面朝上的概率應(yīng)為100/101,即本文開始部分所預(yù)測(cè)的99%。當(dāng)然,你也可以如約翰博士一樣固守自己最初50%的教科書般的假設(shè),而這樣的結(jié)果是你輸?shù)袅艘淮斡忠淮蔚馁€博,直到出局。

利用新的數(shù)據(jù)與新的證據(jù)不斷修訂對(duì)世界的假設(shè)是狐貍式的思維方式也是貝葉斯思維方式的基本理念,這也應(yīng)當(dāng)是大數(shù)據(jù)時(shí)代思維的基本理念。隨著互聯(lián)網(wǎng)及云計(jì)算的普及,在大數(shù)據(jù)時(shí)代,人們有機(jī)會(huì)從多個(gè)渠道、多個(gè)角度獲得對(duì)事物的知識(shí)。貝葉斯的“看不見的手”利用這些知識(shí)逐步修訂人們對(duì)事物的假設(shè),而人們基于這些假設(shè)進(jìn)行的決策通過亞當(dāng)斯密的市場的“看不見的手”被評(píng)估與選擇,從而形成相應(yīng)的社會(huì)秩序。無論人們最初關(guān)于事物的認(rèn)識(shí)存在什么樣的差異,在貝葉斯與亞當(dāng)斯密兩重“看不見的手”的作用下,“隨著越來越多的證據(jù)的出現(xiàn),我們的信念將趨于一致,并且趨于真相……即使我們最初擁有有誤的甚至是錯(cuò)得離譜的先驗(yàn)認(rèn)識(shí),最終也將趨于真相。”

作者:《證析》一書作者,大數(shù)據(jù)實(shí)驗(yàn)室合伙人

責(zé)任編輯:王程程 來源: 中云網(wǎng)
相關(guān)推薦

2016-08-30 00:14:09

大數(shù)據(jù)貝葉斯

2016-08-30 00:19:30

2012-09-24 10:13:35

貝葉斯

2021-08-30 11:53:36

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2017-08-07 13:02:32

全棧必備貝葉斯

2023-01-31 15:49:51

機(jī)器學(xué)習(xí)函數(shù)評(píng)分函數(shù)

2017-03-29 14:50:18

2021-04-18 09:57:45

Java樸素貝葉斯貝葉斯定理

2024-10-11 16:53:16

貝葉斯人工智能網(wǎng)絡(luò)

2017-07-24 10:36:37

Python機(jī)器學(xué)習(xí)樸素貝葉斯

2023-10-18 08:00:00

貝葉斯網(wǎng)絡(luò)Python醫(yī)療保健

2017-11-07 11:17:40

樸素貝葉斯畫像數(shù)據(jù)數(shù)據(jù)挖掘

2020-10-09 12:41:04

算法優(yōu)化場景

2012-02-14 10:55:24

2017-07-12 11:27:05

樸素貝葉斯情感分析Python

2022-09-28 08:00:00

Python機(jī)器學(xué)習(xí)算法

2024-11-11 15:02:16

2017-06-12 06:31:55

深度學(xué)習(xí)貝葉斯算法

2014-05-22 15:47:46

信息化

2017-03-21 09:17:37

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)