自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

指引大數(shù)據(jù)未來發(fā)展方向的九大真理

云計算
比喻本身既非事實也難以證明,但它們確實能夠創(chuàng)造出指引我們找到真理的話題。比喻讓復雜的概念變得更易理解,正如本文中所引用的經(jīng)典語錄——它們有助于解釋大數(shù)據(jù)的各項基本原則。本文將列舉八條與大數(shù)據(jù)密切相關(guān)的真理——大家對此也許有所耳聞、至少略有耳聞——并按時間進行排序。
36大數(shù)據(jù)

 

筆者總會時不時沉浸在對大數(shù)據(jù)原則的思索當中,這里討論的并不是Hadoop與關(guān)系數(shù)據(jù)庫或者Mahout與Weka的對抗,而是更具根源性的智慧——將數(shù)據(jù)作為“新時代貨幣”的思維方式。不過也許將數(shù)據(jù)描述成“新時代的石油”更加貼近,或者,我們還需要一種新的比喻更全面地詮釋數(shù)據(jù)的價值與內(nèi)涵。

比喻本身既非事實也難以證明,但它們確實能夠創(chuàng)造出指引我們找到真理的話題。比喻讓復雜的概念變得更易理解,正如本文中所引用的經(jīng)典語錄——它們有助于解釋大數(shù)據(jù)的各項基本原則。本文將列舉八條與大數(shù)據(jù)密切相關(guān)的真理——大家對此也許有所耳聞、至少略有耳聞——并按時間進行排序。最后,筆者將做出自己的推測,與各位朋友分享“未來的真理”。

1. “相關(guān)性并非因果關(guān)系”

這樣的說法我們已經(jīng)聽過不止一次。在大學的哲學課堂上,我了解到這樣一個關(guān)于基礎(chǔ)謬論的表述版本,叫作post hoc ergo propter hoc,翻譯過來就是“后發(fā)者因之而發(fā)”。聽起來實在有些隱晦,更直白點解釋,就是說“B事發(fā)生于A事之后,因此B事由A事而起”。

大家可以讀讀O’Reilly Radar的博客。在其中一篇名為《猜測的隱性成本》的文章中,Alistair Croll指出:“最明顯的相關(guān)性表現(xiàn)在大數(shù)據(jù)的專長方面……并行計算、算法的改進以及摩爾定律的準確特性已經(jīng)大大降低了對數(shù)據(jù)集進行分析的成本,”由此衍生出一個“由數(shù)據(jù)驅(qū)動的社會,既聰明又愚蠢。”最終結(jié)論?保持聰明的特性,尊重相關(guān)性與因果關(guān)系之間的差別。模式只是表現(xiàn)、并非結(jié)論。

2. “所有模型都是錯誤的,但其中一些確實管用”

意外事件統(tǒng)計學家George E.P.Box在他1987年編撰的教科書《實證模型構(gòu)建與響應面》當中寫下了這樣的結(jié)論。在從教的整個職業(yè)生涯當中,Box一直努力將自己的思路轉(zhuǎn)化成模型,而這種習慣對于大數(shù)據(jù)分析技術(shù)而言非常適用。1976年12月,《美國統(tǒng)計協(xié)會》雜志曾經(jīng)發(fā)表過一篇題為《科學與統(tǒng)計》的文章,其中具體論證了模型的前世今生與現(xiàn)實意義。

3. 大數(shù)據(jù)(幾乎)洞悉一切

如果大家還無法認同這一結(jié)論,請盡快強迫自己接受。這句話源自Scott McNealy在1999年發(fā)表的一份聲明,他表示“大家將徹底告別隱私……請學會適應這一點。”值得一提的是,McNealy正是Sun Microsystems公司的聯(lián)合創(chuàng)始人兼CEO。如今大數(shù)據(jù)侵入個人生活的例子比比皆是:分析師有能力根據(jù)社交言論推斷發(fā)言者的性別,或者通過購買習慣判斷其家中是否存在孕婦;Acxiom等從事大量商業(yè)信息存儲的企業(yè)迎來輝煌的業(yè)務(wù)飛躍;預測及防災信息整合正全面崛起;美國國安局的“棱鏡門”事件也已經(jīng)大白于天下。

4. “與業(yè)務(wù)相關(guān)的信息當中,有八成源自非結(jié)構(gòu)化形式,主要是文字(但也包括視頻、圖像以及音頻)”

在2008年的一篇文章中有這樣的結(jié)論——雖然正如當時所說,由于很難精確量化,可能早在上世紀九十年代初非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)扮演起重要角色,只是我們當時體會不到。總而言之,八成以上的說法只是種模糊的概念而不能過分較真,因為據(jù)我所知,沒有任何一種評估機制針對這個問題進行過系統(tǒng)性衡量。盡管如此,相信每一位與Box秉持相同理念的統(tǒng)計學者都會認為“八成非結(jié)構(gòu)化”這一論斷頗具指導意義——即使其并不正確。無論具體數(shù)量如何,文本與內(nèi)容分析都應該成為大家工具包中的常駐成員。

5. “這不是信息超載,而是過濾器故障”

Clay Shirky在2008年9月于紐約舉辦的Web 2.0博覽會上提出了這一論斷。Shirky對于過濾器本身的評價顯得有些保守,例如“數(shù)據(jù)量的增加并不意味著就能帶來更好的結(jié)論”,但這正好與我的觀點不謀而合。但前提是事情別做過頭;大家千萬別像Eli Pariser那樣認為“過濾器概念純粹是泡沫”,他的眼界最多也只能達到自動化的層面、無法再望向更為廣闊的未來。

6. “相同的含義可以通過多種不同方式進行表達,相同的表達當中可以涵蓋多種不同含義”

在2009年3月IEEE智能系統(tǒng)大會上,谷歌公司員工Alon Halevy、Peter Norvig以及Fernando Pereira在一篇題為《數(shù)據(jù)的非合理化有效性》一文中陳述了以上觀點。數(shù)據(jù)的非合理化有效性是如何顯露出來的?他們給出的答案是,“不精確且模棱兩可的”自然語言的語義解釋就是最好的實例。此外,通過機器學習進行關(guān)系推斷、從而實現(xiàn)對大規(guī)模聚合內(nèi)容的解釋也能證明這一點。。

7. “大數(shù)據(jù)的核心不是數(shù)據(jù)!大數(shù)據(jù)的價值在于分析”

哈佛大學教授Gary King在與第六條中的幾位谷歌員工一同出席IEEE會議時表達了這一觀點。不過我并不完全贊同King的這種說法。在核實數(shù)據(jù)需求并制定理想方案以收集并整理數(shù)據(jù)結(jié)構(gòu)的執(zhí)行過程當然也存在價值。分析能夠幫助我們發(fā)現(xiàn)這些價值,因此我站在King的肩膀上總結(jié)出這樣一種更準確些的表述:大數(shù)據(jù)的價值通過分析來實現(xiàn)。

不過這只是我的想法,未必能得到King本人的認同。對這個話題感興趣的朋友可以點擊此處查看由Steve LaValle、Eric Lesser、Rebecca Shockley、Michael S. Hopkins以及Nina Kruschwitz于2010年12月在《麻省理工大學-斯隆管理評論》期刊上發(fā)表的文章《大數(shù)據(jù)、分析以及由觀點到價值的路徑》。

8. “直覺的重要性并未受到影響”

這句話來自Phil Simon,也就是今年早些時候發(fā)表的《大到不容忽視:大數(shù)據(jù)商業(yè)案例》一文的作者。(我為該文的撰寫提供了關(guān)于文本及情感分析的一些材料。)

Simon解釋稱,“大數(shù)據(jù)并沒有,至少目前還沒有,取代直覺;后者僅僅作為前者的補充存在。二者之間的關(guān)系是連貫統(tǒng)一的,而絕不是非黑即白。”Tim Leberecht在今年六月由CNN刊發(fā)的《為什么大數(shù)據(jù)永遠無法替代商業(yè)直覺》一文中也做出了類似的表述。

最后,這八大指引未來的真理還需要最后一點補充才夠完整——不過這一點尚未得到廣泛理解:

9. 大數(shù)據(jù)的未來在于綜合與背景

大部分解決方案當中所欠缺的元素在于整合不同來源信息的能力,這種能力會以適當方式考量與內(nèi)容相關(guān)的產(chǎn)生環(huán)境,從而得出準確的結(jié)論。這里我打算引用設(shè)計策略師Jon Kolko在一份啟發(fā)性論文中所涉及的論證過程(當然,多少會有些斷章取義)。首先,Kolko援引了認知心理學家——他們嘗試研究直覺與解決方案之間的聯(lián)系——的結(jié)論作為例子。當事者會“根據(jù)實際背景理解人物、地點以及事件之間的關(guān)聯(lián),弄清事件發(fā)生的具體時間,從而對未來可能發(fā)生的情況做出判斷并采取相應的行動。”

Kolko將設(shè)計綜合性視為關(guān)鍵性要素,是一種“將數(shù)據(jù)的操作過程、組織、調(diào)整以及過濾過程與背景相結(jié)合的方式,旨在將數(shù)據(jù)轉(zhuǎn)化為信息與知識。”這能帶來怎樣的結(jié)果?IBM公司研究員Jeff Jonas認為,“通用目的”型背景系統(tǒng)將有助于在同一數(shù)據(jù)空間內(nèi)對不同數(shù)據(jù)加以定位。此類方案能夠使我們對不斷變化的觀察空間進行可規(guī)?;瘮U展、實時且前所未見的探索。

這不正是我們?yōu)榇髷?shù)據(jù)制定的發(fā)展目標嗎?從模式檢測向可操作結(jié)論邁進。我希望自己總結(jié)的這九大真理能夠幫助各位了解大數(shù)據(jù)的這一發(fā)展路徑。

責任編輯:王程程 來源: IT168
相關(guān)推薦

2019-10-14 15:14:17

存儲云存儲人工智能

2011-06-21 18:05:15

SEO

2016-11-22 13:17:36

大數(shù)據(jù)OLAP

2016-11-23 09:31:00

大數(shù)據(jù)OLAP解析

2014-08-04 10:22:26

大數(shù)據(jù)

2016-12-12 13:32:32

2010-01-08 10:54:22

LAN多層交換技術(shù)

2009-10-12 12:37:08

布線技術(shù)

2009-11-06 16:40:19

MSTP接入技術(shù)

2010-02-04 11:20:29

網(wǎng)絡(luò)數(shù)據(jù)交換技術(shù)

2009-10-26 17:13:42

ADSL接入技術(shù)

2022-01-21 10:39:18

物聯(lián)網(wǎng)平臺物聯(lián)網(wǎng)IOT

2021-06-21 09:26:46

人工智能AI

2015-03-17 13:06:36

2016-11-13 20:56:47

JS開發(fā)

2009-02-11 21:17:15

編程語言JeffreyWindows核心編程

2022-12-12 16:02:57

物聯(lián)網(wǎng)物聯(lián)網(wǎng)平臺大數(shù)據(jù)

2009-12-28 16:18:08

無線接入網(wǎng)

2015-02-03 11:02:41

2022-12-26 10:40:52

點贊
收藏

51CTO技術(shù)棧公眾號