自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

詳解大數(shù)據(jù)的思想形成與價值維度

作者：吳甘沙 2014-04-04 10:53:04

數(shù)據(jù)庫

在漫長的數(shù)據(jù)蓄水過程中，數(shù)學和統(tǒng)計學逐漸發(fā)展，人們開始注意對數(shù)據(jù)的量化分析，在人類進入信息時代以前這樣的例子就不勝枚舉。

比如經濟上，黃仁宇先生對宋朝經濟的分析中發(fā)現(xiàn)了“數(shù)目字管理”(即定量分析)的廣泛應用(可惜王安石變法有始無終)。又如軍事，“向林彪學習數(shù)據(jù)挖掘”的橋段不論真假，其背后量化分析的思想無疑有其現(xiàn)實基礎，而這一基礎甚至可以回推到2000多年前，孫臏正是通過編造“十萬灶減到五萬灶再減到三萬灶”的數(shù)據(jù)、利用龐涓的量化分析習慣對其進行誘殺。

到上世紀50-60年代，磁帶取代穿孔卡片機，啟動了數(shù)據(jù)存儲的革命。磁盤驅動器隨即發(fā)明，它帶來的最大想象空間并不是容量，而是隨機讀寫的能力，這一下子解放了數(shù)據(jù)工作者的思維模式，開始數(shù)據(jù)的非線性表達和管理。數(shù)據(jù)庫應運而生，從層次型數(shù)據(jù)庫(IBM為阿波羅登月設計的層次型數(shù)據(jù)庫迄今仍在建行使用)，到網狀數(shù)據(jù)庫，再到現(xiàn)在通用的關系數(shù)據(jù)庫。與數(shù)據(jù)管理同時發(fā)源的是決策支持系統(tǒng)(DSS)，80年代演變到商業(yè)智能(BI)和數(shù)據(jù)倉庫，開辟了數(shù)據(jù)分析——也就是為數(shù)據(jù)賦予意義——的道路。

大數(shù)據(jù)

那個時代運用數(shù)據(jù)管理和分析最厲害的是商業(yè)。第一個數(shù)據(jù)倉庫是為寶潔做的，第一個太字節(jié)的數(shù)據(jù)倉庫是在沃爾瑪。沃爾瑪?shù)牡湫蛻檬莾蓚€：一是基于retaillink的供應鏈優(yōu)化，把數(shù)據(jù)與供應商共享，指導它們的產品設計、生產、定價、配送、營銷等整個流程，同時供應商可以優(yōu)化庫存、及時補貨;二是購物籃分析，也就是常說的啤酒加尿布。關于啤酒加尿布，幾乎所有的營銷書都言之鑿鑿，我告訴大家，是Teradata的一個經理編的，人類歷史上從沒有發(fā)生過，但是，先教育市場，再收獲市場，它是有功的。

僅次于沃爾瑪?shù)臉焚?Tesco)，強在客戶關系管理(CRM)，細分客戶群，分析其行為和意圖，做精準營銷。

這些都發(fā)生在90年代。00年代時，科研產生了大量的數(shù)據(jù)，如天文觀測、粒子碰撞，數(shù)據(jù)庫大拿吉姆·格雷等提出了第四范式，是數(shù)據(jù)方法論的一次提升。前三個范式是實驗(伽利略從斜塔往下扔)，理論(牛頓被蘋果砸出靈感，形成經典物理學定律)，模擬(粒子加速太貴，核試驗太臟，于是乎用計算代替)。第四范式是數(shù)據(jù)探索。這其實也不是新鮮的，開普勒根據(jù)前人對行星位置的觀測數(shù)據(jù)擬合出橢圓軌道，就是數(shù)據(jù)方法。但是到90年代的時候，科研數(shù)據(jù)實在太多了，數(shù)據(jù)探索成為顯學。在現(xiàn)今的學科里，有一對孿生兄弟，計算XX學和XX信息學，前者是模擬/計算范式，后者是數(shù)據(jù)范式，如計算生物學和生物信息學。有時候計算XX學包含了數(shù)據(jù)范式，如計算社會學、計算廣告學。

2008年克里斯·安德森(長尾理論的作者)在《連線》雜志寫了一篇《理論的終結》，引起軒然大波。他主要的觀點是有了數(shù)據(jù)，就不要模型了，或者很難獲得具有可解釋性的模型，那么模型所代表的理論也沒有意義了。跟大家說一下數(shù)據(jù)、模型和理論。大家先看個粗糙的圖。

大數(shù)據(jù)

首先，我們在觀察客觀世界中采集了三個點的數(shù)據(jù)，根據(jù)這些數(shù)據(jù)，可以對客觀世界有個理論假設，用一個簡化的模型來表示，比如說三角形?？梢杂懈嗟哪Ｐ停缢倪呅?，五邊形。隨著觀察的深入，又采集了兩個點，這時發(fā)現(xiàn)三角形、四邊形的模型都是錯的，于是確定模型為五邊形，這個模型反映的世界就在那個五邊形里，殊不知真正的時間是圓形。

大數(shù)據(jù)時代的問題是數(shù)據(jù)是如此的多、雜，已經無法用簡單、可解釋的模型來表達，這樣，數(shù)據(jù)本身成了模型，嚴格地說，數(shù)據(jù)及應用數(shù)學(尤其是統(tǒng)計學)取代了理論。安德森用谷歌翻譯的例子，統(tǒng)一的統(tǒng)計學模型取代了各種語言的理論/模型(如語法)，能從英文翻譯到法文，就能從瑞典文翻譯到中文，只要有語料數(shù)據(jù)。谷歌甚至能翻譯克萊貢語(StarTrek里編出來的語言)。安德森提出了要相關性不要因果性的問題，以后舍恩伯格(下面稱之為老舍)只是拾人牙慧了。

當然，科學界不認同《理論的終結》，認為科學家的直覺、因果性、可解釋性仍是人類獲得突破的重要因素。有了數(shù)據(jù)，機器可以發(fā)現(xiàn)當前知識疆域里面隱藏的未知部分。而沒有模型，知識疆域的上限就是機器線性增長的計算力，它不能擴展到新的空間。在人類歷史上，每一次知識疆域的跨越式拓展都是由天才和他們的理論率先吹起的號角。

2010年左右，大數(shù)據(jù)的浪潮卷起，這些爭論迅速被淹沒了?？垂雀柃厔荩?rdquo;bigdata”這個詞就是那個時間一下子躥升了起來。吹鼓手有幾家，一家是IDC，每年給EMC做digitaluniverse的報告，上升到澤字節(jié)范疇(給大家個概念，現(xiàn)在硬盤是太字節(jié)，1000太=1拍，阿里、Facebook的數(shù)據(jù)是幾百拍字節(jié)，1000拍=1艾，百度是個位數(shù)艾字節(jié)，谷歌是兩位數(shù)艾字節(jié)，1000艾=1澤);一家是麥肯錫，發(fā)布《大數(shù)據(jù)：創(chuàng)新、競爭和生產力的下一個前沿》;一家是《經濟學人》，其中的重要寫手是跟老舍同著《大數(shù)據(jù)時代》的肯尼思?庫克耶;還有一家是Gartner，杜撰了3V(大、雜、快)，其實這3V在2001年就已經被編出來了，只不過在大數(shù)據(jù)語境里有了全新的詮釋。

咱們國內，歡總、國棟總也是在2011年左右開始呼吁對大數(shù)據(jù)的重視。

2012年子沛的書《大數(shù)據(jù)》教育政府官員有功。老舍和庫克耶的《大數(shù)據(jù)時代》提出了三大思維，現(xiàn)在已經被奉為圭臬，但千萬別當作放之四海而皆準的真理了。

比如要數(shù)據(jù)全集不要采樣。現(xiàn)實地講，1.沒有全集數(shù)據(jù)，數(shù)據(jù)都在孤島里;2.全集太貴，鑒于大數(shù)據(jù)信息密度低，是貧礦，投入產出比不見得好;3.宏觀分析中采樣還是有用的，蓋洛普用5000個樣本勝過幾百萬調查的做法還是有實踐意義;4.采樣要有隨機性、代表性，采訪火車上的民工得出都買到票的結論不是好采樣，現(xiàn)在只做固定電話采樣調查也不行了(移動電話是大頭)，在國外基于Twitter采樣也發(fā)現(xiàn)不完全具有代表性(老年人沒被包括);5.采樣的缺點是有百分之幾的偏差，更會丟失黑天鵝的信號，因此在全集數(shù)據(jù)存在且可分析的前提下，全量是首選。全量>好的采樣>不均勻的大量。

再說混雜性由于精確性。擁抱混雜性(這樣一種客觀現(xiàn)象)的態(tài)度是不錯的，但不等于喜歡混雜性。數(shù)據(jù)清洗比以前更重要，數(shù)據(jù)失去辨識度、失去有效性，就該扔了。老舍引用谷歌PeterNovig的結論，少數(shù)高質量數(shù)據(jù)+復雜算法被大量低質量數(shù)據(jù)+簡單算法打敗，來證明這一思維。Peter的研究是Web文本分析，確實成立。但谷歌的深度學習已經證明這個不完全對，對于信息維度豐富的語音、圖片數(shù)據(jù)，需要大量數(shù)據(jù)+復雜模型。

最后是要相關性不要因果性。對于大批量的小決策，相關性是有用的，如亞馬遜的個性化推薦;而對于小批量的大決策，因果性依然重要。就如中藥，只到達了相關性這一步，但它沒有可解釋性，無法得出是有些樹皮和蟲殼的因導致治愈的果。西藥在發(fā)現(xiàn)相關性后，要做隨機對照試驗，把所有可能導致“治愈的果”的干擾因素排除，獲得因果性和可解釋性。在商業(yè)決策上也是一樣，相關性只是開始，它取代了拍腦袋、直覺獲得的假設，而后面驗證因果性的過程仍然重要。

把大數(shù)據(jù)的一些分析結果落實在相關性上也是倫理的需要，動機不代表行為。預測性分析也一樣，不然警察會預測人犯罪，保險公司會預測人生病，社會很麻煩。大數(shù)據(jù)算法極大影響了我們的生活，有時候會覺得挺悲哀的，是算法覺得了你貸不貸得到款，谷歌每調整一次算法，很多在線商業(yè)就會受到影響，因為被排到后面去了。

下面時間不多了，關于價值維度，我貼一些以前講過的東西。大數(shù)據(jù)思想中很重要的一點是決策智能化之外，還有數(shù)據(jù)本身的價值化。這一點不贅述了，引用馬云的話吧，“信息的出發(fā)點是我認為我比別人聰明，數(shù)據(jù)的出發(fā)點是認為別人比我聰明;信息是你拿到數(shù)據(jù)編輯以后給別人，而數(shù)據(jù)是你搜集數(shù)據(jù)以后交給比你更聰明的人去處理。”大數(shù)據(jù)能做什么?價值這個V怎么映射到其他3V和時空象限中?我畫了個圖：

大數(shù)據(jù)

再貼上解釋。“見微”與“知著”在Volume的空間維度。小數(shù)據(jù)見微，作個人刻畫，我曾用《一代宗師》中“見自己”形容之;大數(shù)據(jù)知著，反映自然和群體的特征和趨勢，我以“見天地、見眾生”比喻之。“著”推動“微”(如把人群細分為buckets)，又拉動“微”(如推薦相似人群的偏好給個人)。“微”與“著”又反映了時間維度，數(shù)據(jù)剛產生時個人價值最大，隨著時間decay最后退化為以集合價值為主。

“當下”和“皆明”在Velocity的時間維度。當下在時間原點，是閃念之間的實時智慧，結合過往(負軸)、預測未來(正軸)，可以皆明，即獲得perpetual智慧?！段饔斡洝防镄稳菡婕賹O悟空，一個是“知天時、通變化”，一個是“知前后、萬物皆明”，正好對應。為達到皆明，需要全量分析、預測分析和處方式分析(prescriptiveanalytics，為讓設定的未來發(fā)生，需要采取什么樣的行動)。

“辨訛”和“曉意”在Variety的空間維度?；诖篌w量、多源異質的數(shù)據(jù)，辨訛過濾噪聲、查漏補缺、去偽存真。曉意達到更高境界，從非結構數(shù)據(jù)中提取語義、使機器能夠窺探人的思想境界、達到過去結構化數(shù)據(jù)分析不能達到之高度。

先看知著，對宏觀現(xiàn)象規(guī)律的研究早已有之，大數(shù)據(jù)的知著有兩個新特點，一是從采樣到全量，比如央視去年“你幸福嗎”的調查，是街頭的采樣，前不久《中國經濟生活大調查》關于幸福城市排名的結論，是基于10萬份問卷(17個問題)的采樣，而清華行為與大數(shù)據(jù)實驗室做的幸福指數(shù)(繼挺兄、我、還有多位本群群友參與)，是基于新浪微博數(shù)據(jù)的全集(托老王的福)，這些數(shù)據(jù)是人們的自然表達(而不是面對問卷時的被動應對)，同時又有上下文語境，因此更真實、也更有解釋性。北上廣不幸福，是因為空氣還是房價或教育，在微博上更容易傳播的積極情緒還是消極情緒，數(shù)據(jù)告訴你答案。《中國經濟生活大調查》說“再小的聲音我們都聽得見”，是過頭話，采樣和傳統(tǒng)的統(tǒng)計分析方法對數(shù)據(jù)分布采用一些簡化的模型，這些模型把異常和長尾忽略了，全量的分析可以看到黑天鵝的身影，聽到長尾的聲音。

另一個特點是從定性到定量。計算社會學就是把定量分析應用到社會學，已經有一批數(shù)學家、物理學家成了經濟學家、寬客，現(xiàn)在他們也可以選擇成為社會學家。國泰君安3I指數(shù)也是一個例子，它通過幾十萬用戶的數(shù)據(jù)，主要是反映投資活躍程度和投資收益水平的指標，建立一個量化模型來推知整體投資景氣度。

再看見微，我認為大數(shù)據(jù)的真正差異化優(yōu)勢在微觀。自然科學是先宏觀、具體，進入到微觀和抽象，這時大數(shù)據(jù)就很重要了。我們更關注社會科學，那是先微觀、具體，再宏觀、抽象，許小年索性認為宏觀經濟學是偽科學。如果市場是個體行為的總和，我們原來看到是一張抽象派的畫，看不懂，通過客戶細分慢慢可以形成一張大致看得懂的現(xiàn)實圖景，不過是馬賽克的，再通過微分、甚至定位個人，形成高清圖。我們每一個人現(xiàn)在都生活在零售商的bucket中(前面說的樂購創(chuàng)造了這個概念)，最簡單的是高收入、低收入這類反映背景的，再有就是反映行為和生活方式的，如“精打細算”、“右鍵點擊一族”(使用右鍵的比較techsavvy)。反過來我們消費者也希望能夠獲得個性化的尊崇，Nobodywantstobenobodytoday。

了解并掌握客戶比以往任何時候都更重要。奧巴馬贏在大數(shù)據(jù)上，就是因為他知道西岸40-49歲女性的男神是喬治·克魯尼，東岸同樣年齡段女性的偶像則是莎拉·杰西卡·帕克(《欲望都市》的主角)，他還要更細分，搖擺州每一個郡每一個年齡段每一個時間段在看什么電視，搖擺州(俄亥俄)1%選民隨時間變化的投票傾向，搖擺選民在Reddit上還是Facebook上，都在其掌握之中。

對于企業(yè)來說，要從以產品為中心，轉到以客戶(買單者)甚至用戶(使用者)為中心，從關注用戶背景到關注其行為、意圖和意向，從關注交易形成轉到關注每一個交互點/觸點，用戶是從什么路徑發(fā)現(xiàn)我的產品的，決定之前又做了什么，買了以后又有什么反饋，是通過網頁、還是QQ、微博或是微信。

再講第三個，當下。時間是金錢，股票交易就是快魚吃慢魚，用免費股票交易軟件有幾秒的延遲，而占美國交易量60-70%的高頻程序化交易則要發(fā)現(xiàn)毫秒級、低至1美分的交易機會。時間又是生命，美國國家大氣與海洋管理局的超級計算機在日本311地震后9分鐘發(fā)出海嘯預警，已經太晚。時間還是機會?，F(xiàn)在所謂的購物籃分析用的其實并不是真正的購物籃，而是結帳完的小票，真正有價值的是當顧客還拎著購物籃，在瀏覽、試用、選擇商品的時候，在每一個觸點影響他/她的選擇。數(shù)據(jù)價值具有半衰期，最新鮮的時候個性化價值最大，漸漸退化到只有集合價值。當下的智慧是從刻舟求劍到見時知幾，原來10年一次的人口普查就是刻舟求劍，而現(xiàn)在東莞一出事百度遷徙圖就反映出來了。當然，當下并不一定是完全準確的，其實如果沒有更多、更久的數(shù)據(jù)，匆忙對百度遷徙圖解讀是可能陷入誤區(qū)的。

第四個，皆明。時間有限，就簡單說了。就是從放馬后炮到料事如神(predictiveanalytics)，從料事如神到運籌帷幄(prescriptiveanalytics)，只知道有東風是預測分析，確定要借箭的目標、并給出處方利用草船來借，就是處方性分析。我們現(xiàn)在要提高響應度、降低流失率、吸引新客戶，需要處方性分析。

辨訛就是利用多源數(shù)據(jù)過濾噪聲、查漏補缺和去偽存真。20多個省市的GDP之和超過全國的GDP就是一個例子，我們的GPS有幾十米的誤差，但與地圖數(shù)據(jù)結合就能做到精確，GPS在城市的高樓中沒有信號，可以與慣性導航結合。

曉意涉及到大數(shù)據(jù)下的機器智能，是個大問題，也不展開了。貼一段我的文章：有人說在涉及“曉意”的領域人是無法替代的。這在前大數(shù)據(jù)時代是事實?！饵c球成金(Moneyball)》講的是數(shù)量化分析和預測對棒球運動的貢獻，它在大數(shù)據(jù)背景下出現(xiàn)了傳播的誤區(qū)：一、它其實不是大數(shù)據(jù)，而是早已存在的數(shù)據(jù)思維和方法;二、它刻意或無意忽略了球探的作用。從讀者看來，奧克蘭競技隊的總經理比利·比恩用數(shù)量化分析取代了球探。而事實是，在運用數(shù)量化工具的同時，比恩也增加了球探的費用，軍功章里有機器的一半，也有人的一半，因為球探對運動員定性指標(如競爭性、抗壓力、意志力等)的衡量是少數(shù)結構化量化指標無法刻畫的。大數(shù)據(jù)改變了這一切。人的數(shù)字足跡的無意識記錄，以及機器學習(尤其是深度學習)曉意能力的增強，可能逐漸改變機器的劣勢。今年我們看到基于大數(shù)據(jù)的情感分析、價值觀分析和個人刻畫，當這些應用于人力資源，已經或多或少體現(xiàn)了球探承擔的

責任編輯：彭凡來源： 36大數(shù)據(jù)

大數(shù)據(jù)

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<blockquote id="a4iz4"></blockquote>