一個文科教授眼中的大數(shù)據(jù):多、快、糙、耗?
作者:香港城市大學(xué)媒體與傳播系互聯(lián)網(wǎng)實驗室教授
用現(xiàn)在的網(wǎng)絡(luò)語言,我是一個文科男。最近莫言在接受諾貝爾獎時說了一句話,文學(xué)不是科學(xué),文學(xué)是做無用的東西。我想說明一下文學(xué)不等于文科,文科的面更廣,可以進一步分為人文學(xué)科和社會科學(xué)。社會科學(xué)研究歷來與數(shù)據(jù)打交道,當(dāng)然以前用的都是小數(shù)據(jù),數(shù)量少、速度慢、耗工時,但是質(zhì)量好、也省資源,符合現(xiàn)在的綠色理念。我根據(jù)長年研究小數(shù)據(jù)的經(jīng)驗出發(fā),講講對大數(shù)據(jù)的一些看法,其實也是社會科學(xué)界的一些共識。讀者看完后也許會同意,文科(或者社會科學(xué))與科學(xué)一樣,做的東西也是有用的。
眼下大數(shù)據(jù)正是大熱。我做了個小統(tǒng)計,SCI/SSCI期刊上已發(fā)表270篇有關(guān)大數(shù)據(jù)的研究論文,大部分是最近一兩年內(nèi)出現(xiàn)的。其中來自計算機科學(xué)和工程技術(shù)的最多,分別占了27%;其次是醫(yī)學(xué)生物化學(xué)(20%)和基礎(chǔ)研究的數(shù)學(xué)、物理等(11%);最少的是工商管理(8%)和社會科學(xué)(7%)。我涉及的就是***這15%的研究。
我有幸加入了中國計算機學(xué)會最近成立的大數(shù)據(jù)專家委員會,也參與了委員會對大數(shù)據(jù)研究的一些熱點問題和發(fā)展趨勢的評選工作。按照我的理解,最近委員會發(fā)布的對大數(shù)據(jù)研究的八個熱點問題和十大趨勢,應(yīng)該是全球范圍內(nèi)至今最系統(tǒng)的一些看法和表述。當(dāng)然美國和歐洲的各個機構(gòu)、商業(yè)、學(xué)術(shù)團體都有一些非常精辟、精彩的看法,但從全面性講這可能是***個文件。
大數(shù)據(jù)這個概念在受到關(guān)注的同時,也出現(xiàn)了很多批評的意見。也許大家都見過這一條報道,Sybase的技術(shù)總裁Irfan Khan認(rèn)為,“大數(shù)據(jù)是一個大謊話”。Sybase是做一家數(shù)據(jù)庫的公司,長期為企業(yè)做BI應(yīng)用工具。他們一直在做大數(shù)據(jù)的工作,所以覺得現(xiàn)在講的大數(shù)據(jù)中的所有東西早已有之,不是什么新的東西。他從這個角度講大數(shù)據(jù)有點泡沫,有點夸張。當(dāng)然,我們做實證研究的人并不完全認(rèn)同他的說法,大數(shù)據(jù)的宣傳中確實有些地方有點夸大,但沒有夸大到虛假謊言的地步。
什么是大數(shù)據(jù)?***的定義是4個V: Volume, Velocity, Variety, Value。我覺得這4個V大致與中文里的“多、快、好、省”四個字相對應(yīng)。這四個字當(dāng)中,有些是理論上應(yīng)該實現(xiàn)的、有些實際上已經(jīng)展現(xiàn)出來了、但有些現(xiàn)在還有差距。大數(shù)據(jù)是不是真的多、快、好、省?我下面逐一談?wù)劇?/p>
大數(shù)據(jù)之“多”
大數(shù)據(jù)首先就是數(shù)據(jù)多。這一點大家講的很多,似乎沒有什么分歧。其實不盡然。關(guān)鍵在于我們用的是總體數(shù)據(jù)、樣本數(shù)據(jù)、還是局部數(shù)據(jù)。什么是總體數(shù)據(jù)?大家都明白。最直觀的例子就是每10年中國和其他很多國家都要對全體居民進行人口普查,其結(jié)果就是總體數(shù)據(jù)。中國最近一次的人口普查在2010年,發(fā)現(xiàn)有13.8億人。樣本數(shù)據(jù)也不難理解,通過抽樣獲得。如人口統(tǒng)計,除了每10年的普查,國家人口中心每年還要做千分之二的抽樣調(diào)查,用得到的樣本數(shù)據(jù)來估計每10年兩次人口普查之間中國人口增長的變化。局部數(shù)據(jù)呢,則是總體數(shù)據(jù)的一個子集,但不是通過隨機方法從總體中抽出來的,而是用各種便利或現(xiàn)存的方法得到的。局部數(shù)據(jù)往往比樣本數(shù)據(jù)大很多,但兩者有嚴(yán)格的區(qū)別。
這些都是常識。我們來看看大數(shù)據(jù)的情況。理論上講大數(shù)據(jù)指的應(yīng)該就是總體數(shù)據(jù)。但實際上,由于技術(shù)、商業(yè)、保密和其它原因,除了少數(shù)大數(shù)據(jù)的原始擁有者(例如淘寶、新浪微博、國家電網(wǎng)、教育網(wǎng)等,他們也許是真正掌握了總體數(shù)據(jù)的),對于絕大多數(shù)的第三方來講,現(xiàn)在大家講的大數(shù)據(jù),基本上都不是總體數(shù)據(jù)而是局部數(shù)據(jù)。注意,這種局部數(shù)據(jù),哪怕占了總體的很大一個百分比(70%、80%),既不是總體數(shù)據(jù)、也不是抽樣數(shù)據(jù)。因為哪怕是缺了10%、20%的個案,局部數(shù)據(jù)跟總體也許就有很大的差別。
三種數(shù)據(jù)中,如果只考慮質(zhì)量、不計成本、效率等其它因素,總體數(shù)據(jù)最靠譜,其次是樣本數(shù)據(jù)、最不靠譜的是局部數(shù)據(jù)。我相信很多工科男并不認(rèn)同***這句話。在我們看來,樣本數(shù)據(jù)雖然規(guī)模要小很多,但實際上在很多情況下比局部數(shù)據(jù)要更有價值,更可靠。圖一是我做的一個模擬,隨機產(chǎn)生了一萬個數(shù)值(藍色),姑且把它當(dāng)作是總體。我從中隨機抽了500個值(紅色),這個樣本看上去很稀疏(即誤差大、不夠精確),但是它對總體的代表是很好的,即在X和Y軸上的平均數(shù)都與總體相同,都在原點上。我再抽8000個值(即總體80%)的局部數(shù)據(jù)(綠色),人為的設(shè)定一些限制,使得正面數(shù)值更容易出現(xiàn),結(jié)果緊密的多(即誤差小了),但其平均數(shù)往右上方向偏,即精確但不準(zhǔn)確。如果依靠局部數(shù)據(jù),被局部數(shù)據(jù)的海量規(guī)模所迷惑,其實是害死人的。
歷史上有過很多案例,顯示了局部數(shù)據(jù)大而無當(dāng)。社會科學(xué)研究方法中,一般都會講到是美國1936年的總統(tǒng)選舉。當(dāng)時有兩家公司在做選舉預(yù)測。一家是《文學(xué)摘要》雜志,隨著雜志給讀者寄問卷,回收了250萬份問卷。當(dāng)時全美選民大概是1億左右,250萬已經(jīng)是相當(dāng)大的一個局部數(shù)據(jù)了。他們經(jīng)過分析,預(yù)測共和黨藍頓比民主黨羅斯福領(lǐng)先14%,以絕對優(yōu)勢當(dāng)選。另外有一家是蓋洛普民意測驗中心,那時只是剛起步的一個小公司,用隨機抽樣的方法調(diào)查了5萬人,預(yù)測將是羅斯福以56%的得票率當(dāng)選。***選舉結(jié)果羅斯福戰(zhàn)勝藍頓,也即蓋洛普的小樣本戰(zhàn)勝了《文學(xué)摘要》的大局部數(shù)據(jù)。因為當(dāng)時訂購雜志的人更有錢,所以對共和黨更支持。數(shù)據(jù)只是大而不具有代表性,后果更差。
數(shù)據(jù)的信息量,一方面是由個案多少決定的,另一方面是由變量(即個案的特征值)多少覺得的。社會科學(xué)家們用的數(shù)據(jù)是個案少、變量多。理想中的大數(shù)據(jù),不僅要個案多,而且要變量多。我了解的現(xiàn)實生活中的大數(shù)據(jù)僅僅是個案多,變量并不多,與我們社會科學(xué)家的小數(shù)據(jù)正好相反。個案多、變量少的數(shù)據(jù)結(jié)構(gòu)是我們面臨的大數(shù)據(jù)的基本現(xiàn)實。造成的原因之一就是每人只掌握了一小部分變量,也就是所謂的數(shù)據(jù)孤島。只有通過分享、整合才能產(chǎn)生多個案、多變量的真正的大數(shù)據(jù)。#p#
大數(shù)據(jù)之“快”
現(xiàn)在對大數(shù)據(jù)的處理方法,以單位速度計,肯定是快。但是,光講效率不講效果是沒有意思的。我還是用社會科學(xué)研究作為慢的例子和現(xiàn)在的大數(shù)據(jù)的一些基本方法來做比較。我們做的都是手工標(biāo)注,大數(shù)據(jù)主要是自動分類。從規(guī)模上是沒辦法比的,我們一般一個樣本只有幾千個,現(xiàn)在幾百萬是小數(shù)據(jù)的,成百上千億才是常態(tài)的。從準(zhǔn)確率來講,人工永遠超過機器的。有人統(tǒng)計過,我自己觀察到,機器學(xué)習(xí)的準(zhǔn)確率平均差不多在80%左右,當(dāng)然也有些做自然語言處理、人工智能的會說某一個特定的項目能做到90%。但是如果把所有的研究都拿來平均一下,80%也許是比較樂觀的記錄。人工情況下基本能做到90%、95%,一般社會科學(xué)的學(xué)術(shù)期刊不接受準(zhǔn)確率低于95%的論文。
另一個問題是你怎么知道準(zhǔn)確率?我們的一般方法是對同樣的內(nèi)容有兩個或者更多的人分別獨立(即背靠背、互不知情)的進行標(biāo)注,***計算相互的相似度,來估計準(zhǔn)確率。而大數(shù)據(jù)的處理,如果是全自動無監(jiān)督的學(xué)習(xí),其結(jié)果的準(zhǔn)確率其實是無法知道的。現(xiàn)在大家都在抓網(wǎng)上內(nèi)容做預(yù)測,到底預(yù)測準(zhǔn)不準(zhǔn),也許永遠是一個未知數(shù)。從誤差來講,人工判斷有誤差,但這些誤差都是個人誤差,如果有幾個人同時做的話,其誤差可以互相抵消。機器學(xué)習(xí)的誤差是系統(tǒng)性的,如果你知道偏在哪兒,可以很容易的就把它改過來,但誤差偏在什么地方一般是不知道。這就是我剛才講的,局部數(shù)據(jù)問題在系統(tǒng)誤差,到底是往左偏,還是往右偏,偏高了還是偏低了并不知道。所以,按照我們的看法,人工處理的小樣本數(shù)據(jù),研究結(jié)果是準(zhǔn)確的,但是不夠精確,即不夠穩(wěn)定。機器學(xué)習(xí)的方法倒過來,因為你有海量的數(shù)據(jù),非常精準(zhǔn)。其實精準(zhǔn)這個詞從英文里面是precision,只有精確的意思而沒有準(zhǔn)確(correct或accurate)的意思。精而不準(zhǔn)是目前大數(shù)據(jù)的一個問題。大家很自然的會想到,我們需要把人工標(biāo)注和自動分類結(jié)合起來,做有監(jiān)督的機器學(xué)習(xí)。機器學(xué)習(xí)的質(zhì)量是由訓(xùn)練集的質(zhì)量、訓(xùn)練集的規(guī)模和學(xué)習(xí)的算法三方面決定的,而這三者的重要性就是按照這個順序排的,最重要的是訓(xùn)練集的質(zhì)量,也即人工標(biāo)注的質(zhì)量。#p#
大數(shù)據(jù)之“省”
這里的問題是省了人工,還是省了能源?大數(shù)據(jù)肯定省了人工,但同時在耗能。這是一個環(huán)保的大問題,我不展開講,實際上大數(shù)據(jù)是驚人的耗電。如果現(xiàn)在才開始規(guī)劃,不注意的話,也許幾年以后大數(shù)據(jù)就成為一個新的污染重工業(yè)。我聽說某些地方在建大數(shù)據(jù)中心,搞幾百萬臺服務(wù)器。我們可以想象得到其所耗用的能源和所產(chǎn)生的輻射,是非常可怕的。實際上現(xiàn)在的各種數(shù)據(jù)每年遞增的速度遠遠超過我們現(xiàn)在存儲能力的遞增速度。在這種情況下,除非我們的存儲材料有突破,不然我們必須要想好一個問題,真的能夠把總體數(shù)據(jù)保存下來嗎?中國聯(lián)通的數(shù)據(jù)只能保存4個月,然后必須刪除以保存新數(shù)據(jù)。我認(rèn)為出路還是在抽樣,把大數(shù)據(jù)變小。
大數(shù)據(jù)之“好”
大數(shù)據(jù)一定比小數(shù)據(jù)好嗎?這個問題是所有問題的核心,現(xiàn)在還沒有答案的。我認(rèn)為以下幾個問題值得考慮。***,大數(shù)據(jù)是好,但是大數(shù)據(jù)在哪里?如果我們拿不到大數(shù)據(jù),就是一個櫥窗里面的蛋糕,只能在外面觀賞。我們可以把大數(shù)據(jù)分成幾種,小規(guī)模、中型規(guī)模、巨型規(guī)模。小規(guī)模的數(shù)據(jù)非常多,免費就可以得到。中規(guī)模數(shù)據(jù)在大部分情況下也是免費的或者是低成本的。真正巨型規(guī)模的大數(shù)據(jù)其實是得不到的。做應(yīng)用也好,做工具服務(wù)的也好,都必須面對這一現(xiàn)實。
第二是我們真的有處理和分析大數(shù)據(jù)的能力嗎?我認(rèn)為現(xiàn)在的大數(shù)據(jù)分析工具并不發(fā)達,現(xiàn)在所用到的絕大部分工具都是用來解決小數(shù)據(jù)問題的,用來解決常態(tài)數(shù)據(jù)的。對異態(tài)數(shù)據(jù)的統(tǒng)計工具,現(xiàn)在基本上沒有。最近《科學(xué)》雜志發(fā)表的一篇文章中報告了用于大數(shù)據(jù)兩元相關(guān)分析的一種方法。學(xué)過統(tǒng)計的都知道,小數(shù)據(jù)的兩元相關(guān)分析是一百多年前就有了的。也就是說,我們處理大數(shù)據(jù)的能力還是處在起步的階段,相當(dāng)于19世紀(jì)80年代的小數(shù)據(jù)水平。當(dāng)然,我們肯定不需要再用120年的時間才能使大數(shù)據(jù)分析能力達到今天小數(shù)據(jù)的水平。但是,我們必須對大數(shù)據(jù)分析能力的現(xiàn)狀有客觀和足夠的認(rèn)識。
總之,我對大數(shù)據(jù)的看法即不是完全樂觀的,也不是完全悲觀的。大數(shù)據(jù)肯定代表了一個新世紀(jì)、新紀(jì)元的到來。大數(shù)據(jù)的潛在價值也是客觀存在的。但是數(shù)據(jù)的應(yīng)用、數(shù)據(jù)的分享,其實還是有很多問題的。數(shù)據(jù)的存儲與分析,其實還是剛剛開始。現(xiàn)在是商業(yè)和社會應(yīng)用遠遠走在了科學(xué)研究的前面。有志于大數(shù)據(jù)研究的科學(xué)家、社會科學(xué)家們要努力趕上。