大數(shù)據(jù)時(shí)代:統(tǒng)計(jì)學(xué)是數(shù)據(jù)分析的靈魂
7月中旬以來(lái),從中央到地方,今年上半年經(jīng)濟(jì)社會(huì)發(fā)展的統(tǒng)計(jì)數(shù)據(jù)陸續(xù)進(jìn)入人們的視野。在觀察、使用統(tǒng)計(jì)數(shù)據(jù)時(shí),類似“大數(shù)據(jù)時(shí)代怎樣用好數(shù)據(jù)”這樣的話題,再次引起人們的關(guān)注。
7月20日出版的《人民日?qǐng)?bào)》,刊發(fā)了清華大學(xué)統(tǒng)計(jì)學(xué)研究中心主任劉軍做客人民日?qǐng)?bào)、人民網(wǎng)《文化講壇》時(shí),對(duì)相關(guān)問(wèn)題所做的介紹和分析。其內(nèi)容包括:
什么是數(shù)據(jù)?
數(shù)據(jù)(data)在拉丁文里是“已知”的意思,在英文中的一個(gè)解釋是“一組事實(shí)的集合,從中可以分析出結(jié)論”?;\統(tǒng)地說(shuō),凡是用某種載體記錄下來(lái)的、能反映自然界和人類社會(huì)某種信息的,就可稱之為數(shù)據(jù)。古人“結(jié)繩記事”,打了結(jié)的繩子就是數(shù)據(jù)。步入現(xiàn)代社會(huì),信息的種類和數(shù)量越來(lái)越豐富,載體也越來(lái)越多。數(shù)字是數(shù)據(jù),文字是數(shù)據(jù),圖像、音頻、視頻等都是數(shù)據(jù)。
什么是大數(shù)據(jù)?
量的增多,是人們對(duì)大數(shù)據(jù)的***個(gè)認(rèn)識(shí)。大數(shù)據(jù)區(qū)別于數(shù)據(jù),還在于數(shù)據(jù)的多樣性。從數(shù)據(jù)到大數(shù)據(jù),不僅是量的積累,更是質(zhì)的飛躍,海量的、不同來(lái)源、不同形式、包含不同信息的數(shù)據(jù)可以容易地被整合、分析,原本孤立的數(shù)據(jù)變得互相聯(lián)通。這使得人們通過(guò)數(shù)據(jù)分析,能發(fā)現(xiàn)小數(shù)據(jù)時(shí)代很難發(fā)現(xiàn)的新知識(shí),創(chuàng)造新的價(jià)值。
大數(shù)據(jù)時(shí)代,統(tǒng)計(jì)學(xué)是數(shù)據(jù)分析的靈魂。
大數(shù)據(jù)告知信息但不解釋信息。打個(gè)比方,大數(shù)據(jù)是“原油”而不是“汽油”,不能被直接拿來(lái)使用。大數(shù)據(jù)時(shí)代,統(tǒng)計(jì)學(xué)依然是數(shù)據(jù)分析的靈魂。正如美國(guó)加州大學(xué)伯克利分校邁克爾·喬丹教授指出的,“沒(méi)有系統(tǒng)的數(shù)據(jù)科學(xué)作為指導(dǎo)的大數(shù)據(jù)研究,就如同不利用工程科學(xué)的知識(shí)來(lái)建造橋梁,很多橋梁可能會(huì)坍塌,并帶來(lái)嚴(yán)重的后果。”
事物的發(fā)展充滿了不確定性,而統(tǒng)計(jì)學(xué),既研究如何從數(shù)據(jù)中把信息和規(guī)律提取出來(lái),找出***化的方案;也研究如何把數(shù)據(jù)當(dāng)中的不確定性量化出來(lái)。
劉軍的介紹與分析,幫助我們認(rèn)識(shí)到,從數(shù)據(jù)到大數(shù)據(jù),伴隨質(zhì)的飛躍;通過(guò)對(duì)海量數(shù)據(jù)的整合、分析,可以發(fā)現(xiàn)新知識(shí)、創(chuàng)造新價(jià)值;大數(shù)據(jù)時(shí)代,統(tǒng)計(jì)學(xué)肩負(fù)從數(shù)據(jù)中提取規(guī)律、量化數(shù)據(jù)中的不確定性等使命。