數(shù)據(jù)收集或比數(shù)據(jù)挖掘更有意義
不竟想起所謂“費(fèi)米悖論(Fermi Paradox)”。1950年的一天,諾貝爾獎(jiǎng)獲得者、物理學(xué)家費(fèi)米在和別人討論飛碟及外星人問題時(shí),突然冒出一句:“如果有外星人,他們?yōu)槭裁礇]在這里?”這句看似簡(jiǎn)單的問話,就是著名的“費(fèi)米悖論”。如果認(rèn)為在如此廣闊的宇宙中(上百億光年的空間,約700萬億億顆恒星),在如此漫長(zhǎng)的時(shí)間里(100億~160億年),全宇宙總共只誕生了太陽系的地球這***的文明,這聽起來無論如何總是極端武斷的。那么,總該有一個(gè)兩個(gè)外星文明被我們發(fā)現(xiàn),或到地球來訪問過了吧?為什么它們至今仍然是沉默的呢?人類能用100萬年的時(shí)間飛往銀河系各個(gè)星球,那么,外星人只要比人類早進(jìn)化100萬年,現(xiàn)在就應(yīng)該來到地球了。迄今為止,仍然缺乏任何被科學(xué)共同體接受的證據(jù),能夠證明地外文明的存在;另一方面,科學(xué)共同體也無法提出任何令人信服的證據(jù),能夠證明外星文明不存在,這就使得“費(fèi)米悖論”成為一個(gè)極端開放的問題。
我們學(xué)偏微分方程的時(shí)候,總是要先論證某一類方程解的存在性。知道解的存在,才能去求解。可是,不求出解來,怎么知道解是存在的呢?這就是一個(gè)悖論。對(duì)存在的數(shù)據(jù)集應(yīng)用算法過去是產(chǎn)生新發(fā)現(xiàn)的有效方法,而現(xiàn)在新知識(shí)可以使用可用的材料資源創(chuàng)造財(cái)富,比累積新資源更有效。過去,生物學(xué)家,天文學(xué)家和宇宙學(xué)家從歷史數(shù)據(jù)中找發(fā)現(xiàn),考古學(xué)家艱難地去挖掘?,F(xiàn)在,他們可以重建所有的廢墟和人工制品,從衛(wèi)星和航拍圖像偵察到的表面跟蹤想象出來。研究(Research)就真成了重新搜索(Re-Search)。
聯(lián)想到馬航MH370失聯(lián)事件。2014年3月8日凌晨1時(shí)20分,由馬來西亞吉隆坡飛往中國北京的馬來西亞航空公司MH370航班與地面失去聯(lián)系,機(jī)上239人中有154名中國籍乘客。此事已經(jīng)過去35天,先后26個(gè)國家參加搜索,出動(dòng)幾百架次飛機(jī)和軍艦、商船,花費(fèi)超過5000萬美元。先說在南海,折騰了10多天一無所獲;有人根據(jù)衛(wèi)星圖像說是在吉爾吉斯西北部的塔拉斯州州府以南約30公里處的山谷里;后來又說是在印度洋;反復(fù)折騰,試圖收集MH370的數(shù)據(jù),但是,至今沒找到。按理說,有關(guān)的數(shù)據(jù)多的是,即使是這35天的衛(wèi)星數(shù)據(jù)、搜索飛機(jī)得到的數(shù)據(jù),不可謂不大,不管你怎么去挖掘這些數(shù)據(jù),你也得不到任何MH370的數(shù)據(jù)。這個(gè)例子說明,在某些情況下,數(shù)據(jù)收集比數(shù)據(jù)挖掘更難、更有意義,因?yàn)檫@種數(shù)據(jù)收集就是發(fā)現(xiàn)。新聞聯(lián)播每天都播MH370搜索的消息。新聞聯(lián)播1分鐘值多少錢?做過廣告的公司也許知道,反正很貴。也許會(huì)說,那是因?yàn)闄C(jī)上有154名同胞??墒?,國內(nèi)死人的事天天有,怎么沒花這么多的筆墨?這問題很復(fù)雜。即使黑匣子找到了,各國都有自己的秘密,只能用各國都能接受的方式做報(bào)道。所以,這里的數(shù)據(jù)分析是和政治有關(guān)的,甚至說,數(shù)據(jù)收集的過程也與政治有關(guān)。不要認(rèn)為,大數(shù)據(jù)能解決一切。而在數(shù)據(jù)收集中,硬件技術(shù)不可缺少。我們國家在硬件技術(shù)和生產(chǎn)方面應(yīng)該承認(rèn)差距,加強(qiáng)研究、制造和發(fā)展。