全球10大終極數(shù)據(jù)庫(下篇)
之前已經(jīng)為大家介紹了全球5大***數(shù)據(jù)庫,即全球10大***數(shù)據(jù)庫(上篇)下文中將繼續(xù)為大家介紹另外5種數(shù)據(jù)庫。
6. Sprint 斯普林特
Sprint是全球***的通信公司之一,向5300萬客戶提供服務(wù)。在和Nextel合并之前,提供本地和長途通信服務(wù)。(Sprint Nextel公司現(xiàn)已是全美第3大通信公司,僅次于Verizon和AT&T。)
像Sprint這樣的大型通信公司,均有龐大的數(shù)據(jù)庫,以追蹤客戶呼叫請求。Sprint的數(shù)據(jù)庫每天要處理多達(dá)3.65億次呼叫記錄。其數(shù)據(jù)庫已擴(kuò)展到2.85萬億行。在頂峰期間,每秒有7萬次呼叫詳細(xì)記錄新增到數(shù)據(jù)庫中。
Sprint數(shù)據(jù)庫概括:
1. 數(shù)據(jù)庫有2.85萬億行;
2. 每日平均處理3.65億個呼叫詳細(xì)記錄;
3. 頂峰期間,每秒插入7萬次呼叫詳細(xì)記錄。
7. Google
盡管目前外界沒有太多關(guān)于Google的數(shù)據(jù)庫真實(shí)大小的信息(Google一直能嚴(yán)守信息,這讓諾克斯堡軍事基地情何以堪。),但我們已知道Google所收集信息的數(shù)量和種類。
編者注:文中提到的諾克斯堡軍事基地,是美國國庫黃金儲備地之一(還有一個是西點(diǎn),至于紐約聯(lián)邦儲備銀行的地下金庫,主要是存放外國的黃金。 )。該基地許多地方可以隨便開車進(jìn)入,惟獨(dú)金庫用鐵絲網(wǎng)攔住,外人不得入內(nèi)。故原文作者這樣說。
Google平均每天處理9100萬次查詢(Google的處理海量請求的能力是基于其龐大且強(qiáng)大的數(shù)據(jù)中心),這將近占整個互聯(lián)網(wǎng)每日查詢總量的50%。Google把用戶的每一次搜索保存在數(shù)據(jù)庫中。所以,Google平均一年要保存33萬億條查詢記錄。根據(jù)Google數(shù)據(jù)的結(jié)構(gòu)類型,一年的查詢總量將折合成數(shù)百TB。
除了查詢記錄,Google還收集用戶的個人信息。(怎么收集?)Google把用戶的查詢請求和用戶電腦上Cookie保留的信息整合到一起,創(chuàng)建虛擬的個人信息。
尤為重要的是,除了搜索,Google帝國的疆土還在不斷擴(kuò)大,現(xiàn)有疆土已有數(shù)字媒體(Google視頻和YouTube)、廣告(Google Ads)和郵箱等。歸根結(jié)底,Google的疆土越大,其數(shù)據(jù)庫處理的信息量就越大。就互聯(lián)網(wǎng)范圍內(nèi)的數(shù)據(jù)庫而言,Google是No 1。
Google數(shù)據(jù)庫概括:
1. 平均每天9100萬查詢請求;
2. 查詢數(shù)量占所有互聯(lián)網(wǎng)查詢量的50%;
3. 不計(jì)其數(shù)的用戶虛擬資料。
#p#
8. AT&T 美國電話電報(bào)公司
和Sprint一樣,美國的老牌通信公司AT&T的數(shù)據(jù)庫也能進(jìn)入排名。從結(jié)構(gòu)上來說,AT&T的***數(shù)據(jù)庫是百里挑一的,因?yàn)樗?個 重要“頭銜”,總量***的獨(dú)立數(shù)據(jù)庫(312TB)和行數(shù)第二大的獨(dú)立數(shù)據(jù)庫(1.9萬億行,這個數(shù)據(jù)庫是處理呼叫記錄的)。
1.9萬億條呼叫記錄,包括了主叫和被叫號碼、呼叫時間和通話時長以及其他各種賬單目錄信息。AT&T的工作做得非常細(xì)致,他們業(yè)保存了10年前的呼叫信息。要知道,10年前可沒有保存數(shù)百TB級數(shù)據(jù)的技術(shù)。(或者說技術(shù)還不成熟。)
AT&T數(shù)據(jù)庫概括:
1. 信息量為323TB;
2. 1.9萬億的通話記錄。
9. 美國國家能源研究科學(xué)計(jì)算中心(簡稱NERSC)
第二大的數(shù)據(jù)庫應(yīng)屬加州奧克蘭的NERSC。NERSC由“勞倫斯伯克利能源實(shí)驗(yàn)室”和“美國能源部”共同運(yùn)作。它數(shù)據(jù)庫保存的信息包括了原子能研究、高 能物理實(shí)驗(yàn)和早期宇宙模擬等數(shù)據(jù)。如果想看宇宙過去的模樣,啟動NERSC的超級計(jì)算機(jī)就可以觀看“大爆炸”時期的宇宙形態(tài)。
編者注:NERSC有超級計(jì)算機(jī)群,其中***的名為“富蘭克林”。2009年11月,全球超超級計(jì)算機(jī)Top500排行榜中,“富蘭克林”位列15。
NERSC數(shù)據(jù)庫由2000多名計(jì)算機(jī)科學(xué)家操作和維護(hù),其數(shù)據(jù)量高達(dá)2.8PB。(注:1 PB = 1024 TB;1 TB = 1024 GB;)
NERSC數(shù)據(jù)庫概括:
1. 信息量高達(dá)2.8PB;
2. 由2000多名計(jì)算機(jī)科學(xué)家共同運(yùn)作;
10. 世界氣候數(shù)據(jù)中心(WDCC)
如果你有一臺價值3500萬歐元的超級計(jì)算機(jī),你會把它用來做什么?炒股?搭建自己的“因特網(wǎng)”?WDCC就有一臺這樣的機(jī)器,又逢全球變暖,正好用它來做氣候研究。WDCC由馬克思·普朗克氣象研究院和德國氣候計(jì)算機(jī)中心共同運(yùn)作,其數(shù)據(jù)庫是全球***的。
WDCC有220TB的網(wǎng)絡(luò)數(shù)據(jù),包括氣候研究、預(yù)測氣候變化和110TB(24500張DVD)的氣候模擬數(shù)據(jù)。尤為重要的是,它還有保存在磁帶上的6PB的其他信息。你會問,這6PB的數(shù)據(jù)有多大呢?這個數(shù)據(jù)是全美所有學(xué)術(shù)研究圖書館內(nèi)容總和的3倍。
WDCC數(shù)據(jù)庫概括:
1. 220TB的網(wǎng)絡(luò)數(shù)據(jù):
2. 6PB的其他數(shù)據(jù)。
編者后話
對于這份原文作者整理的這份列表,相信有朋友會有疑惑,這能稱上是“全球10大***數(shù)據(jù)庫”么?我也有此疑問,但我對Google、AT&T、 NERSC和WDCC可以進(jìn)入排名沒有疑問。我想,既然美國的第三通信公司Sprint能進(jìn)入,那國內(nèi)的同行企業(yè)的數(shù)據(jù)庫為什么沒能上榜呢?按道理來說, 有著龐大人口/用戶基數(shù)的,應(yīng)該能入圍的。或許有這種可能:雖然美國通信企業(yè)的用戶數(shù)量沒法和國內(nèi)的同行比,但他們保存的通話記錄比國內(nèi)更長,故數(shù)據(jù)庫更 龐大。
其實(shí)本文恰當(dāng)?shù)臉?biāo)題應(yīng)該是“全美10大***數(shù)據(jù)庫”。并且原文作者還把Facebook漏掉了。Facebook這么龐大的活躍用戶群(用戶總量已超過5億),看下面3個數(shù)據(jù):(數(shù)據(jù)來源參考)
1. 每月處理超過250億條的信息內(nèi)容(包括用戶狀態(tài)更新,評論等);
2. Facebook圖片總量已有200億張(其實(shí)共有800百張,因?yàn)槊繌垐D片按4種分辨率保存);
3. 每個月有超過30億的圖片上傳到Facebook。
主要看***條數(shù)據(jù)(圖片不會保存在數(shù)據(jù)庫中的),每月有250億條,F(xiàn)acebook已運(yùn)作這么多年了,數(shù)據(jù)庫中應(yīng)該存有5000億條信息(保守?cái)?shù)字),假設(shè)平均每條信息10B,則共約為50TB。
總而言之,如果要算數(shù)據(jù)庫總量大小,F(xiàn)acebook能進(jìn)入這個列表。如果你還有其他觀點(diǎn),不妨在評論中和大家一起分享。
【編輯推薦】