Facebook的“大數(shù)據(jù)”到底有多大
據(jù)說這是一個“大數(shù)據(jù)”的時代,到底有多大呢?
Facebook最近在總部的一次會議中披露的一組數(shù)據(jù)可以給大家一個初步的印象,來一起看看每天Facebook上都得處理多少數(shù)據(jù)吧:
25億 Facebook上分享的內(nèi)容條數(shù)
27億 “贊”的數(shù)量,
3億 上傳照片數(shù)
500+TB 新產(chǎn)生的數(shù)據(jù)
105TB 每半小時通過Hive掃描的數(shù)據(jù)
100+PB(1PB=1024TB) 單個HDFS(分布式文件系統(tǒng))集群中的磁盤容量
FB的工程總監(jiān)Parikh解釋了這些數(shù)據(jù)對于Facebook的意義:“大數(shù)據(jù)的意義在于真正對你的生意有內(nèi)在的洞見。如果你不能好好利用自己收集到的數(shù)據(jù),那你只是空有一堆數(shù)據(jù)而已,不叫大數(shù)據(jù)。”
目前Facebook有著世界***的分布式文件系統(tǒng),單個集群中的數(shù)據(jù)存儲量就超過100PB。在Facebook內(nèi)部,從一開始就沒有在不同的部門之間(比如廣告部和用戶支持部)設(shè)立障礙或者分割數(shù)據(jù)。這樣一來產(chǎn)品開發(fā)者就可以跨部門獲得數(shù)據(jù),實時知曉最近的改動是否增加了用戶瀏覽時間或者促成了更多的廣告點擊。
作為普通用戶,大家也許會對如此海量的數(shù)據(jù)心存不安,擔(dān)心自己的數(shù)據(jù)被隨意瀏覽。對此Facebook表示有各種防范措施來防止此類事情的發(fā)生,比如所有的數(shù)據(jù)讀取記錄都會被存檔,哪些人看過哪些數(shù)據(jù)都是記錄在案的;如果有員工越線,會被直接開除。Parikh著重強調(diào):“在這件事上我們的政策是零容忍。”