自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

云計算背后的秘密(2)-GFS

云計算
由于搜索引擎需要處理海量的數(shù)據(jù),所以Google的兩位創(chuàng)始人Larry Page和Sergey Brin在創(chuàng)業(yè)初期設(shè)計一套名為“BigFiles”的文件系統(tǒng),而GFS(全稱為“Google File System”)這套分布式文件系統(tǒng)則是“BigFiles”的延續(xù)。

由于周日Linode在加州機房出現(xiàn)停電事故,所以這兩天PeopleYun沒法訪問,在這里向大家表示歉意

由于搜索引擎需要處理海量的數(shù)據(jù),所以Google的兩位創(chuàng)始人Larry Page和Sergey Brin在創(chuàng)業(yè)初期設(shè)計一套名為“BigFiles”的文件系統(tǒng),而GFS(全稱為“Google File System”)這套分布式文件系統(tǒng)則是“BigFiles”的延續(xù)。

技術(shù)概覽

首先,介紹它的架構(gòu),GFS主要分為兩類節(jié)點:其一是Master節(jié)點,其主要存儲與數(shù)據(jù)文件相關(guān)的元數(shù)據(jù),而不是Chunk(數(shù)據(jù)塊)。元數(shù)據(jù)包括一個能將64位標簽映射到數(shù)據(jù)塊的位置及其組成文件的表格,數(shù)據(jù)塊副本位置和哪個進程正在讀寫特定的數(shù)據(jù)塊等。還有Master節(jié)點會周期性地接收從每個Chunk節(jié)點來的更新(“Heart-beat”)來讓元數(shù)據(jù)保持最新狀態(tài);其二是Chunk節(jié)點,它主要用于存儲數(shù)據(jù)。在每個Chunk節(jié)點上,數(shù)據(jù)文件會以每個默認大小為64MB Chunk的方式存儲,而且每個Chunk有唯一一個64位標簽,并且每個Chunk都會在整個分布式系統(tǒng)被復(fù)制多次,默認次數(shù)為3。下圖就是GFS的架構(gòu)圖:

 

圖1. GFS的架構(gòu)圖

接著,在設(shè)計上,GFS主要有八個特點:

大文件和大數(shù)據(jù)塊:數(shù)據(jù)文件的大小普遍在GB級別,而且其每個數(shù)據(jù)塊默認大小為64MB,這樣做的好處是減少了元數(shù)據(jù)的大小,從而能使Master節(jié)點能夠非常方便地將元數(shù)據(jù)都放置在內(nèi)存中以提升訪問效率。

操作以添加為主:文件很少會被刪減或者覆蓋,通常只是進行添加或者讀取操作,這樣能充分考慮到硬盤線性吞吐量大,但隨機讀寫慢的特點。

支持容錯:首先,雖然當時為了設(shè)計方便,采用了單Master的方案,但是整個系統(tǒng)會保證Master節(jié)點會有其相對應(yīng)的替身(Shadow),以便于當Master節(jié)點出現(xiàn)問題時進行切換。其次,在Chunk層,GFS已經(jīng)在設(shè)計上將節(jié)點失敗視為常態(tài),所以能非常好地處理Chunk節(jié)點失效的問題。

高吞吐量:雖然以單個節(jié)點來看,GFS的性能無論是從吞吐量還是延遲都很普通,但因為其支持上千的節(jié)點,所以總的數(shù)據(jù)吞吐量是非常驚人的。

保護數(shù)據(jù):文件被分割成固定尺寸的數(shù)據(jù)塊以便于保存,而且每個數(shù)據(jù)塊都會被系統(tǒng)至少復(fù)制三份。

擴展能力強:因為元數(shù)據(jù)偏小,使得一個Master節(jié)點能控制和管理上千個存數(shù)據(jù)的Chunk節(jié)點。

支持壓縮:對于那些稍舊的文件,可以通過對它進行壓縮,來節(jié)省硬盤空間,并且壓縮率非常驚人,有時甚至接近90%。

基于用戶空間:GFS主要運行于系統(tǒng)的用戶空間(User Time),雖然在效率方面,用戶空間比內(nèi)核空間略低,但是更便于開發(fā)和測試,還有,就是能更好利用Linux的自帶的一些POSIX API。

優(yōu)劣點

由于GFS主要是為了存儲海量搜索數(shù)據(jù)而設(shè)計的,所以它在吞吐量(Throughput)和伸縮性(Scalability)這兩方面表現(xiàn)非常優(yōu)異,可謂業(yè)界的“翹楚”,但是由于其主要以64MB數(shù)據(jù)塊形式存儲,所以在隨機訪問方面速度并不優(yōu)秀,雖然這點可謂是它的“軟肋”,但是這本身也是其當初為了吞吐量和伸縮性所做的權(quán)衡。

相關(guān)產(chǎn)品

和MapReduce相似的是,GFS在開源界也有其對應(yīng)的產(chǎn)品,最出名的是HDFS分布式文件系統(tǒng),在功能和設(shè)計上,HDFS從GFS身上借鑒了很多東西,而且由于其本身就是Hadoop系列的一部分,所以它為了更好Hadoop這個MapReduce框架做了很多優(yōu)化。

實際用例

現(xiàn)在Google內(nèi)部至少運行著200多個GFS集群,最大的集群有幾千臺服務(wù)器,數(shù)據(jù)量是PB級別的,并且服務(wù)于多個Google服務(wù),包括Google搜索和Google Earth等。同時,在最近幾年,由于上面提到的高延遲問題,所以GFS并不很適合新的一些Google產(chǎn)品,比YouTube、Gmail和非常強調(diào)實時性的Caffeine搜索引擎等,所以Google已經(jīng)在開發(fā)下一代GFS,代號為“Colossus”,并且在設(shè)計方面有許多不同,比如,支持分布式Master節(jié)點來提升高可用性并支撐更多文件和chunk節(jié)點能支持1MB大小的chunk以支撐低延遲應(yīng)用的需要等,希望等Colossus成熟的時候,Google也能像當初GFS那樣,將其設(shè)計的細節(jié)和經(jīng)驗?zāi)贸鰜砗痛蠹曳窒怼?/p>

【編輯推薦】

  1. 從Qualcomm公司實施云計算說起
  2. 咖啡館里的云 打印機的新模樣
  3. 了解云的多租戶是云采用的關(guān)鍵一步
  4. 云計算背后的秘密(1)-MapReduce

 

責任編輯:王勇 來源: 博客
相關(guān)推薦

2010-11-29 10:28:32

云計算BigTable

2010-11-25 09:54:14

云計算MapReduce

2010-12-06 14:28:56

云計算Chubby

2011-02-17 09:45:40

云計算RPC框架

2011-01-04 10:00:41

云計算YunTable

2010-12-23 10:19:14

云計算NoSQL數(shù)據(jù)庫

2011-01-06 16:36:05

云計算Google

2020-04-15 13:55:28

Kubernetes容器

2020-02-17 21:04:47

在線辦公教育

2022-12-29 08:00:00

Transforme架構(gòu)深度學習

2020-06-19 12:06:12

云計算云平臺IT

2016-06-27 16:29:04

戴爾閃存

2010-10-25 10:13:16

ibmdwWebSphere

2013-03-01 10:45:36

Nike大數(shù)據(jù)

2012-02-24 09:07:53

云計算成本

2010-05-24 18:22:56

SNMP協(xié)議

2012-05-21 21:53:05

2017-09-18 08:52:34

2024-10-29 14:00:21

云計算虛擬網(wǎng)絡(luò)

2009-07-28 10:36:58

云計算Google秘密武器
點贊
收藏

51CTO技術(shù)棧公眾號