自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

常見分布式文件存儲介紹、選型比較、架構(gòu)設(shè)計

存儲 存儲軟件 分布式
在這個數(shù)據(jù)爆炸的時代,產(chǎn)生的數(shù)據(jù)量不斷地在攀升,從GB,TB,PB,ZB.挖掘其中數(shù)據(jù)的價值也是企業(yè)在不斷地追求的終極目標(biāo)。但是要想對海量的數(shù)據(jù)進行挖掘,首先要考慮的就是海量數(shù)據(jù)的存儲問題,比如Tb量級的數(shù)據(jù)。

 Hello,我是瓜哥:

之前在進行對接存儲項目的時候,對公司內(nèi)部使用的文件系統(tǒng)進行了梳理,當(dāng)前公司內(nèi)部使用的文件系統(tǒng)有GlusterFS,FastDFS等,由于文件系統(tǒng)在海量小文件和高并發(fā)之下性能急劇下降,性能遭遇瓶頸,因此打算建設(shè)分布式對象存儲平臺。下面對市面上比較流行的非結(jié)構(gòu)化文件存儲產(chǎn)品進行相關(guān)整理和比較。

[[250544]]

 

分布式文件存儲的來源

在這個數(shù)據(jù)爆炸的時代,產(chǎn)生的數(shù)據(jù)量不斷地在攀升,從GB,TB,PB,ZB.挖掘其中數(shù)據(jù)的價值也是企業(yè)在不斷地追求的終極目標(biāo)。但是要想對海量的數(shù)據(jù)進行挖掘,首先要考慮的就是海量數(shù)據(jù)的存儲問題,比如Tb量級的數(shù)據(jù)。

談到數(shù)據(jù)的存儲,則不得不說的是磁盤的數(shù)據(jù)讀寫速度問題。早在上個世紀(jì)90年代初期,普通硬盤的可以存儲的容量大概是1G左右,硬盤的讀取速度大概為4.4MB/s.讀取一張硬盤大概需要5分鐘時間,但是如今硬盤的容量都在1TB左右了,相比擴展了近千倍。但是硬盤的讀取速度大概是100MB/s。讀完一個硬盤所需要的時間大概是2.5個小時。所以如果是基于TB級別的數(shù)據(jù)進行分析的話,光硬盤讀取完數(shù)據(jù)都要好幾天了,更談不上計算分析了。那么該如何處理大數(shù)據(jù)的存儲,計算分析呢?

常用的分布式文件存儲

常見的分布式文件系統(tǒng)

GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自適用于不同的領(lǐng)域。它們都不是系統(tǒng)級的分布式文件系統(tǒng),而是應(yīng)用級的分布式文件存 儲服務(wù)。

分布式文件存儲選型比較

常見分布式文件存儲介紹、選型比較、架構(gòu)設(shè)計

 

知名開源分布式文件存儲

1.GFS(Google File System)

Google公司為了滿足本公司需求而開發(fā)的基于Linux的專有分布式文件系統(tǒng)。盡管Google公布了該系統(tǒng)的一些技術(shù)細節(jié),但Google并沒有將該系統(tǒng)的軟件部分作為開源軟件發(fā)布。

2.HDFS

Hadoop 實現(xiàn)了一個分布式文件系統(tǒng)(Hadoop Distributed File System),簡稱HDFS。 Hadoop是Apache Lucene創(chuàng)始人Doug Cutting開發(fā)的使用廣泛的文本搜索庫。它起源于Apache Nutch,

后者是一個開源的網(wǎng)絡(luò)搜索引擎,本身也是Luene項目的一部分。Aapche Hadoop架構(gòu)是MapReduce算法的一種開源應(yīng)用,是Google開創(chuàng)其帝國的重要基石。

3.TFS

TFS(Taobao FileSystem)是一個高可擴展、高可用、高性能、面向互聯(lián)網(wǎng)服務(wù)的分布式文件系統(tǒng),主要針對海量的非結(jié)構(gòu)化數(shù)據(jù),它構(gòu)筑在普通的Linux機器 集群上,可為外部提供高可靠

和高并發(fā)的存儲訪問。TFS為淘寶提供海量小文件存儲,通常文件大小不超過1M,滿足了淘寶對小文件存儲的需求,被廣泛地應(yīng)用 在淘寶各項應(yīng)用中。它采用了HA架構(gòu)和平滑擴容,保證了整個文件系統(tǒng)的可用性和擴展性。同時扁平化的數(shù)據(jù)組織結(jié)構(gòu),可將文件名映射到文件的物理地址,簡化 了文件的訪問流程,一定程度上為TFS提供了良好的讀寫性能。

Google學(xué)術(shù)論文,這是眾多分布式文件系統(tǒng)的起源,HDFS和TFS都是參考Google的GFS設(shè)計出來的。

典型的分布式文件存儲的架構(gòu)設(shè)計

我以hadoop的HDFS為例,畢竟開源的分布式文件存儲使用的最多。

Hadoop分布式文件系統(tǒng)(HDFS)被設(shè)計成適合運行在通用硬件(commodity hardware)上的分布式文件系統(tǒng)。HDFS是一個高度容錯性的系統(tǒng),適合部署在廉價的機器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。HDFS放寬了一部分POSIX約束,來實現(xiàn)流式讀取文件系統(tǒng)數(shù)據(jù)的目的。

大規(guī)模數(shù)據(jù)集

運行在HDFS上的應(yīng)用具有很大的數(shù)據(jù)集。HDFS上的一個典型文件大小一般都在G字節(jié)至T字節(jié)。因此,HDFS被調(diào)節(jié)以支持大文件存儲。它應(yīng)該能提供整體上高的數(shù)據(jù)傳輸帶寬,能在一個集群里擴展到數(shù)百個節(jié)點。一個單一的HDFS實例應(yīng)該能支撐數(shù)以千萬計的文件。

簡單的一致性模型

HDFS應(yīng)用需要一個“一次寫入多次讀取”的文件訪問模型。一個文件經(jīng)過創(chuàng)建、寫入和關(guān)閉之后就不需要改變。這一假設(shè)簡化了數(shù)據(jù)一致性問題,并且使高吞吐量的數(shù)據(jù)訪問成為可能。Map/Reduce應(yīng)用或者網(wǎng)絡(luò)爬蟲應(yīng)用都非常適合這個模型。目前還有計劃在將來擴充這個模型,使之支持文件的附加寫操作。

異構(gòu)軟硬件平臺間的可移植性

HDFS在設(shè)計的時候就考慮到平臺的可移植性。這種特性方便了HDFS作為大規(guī)模數(shù)據(jù)應(yīng)用平臺的推廣。

Namenode 和 Datanode

HDFS采用master/slave架構(gòu)。一個HDFS集群是由一個Namenode和一定數(shù)目的Datanodes組成。

Namenode是一個中心服務(wù)器,負(fù)責(zé)管理文件系統(tǒng)的名字空間(namespace)以及客戶端對文件的訪問。

集群中的Datanode一般是一個節(jié)點一個,負(fù)責(zé)管理它所在節(jié)點上的存儲。HDFS暴露了文件系統(tǒng)的名字空間,用戶能夠以文件的形式在上面存儲數(shù)據(jù)。從內(nèi)部看,一個文件其實被分成一個或多個數(shù)據(jù)塊,這些塊存儲在一組Datanode上。

Namenode執(zhí)行文件系統(tǒng)的名字空間操作,比如打開、關(guān)閉、重命名文件或目錄。它也負(fù)責(zé)確定數(shù)據(jù)塊到具體Datanode節(jié)點的映射。Datanode負(fù)責(zé)處理文件系統(tǒng)客戶端的讀寫請求。在Namenode的統(tǒng)一調(diào)度下進行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制。

常見分布式文件存儲介紹、選型比較、架構(gòu)設(shè)計

 

Namenode和Datanode被設(shè)計成可以在普通的商用機器上運行。這些機器一般運行著GNU/Linux操作系統(tǒng)(OS)。HDFS采用Java語言開發(fā),因此任何支持Java的機器都可以部署Namenode或Datanode。由于采用了可移植性極強的Java語言,使得HDFS可以部署到多種類型的機器上。一個典型的部署場景是一臺機器上只運行一個Namenode實例,而集群中的其它機器分別運行一個Datanode實例。這種架構(gòu)并不排斥在一臺機器上運行多個Datanode,只不過這樣的情況比較少見。

分布式存儲的未來

隨著現(xiàn)代社會從工業(yè)時代過渡到信息時代,信息技術(shù)的發(fā)展以及人類生活的智能化帶來數(shù)據(jù)的爆炸性增長,數(shù)據(jù)正成為世界上最有價值的資源。

根據(jù)物理存儲形態(tài),數(shù)據(jù)存儲可分為集中式存儲與分布式存儲兩種。集中式存儲以傳統(tǒng)存儲陣列(傳統(tǒng)存儲)為主,分布式存儲(云存儲)以軟件定義存儲為主。

傳統(tǒng)存儲一向以可靠性高、穩(wěn)定性好,功能豐富而著稱,但與此同時,傳統(tǒng)存儲也暴露出橫向擴展性差、價格昂貴、數(shù)據(jù)連通困難等不足,容易形成數(shù)據(jù)孤島,導(dǎo)致數(shù)據(jù)中心管理和維護成本居高不下。

分布式存儲:將數(shù)據(jù)分散存儲在網(wǎng)絡(luò)上的多臺獨立設(shè)備上,一般采用標(biāo)準(zhǔn)x86服務(wù)器和網(wǎng)絡(luò)互聯(lián),并在其上運行相關(guān)存儲軟件,系統(tǒng)對外作為一個整體提供存儲服務(wù)。。

總之,分布式文件存儲,不僅提高了存儲空間的利用率,還實現(xiàn)了彈性擴展,降低了運營成本,避免了資源浪費,更適合未來的數(shù)據(jù)爆炸時代場景。

責(zé)任編輯:武曉燕 來源: 今日頭條
相關(guān)推薦

2018-09-14 11:11:04

分布式文件存儲

2018-08-06 16:03:13

分布式文件系統(tǒng)

2021-02-10 09:54:15

分布式NacosApollo

2023-03-08 08:16:26

2023-08-27 16:11:35

數(shù)據(jù)庫分布式事務(wù)數(shù)據(jù)庫

2022-06-02 10:35:20

架構(gòu)驅(qū)動

2010-01-15 10:15:34

分布式交換技術(shù)

2015-05-20 15:54:04

Openstack分布式存儲

2019-01-28 11:46:53

架構(gòu)運維技術(shù)

2018-11-15 12:35:25

Ceph分布式存儲

2022-02-22 10:29:24

分布式架構(gòu)高可用

2019-04-30 09:17:31

Ceph存儲OSD

2010-11-15 13:24:07

分布式文件系統(tǒng)

2022-03-14 10:12:22

架構(gòu)網(wǎng)關(guān)技術(shù)

2018-10-29 12:51:35

分布式存儲元數(shù)據(jù)

2012-09-19 15:05:24

MogileFS分布式文件系統(tǒng)

2017-10-17 08:33:31

存儲系統(tǒng)分布式

2019-11-19 09:00:00

數(shù)據(jù)庫架構(gòu)設(shè)計

2017-07-18 09:51:36

文件存儲系統(tǒng)

2022-03-17 09:55:05

架構(gòu)分布式選型
點贊
收藏

51CTO技術(shù)棧公眾號