6個優(yōu)秀的開源文件系統(tǒng)助力大數(shù)據(jù)分析
大數(shù)據(jù)在今天吸引了大量關(guān)注,個人、企業(yè)和政府機構(gòu)之間的互動創(chuàng)造了數(shù)據(jù)的海洋,通過有效識別、訪問、篩選和分析其中部分數(shù)據(jù)能帶來新的見解和益處。大數(shù)據(jù)需要大量的儲存空間,先進的存儲基礎(chǔ)設(shè)施必不可少,需要能在多臺服務(wù)器上伸縮自如的存儲解決方案。有許多優(yōu)秀的開源文件系統(tǒng)能用于深入分析大數(shù)據(jù),其中包括:
QFS
Quantcast File System (QFS) 是一個高性能、容錯、分布式的文件系統(tǒng),其開發(fā)是用于支持 MapReduce 處理或者需要順序讀寫大文件的應(yīng)用。
HDFS
Hadoop Distributed File System,簡稱HDFS,是一個分布式文件系統(tǒng)。HDFS有著高容錯性(fault-tolerent)的特點,并且設(shè)計用來部署在低廉的(low- cost)硬件上。而且它提供高吞吐量(high throughput)來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序。HDFS放寬了(relax)POSIX的要求(requirements)這樣可以實現(xiàn)流的形式訪問(streaming access)文件系統(tǒng)中的數(shù)據(jù)。HDFS開始是為開源的apache項目nutch的基礎(chǔ)結(jié)構(gòu)而創(chuàng)建,HDFS是hadoop項目的一部分,而 hadoop又是lucene的一部分。
Ceph
Ceph是加州大學(xué)Santa Cruz分校的Sage Weil(DreamHost的聯(lián)合創(chuàng)始人)專為博士論文設(shè)計的新一代自由軟件分布式文件系統(tǒng)。自2007年畢業(yè)之后,Sage開始全職投入到Ceph開 發(fā)之中,使其能適用于生產(chǎn)環(huán)境。Ceph的主要目標是設(shè)計成基于POSIX的沒有單點故障的分布式文件系統(tǒng),使數(shù)據(jù)能容錯和無縫的復(fù)制。2010年3 月,Linus Torvalds將Ceph client合并到內(nèi) 核2.6.34中。IBM開發(fā)者園地的一篇文章探討了Ceph的架構(gòu),它的容錯實現(xiàn)和簡化海量數(shù)據(jù)管理的功能。
Lustre
Lustre是一個大規(guī)模的、安全可靠的,具備高可用性的集群文件系統(tǒng),它是由SUN公司開發(fā)和維護的。
該項目主要的目的就是開發(fā)下一代的集群文件系統(tǒng),可以支持超過10000個節(jié)點,數(shù)以PB的數(shù)據(jù)量存儲系統(tǒng)。
GlusterFS
GlusterFS 是一個集群的文件系統(tǒng),支持 PB 級的數(shù)據(jù)量。GlusterFS 通過 RDMA 和 TCP/IP 方式將分布到不同服務(wù)器上的存儲空間匯集成一個大的網(wǎng)絡(luò)并行文件系統(tǒng)。
PVFS
PVFS 是一個高性能、開源的并行文件系統(tǒng),主要用于并行計算環(huán)境中的應(yīng)用。特別為超大數(shù)量的客戶端和服務(wù)器端設(shè)計。模塊化結(jié)構(gòu)設(shè)計,可輕松的添加新的硬件和算法支持。
PVFS 側(cè)重高性能訪問大數(shù)據(jù)集,包含一個服務(wù)器進程和客戶端開發(fā)庫,完全基于用戶級代碼編寫。
特征:
- 基于對象的設(shè)計思路
- Optimized for regular strided access
- 獨立數(shù)據(jù)和元數(shù)據(jù)的存儲
- 優(yōu)化的 MPI-IO 支持
- 多種網(wǎng)絡(luò)支持
- 無狀態(tài)的服務(wù)器
- 用戶級的實現(xiàn)方案
- 系統(tǒng)級接口
- 可在很多 Linux 版本上構(gòu)建
- 支持多數(shù)平臺,包括 IA32, IA64, Opteron, PowerPC, Alpha, and MIPS
原文鏈接:http://www.linuxlinks.com/article/20130411155608341/FileSystems.html