老碼農(nóng)眼中的存儲是什么樣子
存儲,是我們碼農(nóng)每天都要打交道的事情,而當(dāng)我們面對RAID,SAN,對象存儲,分布式數(shù)據(jù)庫等技術(shù)的時候,又往往似是而非,存儲成了我們熟悉的陌生人。
在老碼農(nóng)眼中,存儲仿佛是這個樣子的。
從計算機結(jié)構(gòu)出發(fā)
存儲是計算機的一部分,在馮諾伊曼體系結(jié)構(gòu)中,有一個重要的單元即存儲器,它連接了輸入/輸出,以及控制器和運算器,處于核心紐帶的位置。
與存儲中的數(shù)據(jù)交互是通過IO實現(xiàn)的,IO的性能直接影響著系統(tǒng)的性能,甚至我們往往把應(yīng)用分為IO密集型和CPU密集型等等。
從IO的訪問方式來看,可以分為阻塞/非阻塞,同步/異步。在Linux,提供了5種IO模型:
- 阻塞I/O:blocking I/O
- 非阻塞I/O :nonblocking I/O
- I/O復(fù)用:I/O multiplexing (select 和poll)
- 信號驅(qū)動I/O :signal driven I/O (SIGIO)
- 異步I/O :asynchronous I/O (the POSIX aio_functions)
從性能上看,異步 IO 的性能無疑是***的。
對IO進行抽象,分為邏輯IO和物理IO兩類,分為磁盤,卷和文件系統(tǒng)三層。做一個簡單的比喻,磁盤象空地,卷如同小區(qū),而文件系統(tǒng)就是小區(qū)里的樓房和房間。卷位于操作系統(tǒng)和硬盤之間,屏蔽了底層硬盤組合的復(fù)雜性,使得多塊硬盤在操作系統(tǒng)來看就像一塊硬盤。鏡像,快照,磁盤的動態(tài)擴展,都可以通過卷來實現(xiàn)。而文件系統(tǒng)最主要的目標就是對磁盤空間的管理。
對程序員而言,我們所面對的一般是文件系統(tǒng),通過文件系統(tǒng)感知存儲中的數(shù)據(jù)。
提高存儲的可靠性—— 磁盤陣列
一旦硬盤故障,面臨的很可能就是數(shù)據(jù)的丟失,將演變成一場災(zāi)難。對很多的企業(yè)應(yīng)用而言,直接提高存儲可靠性的方式是通過磁盤陣列——RAID。
RAID是Redundant Arrays of Independent Disks的縮寫,是把相同的數(shù)據(jù)存儲在多個硬盤的不同的地方。通過把數(shù)據(jù)放在多個硬盤上,輸入輸出操作能以平衡的方式交疊,改良性能,也延長了平均故障間隔時間(MTBF),儲存冗余數(shù)據(jù)也增加了容錯, 從而提高了存儲的可靠性。
常見的RAID類型如下:
RAID 的兩個關(guān)鍵目標是提高數(shù)據(jù)可靠性和 I/O 性能。實際上, 可以把RAID 看作成一種虛擬化技術(shù),它對多個物理磁盤虛擬成一個大容量的邏輯驅(qū)動器。
提高存儲的容量——存儲網(wǎng)絡(luò)
盡管磁盤陣列也在一定程度上提高了存儲的容量, 但是難以滿足人們對存儲容量的需求。為了解決存儲空間的問題, 采用分而治之的方式,通過DAS將硬盤獨立為存儲空間。 DAS(Direct Attached Storage—直接連接存儲)是指將存儲設(shè)備通過SCSI接口或光纖通道等直接連接到一臺主機上。DAS 就是一組磁盤的集合體,數(shù)據(jù)讀取和寫入等也都是由主機來控制。 然而,DAS 沒法實現(xiàn)多主機共享磁盤空間的問題。
為了解決共享的問題,于是有了 SAN ( Storage Area Network)————存儲網(wǎng)絡(luò)。SAN 網(wǎng)絡(luò)由于不會直接跟磁盤交互,而是解決數(shù)據(jù)存取的問題,使用的協(xié)議比 DAS 的層面要高。對于存儲網(wǎng)絡(luò)而言,對帶寬的要求非常高,因此 SAN 網(wǎng)絡(luò)下,光纖成為連接的基礎(chǔ)。光纖上的協(xié)議比以太網(wǎng)協(xié)議更簡潔,性能也更高。
從數(shù)據(jù)層面來看,存儲空間的共享可以體現(xiàn)為文件的共享。NAS(Network Attached Storage)是將存儲設(shè)備通過標準的以太網(wǎng),連接到一組主機上,N是組件級的存儲方法,能夠解決迅速增加存儲容量的需求。也就是說,NAS從文件系統(tǒng)層面解決存儲的擴容問題。
NAS和SAN本質(zhì)的不同在文件管理系統(tǒng)的不同。在 SAN中,文件管理系統(tǒng)分別在每一個應(yīng)用服務(wù)器上;而NAS是每個應(yīng)用服務(wù)器通過網(wǎng)絡(luò)共享協(xié)議(如NFS等)使用同一個文件管理系統(tǒng)。NAS的出發(fā)點是在應(yīng)用、用戶和文件以及它們共享的數(shù)據(jù)上;而SAN的出發(fā)點在磁盤以及聯(lián)接它們的基礎(chǔ)設(shè)施架構(gòu)。
三者之間的關(guān)系如下圖所示:
一般存儲系統(tǒng)的應(yīng)用
存儲是我們軟件產(chǎn)品和服務(wù)的必備環(huán)節(jié),常見的存儲系統(tǒng)應(yīng)用有:
- 配置數(shù)據(jù)服務(wù):只讀訪問
- 緩存系統(tǒng):有/無持久化
- 文件系統(tǒng):目錄/POSIX
- 對象系統(tǒng):Blob/KV
- 表格系統(tǒng):Column/SQL
- 數(shù)據(jù)庫系統(tǒng):滿足ACID
- 備份系統(tǒng):冷存儲/延遲讀
- ......
在使用存儲系統(tǒng)的時候,我們可能需要關(guān)注的指標:
- 存儲成本
- 功能: 讀/寫/列索引/條件查詢/事務(wù)/權(quán)限。。
- 性能:讀寫的 吞吐/IOPS/延時/負載均衡。。。
- 可用性
- 可靠性
- 可擴展性
- 一致性
存儲引擎是存儲系統(tǒng)中的發(fā)動機,直接決定存儲系統(tǒng)的性能和功能,實現(xiàn)了存儲系統(tǒng)的增/刪/改/查,在數(shù)據(jù)庫系統(tǒng)中廣泛采用。 常見的存儲引擎有:哈希存儲引擎,B樹存儲引擎(磁盤索引節(jié)省內(nèi)存)和 LSM樹存儲引擎(隨機寫轉(zhuǎn)為順序?qū)懀?/p>
分布式存儲系統(tǒng)應(yīng)用——云服務(wù)
分布式存儲系統(tǒng)一般采用可擴展的系統(tǒng)結(jié)構(gòu),利用多臺存儲服務(wù)器分擔(dān)存儲負載,利用位置服務(wù)器定位存儲信息,不但提高了系統(tǒng)的可靠性、可用性和存取效率,而且易于擴展。
分布式存儲的應(yīng)用場景一般分為三種:
- 對象存儲: 也就是通常的鍵值存儲,其接口就是簡單的GET,PUT,DEL和其他擴展
- 塊存儲: 通常以QEMU Driver或者Kernel Module的方式存在,需要實現(xiàn)Linux的Block Device接口或者QEMU提供的Block Driver接口,如AWS的EBS,青云的云硬盤,百度云的云磁盤等等
- 文件存儲: 支持POSIX的接口,提供了并行化的能力,如Ceph的CephFS,但是有時候又會把GFS,HDFS這種非POSIX接口的類文件存儲接口算成此類。
一般地,對象存儲通常以大文件為主,要求足夠的IO帶寬。塊存儲:即能應(yīng)付大文件讀寫,也能處理好小文件讀寫,塊存儲要求的延遲是***的。文件存儲需要考慮目錄、文件屬性等等的支持,對并行化的支持難度較大,通過具體實現(xiàn)來定義接口,可能會容易一點。
實現(xiàn)一個分布式存儲系統(tǒng),通常會涉及到元數(shù)據(jù),分區(qū),復(fù)制,容錯等諸多方面。分布式設(shè)計采用主從、全分布式或者是兼而有之, 底層的存儲可以依賴本地文件系統(tǒng)的接口,或者實現(xiàn)一個簡單的物理塊管理,但都不是相對容易的事。
幸運的是,分布式存儲系統(tǒng)已經(jīng)成為了云服務(wù)的基礎(chǔ)能力,尤其是對象存儲,如七牛、S3、OSS、BOS 等等, 已經(jīng)是標配了。有了面向云服務(wù)的存儲, 使我們更多聚焦在業(yè)務(wù)本身,各種存儲帶來的煩惱會逐漸隨風(fēng)而逝么?!
【本文來自51CTO專欄作者“老曹”的原創(chuàng)文章,作者微信公眾號:喔家ArchiSelf,id:wrieless-com】