自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OpenStack使用Ceph存儲(chǔ),Ceph到底做了什么?

存儲(chǔ) 存儲(chǔ)軟件 OpenStack
Ceph是當(dāng)前非常流行的開(kāi)源分布式存儲(chǔ)系統(tǒng),具有高擴(kuò)展性、高性能、高可靠性等優(yōu)點(diǎn),同時(shí)提供塊存儲(chǔ)服務(wù)(rbd)、對(duì)象存儲(chǔ)服務(wù)(rgw)以及文件系統(tǒng)存儲(chǔ)服務(wù)(cephfs)。目前也是OpenStack的主流后端存儲(chǔ),和OpenStack親如兄弟,為OpenStack提供統(tǒng)一共享存儲(chǔ)服務(wù)。

1 背景知識(shí)

1.1 Ceph簡(jiǎn)介

  • Ceph是當(dāng)前非常流行的開(kāi)源分布式存儲(chǔ)系統(tǒng),具有高擴(kuò)展性、高性能、高可靠性等優(yōu)點(diǎn),同時(shí)提供塊存儲(chǔ)服務(wù)(rbd)、對(duì)象存儲(chǔ)服務(wù)(rgw)以及文件系統(tǒng)存儲(chǔ)服務(wù)(cephfs)。目前也是OpenStack的主流后端存儲(chǔ),和OpenStack親如兄弟,為OpenStack提供統(tǒng)一共享存儲(chǔ)服務(wù)。使用Ceph作為OpenStack后端存儲(chǔ),具有如下優(yōu)點(diǎn):
  • 所有的計(jì)算節(jié)點(diǎn)共享存儲(chǔ),遷移時(shí)不需要拷貝根磁盤(pán),即使計(jì)算節(jié)點(diǎn)掛了,也能立即在另一個(gè)計(jì)算節(jié)點(diǎn)啟動(dòng)虛擬機(jī)(evacuate)。
  • 利用COW(Copy On Write)特性,創(chuàng)建虛擬機(jī)時(shí),只需要基于鏡像clone即可,不需要下載整個(gè)鏡像,而clone操作基本是0開(kāi)銷(xiāo),從而實(shí)現(xiàn)了秒級(jí)創(chuàng)建虛擬機(jī)。

Ceph RBD支持thin provisioning,即按需分配空間,有點(diǎn)類(lèi)似Linux文件系統(tǒng)的sparse稀疏文件。創(chuàng)建一個(gè)20GB的虛擬硬盤(pán)時(shí),最開(kāi)始并不占用物理存儲(chǔ)空間,只有當(dāng)寫(xiě)入數(shù)據(jù)時(shí),才按需分配存儲(chǔ)空間。

[[229974]]

Ceph的更多知識(shí)可以參考官方文檔,這里我們只關(guān)注RBD,RBD管理的核心對(duì)象為塊設(shè)備(block device),通常我們稱(chēng)為volume,不過(guò)Ceph中習(xí)慣稱(chēng)之為image(注意和OpenStack image的區(qū)別)。Ceph中還有一個(gè)pool的概念,類(lèi)似于namespace,不同的pool可以定義不同的副本數(shù)、pg數(shù)、放置策略等。每個(gè)image都必須指定pool。image的命名規(guī)范為pool_name/image_name@snapshot,比如openstack/test-volume@test-snap,表示在openstackpool中test-volumeimage的快照test-snap。因此以下兩個(gè)命令效果是等同的:

  1. rbd snap create --pool openstack --image test-image --snap test-snap 
  2. rbd snap create openstack/test-image@test-snap 

在openstack pool上創(chuàng)建一個(gè)1G的image命令為:

  1. rbd -p openstack create --size 1024 int32bit-test-1 

image支持快照(snapshot)的功能,創(chuàng)建一個(gè)快照即保存當(dāng)前image的狀態(tài),相當(dāng)于git commit操作,用戶(hù)可以隨時(shí)把image回滾到任意快照點(diǎn)上(git reset)。創(chuàng)建快照命令如下:

  1. rbd -p openstack snap create int32bit-test-1@snap-1 

查看rbd列表:

  1. $ rbd -p openstack ls -l | grep int32bit-test 
  2. int32bit-test-1        1024M 2 
  3. int32bit-test-1@snap-1 1024M 2 

基于快照可以創(chuàng)建一個(gè)新的image,稱(chēng)為clone,clone不會(huì)立即復(fù)制原來(lái)的image,而是使用COW策略,即寫(xiě)時(shí)拷貝,只有當(dāng)需要寫(xiě)入一個(gè)對(duì)象時(shí),才從parent中拷貝那個(gè)對(duì)象到本地,因此clone操作基本秒級(jí)完成,并且需要注意的是基于同一個(gè)快照創(chuàng)建的所有image共享快照之前的image數(shù)據(jù),因此在clone之前我們必須保護(hù)(protect)快照,被保護(hù)的快照不允許刪除。clone操作類(lèi)似于git branch操作,clone一個(gè)image命令如下:

  1. rbd -p openstack snap protect int32bit-test-1@snap-1 
  2. rbd -p openstack clone int32bit-test-1@snap-1 int32bit-test-2 

我們可以查看一個(gè)image的子image(children)有哪些,也能查看一個(gè)image是基于哪個(gè)image clone的(parent):

  1. $ rbd -p openstack children int32bit-test-1@snap-1 
  2. openstack/int32bit-test-2 
  3. $ rbd -p openstack info int32bit-test-2 | grep parent 
  4. parent: openstack/int32bit-test-1@snap-1 

以上我們可以發(fā)現(xiàn)int32bit-test-2是int32bit-test-1的children,而int32bit-test-1是int32bit-test-2的parent。

不斷地創(chuàng)建快照并clone image,就會(huì)形成一條很長(zhǎng)的image鏈,鏈很長(zhǎng)時(shí),不僅會(huì)影響讀寫(xiě)性能,還會(huì)導(dǎo)致管理非常麻煩??尚业氖荂eph支持合并鏈上的所有image為一個(gè)獨(dú)立的image,這個(gè)操作稱(chēng)為flatten,類(lèi)似于git merge操作,flatten需要一層一層拷貝所有頂層不存在的數(shù)據(jù),因此通常會(huì)非常耗時(shí)。

  1. $ rbd -p openstack flatten int32bit-test-2 
  2. Image flatten: 31% complete... 

此時(shí)我們?cè)俅尾榭雌鋚arrent-children關(guān)系:

  1. rbd -p openstack children int32bit-test-1@snap-1 

此時(shí)int32bit-test-1沒(méi)有children了,int32bit-test-2完全獨(dú)立了。

當(dāng)然Ceph也支持完全拷貝,稱(chēng)為copy:

  1. rbd -p openstack cp int32bit-test-1 int32bit-test-3 

copy會(huì)完全拷貝一個(gè)image,因此會(huì)非常耗時(shí),但注意copy不會(huì)拷貝原來(lái)的快照信息。

Ceph支持將一個(gè)RBD image導(dǎo)出(export):

  1. rbd -p openstack export int32bit-test-1 int32bit-1.raw 

導(dǎo)出會(huì)把整個(gè)image導(dǎo)出,Ceph還支持差量導(dǎo)出(export-diff),即指定從某個(gè)快照點(diǎn)開(kāi)始導(dǎo)出:

  1. rbd -p openstack export-diff \ 
  2. int32bit-test-1 --from-snap snap-1 \ 
  3. --snap snap-2 int32bit-test-1-diff.raw 

以上導(dǎo)出從快照點(diǎn)snap-1到快照點(diǎn)snap-2的數(shù)據(jù)。

當(dāng)然與之相反的操作為import以及import-diff。通過(guò)export/import支持image的全量備份,而export-diff/import-diff實(shí)現(xiàn)了image的差量備份。

Rbd image是動(dòng)態(tài)分配存儲(chǔ)空間,通過(guò)du命令可以查看image實(shí)際占用的物理存儲(chǔ)空間:

  1. $ rbd du int32bit-test-1 
  2. NAME            PROVISIONED   USED 
  3. int32bit-test-1       1024M 12288k 

以上image分配的大小為1024M,實(shí)際占用的空間為12288KB。

刪除image,注意必須先刪除其所有快照,并且保證沒(méi)有依賴(lài)的children:

  1. rbd -p openstack snap unprotect int32bit-test-1@snap-1 
  2. rbd -p openstack snap rm int32bit-test-1@snap-1 
  3. rbd -p openstack rm int32bit-test-1 

1.2 OpenStack簡(jiǎn)介

OpenStack是一個(gè)IaaS層的云計(jì)算平臺(tái)開(kāi)源實(shí)現(xiàn),關(guān)于OpenStack的更多介紹歡迎訪問(wèn)我的個(gè)人博客,這里只專(zhuān)注于當(dāng)OpenStack對(duì)接Ceph存儲(chǔ)系統(tǒng)時(shí),基于源碼分析一步步探測(cè)Ceph到底做了些什么工作。本文不會(huì)詳細(xì)介紹OpenStack的整個(gè)工作流程,而只關(guān)心與Ceph相關(guān)的實(shí)現(xiàn),如果有不清楚OpenStack源碼架構(gòu)的,可以參考我之前寫(xiě)的文章如何閱讀OpenStack源碼。

閱讀完本文可以理解以下幾個(gè)問(wèn)題:

  1. 為什么上傳的鏡像必須要轉(zhuǎn)化為raw格式?
  2. 如何高效上傳一個(gè)大的鏡像文件?
  3. 為什么能夠?qū)崿F(xiàn)秒級(jí)創(chuàng)建虛擬機(jī)?
  4. 為什么創(chuàng)建虛擬機(jī)快照需要數(shù)分鐘時(shí)間,而創(chuàng)建volume快照能夠秒級(jí)完成?
  5. 為什么當(dāng)有虛擬機(jī)存在時(shí),不能刪除鏡像?
  6. 為什么一定要把備份恢復(fù)到一個(gè)空卷中,而不能覆蓋已經(jīng)存在的volume?
  7. 從鏡像中創(chuàng)建volume,能否刪除鏡像?

注意本文都是在基于使用Ceph存儲(chǔ)的前提下,即Glance、Nova、Cinder都是使用的Ceph,其它情況下結(jié)論不一定成立。

(注:原文有源代碼,已經(jīng)超過(guò)5000字的篇幅限制,因此做了精簡(jiǎn),如果需要看詳細(xì)推導(dǎo)驗(yàn)證過(guò)程,請(qǐng)查看原文鏈接,另外你可以快速跳到總結(jié)部分查看OpenStack各個(gè)操作對(duì)應(yīng)的Ceph工作。)

2 Glance

2.1 Glance介紹

Glance管理的核心實(shí)體是image,它是OpenStack的核心組件之一,為OpenStack提供鏡像服務(wù)(Image as Service),主要負(fù)責(zé)OpenStack鏡像以及鏡像元數(shù)據(jù)的生命周期管理、檢索、下載等功能。Glance支持將鏡像保存到多種存儲(chǔ)系統(tǒng)中,后端存儲(chǔ)系統(tǒng)稱(chēng)為store,訪問(wèn)鏡像的地址稱(chēng)為location,location可以是一個(gè)http地址,也可以是一個(gè)rbd協(xié)議地址。只要實(shí)現(xiàn)store的driver就可以作為Glance的存儲(chǔ)后端,其中driver的主要接口如下:

  • get: 獲取鏡像的location。
  • get_size: 獲取鏡像的大小。
  • get_schemes: 獲取訪問(wèn)鏡像的URL前綴(協(xié)議部分),比如rbd、swift+https、http等。
  • add: 上傳鏡像到后端存儲(chǔ)中。
  • delete: 刪除鏡像。
  • set_acls: 設(shè)置后端存儲(chǔ)的讀寫(xiě)訪問(wèn)權(quán)限。

為了便于維護(hù),glance store目前已經(jīng)作為獨(dú)立的庫(kù)從Glance代碼中分離出來(lái),由項(xiàng)目glance_store維護(hù)。目前社區(qū)支持的store列表如下:

  • filesystem: 保存到本地文件系統(tǒng),默認(rèn)保存/var/lib/glance/images到目錄下。
  • cinder: 保存到Cinder中。
  • rbd:保存到Ceph中。
  • sheepdog:保存到sheepdog中。
  • swift: 保存到Swift對(duì)象存儲(chǔ)中。
  • vmware datastore: 保存到Vmware datastore中。

http: 以上的所有store都會(huì)保存鏡像數(shù)據(jù),唯獨(dú)http store比較特殊,它不保存鏡像的任何數(shù)據(jù),因此沒(méi)有實(shí)現(xiàn)add方法,它僅僅保存鏡像的URL地址,啟動(dòng)虛擬機(jī)時(shí)由計(jì)算節(jié)點(diǎn)從指定的http地址中下載鏡像。

本文主要關(guān)注rbd store,它的源碼在這里,該store的driver代碼主要由國(guó)內(nèi)Fei Long Wang負(fù)責(zé)維護(hù),其它store的實(shí)現(xiàn)細(xì)節(jié)可以參考源碼glance store drivers.

3 Nova

3.1 Nova介紹

Nova管理的核心實(shí)體為server,為OpenStack提供計(jì)算服務(wù),它是OpenStack最核心的組件。注意Nova中的server不只是指虛擬機(jī),它可以是任何計(jì)算資源的抽象,除了虛擬機(jī)以外,也有可能是baremetal裸機(jī)、容器等。

不過(guò)我們?cè)谶@里假定:

  • server為虛擬機(jī)。
  • image type為rbd。
  • compute driver為libvirt。

啟動(dòng)虛擬機(jī)之前首先需要準(zhǔn)備根磁盤(pán)(root disk),Nova稱(chēng)為image,和Glance一樣,Nova的image也支持存儲(chǔ)到本地磁盤(pán)、Ceph以及Cinder(boot from volume)中。需要注意的是,image保存到哪里是通過(guò)image type決定的,存儲(chǔ)到本地磁盤(pán)可以是raw、qcow2、ploop等,如果image type為rbd,則image存儲(chǔ)到Ceph中。不同的image type由不同的image backend負(fù)責(zé),其中rbd的backend為nova/virt/libvirt/imageackend中的Rbd類(lèi)模塊實(shí)現(xiàn)。

4 Cinder

4.1 Cinder介紹

Cinder是OpenStack的塊存儲(chǔ)服務(wù),類(lèi)似AWS的EBS,管理的實(shí)體為volume。Cinder并沒(méi)有實(shí)現(xiàn)volume provide功能,而是負(fù)責(zé)管理各種存儲(chǔ)系統(tǒng)的volume,比如Ceph、fujitsu、netapp等,支持volume的創(chuàng)建、快照、備份等功能,對(duì)接的存儲(chǔ)系統(tǒng)我們稱(chēng)為backend。只要實(shí)現(xiàn)了cinder/volume/driver.py中VolumeDriver類(lèi)定義的接口,Cinder就可以對(duì)接該存儲(chǔ)系統(tǒng)。

Cinder不僅支持本地volume的管理,還能把本地volume備份到遠(yuǎn)端存儲(chǔ)系統(tǒng)中,比如備份到另一個(gè)Ceph集群或者Swift對(duì)象存儲(chǔ)系統(tǒng)中,本文將只考慮從源Ceph集群備份到遠(yuǎn)端Ceph集群中的情況。

5 總結(jié)

5.1 Glance

1. 上傳鏡像

  1. rbd -p ${GLANCE_POOL} create --size ${SIZE} ${IMAGE_ID}rbd -p ${GLANCE_POOL} snap create ${IMAGE_ID}@snap 
  2. rbd -p ${GLANCE_POOL} snap protect ${IMAGE_ID}@snap 

2. 刪除鏡像

  1. rbd -p ${GLANCE_POOL} snap unprotect ${IMAGE_ID}@snap 
  2. rbd -p ${GLANCE_POOL} snap rm ${IMAGE_ID}@snap 
  3. rbd -p ${GLANCE_POOL} rm ${IMAGE_ID}  

5.2 Nova

1 創(chuàng)建虛擬機(jī)

  1. rbd clone \${GLANCE_POOL}/${IMAGE_ID}@snap \${NOVA_POOL}/${SERVER_ID}_disk 

2 創(chuàng)建虛擬機(jī)快照

  1. # Snapshot the disk and clone # it into Glance's storage poolrbd -p ${NOVA_POOL} snap create \${SERVER_ID}_disk@${RANDOM_UUID}rbd -p ${NOVA_POOL} snap protect \${SERVER_ID}_disk@${RANDOM_UUID}rbd clone \${NOVA_POOL}/${SERVER_ID}_disk@${RANDOM_UUID} \${GLANCE_POOL}/${IMAGE_ID} # Flatten the image, which detaches it from the # source snapshotrbd -p ${GLANCE_POOL} flatten ${IMAGE_ID} # all done with the source snapshot, clean it uprbd -p ${NOVA_POOL} snap unprotect \${SERVER_ID}_disk@${RANDOM_UUID}rbd -p ${NOVA_POOL} snap rm \${SERVER_ID}_disk@${RANDOM_UUID} # Makes a protected snapshot called 'snap' on # uploaded images and hands it outrbd -p ${GLANCE_POOL} snap create ${IMAGE_ID}@snap 
  2. rbd -p ${GLANCE_POOL} snap protect ${IMAGE_ID}@snap 

3 刪除虛擬機(jī)

  1. for image in $(rbd -p ${NOVA_POOL} ls | grep "^${SERVER_ID}");do  
  2.     rbd -p ${NOVA_POOL} rm "$image"; done  

5.3 Cinder

1 創(chuàng)建volume

(1) 創(chuàng)建空白卷

  1. rbd -p ${CINDER_POOL} create \--new-format --size ${SIZE} \volume-${VOLUME_ID}  

(2) 從快照中創(chuàng)建

  1. rbd clone \${CINDER_POOL}/volume-${SOURCE_VOLUME_ID}@snapshot-${SNAPSHOT_ID} \${CINDER_POOL}/volume-${VOLUME_ID}rbd resize --size ${SIZE} \openstack/volume-${VOLUME_ID}  

(3) 從volume中創(chuàng)建

  1. # Do full copy if rbd_max_clone_depth <= 0.if [[ "$rbd_max_clone_depth" -le 0 ]]; then 
  2.     rbd copy \ 
  3.     ${CINDER_POOL}/volume-${SOURCE_VOLUME_ID} \ 
  4.     ${CINDER_POOL}/volume-${VOLUME_ID} 
  5.     exit 0fi# Otherwise do COW clone.# Create new snapshot of source volumerbd snap create \${CINDER_POOL}/volume-${SOURCE_VOLUME_ID}@volume-${VOLUME_ID}.clone_snap 
  6. rbd snap protect \${CINDER_POOL}/volume-${SOURCE_VOLUME_ID}@volume-${VOLUME_ID}.clone_snap# Now clone source volume snapshotrbd clone \${CINDER_POOL}/volume-${SOURCE_VOLUME_ID}@volume-${VOLUME_ID}.clone_snap \${CINDER_POOL}/volume-${VOLUME_ID}# If dest volume is a clone and rbd_max_clone_depth reached,# flatten the dest after cloning.depth=$(get_clone_depth ${CINDER_POOL}/volume-${VOLUME_ID})if [[ "$depth" -ge "$rbd_max_clone_depth" ]]; then 
  7.     # Flatten destination volume  
  8.     rbd flatten ${CINDER_POOL}/volume-${VOLUME_ID} 
  9.     # remove temporary snap 
  10.     rbd snap unprotect \ 
  11.     ${CINDER_POOL}/volume-${SOURCE_VOLUME_ID}@volume-${VOLUME_ID}.clone_snap 
  12.     rbd snap rm \ 
  13.     ${CINDER_POOL}/volume-${SOURCE_VOLUME_ID}@volume-${VOLUME_ID}.clone_snapfi 

(4) 從鏡像中創(chuàng)建

  1. rbd clone \${GLANCE_POOL}/${IMAGE_ID}@snap \${CINDER_POOL}/volume-${VOLUME_ID}if [[ -n "${SIZE}" ]]; then 
  2.     rbd resize --size ${SIZE} ${CINDER_POOL}/volume-${VOLUME_ID}fi 

2 創(chuàng)建快照

  1. rbd -p ${CINDER_POOL} snap create \volume-${VOLUME_ID}@snapshot-${SNAPSHOT_ID}rbd -p ${CINDER_POOL} snap protect \volume-${VOLUME_ID}@snapshot-${SNAPSHOT_ID}  

3 創(chuàng)建備份

(1) ***次備份

  1. rbd -p ${BACKUP_POOL} create \ 
  2. --size ${VOLUME_SIZE} \ 
  3. volume-${VOLUME_ID}.backup.base 
  4. NEW_SNAP=volume-${VOLUME_ID}@backup.${BACKUP_ID}.snap.${TIMESTAMP
  5. rbd -p ${CINDER_POOL} snap create ${NEW_SNAP} 
  6. rbd export-diff ${CINDER_POOL}/volume-${VOLUME_ID}${NEW_SNAP} - \ 
  7. | rbd import-diff --pool ${BACKUP_POOL} - \ 
  8. volume-${VOLUME_ID}.backup.base 

(2) 增量備份

  1. rbd -p ${CINDER_POOL} snap create \volume-${VOLUME_ID}@backup.${BACKUP_ID}.snap.${TIMESTAMP} rbd export-diff  --pool ${CINDER_POOL} \--from-snap backup.${PARENT_ID}.snap.${LAST_TIMESTAMP} \${CINDER_POOL}/volume-${VOLUME_ID}@backup.${BACKUP_ID}.snap.${TIMESTRAMP} - \| rbd import-diff --pool ${BACKUP_POOL} - \${BACKUP_POOL}/volume-${VOLUME_ID}.backup.base 
  2. rbd -p ${CINDER_POOL} snap rm \volume-${VOLUME_ID}.backup.base@backup.${PARENT_ID}.snap.${LAST_TIMESTAMP}  

4 備份恢復(fù)

  1. rbd export-diff --pool ${BACKUP_POOL} \volume-${SOURCE_VOLUME_ID}.backup.base@backup.${BACKUP_ID}.snap.${TIMESTRAMP} - \| rbd import-diff --pool ${CINDER_POOL} - \volume-${DEST_VOLUME_ID}rbd -p ${CINDER_POOL} resize \--size ${new_size} volume-${DEST_VOLUME_ID}    

 

責(zé)任編輯:武曉燕 來(lái)源: Openstack私有云
相關(guān)推薦

2017-12-06 14:35:01

OpenStackCeph存儲(chǔ)

2018-04-12 08:37:27

2015-04-03 10:43:49

2021-09-30 19:00:17

對(duì)象存儲(chǔ)Ceph

2021-05-06 21:26:00

BcacheCeph存儲(chǔ)

2015-02-09 09:57:56

Ceph 塊設(shè)備OpenStackLinux

2015-01-07 15:11:00

ITOpenStack云存儲(chǔ)

2021-03-24 08:03:50

存儲(chǔ)Ceph運(yùn)維

2015-07-09 13:19:17

Ceph分布式存儲(chǔ)性能調(diào)優(yōu)

2018-05-23 08:39:18

AlluxioCeph對(duì)象存儲(chǔ)

2015-11-16 14:52:24

CephOpenStack分布式存儲(chǔ)

2018-09-21 11:00:58

Ceph存儲(chǔ)系統(tǒng)

2018-04-23 15:14:02

混合云云存儲(chǔ)公有云

2018-01-30 09:07:36

Ceph分布式存儲(chǔ)

2015-11-24 14:14:00

CentOS 7.0Ceph配置

2018-07-13 08:45:57

Ceph對(duì)象存儲(chǔ)混合云

2011-04-19 10:04:25

NeopPIshell網(wǎng)站后門(mén)

2018-11-15 12:35:25

Ceph分布式存儲(chǔ)

2018-08-20 10:14:21

Ceph存儲(chǔ)ObjectStore

2011-11-29 09:10:11

Hadoop
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)