AWS S3中歸檔數據四要點
對于存儲歸檔任務來說,AWS的簡單存儲服務(S3)是一個較具成本效益的選擇。把歸檔移至云計算可讓企業(yè)用戶減少內部部署硬件,例如網絡附屬存儲(NAS)的文件存儲。當你在一個歸檔中進行文件搜索時,為了降低存儲介質故障或其他問題所帶來的風險,你可能會使用冗余副本,而使用AWS的S3還可以有助于節(jié)省冗余副本的數量。
如果需要實現(xiàn)AWS S3優(yōu)勢的***化,適當的規(guī)劃是至關重要的。當把歸檔遷移至S3時以及在云計算中長期管理它們時,有幾點是需要謹記于心的。
為你的歸檔設計一個組織架構
有些企業(yè)可能希望通過操作功能和日期來組織歸檔內容;而另一些企業(yè)則發(fā)現(xiàn)按照組織層次結構是更為簡單的。無論哪種方法適合你的企業(yè),你都需要考慮你應如何為歸檔任務實施扣費。例如,如果你計劃向你企業(yè)的各個部門為他們所使用的歸檔開出帳單,那么你將需要一個能夠讓你輕松生成帳單報告的結構。
Bucket是AWS S3的存儲邏輯單位。每個Bucket可以有最多10個標簽,例如名稱值對,“部門:財務。”在生成帳單報告過程中,這些標簽是比較有用的,但是在所有的存儲區(qū)域中使用始終一致的一組標簽也是非常重要的。
AWS正在計劃要求所有的Bucket名稱遵循DNS命名約定。Bucket名稱應當是3至63個字符,并用句號分隔標簽。這里,應使用一個分層式命名約定。Bucket名稱應當是這樣的,例如:archive.finance.audit 和 archive.finance.accountspayable。
每一個AWS帳號一次可以擁有100Bucket。如果單一一個賬戶能夠管理所有的歸檔,那么應制定相應的計劃。而對于在一個Bucket中存儲對象的數量是沒有限制的。在若干Bucket或多個Bucket之間存儲對象是沒有性能損失的。亞馬遜S3在Bucket中支持文件夾,從而為使用多個bucket提供一個替代方案。但是,文件夾不支持成本分配標簽。
為傳輸數據確定***方法
這取決于你要傳輸至S3的數據量,你可能需要考慮使用AWS導入/導出數據遷移服務。不同于傳統(tǒng)通過互聯(lián)網傳輸文件的方式,客戶需要把數據通過硬盤遞交給亞馬遜,并在亞馬遜的一個數據中心內把數據載入S3。AWS在美國東部(北弗吉尼亞州)、美國西部(俄勒岡州)、美國西部(北加州)、歐美(愛爾蘭)以及亞太地區(qū)(新加坡)提供專項服務。
我們建議,使用導入/導出服務還是通過互聯(lián)網傳輸文件,這取決于網絡速度和你需傳輸的數據容量。如果你的網絡速度達到10Mbps且數據傳輸量在600GB以上,那么可考慮后者的方法。而當網速達到100Mbps,傳輸數據量超過5TB時,那么導入/導出服務則是可行的一種方法。AWS導入/導出計算器可幫助你估算對你的歸檔使用這項服務的成本。
驗證、驗證、再驗證
不管你采用何種方法傳輸數據,你將需要驗證被傳輸的數據是被正確地寫入S3的。傳輸錯誤可能會導致源文件和目標文件之間的差異。大多數的Linux發(fā)行版本包括了用于計算文件哈希值的md5sum工具。用戶可以使用這個工具計算源文件和目標文件的哈希值。如果兩個哈希值有差,那么就說明傳輸過程中出現(xiàn)了錯誤,同時該文件應被重新傳輸。由于這些文件一般都是具有一定價值的信息集合,所以驗證在AWS S3中所存儲數據的完整性是非常重要的。
期待更便宜的替代產品
亞馬遜的Glacier是一個專門的文件歸檔服務,其價格為0.01美分每GB每月,這樣的價格是S3目前價格的三分之一,具體主要決定于所存儲數據的容量。如果你不會需要執(zhí)行檢索操作或者會很快地就刪除這些文件,那么可考慮棄用AWS S3而使用Glacier。在Glacier中檢索數據可能需要花費數小時之久,而亞馬遜會因為你把三個月內新載入的數據刪除而收費。
實現(xiàn)AWS S3和Glacier優(yōu)勢的一個方法就是根據公司策略使用生命周期管理規(guī)則把文件遷移至Glacier。例如,一個已經被保存在S3中六個月的歸檔文件。你可能不會訪問它;如果你確實需要訪問它,那么檢索這個文件需要花費長達數個小時并不會中斷業(yè)務運營。一個生命周期配置規(guī)則可以與S3 Bucket相關,這樣在指定時間之后文件會被自動傳輸至S3,從而降低整體存儲成本。
企業(yè)用戶可以針對歸檔任務使用AWS S3,但是***做好長期規(guī)劃,這樣你就可以簡化日常管理運營,例如為個人用戶開賬單并在適當的情況下通過使用Glacier控制成本。