應對大數據洪流有哪些重要技巧
隨著企業(yè)挖掘數據以獲取有關客戶、供應商和運營的見解,大數據應用程序正在增長。但隨著容量的增長和數據變得更加敏感,底層存儲仍然是一個重要的考慮因素。
以下一些技巧可以說明數據存儲專業(yè)人員如何能夠在應對存儲系統(tǒng)的大數據洪流。
1.結合閃存、數據縮減和保護
IBM公司存儲業(yè)務首席技術策略師Clodoaldo Barrera表示,閃存技術的引入和包括壓縮和重復數據刪除在內的新存儲系統(tǒng)設計已經成為大數據世界中必不可少的必要條件。
Barrera說,“隨著企業(yè)開始依賴大數據洞察力,大數據應用程序變得至關重要。備份、歸檔和災難恢復也必須添加到操作要求中?!?/p>
2.當心孤島
每當出現(xiàn)新的工作負載時,很容易將其視為一種新型計算,因此需要新的存儲基礎設施。通常的論點是“型存儲更適合這種新的工作負載”,通常引用更低的成本或更好的性能。Barrera表示,這種方法的問題在于它為每種應用程序類型創(chuàng)建了單獨的存儲和數據孤島。每個孤島都必須有自己的管理、安全、業(yè)務連續(xù)性、升級路徑等,需要自己的規(guī)劃和運營管理。更糟糕的是,獨立的孤島抑制了工作負載之間的數據移動性;事務處理、實時分析和大數據應用程序需要針對共同的數據基礎進行操作。
Barrera說,“在準備大數據環(huán)境時,要考慮整體存儲基礎設施的需求和成本,并仔細考慮真正需要多少不同的數據和存儲環(huán)境?!?/p>
3.整合
說到孤島,對許多人來說至關重要的第一步是整合他們的大數據存儲環(huán)境,從而消除組織中存在的各種數據孤島。這一點很重要,原因有二:首先,很難跨不同的數據池有效地應用大數據工具。其次,整合的數據存儲環(huán)境通常更高效且更易于管理。要采用這種方法,IT基礎設施需要能夠在單個存儲平臺上支持廣泛的應用程序和工作負載。
DellMC公司非結構化數據存儲產品營銷高級總監(jiān)VarunChhabra表示:“數據整合可以幫助企業(yè)降低成本、簡化IT管理并為高效使用非結構化數據分析工具以從數據資產中提取更多價值奠定基礎。由于許多企業(yè)使用廣泛的應用程序和工作負載來支持他們的業(yè)務,因此選擇具有多協(xié)議支持功能的存儲基礎架構非常重要,可以提供顯著的運營靈活性。
4.匹配應用程序
如今有很多大數據存儲工具,但并沒有一個可以適合每種應用。企業(yè)需要仔細選擇以匹配自己的應用程序和環(huán)境。
StorageIO集團分析師Greg Schulz說:“不要僅僅因為解決方案提供了大數據和分析支持,就認為它會適用于自己的應用程序。如果正在進行Hadoop,需要獲得針對該操作的優(yōu)化內容,或視頻處理,那么獲取針對該操作優(yōu)化的內容。并查看流行語復選框之外的內容?!?/p>
5.歡迎來到機器器學習
IDC公司聲稱,到2020年,42%的數據將符合“機器生成”的標準。這些數據以應用程序日志、傳感器數據、業(yè)務流程日志和消息隊列等形式幾乎不斷地大量生成,它為首席信息官和業(yè)務領導者提供了一個潛在的金礦。為了跟上數據增長并利用其機會獲利,企業(yè)需要合適的人員和合適的工具。但釋放機器學習的潛力需要關聯(lián)和數學分析海量數據集。因此,對底層存儲架構進行仔細規(guī)劃是必不可少的。
ClearSkyData公司首席技術官Laz Vekiarides說,“如今的大數據計劃涉及大量數據和大量基礎設施,因此需要做好準備?!?/p>
6.不要在范圍內
Vekiarides補充說,大多數大數據項目從一開始就在性能和容量方面都很小。對大數據可能有多大的初步估計通常在一兩年內是可笑的。這主要是因為這些項目對組織的價值被低估了。因此,成長計劃從一開始就是一個要求。
Vekiarides說。,“尋找基于消費的模型,讓其可以按需增長,而無需為未使用的容量、軟件和基礎設施付費,當數據規(guī)??焖僭鲩L并需要快速訪問時,彈性最重要,這在大數據和分析中都是如此?!?/p>
7.預先部署保護
一旦創(chuàng)建了PB級數據集,事后很難進行全面保護。有時會發(fā)生笨重的數據集是跨多個平臺創(chuàng)建的,而沒有真正考慮如何保護數據。但隨后意識到,一個單一的嚴重事故可能導致無法估量的寶貴數據的丟失。或者,當分析數據的工具位于其他公共云或內部部署位置時,數據可能會滯留在公共云中。
Vekiarides說,“提前考慮災難恢復和安全性,因為這些數據很快就會成為戰(zhàn)略資產,了解希望在多大程度上使用它,以及如何確保它的安全和保護?!?/p>
8.采用自動數據分層
并非所有非結構化數據都具有相同的價值,而且其價值經常隨著時間而變化。在需要高性能基礎設施的應用程序和工作負載中使用的數據將需要高性能存儲資源(例如全閃存)。其他數據(例如較舊的和很少使用的數據)可能會被存檔,并且不需要高性能。對所有數據使用相同類型的存儲系統(tǒng)通常會導致性能水平不足。使用具有基于策略的自動化分層功能的存儲系統(tǒng)可以確保以正確的性能級別支持數據。
Chhabra說,“這種方法將優(yōu)化存儲資源投資并消除成本高昂的人工移動數據?!?/p>