以三步之力掘金大數(shù)據(jù)
作者:Informatica高管David L
以往,您不得不選擇在某一時間對企業(yè)至關(guān)重要的數(shù)據(jù),并舍棄其余數(shù)據(jù)。而如今,各家企業(yè)均不希望舍棄大數(shù)據(jù),因為這些大數(shù)據(jù)可能會在日后很有價值。利用 NoSQL,您便可以經(jīng)濟高效地存儲所有數(shù)據(jù),以供將來使用。
作為大數(shù)據(jù)存儲問題的解決方案,NoSQL 倍受贊譽。由于存儲方面的限制以及缺乏靈活性的流程,SQL 以及其他常見關(guān)系數(shù)據(jù)庫無法處理非結(jié)構(gòu)化大數(shù)據(jù)。而 NoSQL 則倍受支持者的廣泛贊譽,因為它可以存儲無限量的數(shù)據(jù),并能處理不斷變化的數(shù)據(jù)架構(gòu)。但 NoSQL 并不能替代以前的分析技術(shù)。它是一款附加工具,專門處理新型數(shù)據(jù)所帶來的新問題。
以往,您不得不選擇在某一時間對企業(yè)至關(guān)重要的數(shù)據(jù),并舍棄其余數(shù)據(jù)。而如今,各家企業(yè)均不希望舍棄大數(shù)據(jù),因為這些大數(shù)據(jù)可能會在日后很有價值。利用 NoSQL,您便可以經(jīng)濟高效地存儲所有數(shù)據(jù),以供將來使用。
缺乏靈活性也是一個問題。在典型數(shù)據(jù)庫體系架構(gòu)下,很難更改數(shù)據(jù)架構(gòu)。如果發(fā)生意外變更,或者需要重新對數(shù)據(jù)模式進行排序,則系統(tǒng)可能會發(fā)生中斷,并且問題可能會對下游產(chǎn)生影響。而使用 NoSQL 數(shù)據(jù)庫,則無論架構(gòu)如何,您均可注入數(shù)據(jù)。
請按照下面三步進行操作,進一步展現(xiàn)大數(shù)據(jù)的價值:
1.了解數(shù)據(jù)。通常,您掌握有大量數(shù)據(jù),而在這些數(shù)據(jù)中,有些是您所需的,而另一些則對您毫無用處。如果數(shù)據(jù)來自不同的來源,您仍需要了解數(shù)據(jù)集之間的關(guān)系。“讀取時架構(gòu)”技術(shù)并不意味著您無需了解數(shù)據(jù)集之間的關(guān)系。相反,您必須確定并修復兩個或更多文檔或數(shù)據(jù)集之間的嵌套或聯(lián)接關(guān)系。這時,對于分析至關(guān)重要的屬性應盡可能地符合標準,才能獲得有效的初始結(jié)果。
2.處理數(shù)據(jù)。接下來,使用具有 NoSQL 數(shù)據(jù)庫或 Hadoop 處理能力的系統(tǒng)來分析您的數(shù)據(jù)。通過篩選您的綜合數(shù)據(jù),并從中挖掘價值。在注入并關(guān)聯(lián)相關(guān)數(shù)據(jù)后,盡早確定該數(shù)據(jù)在分析中的用途。如果數(shù)據(jù)研究人員認為數(shù)據(jù)沒有用處,則您就不需要在數(shù)據(jù)的結(jié)構(gòu)化、清理和準備環(huán)節(jié)上浪費時間。如果該數(shù)據(jù)無法解決您的問題,請?zhí)^第 3 步,并返回第 1 步,了解新的數(shù)據(jù)集。但是,請保留已有數(shù)據(jù),因為它可能會在日后用到。
3.轉(zhuǎn)換數(shù)據(jù)。如果您認為數(shù)據(jù)有用,請對數(shù)據(jù)進行準備,以便進行深入處理,并由數(shù)據(jù)研究人員之外的更多分析人員使用。如果您采用手動編碼方式進行必要的轉(zhuǎn)換、標準化和清理工作,則此方法通常速度緩慢,并且不能長久使用。應使用一種工具來處理不同的數(shù)據(jù)源,其中包括復雜數(shù)據(jù)以及來自 NoSQL 數(shù)據(jù)庫的數(shù)據(jù)。然后,將它們轉(zhuǎn)換為可供用戶閱讀的有用信息。
這就像淘金。為了找到一盎司的黃金,您必須挖掘數(shù)噸礦土。只要您具有一部強大的引擎,能夠篩選掉沒有用的“渣土”,并能不斷創(chuàng)造性地發(fā)現(xiàn)相關(guān)業(yè)務問題,您就能找到有價值的“黃金”。
責任編輯:鳶瑋