開源大數(shù)據(jù)平臺實施和使用中的難點
開源大數(shù)據(jù)技術(shù)是一種新一代技術(shù)和構(gòu)架,它以成本較低、以快速的采集、處理和分析技術(shù),從各種超大規(guī)模的數(shù)據(jù)中提取價值。大數(shù)據(jù)技術(shù)不斷涌現(xiàn)和發(fā)展,讓我們處理海量數(shù)據(jù)更加容易、更加便宜和迅速,成為分析和挖掘海量數(shù)據(jù)價值的一個利器,甚至可以改變許多行業(yè)的商業(yè)模式。
龐大的開源大數(shù)據(jù)技術(shù)體系,使得大數(shù)據(jù)平臺在實施和使用的過程中遇到很多難點,Think Big團隊總結(jié)了在開源大數(shù)據(jù)平臺設施的整個過程及花費的時間,如下圖所示:
大數(shù)據(jù)平臺的優(yōu)化和運維
大數(shù)據(jù)平臺的優(yōu)化和運維應該是開源大數(shù)據(jù)平臺實施的難點、也是構(gòu)建大數(shù)據(jù)平臺對人員的技術(shù)和經(jīng)驗要求***的階段,貫穿整個大數(shù)據(jù)平臺實施過程。
大數(shù)據(jù)平臺的數(shù)據(jù)整合、數(shù)據(jù)治理和數(shù)據(jù)湖
對于傳統(tǒng)的企業(yè)使用大數(shù)據(jù)平臺,數(shù)據(jù)整合、數(shù)據(jù)治理和數(shù)據(jù)湖也是非常重要和比較困難的階段,全公司不同數(shù)據(jù)源之間的數(shù)據(jù)整合面臨:數(shù)據(jù)的一致性、數(shù)據(jù)的完整性、數(shù)據(jù)的準確性、數(shù)據(jù)的安全等問題如何解決,當然還有不同數(shù)據(jù)(如:冷數(shù)據(jù)、溫數(shù)據(jù)和熱數(shù)據(jù))怎么來存放,進而實現(xiàn)高效的數(shù)據(jù)存儲和分析。這些都是我們在大數(shù)據(jù)實施過程中需要花很多時間和經(jīng)驗來實現(xiàn)的,很多的公司基本上都在直接或間接的使用大數(shù)據(jù)技術(shù),有可能感覺大數(shù)據(jù)整合、治理、數(shù)據(jù)湖沒有那么重要,把功能實現(xiàn)了,就覺得把大數(shù)據(jù)平臺用的非常好了,其實不然,就像我上面提到的那張圖,功能的實現(xiàn)只占大數(shù)據(jù)平臺實施的一小部分。
大數(shù)據(jù)平臺上面的數(shù)據(jù)建模
由于大數(shù)據(jù)平臺面臨數(shù)據(jù)的一致性、數(shù)據(jù)的完整性、數(shù)據(jù)的準確性等問題所以導致大數(shù)據(jù)平臺上面的建模變得比較困難,此外還有不同行業(yè)面臨的大數(shù)據(jù)平臺建模問題各不相同。傳統(tǒng)行業(yè)在大數(shù)據(jù)上面的建模面臨的挑戰(zhàn)還是非常多的,有的模型甚至不適合在開源大數(shù)據(jù)平臺上面建模,不要一味的去和互聯(lián)行業(yè)大數(shù)據(jù)平臺上面的應用做比較,因為,互聯(lián)網(wǎng)的業(yè)務比傳統(tǒng)的業(yè)務模型簡單很多。
數(shù)據(jù)挖掘和算法的實現(xiàn)
大數(shù)據(jù)平臺的數(shù)據(jù)挖掘技術(shù)有Hadoop的Mahout、Spark的Mllib、SparkR等,這個現(xiàn)有的挖掘庫存在很多問題,如:分布式計算。對整個團隊的人員要求非常的高。
應用開發(fā)(類似于傳統(tǒng)EDW的BI功能)
類似于在Hadoop上面實現(xiàn)一個傳統(tǒng)的EDW的功能,常見用的比較多的就是SQL on Hadoop技術(shù),如:Hive、Impala、Tez、Presto、Kylin、SparkSQL等。
大數(shù)據(jù)平臺的選擇和搭建
主要是Apache Hadoop、Hortonworks HDP和Cloudera CDH的選擇,Apache Hadoop是純開源的,Hortonworks HDP是開源Hadoop生態(tài)系統(tǒng)的管理,Cloudera CDH是開源Hadoop生態(tài)系統(tǒng)的增強。