向磊:Hadoop落地為何如此之難
原創(chuàng)2013年4月26日-27日,由51CTO傳媒集團旗下WOT(World Of Tech)品牌主辦的2013大數(shù)據(jù)全球技術峰會在北京富力萬麗酒店召開。本次峰會將圍繞大數(shù)據(jù)基礎架構與上層應用的生態(tài)系統(tǒng),解決大規(guī)模數(shù)據(jù)引發(fā)的問題,探索大數(shù)據(jù)基礎的解決方案,激發(fā)數(shù)據(jù)挖掘帶來的競爭力,讓數(shù)據(jù)發(fā)出聲音。51CTO作為本次峰會的主辦方,將全程視頻、圖文直播報道這場數(shù)據(jù)的盛宴,更多內容請點擊專題:2013大數(shù)據(jù)全球技術峰會。
Hadoop落地之所以難,是因為有一下幾點問題:1. Hadoop集群部署管理難,麻煩;2. 想辦法在工作上偷懶才是王道;3. 解決的問題和為人民服務。
在安裝方面的問題:
安裝問題一:熟悉Linux和Shell嗎?Hadoop需要在Linux或者Unix下運行,且涉及SSH,防火墻等具體細節(jié)的操作
安裝問題二:3臺跟30臺及300臺的區(qū)別?完全Linux命令行操作,費時間,易出錯。安裝配置3臺很好辦,熟練工10分鐘一臺,半小時。安裝配置30臺有點費時間,大約5小時搞定。300臺,50小時?還是找10個人每人5小時?
Puppet還是別的什么工具?Puppet是不錯的玩意,但是我要說但是了。需要安裝Ruby,需要學習Puppet配置腳本,但仍不失為后期維護的好工具。某些商業(yè)Hadoop Manager 數(shù)千刀 / Node / 年,或者只能用他發(fā)行版的Hadoop。
安裝問題三:集群實時監(jiān)控,日志跟蹤?幾十數(shù)百臺服務器,監(jiān)控和日志跟蹤是個問題
Cacti Ganglia 使用RRD繪圖。不足的地方在于:RRD無法實時監(jiān)控和自動刷新服務器信息,無法隨時查看日志,必須登錄服務器
在Hive方面的問題
Hive問題一:數(shù)據(jù)分析師會用Linux命令行嗎?SQL != CLI
Hive問題二:Hive語言不熟悉,管理困難。MANAGED,EXTERNAL表很頭痛、要映射HDFS路徑、設置編解碼器、增減字段,表改名...等問題。
以上是51CTO.com記者從一線為您帶來的精彩報道。后續(xù)我們還有更加精彩的獨家報道,敬請關注。