你還在用這種方法搭建Hadoop嗎?
了解更多數(shù)字化轉(zhuǎn)型方案查看此鏈接:
https://www.dellemc-solution.com/home/index.html
談到出門如果讓你在
鑰匙和手機(jī)中選一個(gè)你會(huì)選哪個(gè)?
相信很多人選手機(jī)吃飯、購物、打車、
取錢沒有是手機(jī)干不了的想回家也不難
手機(jī)App上找個(gè)開鎖公司就好了
而如果選鑰匙你可能還沒出小區(qū)大門
就開始后悔了…
手機(jī)對于今天人們生活的
重要性不言而喻
這樣的例子小編再舉一個(gè)
就是Hadoop對于大數(shù)據(jù)的重要性
▓ 從2006年誕生至今,Hadoop已經(jīng)走過了13個(gè)年頭,成為互聯(lián)網(wǎng)行業(yè)大數(shù)據(jù)計(jì)算的標(biāo)準(zhǔn)配置。雖然時(shí)有言論唱衰Hadoop(主要針對商業(yè)發(fā)行版,而不是Hadoop技術(shù)本身),但它依然是大數(shù)據(jù)平臺的核心和事實(shí)標(biāo)準(zhǔn)。
今天,幾乎所有公司開展大數(shù)據(jù)項(xiàng)目都會(huì)首先引入Hadoop,然而成功卻并不容易。2016年的時(shí)候Gartner估計(jì)有60%的大數(shù)據(jù)項(xiàng)目遭遇失敗。這中間當(dāng)然有市場、策略等在內(nèi)的很多因素,但其中一個(gè)因素很多人回過頭才發(fā)現(xiàn),是因?yàn)樗鼈円婚_始就走在了“羊腸小道”上。
比如下面這個(gè)案例
搭建標(biāo)準(zhǔn)Hadoop集群
還沒上線就出問題
IT系統(tǒng)架構(gòu)師小王供職于一家提供數(shù)據(jù)服務(wù)的A公司,該公司通過網(wǎng)絡(luò)爬蟲7×24不間斷在互聯(lián)網(wǎng)上收集所有注冊企業(yè)的公開的信息,進(jìn)行數(shù)據(jù)處理和信息聚合,供其用戶進(jìn)行查詢。
最近,A公司業(yè)務(wù)上有了新的創(chuàng)新,他們決定在現(xiàn)有提供查詢服務(wù)的基礎(chǔ)上,進(jìn)一步對外提供數(shù)據(jù)分析服務(wù)。經(jīng)公司討論決定,這個(gè)任務(wù),落到了小王的頭上。
借鑒互聯(lián)網(wǎng)公司的經(jīng)驗(yàn),小王最開始用標(biāo)準(zhǔn)服務(wù)器搭建標(biāo)準(zhǔn)Hadoop集群。該平臺對外提供Hadoop as a service服務(wù),每當(dāng)用戶有請求,平臺都會(huì)自動(dòng)幫用戶生成一套Hadoop環(huán)境,同時(shí)加載300+TB由公司提供的公共數(shù)據(jù)進(jìn)去。
但是,這樣的平臺
在前期測試階段就出現(xiàn)了問題
首先,當(dāng)出現(xiàn)一個(gè)節(jié)點(diǎn)故障時(shí),前端用戶使用系統(tǒng)時(shí)會(huì)感覺非常慢,極端情況下甚至出現(xiàn)過部分?jǐn)?shù)據(jù)不可用,集群停止服務(wù)等問題。同時(shí)故障修復(fù)過程也非常緩慢,嚴(yán)重影響了用戶體驗(yàn)。
作為一個(gè)外部服務(wù)平臺,這樣的表現(xiàn)顯然無法滿足A公司及其外部用戶SLA要求。
其次,作為一個(gè)多租戶平臺,同時(shí)要支撐很多套Hadoop集群運(yùn)行,并且每套Hadoop集群都會(huì)存儲(chǔ)一份由A公司提供的300+TB公共數(shù)據(jù)。大量重復(fù)數(shù)據(jù)存儲(chǔ)造成的空間開銷異常高,直接導(dǎo)致需要部署的服務(wù)器數(shù)量驚人,而A公司所有IT設(shè)備均托管在運(yùn)營商機(jī)房,久而久之造成機(jī)房的租用成本高企。
最后,大批量服務(wù)器部署帶來的運(yùn)維成本對IT部門也是很大的負(fù)擔(dān)。
面對這種情況
只能硬著頭皮用下去嗎?
當(dāng)然不是!小編向您推薦
Isilon for Hadoop解決方案
“等等!Isilon我是知道的,它不是你們常說的那個(gè)用在影視行業(yè)很牛掰的NAS存儲(chǔ)嘛?它能如何幫到我??”
不錯(cuò),Isilon確實(shí)是以NAS的形象聞名于江湖
但是它可不僅僅定位于NAS!
Isilon由英特爾®至強(qiáng)®處理器提供支持,該處理器采用軟件定義的基礎(chǔ)設(shè)施和敏捷云架構(gòu),為Isilon提供了好的性能和效率,可加速要求嚴(yán)苛的文件工作負(fù)載,使企業(yè)發(fā)揮數(shù)據(jù)資本的價(jià)值,加速業(yè)務(wù)的數(shù)字轉(zhuǎn)型。
Isilon搭建Hadoop
大數(shù)據(jù)也能玩的溜
其實(shí),戴爾易安信Isilon是一個(gè)成熟的數(shù)據(jù)湖解決方案,它的OneFs操作系統(tǒng)支持豐富數(shù)據(jù)訪問協(xié)議,當(dāng)一種協(xié)議寫入數(shù)據(jù)湖的文件,可以馬上通過其他協(xié)議被訪問。
例如,用戶通過SMB寫入到Isilon中的文件,可以馬上通過HDFS被Hadoop計(jì)算節(jié)點(diǎn)訪問,省去了標(biāo)準(zhǔn)Hadoop集群繁瑣的ELT過程,而且OneFs原生支持HDFS,避免了協(xié)議轉(zhuǎn)換帶來的性能開銷。
具體來說
用Isilon來架構(gòu)Hadoop集群
比標(biāo)準(zhǔn)Hadoop集群更具優(yōu)勢
首先,傳統(tǒng)通過DAS構(gòu)建的,是計(jì)算和存儲(chǔ)集中的單層架構(gòu),在擴(kuò)容時(shí)需要同時(shí)擴(kuò)容計(jì)算和存儲(chǔ),往往會(huì)造成計(jì)算資源過剩,形成資源浪費(fèi)。而通過Isilon構(gòu)建地是計(jì)算與存儲(chǔ)分離的二層架構(gòu)。讓計(jì)算歸計(jì)算,存儲(chǔ)歸存儲(chǔ),這樣就可以隨需靈活地?cái)U(kuò)充資源,實(shí)現(xiàn)最佳資源利用率。
打個(gè)比方:
單層架構(gòu)好比一個(gè)人被綁住雙腳,不能走,只能跳,前行速度慢且吃力。
二層架構(gòu)好比一個(gè)人的雙腳掙脫了束縛,邁開步子往前跑,自然前進(jìn)地更快。
其次,利用DAS構(gòu)建的標(biāo)準(zhǔn)Hadoop集群,需要將各類在線數(shù)據(jù)經(jīng)過繁瑣的ETL過程才能實(shí)現(xiàn)大數(shù)據(jù)分析。
而通過Isilon構(gòu)建Hadoop集群,能夠?qū)崿F(xiàn)數(shù)據(jù)的就地分析,無需繁瑣的轉(zhuǎn)換,從而避免了協(xié)議轉(zhuǎn)換帶來的性能開銷。
最后,就像前面小王案例中遇到的,當(dāng)出現(xiàn)一個(gè)節(jié)點(diǎn)故障時(shí),前端用戶就會(huì)受到顯著的影響,這就是標(biāo)準(zhǔn)DAS Hadoop無法避免的單點(diǎn)故障風(fēng)險(xiǎn)。
而基于Isilon搭建的Hadoop集群無單點(diǎn)故障,每個(gè)節(jié)點(diǎn)都是NameNode,能夠有效避避免業(yè)務(wù)風(fēng)險(xiǎn)。此外,Isilon的服務(wù)質(zhì)量更有保證,即使有節(jié)點(diǎn)失效,也不會(huì)顯著降低集群的性能。
具體到A公司新業(yè)務(wù)的應(yīng)用場景
- Isilon支持多租戶,可以輕松實(shí)現(xiàn)不同用戶的Hadoop環(huán)境邏輯上完全隔離。
- 配合Smart Dedupe技術(shù),可以在全局將多Hadoop實(shí)例中的共用數(shù)據(jù)進(jìn)行重刪,實(shí)現(xiàn)存儲(chǔ)經(jīng)濟(jì)性。
- 每個(gè)節(jié)點(diǎn)都是NameNode,更高可用性。
- Isilon集群還能隨需動(dòng)態(tài)擴(kuò)展高性能節(jié)點(diǎn)或大容量節(jié)點(diǎn),實(shí)現(xiàn)好的投入產(chǎn)出比。
總之,相較于標(biāo)準(zhǔn)架構(gòu)用服務(wù)器搭建Hadoop集群,采用Isilon方案能夠?yàn)锳公司節(jié)省更多機(jī)柜空間和能耗,簡化運(yùn)維管理和功能實(shí)現(xiàn)方式,并提供更可靠的數(shù)據(jù)服務(wù)和更豐富的接口支持,便于用戶進(jìn)一步的業(yè)務(wù)創(chuàng)新。
用好Hadoop不難
關(guān)鍵要走在事半功倍的道路上
相關(guān)內(nèi)容推薦:“鴛鴦鍋”玩轉(zhuǎn)大數(shù)據(jù)
相關(guān)產(chǎn)品:Dell EMC PowerMax NVMe 數(shù)據(jù)存儲(chǔ)