自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Apache Eagle:eBay開(kāi)源分布式實(shí)時(shí)Hadoop數(shù)據(jù)安全引擎

開(kāi)源 系統(tǒng)運(yùn)維 分布式 Hadoop
Apache Eagle提供一套高效分布式的流式策略引擎,具有高實(shí)時(shí)、可伸縮、易擴(kuò)展、交互友好等特點(diǎn),同時(shí)集成機(jī)器學(xué)習(xí)對(duì)歷史模型訓(xùn)練建立用戶(hù)畫(huà)像以實(shí)現(xiàn)智能實(shí)時(shí)地保護(hù)Hadoop生態(tài)系統(tǒng)中大數(shù)據(jù)的安全。

   作者介紹 

[[161443]]

  陳浩

  Apache Eagle Committer 和 PMC 成員,eBay 分析平臺(tái)基礎(chǔ)架構(gòu)部門(mén)高級(jí)軟件工程師,負(fù)責(zé)Eagle的產(chǎn)品設(shè)計(jì)、技術(shù)架構(gòu)、核心實(shí)現(xiàn)以及開(kāi)源社區(qū)推廣等。

  消息

  日前,eBay公司隆重宣布正式向開(kāi)源業(yè)界推出分布式實(shí)時(shí)安全監(jiān)控方案:Apache Eagle,該項(xiàng)目已于2015年10月26日正式加入Apache基金會(huì)成為孵化器項(xiàng)目。

  1. http://goeagle.io 

  Apache Eagle提供一套高效分布式的流式策略引擎,具有高實(shí)時(shí)、可伸縮、易擴(kuò)展、交互友好等特點(diǎn),同時(shí)集成機(jī)器學(xué)習(xí)對(duì)歷史模型訓(xùn)練建立用戶(hù)畫(huà)像以實(shí)現(xiàn)智能實(shí)時(shí)地保護(hù)Hadoop生態(tài)系統(tǒng)中大數(shù)據(jù)的安全。

  Eagle在eBay的使用場(chǎng)景

  目前,Eagle的數(shù)據(jù)行為監(jiān)控系統(tǒng)已經(jīng)部署到一個(gè)擁有2500多個(gè)節(jié)點(diǎn)的Hadoop集群之上,用以保護(hù)數(shù)百PB數(shù)據(jù)的安全,并正計(jì)劃于2015年年底之前擴(kuò)展到其他上十個(gè)Hadoop集群上,從而覆蓋eBay所有主要Hadoop的10000多臺(tái)節(jié)點(diǎn)。

  在我們的生產(chǎn)環(huán)境中,我們已針對(duì)HDFS、Hive 等集群中的數(shù)據(jù)配置了一些基礎(chǔ)的安全策略,并將于年底之前不斷引入更多的策略,以確保重要數(shù)據(jù)的絕對(duì)安全。

  目前,Eagle的策略涵蓋多種模式,包括從訪問(wèn)模式、頻繁訪問(wèn)數(shù)據(jù)集,預(yù)定義查詢(xún)類(lèi)型、Hive 表和列、HBase 表以及基于機(jī)器學(xué)習(xí)模型生成的用戶(hù)Profile相關(guān)的所有策略等。

  同時(shí),我們也有廣泛的策略來(lái)防止數(shù)據(jù)的丟失、數(shù)據(jù)被拷貝到不安全地點(diǎn)、敏感數(shù)據(jù)被未授權(quán)區(qū)域訪問(wèn)等。Eagle策略定義上極大的靈活性和擴(kuò)展性使得我們未來(lái)可以輕易地繼續(xù)擴(kuò)展更多更復(fù)雜的策略以支持更多多元化的用例場(chǎng)景。

  項(xiàng)目背景

  隨著大數(shù)據(jù)的發(fā)展,越來(lái)越多的成功企業(yè)或者組織開(kāi)始采取數(shù)據(jù)驅(qū)動(dòng)商業(yè)的運(yùn)作模式。在eBay,我們擁有數(shù)千名工程師、分析師和數(shù)據(jù)科學(xué)家,他們每天訪問(wèn)分析數(shù)PB級(jí)的數(shù)據(jù),以為我們的用戶(hù)帶來(lái)無(wú)與倫比的體驗(yàn)。在全球業(yè)務(wù)中,我們也廣泛地利用海量大數(shù)據(jù)來(lái)連接我們數(shù)以?xún)|計(jì)的用戶(hù)。

  近年來(lái),Hadoop已經(jīng)逐漸成為大數(shù)據(jù)分析領(lǐng)域最受歡迎的解決方案,eBay也一直在使用Hadoop技術(shù)從數(shù)據(jù)中挖掘價(jià)值。例如,我們通過(guò)大數(shù)據(jù)提高用戶(hù)的搜索體驗(yàn),識(shí)別和優(yōu)化精準(zhǔn)廣告投放,充實(shí)我們的產(chǎn)品目錄,以及通過(guò)點(diǎn)擊流分析以理解用戶(hù)如何使用我們的在線市場(chǎng)平臺(tái)等。

  目前,eBay的Hadoop集群總節(jié)點(diǎn)數(shù)據(jù)超過(guò)10000多個(gè),存儲(chǔ)容量超過(guò)170PB,活躍用戶(hù)超過(guò)2000多。現(xiàn)在相關(guān)規(guī)模還在不斷增長(zhǎng)中,同時(shí)為了支持多元化需求,我們引入越來(lái)越多樣的數(shù)據(jù)存儲(chǔ)和分析方案,比如Hive、MapReduce、Spark和HBase等,隨之帶來(lái)的管理和監(jiān)控的挑戰(zhàn)越來(lái)越嚴(yán)峻,數(shù)據(jù)安全問(wèn)題亦是其中最重要的之一。

  大數(shù)據(jù)時(shí)代,安全問(wèn)題開(kāi)始變得空前的關(guān)鍵,特別eBay作為全球領(lǐng)先的電子商務(wù)公司,我們必須保證Hadoop中用戶(hù)數(shù)據(jù)的絕對(duì)安全。

  通常我們的安全措施根據(jù)如下幾點(diǎn):訪問(wèn)控制、安全隔離、數(shù)據(jù)分類(lèi)、數(shù)據(jù)加密以及實(shí)時(shí)數(shù)據(jù)行為監(jiān)控。

  然而經(jīng)過(guò)廣泛的嘗試和研究,我們意識(shí)到?jīng)]有任何已經(jīng)存在的產(chǎn)品或者解決方案,能夠充分滿(mǎn)足我們面臨海量實(shí)時(shí)數(shù)據(jù)流和多元化用例場(chǎng)景下數(shù)據(jù)行為監(jiān)控的需求。為了逾越這道鴻溝,eBay決定從頭開(kāi)始構(gòu)建Eagle。 

  “Eagle 是開(kāi)源分布式實(shí)時(shí)Hadoop數(shù)據(jù)安全方案,支持?jǐn)?shù)據(jù)行為實(shí)時(shí)監(jiān)控,能立即監(jiān)測(cè)出對(duì)敏感數(shù)據(jù)的訪問(wèn)或惡意的操作,并立即采取應(yīng)對(duì)的措施”

  我們相信Eagle將成為Hadoop數(shù)據(jù)安全領(lǐng)域的核心組件之一,因此我們決定將它的功能分享給整個(gè)社區(qū)。

  目前我們已經(jīng)將Eagle捐贈(zèng)給Apache軟件基金會(huì)作為Apache孵化器項(xiàng)目開(kāi)源,期望能夠同開(kāi)源社區(qū)一同協(xié)作開(kāi)發(fā),使得Eagle不斷發(fā)展壯大,共同滿(mǎn)足開(kāi)源社區(qū)中更廣泛的需求。

  Eagle的數(shù)據(jù)行為監(jiān)控方案可用于如下幾類(lèi)典型場(chǎng)景:

  ◆監(jiān)控Hadoop中的數(shù)據(jù)訪問(wèn)流量

  ◆檢測(cè)非法入侵和違反安全規(guī)則的行為

  ◆檢測(cè)并防止敏感數(shù)據(jù)丟失和訪問(wèn)

  ◆實(shí)現(xiàn)基于策略的實(shí)時(shí)檢測(cè)和預(yù)警

  ◆實(shí)現(xiàn)基于用戶(hù)行為模式的異常數(shù)據(jù)行為檢測(cè)

  Eagle具有如下特點(diǎn):

  ◆高實(shí)時(shí):我們充分理解安全監(jiān)控中高度實(shí)時(shí)和快速反應(yīng)的重要性,因此設(shè)計(jì)Eagle之初,我們竭盡可能地確保能在亞秒級(jí)別時(shí)間內(nèi)產(chǎn)生告警,一旦綜合多種因素確訂為危險(xiǎn)操作,立即采取措施阻止非法行為。

  ◆可伸縮:在eBay,Eagle 被部署在多個(gè)大型Hadoop集群上,這些集群擁有數(shù)百PB的數(shù)據(jù),每天有8億以上的數(shù)據(jù)訪問(wèn)時(shí)間,因此Eagle必須具有處理海量實(shí)時(shí)數(shù)據(jù)的高度可伸縮能力。

  ◆簡(jiǎn)單易用:可用性也是Eagle產(chǎn)品的核心設(shè)計(jì)原則之一。通過(guò)Eagle的Sandbox,使用者僅需數(shù)分鐘便可以設(shè)置好環(huán)境并開(kāi)始嘗試。為了使得用戶(hù)體驗(yàn)盡可能簡(jiǎn)單,我們內(nèi)置了許多很好的例子,只需簡(jiǎn)單地點(diǎn)擊幾步鼠標(biāo),便可以輕松地完成策略地創(chuàng)建和添加。

  ◆用戶(hù)Profile:Eagle內(nèi)置提供基于機(jī)器學(xué)習(xí)算法對(duì)Hadoop中用戶(hù)行為習(xí)慣建立用戶(hù)Profile的功能。我們提供多種默認(rèn)的機(jī)器學(xué)習(xí)算法供你選擇用于針對(duì)不同HDFS特征集進(jìn)行建模,通過(guò)歷史行為模型,Eagle可以實(shí)時(shí)地檢測(cè)異常用戶(hù)行為并產(chǎn)生預(yù)警。

  ◆開(kāi)源:Eagle一直根據(jù)開(kāi)源的標(biāo)準(zhǔn)開(kāi)發(fā),并構(gòu)建于諸多大數(shù)據(jù)領(lǐng)域的開(kāi)源產(chǎn)品之上,因此我們決定以Apache許可證開(kāi)源Eagle,以回饋社區(qū),同時(shí)也期待獲得社區(qū)的反饋、協(xié)作與支持。

  Eagle概覽

 

  1.Eagle Architecture 數(shù)據(jù)流接入和存儲(chǔ)(Data Collection and Storage)

  Eagle提供高度可擴(kuò)展的編程API,可以支持將任何類(lèi)型的數(shù)據(jù)源集成到Eagle的策略執(zhí)行引擎中。例如:

  ◆在Eagle HDFS審計(jì)事件(Audit)監(jiān)控模塊中,通過(guò)Kafka來(lái)實(shí)時(shí)接收來(lái)自Namenode Log4j Appender 或者 Logstash Agent 收集的數(shù)據(jù);

  ◆在Eagle Hive 監(jiān)控模塊中,通過(guò)YARN API 收集正在運(yùn)行Job的Hive查詢(xún)?nèi)罩?,并保證比較高的可伸縮性和容錯(cuò)性。

  2.數(shù)據(jù)實(shí)時(shí)處理(Data Processing)

  流處理API(Stream Processing API):Eagle 提供獨(dú)立于物理平臺(tái)而高度抽象的流處理API,目前默認(rèn)支持Apache Storm,但是也允許擴(kuò)展到其他任意流處理引擎,比如Flink 或者 Samza等。

  該層抽象允許開(kāi)發(fā)者在定義監(jiān)控?cái)?shù)據(jù)處理邏輯時(shí),無(wú)需在物理執(zhí)行層綁定任何特定流處理平臺(tái),而只需通過(guò)復(fù)用、拼接和組裝例如數(shù)據(jù)轉(zhuǎn)換、過(guò)濾、外部數(shù)據(jù)Join等組件,以實(shí)現(xiàn)滿(mǎn)足需求的DAG(有向無(wú)環(huán)圖),同時(shí),開(kāi)發(fā)者也可以很容易地以編程地方式將業(yè)務(wù)邏輯流程和Eagle策略引擎框架集成起來(lái)。

  Eagle框架內(nèi)部會(huì)將描述業(yè)務(wù)邏輯的DAG編譯成底層流處理架構(gòu)的原生應(yīng)用,例如Apache Storm Topology 等,從事實(shí)現(xiàn)平臺(tái)的獨(dú)立。

  以下是一個(gè)Eagle如何處理事件和告警的示例:

  1. StormExecutionEnvironment env = 
  2. ExecutionEnvironmentFactory.getStorm(config); // storm  env 
  3. StreamProducer producer = env.newSource(new 
  4. KafkaSourcedSpoutProvider().getSpout(config)).renameOutputFields(1) 
  5. // declare kafka source 
  6.       .flatMap(new AuditLogTransformer()) // transform event 
  7.       .groupBy(Arrays.asList(0))   // group by 1st field 
  8.       .flatMap(new UserProfileAggregatorExecutor()); // aggregate one-hour data by user 
  9.       .alertWithConsumer(“userActivity“,”userProfileExecutor“)  // ML policy evaluation env.execute(); // execute stream processing and 
  10. alert 

  告警框架(Alerting Framework): Eagle 告警框架由流元數(shù)據(jù)API、策略引擎服務(wù)提供API、策略Partitioner API 以及預(yù)警去重框架等組成:

  1.流元數(shù)據(jù)API:允許用戶(hù)聲明事件的Schema,包括事件由哪些屬性構(gòu)成、每個(gè)屬性的類(lèi)型,以及當(dāng)用戶(hù)配置策略時(shí)如何在運(yùn)行時(shí)動(dòng)態(tài)解析屬性的值等。

  2.策略引擎服務(wù)提供API:允許開(kāi)發(fā)者很容易地以插件的形式擴(kuò)展新的策略引擎。WSO2 Siddhi CEP 引擎是Eagle 優(yōu)先默認(rèn)支持的策略引擎,同時(shí)機(jī)器學(xué)習(xí)算法也可作為另一種策略引擎執(zhí)行。

  3.擴(kuò)展性:Eagle的策略引擎服務(wù)提供API允許你插入新的策略引擎

  1. public interface PolicyEvaluatorServiceProvider {  public String 
  2. getPolicyType();         // literal string to identify one type of 
  3. policy  public Class<? extends PolicyEvaluator> getPolicyEvaluator(); 
  4. // get policy evaluator implementation  public List 
  5. getBindingModules();  // policy text with json format to object 
  6. mapping } public interface PolicyEvaluator {  public  void 
  7. evaluate(ValuesArray input) throws Exception;  // evaluate input event 
  8. public  void onPolicyUpdate(AlertDefinitionAPIEntity newAlertDef); // 
  9. invoked when policy is updated  public  void onPolicyDelete(); // 
  10. invoked when policy is deleted } 

  1.策略 Partitioner API:允許策略在不同的物理節(jié)點(diǎn)上并行執(zhí)行。也允許你自定義策略Partitioner類(lèi)。這些功能使得策略和事件完全以分布式的方式執(zhí)行。

  2.可伸縮性:Eagle 通過(guò)支持策略的分區(qū)接口來(lái)實(shí)現(xiàn)大量的策略可伸縮并發(fā)地運(yùn)行

  1. public interface PolicyPartitioner extends Serializable {  int 
  2. partition(int numTotalPartitions, String policyType, String policyId); 
  3. // method to distribute policies } 

 

  可伸縮的Eagle策略執(zhí)行框架

  3.機(jī)器學(xué)習(xí)模塊:

  Eagle 支持根據(jù)用戶(hù)在Hadoop平臺(tái)上歷史使用行為習(xí)慣來(lái)定義行為模式或用戶(hù)Profile的能力。

  擁有了這個(gè)功能,不需要在系統(tǒng)中預(yù)先設(shè)置固定臨界值的情況下,也可以實(shí)現(xiàn)智能地檢測(cè)出異常的行為。Eagle中用戶(hù)Profile是通過(guò)機(jī)器學(xué)習(xí)算法生成,用于在用戶(hù)當(dāng)前實(shí)時(shí)行為模式與其對(duì)應(yīng)的歷史模型模式存在一定程度的差異時(shí)識(shí)別用戶(hù)行為是否為異常。

  目前,Eagle內(nèi)置提供以下兩種算法來(lái)檢測(cè)異常,分別為特征值分解(Eigen-Value Decomposition)和 密度估計(jì)(Density Estimation)。

  這些算法從HDFS 審計(jì)日志中讀取數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行分割、審查、交叉分析,周期性地為每個(gè)用戶(hù)依次創(chuàng)建Profile 行為模型。一旦模型生成,Eagle的實(shí)時(shí)流策略引擎能夠近乎實(shí)時(shí)地識(shí)別出異常,分辨當(dāng)前用戶(hù)的行為可疑的或者與他們的歷史行為模型不相符。

  下圖簡(jiǎn)單描述了目前Eagle中用戶(hù)Profile的離線訓(xùn)練建模和在線實(shí)時(shí)監(jiān)測(cè)的數(shù)據(jù)流:

 

  用戶(hù)Profile離線訓(xùn)練以及異常監(jiān)測(cè)架構(gòu)

  基于用戶(hù) Profile的Eagle在線實(shí)時(shí)異常監(jiān)測(cè)是根據(jù)Eagle的通用策略框架實(shí)現(xiàn)的,用戶(hù)Profile只是被定義為Eagle系統(tǒng)中一個(gè)策略而已,用戶(hù)Profile的策略是通過(guò)繼承自Eagle統(tǒng)一策略執(zhí)行接口的機(jī)器學(xué)習(xí)Evaluator來(lái)執(zhí)行,其策略的定義中包括異常檢測(cè)過(guò)程中需要的特征向量等(在線檢測(cè)與離線訓(xùn)練保持一致)。

  此外,Eagle 提供自動(dòng)訓(xùn)練調(diào)度器,可根據(jù)文件或者UI配置的時(shí)間周期和粒度來(lái)調(diào)度這個(gè)基于Spark的離線訓(xùn)練程序,用于批量創(chuàng)建用戶(hù)Profile和行為模型,默認(rèn)該訓(xùn)練系統(tǒng)以每月的頻率更新模型,模型粒度為一分鐘。

  Eagle 內(nèi)置的機(jī)器學(xué)習(xí)算法基本思想如下:

  核密度估計(jì)算法 (Density Estimation)

  該算法的基本思想是根據(jù)檢測(cè)的訓(xùn)練樣本數(shù)據(jù)針對(duì)每個(gè)用戶(hù)計(jì)算出對(duì)應(yīng)的概率密度分布函數(shù)。

  首先,我們對(duì)訓(xùn)練數(shù)據(jù)集的每個(gè)特征均值標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化可以使得所有數(shù)據(jù)集轉(zhuǎn)化為相同尺度。然后,在我們的隨機(jī)變量概率分布估計(jì)中,我們采用高斯分布式函數(shù)來(lái)計(jì)算概率密度。假設(shè)任意特征彼此相互獨(dú)立,那么最終的高斯概率密度就可以通過(guò)分解各個(gè)特征的概率密度而計(jì)算得到。

  在線實(shí)時(shí)檢測(cè)階段,我們可以首先計(jì)算出每個(gè)用戶(hù)實(shí)時(shí)行為的概率。如果用戶(hù)出現(xiàn)當(dāng)前行為的可能性低于某個(gè)臨界值,我們標(biāo)識(shí)為異常警告,而這個(gè)臨界值完全由離線訓(xùn)練程序通過(guò)稱(chēng)為“馬修斯相關(guān)系數(shù)”(Mathews Correlation Coefficient)的方法計(jì)算而得。

  單一維度上用戶(hù)行為直方圖

  特征值分解算法(Eigen-Value Decomposition)

  該算法中,我們認(rèn)為生成用戶(hù)Profile的主要目的是為了從中發(fā)現(xiàn)有價(jià)值的用戶(hù)行為模式。為了實(shí)現(xiàn)這個(gè)目的,我們可以考慮對(duì)特征依次進(jìn)行組合,然后觀察他們相互之間是如何影響的。

  當(dāng)數(shù)據(jù)集非常巨大時(shí),正如通常我們所遇到的場(chǎng)景,由于正常模式的數(shù)量非常之多,以至于特征集的異常的模式很容易被忽視。也由于正常的行為模式通常處于非常低維的子空間內(nèi),因此我們也許可以通過(guò)降低數(shù)據(jù)集的維度來(lái)更好的理解用戶(hù)的真正的行為模式。

  該方法同樣可以對(duì)于訓(xùn)練數(shù)據(jù)集進(jìn)行降噪。根據(jù)對(duì)大量用戶(hù)特征數(shù)據(jù)方差的進(jìn)行運(yùn)算,通常在我們的用例場(chǎng)景中選取方差為95%作為基準(zhǔn),我們可以得到方差為95%的主成分的數(shù)量為k,因此我們將前k個(gè)主成分認(rèn)為是用戶(hù)的正常子空間,而剩下的(n-k)個(gè)主成分則被視為異常子空間。

  當(dāng)線實(shí)時(shí)異常檢測(cè)時(shí),如果用戶(hù)行為模式位于正常子空間附近,則認(rèn)為該行為正常,否則,如果用戶(hù)行為模式位于異常子空間附近,則會(huì)立即報(bào)警,因?yàn)槲覀兿嘈磐ǔS脩?hù)行為一般應(yīng)該位于正常子空間內(nèi)。至于如何計(jì)算用戶(hù)當(dāng)前行為接近正常還是異常子空間,我們采用的是歐氏距離法(Euclidian distance method)。

  展示重要的用戶(hù)行為模式成分

  Eagle 服務(wù)

  策略管理器:Eagle策略管理器提供交互友好的用戶(hù)界面和REST。

  API 供用戶(hù)輕松地定義和管理策略,一切只需幾次鼠標(biāo)點(diǎn)擊而已。Eagle的用戶(hù)界面使得策略的管理、敏感元數(shù)據(jù)的標(biāo)識(shí)和導(dǎo)入、HDFS或Hive 的資源瀏覽以及預(yù)警儀表等功能都非常易于使用。

  Eagle 策略引擎默認(rèn)支持WSO2的Siddhi CEP引擎和機(jī)器學(xué)習(xí)引擎,以下是幾個(gè)基于Siddi CEP的策略示例:

  ◆單一事件執(zhí)行策略(用戶(hù)訪問(wèn)Hive中的敏感數(shù)據(jù)列)

  1. from hiveAccessLogStream[sensitivityType==’PHONE_NUMBER’] select * 
  2. insert into outputStream; 

  ◆基于窗口的策略(用戶(hù)在10分鐘內(nèi)訪問(wèn)目錄 /tmp/private 多余 5次)

  1. hdfsAuditLogEventStream[(src == 
  2. ‘/tmp/private’)]#window.externalTime(timestamp,10 min)  select user
  3. count(timestampas aggValue group by user having aggValue >= 5 insert 
  4. into outputStream; 

  查詢(xún)服務(wù)(Query Service):

  Eagle 提供類(lèi)SQL的REST API用來(lái)實(shí)現(xiàn)針對(duì)海量數(shù)據(jù)集的綜合計(jì)算、查詢(xún)和分析的能力,支持例如過(guò)濾、聚合、直方運(yùn)算、排序、top、算術(shù)表達(dá)式以及分頁(yè)等。Eagle優(yōu)先支持HBase 作為其默認(rèn)數(shù)據(jù)存儲(chǔ),但是同時(shí)也支持基JDBC的關(guān)系型數(shù)據(jù)庫(kù)。

  特別是當(dāng)選擇以HBase作為存儲(chǔ)時(shí),Eagle便原生擁有了HBase存儲(chǔ)和查詢(xún)海量監(jiān)控?cái)?shù)據(jù)的能力,Eagle 查詢(xún)框架會(huì)將用戶(hù)提供的類(lèi)SQL查詢(xún)語(yǔ)法最終編譯成為HBase 原生的Filter 對(duì)象,并支持通過(guò)HBase Coprocessor進(jìn)一步提升響應(yīng)速度。

  query=AlertDefinitionService[@dataSource=”hiveQueryLog”]{@policyDef}&pageSize=100000

  后續(xù)計(jì)劃

  過(guò)去兩年中,在eBay 除了被用于數(shù)據(jù)行為監(jiān)控以外,Eagle 核心框架還被廣泛用于監(jiān)控節(jié)點(diǎn)健康狀況、Hadoop應(yīng)用性能指標(biāo)、Hadoop核心服務(wù)以及整個(gè)Hadoop集群的健康狀況等諸多領(lǐng)域。

  我們還建立一系列的自動(dòng)化機(jī)制,例如節(jié)點(diǎn)修復(fù)等,幫助我們平臺(tái)部門(mén)極大得節(jié)省了我們?nèi)斯诹?,并有效地提升了整個(gè)集群資源地利用率。

  以下是我們目前正在開(kāi)發(fā)中地一些特性:

  ◆擴(kuò)展機(jī)器學(xué)習(xí)模型對(duì)Hive和HBase支持

  ◆提供高度可擴(kuò)展的API,以方便集目前業(yè)界廣泛使用的其他監(jiān)控預(yù)警平臺(tái)或者工具,如Ganglia和Nagios等,同時(shí)支持敏感數(shù)據(jù)的導(dǎo)入,如與Dataguise

  集成等。

  ◆此外,我們正在積極整理其他Hadoop 集群監(jiān)控模塊,期望在后續(xù)發(fā)布中開(kāi)源給社區(qū),例如:

          ◆HBase 監(jiān)控

          ◆Hadoop 作業(yè)性能監(jiān)控

          ◆Hadoop 節(jié)點(diǎn)監(jiān)控

  感謝

  感謝以下來(lái)自Apache Eagle社區(qū)和eBay公司的聯(lián)合作者們對(duì)本文的貢獻(xiàn):

  張勇,Apache Eagle Committer和首席架構(gòu)師,eBay Sr. MTS 資深架構(gòu)師

  孫立斌,Apache Eagle Committer和PMC,eBay 軟件工程師

  蔣吉林,Apache Eagle Committer和PMC,eBay 軟件工程師

  趙晴雯,Apache Eagle Committer和PMC,eBay 軟件工程師

  eBay 分析平臺(tái)基礎(chǔ)架構(gòu)部(Analytics Data Infrastructure)是eBay的全球數(shù)據(jù)及分析基礎(chǔ)架構(gòu)部門(mén),負(fù)責(zé)eBay在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、Hadoop、商務(wù)智能以及機(jī)器學(xué)習(xí)等各個(gè)數(shù)據(jù)平臺(tái)開(kāi)發(fā)、管理等,支持eBay全球各部門(mén)運(yùn)用高端的數(shù)據(jù)分析解決方案作出及時(shí)有效的作業(yè)決策,為遍布全球的業(yè)務(wù)用戶(hù)提供數(shù)據(jù)分析解決方案。

  參考資料

  Apache Eagle 文檔:

  1. http://goeagle.io 

  Apache Eagle 源碼:

  1. http://github.com/ebay/eagle 

  Apache Eagle 項(xiàng)目:

  1. http://incubator.apache.org/projects/eagle.html 

  如何一起愉快地發(fā)展

  “高效運(yùn)維”公眾號(hào)(如下二維碼)值得您的關(guān)注,作為高效運(yùn)維系列微信群(國(guó)內(nèi)領(lǐng)先的運(yùn)維垂直社區(qū))的唯一官方公眾號(hào),每周發(fā)表多篇干貨滿(mǎn)滿(mǎn)的 原創(chuàng)好文:來(lái)自于系列群的討論精華、運(yùn)維講壇精彩分享及群友原創(chuàng)等。“高效運(yùn)維”也是互聯(lián)網(wǎng)專(zhuān)欄《高效運(yùn)維最佳實(shí)踐》及運(yùn)維2.0官方公眾號(hào)。

重要提示:除非事先獲得授權(quán),請(qǐng)?jiān)诒竟娞?hào)發(fā)布2天后,才能轉(zhuǎn)載本文。尊重知識(shí),請(qǐng)必須全文轉(zhuǎn)載,并包括本行及如下二維碼。

 【編輯推薦】

 

責(zé)任編輯:武曉燕 來(lái)源: 高效運(yùn)維
相關(guān)推薦

2015-07-28 15:51:45

EagleeBay分布式實(shí)時(shí)監(jiān)控

2021-05-17 14:17:57

分布式SQLApache Traf

2025-03-25 10:49:24

2010-06-03 19:46:44

Hadoop

2012-09-19 14:09:20

Hadoop開(kāi)源

2015-05-12 13:03:54

開(kāi)源分布式存儲(chǔ)HDFS

2022-03-01 08:40:34

StormHadoop批處理

2023-03-26 12:43:31

數(shù)據(jù)庫(kù)KeyValue

2014-07-15 11:15:44

hadoop分布式部署

2017-08-10 10:17:32

Hadoop分布式搭建

2019-09-26 15:43:52

Hadoop集群防火墻

2011-12-22 09:21:04

云計(jì)算Hadoop大數(shù)據(jù)

2023-02-11 00:04:17

分布式系統(tǒng)安全

2020-11-26 15:51:11

SQL數(shù)據(jù)庫(kù)大數(shù)據(jù)

2022-05-31 07:58:49

TiDB數(shù)據(jù)庫(kù)開(kāi)源

2010-06-04 18:45:43

Hadoop分布式文件

2017-12-07 15:24:10

Hadoop大數(shù)據(jù)服務(wù)器

2023-02-10 00:04:53

2024-03-18 00:00:01

分布式搜索引擎
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)