自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

你的數(shù)據(jù)倉(cāng)庫(kù)還在為企業(yè)業(yè)務(wù)拖后腿嗎?

原創(chuàng)
大數(shù)據(jù) 數(shù)據(jù)庫(kù) 數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)長(zhǎng)期以來(lái)一直是企業(yè)IT架構(gòu)的重要組成部分。隨著開(kāi)源技術(shù)的不斷發(fā)展以及云端部署方式的不斷深入,傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的局限性日益凸顯,難以適應(yīng)新技術(shù)帶來(lái)的市場(chǎng)變革,如何面向大數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)的優(yōu)化、轉(zhuǎn)型是企業(yè)IT管理者面臨的重要挑戰(zhàn)。處于不同階段的企業(yè)如何應(yīng)用大數(shù)據(jù)技術(shù)?如何面向大數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)轉(zhuǎn)型?如何對(duì)現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行優(yōu)化?如何在Hadoop中進(jìn)行性能優(yōu)化?這些已成為困擾IT管理者的主要問(wèn)題。

【51CTO.com原創(chuàng)稿件】

——傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)向大數(shù)據(jù)的漸進(jìn)式轉(zhuǎn)型

數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)長(zhǎng)期以來(lái)一直是企業(yè)IT架構(gòu)的重要組成部分。隨著開(kāi)源技術(shù)的不斷發(fā)展以及云端部署方式的不斷深入,傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的局限性日益凸顯,難以適應(yīng)新技術(shù)帶來(lái)的市場(chǎng)變革,如何面向大數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)的優(yōu)化、轉(zhuǎn)型是企業(yè)IT管理者面臨的重要挑戰(zhàn)。處于不同階段的企業(yè)如何應(yīng)用大數(shù)據(jù)技術(shù)?如何面向大數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)轉(zhuǎn)型?如何對(duì)現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行優(yōu)化?如何在Hadoop中進(jìn)行性能優(yōu)化?這些已成為困擾IT管理者的主要問(wèn)題。

帶著諸多疑問(wèn),51CTO記者采訪了Cloudera售前技術(shù)經(jīng)理、資深解決方案顧問(wèn)徐峰先生,徐峰擁有14年數(shù)據(jù)倉(cāng)庫(kù)的項(xiàng)目實(shí)施經(jīng)驗(yàn),曾作為首席架構(gòu)師參與過(guò)多個(gè)大型數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的架構(gòu)設(shè)計(jì)和項(xiàng)目規(guī)劃工作。徐峰表示,數(shù)字化時(shí)代,隨著企業(yè)內(nèi)部數(shù)據(jù)的快速增長(zhǎng),以及外部數(shù)據(jù)采集成本的不斷降低,傳統(tǒng)數(shù)倉(cāng)在數(shù)據(jù)存儲(chǔ)和分析應(yīng)用上都面臨著巨大的挑戰(zhàn)。

現(xiàn)有的數(shù)倉(cāng)環(huán)境

傳統(tǒng)數(shù)倉(cāng)面臨以下局限性:

  • 存儲(chǔ)成本較高,在線保留全量、海量數(shù)據(jù)的目標(biāo)難以實(shí)現(xiàn);
  • 元數(shù)據(jù)定義僵化,難以靈活集成多種數(shù)據(jù)源、支持即席查詢(xún);
  • 集群管理復(fù)雜、計(jì)算資源有限,缺乏統(tǒng)一的管理接口及水平擴(kuò)展能力;
  • 隨著數(shù)據(jù)規(guī)模、用戶(hù)規(guī)模的不斷增加,實(shí)時(shí)分析(例如:欺詐行為識(shí)別)SLA無(wú)法滿足;
  • 常用的數(shù)據(jù)分析挖掘工具處理全量數(shù)據(jù)時(shí)間過(guò)長(zhǎng)。

數(shù)據(jù)倉(cāng)庫(kù)呈現(xiàn)三大發(fā)展趨勢(shì)

  1. 數(shù)據(jù)倉(cāng)庫(kù)要處理更多類(lèi)型的全量數(shù)據(jù):企業(yè)必須能夠有效地存儲(chǔ)、加工和分析數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)。
  2. 數(shù)據(jù)倉(cāng)庫(kù)要提供更加廣泛的數(shù)據(jù)訪問(wèn):數(shù)據(jù)倉(cāng)庫(kù)的訪問(wèn)不再只限于IT部門(mén),所有部門(mén)的用戶(hù)都會(huì)要求自助訪問(wèn)全真的數(shù)據(jù),甚至希望無(wú)需IT部門(mén)的協(xié)助便可以自行進(jìn)行數(shù)據(jù)準(zhǔn)備,當(dāng)然,這個(gè)過(guò)程中的高訪問(wèn)延遲也是不被接受的。
  3. 數(shù)據(jù)倉(cāng)庫(kù)要采取更加實(shí)時(shí)的業(yè)務(wù)決策:流式數(shù)據(jù)為理解和調(diào)整當(dāng)前的業(yè)務(wù)決策創(chuàng)造了新的可能,但前提是我們要具備對(duì)流式數(shù)據(jù)進(jìn)行實(shí)時(shí)處理的能力。實(shí)時(shí)計(jì)算需要新的技術(shù)架構(gòu),不僅要將數(shù)據(jù)流與現(xiàn)有數(shù)據(jù)體系進(jìn)行對(duì)接,還要能夠?qū)ζ溥M(jìn)行快速的分析。

企業(yè)該如何進(jìn)行技術(shù)選擇?

針對(duì)這一問(wèn)題,徐峰認(rèn)為,企業(yè)應(yīng)根據(jù)所處的不同階段進(jìn)行選擇:

  • 起始階段:處于這一階段的大多數(shù)企業(yè)已采購(gòu)MPP硬件搭建數(shù)據(jù)倉(cāng)庫(kù)。為了保證業(yè)務(wù)延續(xù)性,對(duì)于起始階段的企業(yè)建議以傳統(tǒng)技術(shù)為主,以大數(shù)據(jù)技術(shù)為輔。例如:ETL處理仍然放在MPP平臺(tái),只是利用HDFS做歷史數(shù)據(jù)歸檔,利用Spark Streaming做小批量數(shù)據(jù)的實(shí)時(shí)處理。
  • 發(fā)展階段:這一階段的企業(yè)用戶(hù)已經(jīng)掌握了大數(shù)據(jù)的核心技能,發(fā)展階段建議以大數(shù)據(jù)技術(shù)為主,以傳統(tǒng)技術(shù)為輔。例如:將ETL處理全部轉(zhuǎn)移到Hadoop平臺(tái),而只將處理邏輯簡(jiǎn)單的固定報(bào)表部分放在MPP上。
  • 成熟階段:建議使用Hadoop平臺(tái)作為整體架構(gòu),將大數(shù)據(jù)技術(shù)應(yīng)用到更好水平。

將數(shù)據(jù)倉(cāng)庫(kù)規(guī)劃在Hadoop之上?

“企業(yè)可以選擇從一開(kāi)始就將整個(gè)數(shù)據(jù)倉(cāng)庫(kù)規(guī)劃在Hadoop之上。傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)的主要?jiǎng)?chuàng)始人Ralph Kimball博士在2015年發(fā)表專(zhuān)題演講時(shí)證實(shí)了Hadoop是可以完全取代MPP來(lái)建立數(shù)據(jù)倉(cāng)庫(kù)的。”徐峰提到,“在全球范圍內(nèi),也確實(shí)有很多企業(yè)已經(jīng)將他們的數(shù)據(jù)倉(cāng)庫(kù)完全建立在Hadoop之上。”

但是從技術(shù)的角度,有一些數(shù)據(jù)倉(cāng)庫(kù)技術(shù)或工具與Hadoop相比已非常成熟,可能已有數(shù)十年的歷史,對(duì)于這些長(zhǎng)期應(yīng)用的數(shù)據(jù)庫(kù)技術(shù),Hadoop并不具備其中所有的功能或性能。但即便如此,很多用戶(hù)仍然選擇把他們的數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建在Hadoop架構(gòu)之上,這是為了能夠?qū)崿F(xiàn)更加優(yōu)越的可擴(kuò)展性、更高的性?xún)r(jià)比,以及更好的靈活性。在實(shí)際應(yīng)用中,即使是規(guī)模只有5個(gè)節(jié)點(diǎn)的小集群,企業(yè)使用Hadoop與其他技術(shù)選項(xiàng)相比,也能夠取得更好的產(chǎn)出、帶來(lái)更多的業(yè)務(wù)價(jià)值與競(jìng)爭(zhēng)力。

Cloudera分析型數(shù)據(jù)庫(kù)全面升級(jí)

針對(duì)當(dāng)前企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)(EDW)面臨的ETL批量作業(yè)運(yùn)行緩慢、BI報(bào)表不能按時(shí)生成、業(yè)務(wù)用戶(hù)提交的查詢(xún)遲遲顯示不了結(jié)果等壓力,結(jié)合當(dāng)前數(shù)倉(cāng)發(fā)展的趨勢(shì),以及企業(yè)的云化需求,Cloudera分析型數(shù)據(jù)庫(kù)版本進(jìn)行了全面升級(jí),于2018年8月正式推出了Cloudera數(shù)據(jù)倉(cāng)庫(kù)版本。

徐峰介紹,Cloudera分析型數(shù)據(jù)庫(kù)已經(jīng)在全球900多家組織機(jī)構(gòu)里運(yùn)行,是一款經(jīng)歷過(guò)實(shí)戰(zhàn)打磨的產(chǎn)品。升級(jí)后的Cloudera數(shù)據(jù)倉(cāng)庫(kù)版本提供了企業(yè)級(jí)混合云解決方案,包含了混合計(jì)算、混合存儲(chǔ)、混合控制三大關(guān)鍵因素,專(zhuān)為實(shí)惠經(jīng)濟(jì)、強(qiáng)大可擴(kuò)展的自助服務(wù)分析而構(gòu)建。這款產(chǎn)品覆蓋了數(shù)據(jù)倉(cāng)庫(kù)的整個(gè)生命周期,包括數(shù)據(jù)接入、存儲(chǔ)、管理、查詢(xún)、運(yùn)行狀況檢查等等。

Cloudera數(shù)據(jù)倉(cāng)庫(kù)版本適用于以下三場(chǎng)景

ETL卸載:將ETL任務(wù)從EDW遷移到Cloudera大數(shù)據(jù)平臺(tái),極大的釋放EDW處理能力?;贖adoop大規(guī)模分布式的處理能力,ETL任務(wù)將以更快的速度運(yùn)行,并為包括EDW在內(nèi)的下游系統(tǒng)提供服務(wù),使得之前錯(cuò)過(guò)的SLA成為歷史。

自助BI和探索性分析:全面開(kāi)放數(shù)據(jù),所有部門(mén)的用戶(hù)在其安全策略范圍內(nèi)都能自助訪問(wèn)全真數(shù)據(jù)。借助Read on Schema的靈活性和支持高并發(fā)的查詢(xún)能力,開(kāi)發(fā)人員和分析人員能夠?qū)崿F(xiàn)自助化數(shù)據(jù)探索,擺脫對(duì)IT部門(mén)的依賴(lài),能最快的速度解決新問(wèn)題。

EDW優(yōu)化:通過(guò)Cloudera大數(shù)據(jù)平臺(tái)釋放EDW處理能力,您可以將EDW系統(tǒng)用于更加復(fù)雜的報(bào)表生成和熱數(shù)據(jù)處理,在相當(dāng)長(zhǎng)的一段時(shí)間內(nèi)都無(wú)需增加EDW存儲(chǔ)或計(jì)算資源。 EDW和Cloudera大數(shù)據(jù)平臺(tái)的混搭結(jié)構(gòu)可以降低數(shù)據(jù)存儲(chǔ)成本,提高數(shù)據(jù)處理和分析能力,充分發(fā)揮兩套系統(tǒng)各自的技術(shù)優(yōu)勢(shì)。

Cloudera數(shù)據(jù)倉(cāng)庫(kù)版本的四大優(yōu)勢(shì)

數(shù)據(jù)規(guī)模和靈活性:Cloudera提供單一、可擴(kuò)展的平臺(tái),可以處理不同來(lái)源、不同類(lèi)型的全量數(shù)據(jù),以推動(dòng)新的業(yè)務(wù)洞察。該版本專(zhuān)為Read on Schema功能而設(shè)計(jì),可以快速訪問(wèn)貼源的全真數(shù)據(jù),甚至支持實(shí)時(shí)更新。

高性能和高并發(fā)支持:Cloudera的平臺(tái)提供高性能的SQL查詢(xún)工具,支持大數(shù)據(jù)量高并發(fā)訪問(wèn),因此所有部門(mén)的用戶(hù)都可以對(duì)數(shù)據(jù)進(jìn)行探索性分析。而且,通過(guò)與第三方BI工具集成,可以沿用業(yè)務(wù)用戶(hù)的既有技能。

內(nèi)置安全管控和數(shù)據(jù)治理模塊:開(kāi)放的數(shù)據(jù)永遠(yuǎn)不會(huì)以犧牲安全為代價(jià),因此敏感數(shù)據(jù)的安全至關(guān)重要。 Cloudera是通過(guò)PCI安全認(rèn)證的Hadoop平臺(tái),內(nèi)置安全管控和數(shù)據(jù)治理模塊。無(wú)論用戶(hù)采取何種方式訪問(wèn)數(shù)據(jù),只要利用Cloudera安全技術(shù)對(duì)用戶(hù)預(yù)設(shè)置權(quán)限,或者對(duì)數(shù)據(jù)預(yù)設(shè)置監(jiān)管策略,您都可以繼續(xù)數(shù)據(jù)探索之旅,而不用擔(dān)心數(shù)據(jù)泄密或越權(quán)訪問(wèn)。

采用開(kāi)源技術(shù),可在任何環(huán)境中移植:無(wú)論是本地部署,云端還是混合部署都完全適用,避免了技術(shù)鎖定的問(wèn)題。

如何面向大數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)轉(zhuǎn)型?

Cloudera大數(shù)據(jù)平臺(tái)為企業(yè)用戶(hù)提供了強(qiáng)大的技術(shù)保障:

首先,在數(shù)據(jù)加工方面,Hive具有大規(guī)模的數(shù)據(jù)處理能力以及用戶(hù)熟悉的SQL支持能力。 Hive-on-Spark利用Apache Spark的內(nèi)存處理引擎,可以帶來(lái)更快的處理速度。Impala作為支持高并發(fā)性查詢(xún)的類(lèi)MPP引擎,支持SQL開(kāi)發(fā)人員和分析人員提交交互式查詢(xún)。開(kāi)發(fā)人員也可以使用Hue作為開(kāi)箱即用的SQL編輯器,為BI終端用戶(hù)提供更好的自助式服務(wù)。終端用戶(hù)也可以選擇通過(guò)第三方BI工具和平臺(tái)進(jìn)行集成,通過(guò)Impala查詢(xún)接口以實(shí)現(xiàn)不間斷的分析。Kudu也建議與Impala配合在一起使用,這種新型存儲(chǔ)引擎通過(guò)流式計(jì)算或不斷更新的數(shù)據(jù)處理實(shí)現(xiàn)自助式BI和探索性分析,獲得近乎實(shí)時(shí)的洞察力,從而更好地推動(dòng)業(yè)務(wù)決策。

其次,在數(shù)據(jù)安全方面,Cloudera將多層次的安全策略構(gòu)建到平臺(tái)核心,企業(yè)可以充分利用Hadoop的靈活性和可訪問(wèn)性,而不會(huì)對(duì)其數(shù)據(jù)安全造成風(fēng)險(xiǎn)。大量的并發(fā)用戶(hù)使用不同的工具訪問(wèn)大規(guī)模的用戶(hù)數(shù)據(jù),往往意味著安全夢(mèng)魘,特別是處于高度監(jiān)管或者包含敏感信息的數(shù)據(jù)。對(duì)于用戶(hù)本身,Apache Sentry允許安全管理員根據(jù)用戶(hù)的角色輕松設(shè)置權(quán)限,訪問(wèn)權(quán)限會(huì)自動(dòng)保留在整個(gè)平臺(tái)上。對(duì)于數(shù)據(jù)本身,Cloudera提供企業(yè)級(jí)加密和密鑰管理功能,借助底層芯片優(yōu)化技術(shù),Cloudera Navigator Encrypt可讓您加密所有的數(shù)據(jù),包括元數(shù)據(jù)、日志等,而不會(huì)影響上層分析的性能。Navigator Key Trustee確保您的加密密鑰更加安全而獨(dú)立。

再次,在數(shù)據(jù)治理方面,只有Cloudera能在整個(gè)Hadoop平臺(tái)上提供全面的治理,包括支持集中審計(jì),字段級(jí)血緣分析和數(shù)據(jù)生命周期管理。數(shù)據(jù)治理不僅對(duì)安全合規(guī)至關(guān)重要,而且在用戶(hù)行為驗(yàn)證和置信方面也發(fā)揮著關(guān)鍵作用。一方面,企業(yè)的安全團(tuán)隊(duì)可以全面了解誰(shuí)在訪問(wèn)數(shù)據(jù)以及他們正在訪問(wèn)哪些數(shù)據(jù);另一方面,數(shù)據(jù)管理員可以自動(dòng)管理從數(shù)據(jù)導(dǎo)入到數(shù)據(jù)清理的整個(gè)流程;并且,業(yè)務(wù)用戶(hù)也能更好地了解數(shù)據(jù),探索數(shù)據(jù)之間的關(guān)系,并驗(yàn)證最終的分析結(jié)果。

另外,在負(fù)載管理方面,借助Cloudera Manager的資源池工具,管理員可以確保每個(gè)部門(mén)都擁有滿足其SLA所需的適當(dāng)資源,并實(shí)現(xiàn)更佳的性能。借助Workload XM,管理員可以根據(jù)用戶(hù)需求和當(dāng)前使用狀態(tài)輕松監(jiān)控和調(diào)節(jié)資源,診斷和排查有問(wèn)題的查詢(xún)。與Cloudera Director一起配合使用,資源管理甚至可以擴(kuò)展到云端部署環(huán)境,并能夠根據(jù)用戶(hù)需求進(jìn)行彈性擴(kuò)展。

現(xiàn)代數(shù)倉(cāng)環(huán)境

現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)的優(yōu)化可分為四個(gè)步驟

  1. 建議先從歷史數(shù)據(jù)和日志數(shù)據(jù)的處理開(kāi)始做技術(shù)驗(yàn)證,利用大數(shù)據(jù)技術(shù)處理“海量”的混合結(jié)構(gòu)數(shù)據(jù),同時(shí)支持實(shí)時(shí)、在線和離線處理。
  2. 逐步從客戶(hù)體驗(yàn)、營(yíng)銷(xiāo)為切入點(diǎn),突出業(yè)務(wù)價(jià)值。利用大數(shù)據(jù)技術(shù)提供實(shí)時(shí)分析能力。
  3. 逐步把傳統(tǒng)數(shù)倉(cāng)和大數(shù)據(jù)架構(gòu)進(jìn)行完全融合,讓全量數(shù)據(jù)“可用+可視”, 為業(yè)務(wù)人員提供自助式數(shù)據(jù)服務(wù),培養(yǎng)數(shù)據(jù)思維。
  4. 從數(shù)據(jù)角度重構(gòu)現(xiàn)有價(jià)值鏈,從“用數(shù)據(jù)”到“養(yǎng)數(shù)據(jù)”,再到“數(shù)據(jù)經(jīng)濟(jì)”,利用大數(shù)據(jù)技術(shù)建立企業(yè)數(shù)據(jù)資產(chǎn)。

Hadoop性能優(yōu)化工具

針對(duì)Hadoop性能優(yōu)化的問(wèn)題,Cloudera提供專(zhuān)為現(xiàn)代數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的智能的工作負(fù)載管理云服務(wù)——Cloudera Workload XM。與傳統(tǒng)的性能管理工具不同,Workload XM提供引導(dǎo)式自助服務(wù)性能分析,以便在整個(gè)生命周期內(nèi)對(duì)工作負(fù)載提供可見(jiàn)性和有效控制。Cloudera Workload XM可以在不升級(jí)或安裝任何軟件的情況下工作,這意味著用戶(hù)可以跳過(guò)軟件安裝部署的步驟立即使用。

徐峰在此舉了一個(gè)實(shí)例:

某個(gè)用戶(hù)想利用WXM診斷當(dāng)前數(shù)據(jù)倉(cāng)庫(kù)的性能瓶頸。首先,用戶(hù)通過(guò)Cloudera Manager收集大數(shù)據(jù)平臺(tái)的日志診斷包,然后單擊“開(kāi)始上傳”,WXM頁(yè)面顯示針對(duì)該診斷包的后臺(tái)分析大約需要30分鐘。

待后臺(tái)分析結(jié)束后,該用戶(hù)登錄WXM儀表盤(pán),從首頁(yè)上查看到(8月13日 - 9月1日),總共有676043個(gè)查詢(xún),失敗查詢(xún)占比為4.9%。儀表盤(pán)還會(huì)顯示其他信息:

  • 每天不同類(lèi)型的查詢(xún)總數(shù)
  • 所有查詢(xún)按持續(xù)時(shí)間,查詢(xún)類(lèi)型,DDL類(lèi)型的分類(lèi)匯總情況
  • 租戶(hù)資源消耗排名
  • 需要重點(diǎn)關(guān)注的查詢(xún)(包括運(yùn)行時(shí)間最長(zhǎng)的10大查詢(xún);消耗CPU /內(nèi)存最多的10大查詢(xún);由Alanizer規(guī)則標(biāo)記的10大查詢(xún);耗資源最多的10大租戶(hù)等。)

該用戶(hù)比較關(guān)心跑得非常慢的查詢(xún)。他單擊“持續(xù)時(shí)間> 5s的查詢(xún)分布圖”,得到以下摘要信息:

  • 超過(guò)5秒的查詢(xún)總數(shù)和失敗的查詢(xún)總數(shù)
  • 所選查詢(xún)按持續(xù)時(shí)間,查詢(xún)類(lèi)型,DDL類(lèi)型的分類(lèi)匯總
  • 失敗查詢(xún)分布情況(個(gè)數(shù)和占比%)(語(yǔ)法錯(cuò)誤,權(quán)限驗(yàn)證失敗,漫長(zhǎng)的等待時(shí)間,Alanizer標(biāo)志)
  • 熱門(mén)的查詢(xún)用戶(hù)

該用戶(hù)發(fā)現(xiàn)大多數(shù)慢查詢(xún)都是元數(shù)據(jù)查詢(xún),因此他增加元數(shù)據(jù)標(biāo)識(shí)過(guò)濾,同時(shí)調(diào)整時(shí)間范圍,以便在每小時(shí)窗口中查看詳細(xì)的查詢(xún)信息。由于元數(shù)據(jù)查詢(xún)基本上是管理員提交的,因此再將管理員用戶(hù)添加到過(guò)濾器中。

通過(guò)以上操作,該用戶(hù)最終得出結(jié)論:大多數(shù)慢查詢(xún)并非業(yè)務(wù)查詢(xún),而是收集增量統(tǒng)計(jì)信息的查詢(xún)。

某城商行大數(shù)據(jù)應(yīng)用案例

傳統(tǒng)數(shù)倉(cāng)向大數(shù)據(jù)技術(shù)轉(zhuǎn)型是一項(xiàng)高難度工程,因此借鑒有價(jià)值的應(yīng)用案例是很多企業(yè)管理者的共同選擇。徐峰例舉了國(guó)內(nèi)某大型城市商業(yè)銀行的大數(shù)據(jù)技術(shù)應(yīng)用案例,該城商行于2013年購(gòu)買(mǎi)了Teradata企業(yè)數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)6650C(20TB),通過(guò)建立全行級(jí)的邏輯數(shù)據(jù)模型,集合和整合所有內(nèi)部數(shù)據(jù),建立全行統(tǒng)一的單一業(yè)務(wù)視圖。但是,隨著業(yè)務(wù)量的不斷增長(zhǎng),原有數(shù)據(jù)倉(cāng)庫(kù)方案架構(gòu)封閉、性?xún)r(jià)比低、應(yīng)用面窄、廠商依賴(lài)等諸多問(wèn)題日益突出。

為了避免每年花費(fèi)大量經(jīng)費(fèi)來(lái)擴(kuò)展Teradata基礎(chǔ)設(shè)施,該城商行改用運(yùn)行在X86標(biāo)準(zhǔn)硬件上的Cloudera大數(shù)據(jù)平臺(tái)逐步替代Teradata。

該城商行通過(guò)采用Hive,Impala,Spark,HBase等各類(lèi)技術(shù)來(lái)處理不同類(lèi)型的數(shù)據(jù),滿足了批量、實(shí)時(shí)交互以及流式數(shù)據(jù)多種不同的數(shù)據(jù)計(jì)算需要,同時(shí)借助Sentry實(shí)現(xiàn)了多部門(mén)訪問(wèn)的數(shù)據(jù)安全控制。因?yàn)镠adoop平臺(tái)能存儲(chǔ)更多的數(shù)據(jù),而且Impala查詢(xún)性能提升明顯,該城商行正在基于這些大量的歷史數(shù)據(jù)挖掘新的價(jià)值,如客戶(hù)畫(huà)像,精準(zhǔn)營(yíng)銷(xiāo),風(fēng)險(xiǎn)管控等。

據(jù)了解,目前該城商行已經(jīng)將大部分的Teradata數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用遷移到Cloudera大數(shù)據(jù)平臺(tái),包括CRM、監(jiān)管報(bào)送、自助化分析、取數(shù)以及風(fēng)險(xiǎn)合規(guī)相關(guān)應(yīng)用。同時(shí),也基于大數(shù)據(jù)平臺(tái)新建了一些應(yīng)用,例如:實(shí)時(shí)營(yíng)銷(xiāo)和欺詐監(jiān)控、在線明細(xì)查詢(xún)等等。

數(shù)倉(cāng)遷移過(guò)程中的問(wèn)題及解決方案

在數(shù)倉(cāng)遷移過(guò)程中,該城商行也遇到了一些技術(shù)上的挑戰(zhàn),通過(guò)攻關(guān)研發(fā),并結(jié)合之前的數(shù)倉(cāng)開(kāi)發(fā)實(shí)踐,逐漸摸索出了相應(yīng)的解決方案:

1、SQL引擎問(wèn)題:解決了Teradata SQL遷移的三大問(wèn)題,使其滿足數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用開(kāi)發(fā)的基礎(chǔ)要求:

  • 構(gòu)建基于Python的運(yùn)行框架,增加SQL解析層,解決SQL兼容性問(wèn)題;
  • 封裝整合代碼模版,解決各種運(yùn)行狀態(tài)跟蹤以及后續(xù)回滾處理,實(shí)現(xiàn)類(lèi)存儲(chǔ)過(guò)程的效果;
  • 開(kāi)發(fā)上百個(gè)自定義函數(shù),涵蓋日常使用,提升應(yīng)用開(kāi)發(fā)效率。

2、數(shù)據(jù)模型改造:傳統(tǒng)數(shù)倉(cāng)的數(shù)據(jù)模型存在以下問(wèn)題:

  • 模型過(guò)于范式化
  • 模型開(kāi)發(fā)流程繁瑣
  • 過(guò)于抽象,業(yè)務(wù)理解困難
  • 無(wú)法滿足SLA

新模型改造方法:

  • 模型語(yǔ)義精細(xì),體現(xiàn)業(yè)務(wù)規(guī)則;
  • 簡(jiǎn)化模型層次,提升訪問(wèn)效率;
  • 弱化粒度拆分,減少維護(hù)成本;
  • 去范式化操作,以空間換時(shí)間。

3、數(shù)據(jù)質(zhì)量管理:通過(guò)建設(shè)數(shù)據(jù)質(zhì)量檢測(cè)平臺(tái)來(lái)加強(qiáng)大數(shù)據(jù)平臺(tái)上的數(shù)據(jù)倉(cāng)庫(kù)日常數(shù)據(jù)質(zhì)量管理的工作。該平臺(tái)結(jié)合行內(nèi)數(shù)據(jù)標(biāo)準(zhǔn)定義,支持技術(shù)和業(yè)務(wù)規(guī)則批量配置。目前已經(jīng)配置了1000+檢查規(guī)則,為大數(shù)據(jù)平臺(tái)之上的數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)質(zhì)量問(wèn)題提供了快速定位和流程化解決方案。

Cloudera助力企業(yè)進(jìn)行傳統(tǒng)數(shù)倉(cāng)轉(zhuǎn)型

徐峰補(bǔ)充道,Cloudera能夠通過(guò)以下三個(gè)方面助力企業(yè)進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)轉(zhuǎn)型:

一是企業(yè)版增強(qiáng)功能。Cloudera推出了針對(duì)企業(yè)應(yīng)用進(jìn)行優(yōu)化并包含相應(yīng)工具和售后服務(wù)的數(shù)據(jù)倉(cāng)庫(kù)軟件版本。相較于免費(fèi)版本,企業(yè)用戶(hù)可以獲得源碼級(jí)的技術(shù)支持服務(wù),保障系統(tǒng)持續(xù)穩(wěn)定運(yùn)行;申請(qǐng)主動(dòng)掃描集群服務(wù),提前發(fā)現(xiàn)潛在的風(fēng)險(xiǎn)和問(wèn)題;使用包含增強(qiáng)功能的管理和維護(hù)工具集,簡(jiǎn)化系統(tǒng)運(yùn)維和數(shù)據(jù)治理。

二是大數(shù)據(jù)咨詢(xún)和專(zhuān)業(yè)服務(wù)。Cloudera擁有一支極富Hadoop實(shí)踐經(jīng)驗(yàn)的資深專(zhuān)家團(tuán)隊(duì),該團(tuán)隊(duì)專(zhuān)門(mén)為數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目提供現(xiàn)場(chǎng)服務(wù),包括:提供解決方案架構(gòu)、應(yīng)用實(shí)現(xiàn)、產(chǎn)品使用、系統(tǒng)優(yōu)化方面的咨詢(xún)服務(wù),提供集群定期健康檢查、集群故障時(shí)的緊急救援服務(wù),以及基于客戶(hù)需求進(jìn)行定制化開(kāi)發(fā)工作等等。

三是人才培訓(xùn)。Cloudera大學(xué)是培訓(xùn)和認(rèn)證的機(jī)構(gòu),提供業(yè)界最廣泛的Apache Hadoop培訓(xùn)和認(rèn)證。除了面向管理員、程序員、數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家不同角色的商業(yè)性培訓(xùn)之外,還有公益性、學(xué)術(shù)性的培訓(xùn)和交流。Cloudera也與清華大學(xué)達(dá)成了戰(zhàn)略合作,該項(xiàng)目旨在通過(guò)提供Hadoop平臺(tái)上的課程、軟件及技術(shù)培訓(xùn)來(lái)培養(yǎng)更多專(zhuān)業(yè)領(lǐng)域的人才。

結(jié)語(yǔ)

傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)很難適應(yīng)新時(shí)代的發(fā)展需求,面向云和大數(shù)據(jù)進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)轉(zhuǎn)型已迫在眉睫,吸取前人經(jīng)驗(yàn),對(duì)現(xiàn)有數(shù)倉(cāng)進(jìn)行優(yōu)化,從而面向大數(shù)據(jù)技術(shù)進(jìn)行平穩(wěn)的數(shù)倉(cāng)轉(zhuǎn)型,是企業(yè)的優(yōu)秀實(shí)踐路徑。顯然,Cloudera在長(zhǎng)期的技術(shù)和客戶(hù)服務(wù)過(guò)程中總結(jié)出了一條切實(shí)可行的實(shí)踐之道,并且在數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品、咨詢(xún)、服務(wù)、工具和人才培養(yǎng)等方面已經(jīng)得到了經(jīng)久的打磨和鍛煉,想要進(jìn)行數(shù)倉(cāng)升級(jí)來(lái)滿足全新業(yè)務(wù)需求的企業(yè),不妨一試。

附:嘉賓簡(jiǎn)介

徐峰,現(xiàn)任Cloudera售前技術(shù)經(jīng)理,資深解決方案顧問(wèn),主要負(fù)責(zé)金融行業(yè)Hadoop項(xiàng)目的整體架構(gòu)設(shè)計(jì)實(shí)施,以及關(guān)鍵技術(shù)的研究工作。在此之前徐峰曾供職于Teradata專(zhuān)業(yè)服務(wù)部門(mén),擁有14年數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目實(shí)施經(jīng)驗(yàn),長(zhǎng)期從事數(shù)據(jù)存儲(chǔ)、處理、分析等相關(guān)工作,曾作為首席架構(gòu)師參與過(guò)多個(gè)大型數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的架構(gòu)設(shè)計(jì)和項(xiàng)目規(guī)劃工作,包括浦發(fā)銀行數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目、興業(yè)銀行數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目、上海農(nóng)商銀行數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目、交通銀行數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)、東方航空數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目等等。

【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】

 

責(zé)任編輯:查士加 來(lái)源: 51CTO
相關(guān)推薦

2016-08-21 14:45:41

數(shù)據(jù)倉(cāng)庫(kù)自助型數(shù)據(jù)準(zhǔn)備工具

2016-11-09 09:59:01

大數(shù)據(jù)產(chǎn)業(yè)奪冠

2020-01-20 14:30:39

HTTP概念標(biāo)頭

2019-05-24 11:51:18

BI數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)分析

2015-12-29 13:53:14

BeeCloud云計(jì)算支付

2022-02-24 07:03:13

JavaScrip語(yǔ)言

2017-08-17 15:52:38

企業(yè)數(shù)據(jù)倉(cāng)庫(kù)

2017-10-18 12:05:40

云應(yīng)用云備份數(shù)據(jù)

2018-08-21 21:33:14

薪資職位技術(shù)

2015-01-21 15:01:32

手游開(kāi)發(fā)中小開(kāi)發(fā)者

2018-09-04 05:05:29

2015-09-16 09:21:12

移動(dòng)云技術(shù)數(shù)據(jù)管理

2015-07-09 11:32:26

AWSIaaS云計(jì)算

2014-06-19 10:31:14

團(tuán)隊(duì)項(xiàng)目

2019-09-19 11:58:19

程序員月薪跳槽

2021-09-01 10:03:44

數(shù)據(jù)倉(cāng)庫(kù)云數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)

2014-08-28 09:55:19

中文郵箱郵箱賬號(hào)

2015-06-11 10:08:57

網(wǎng)絡(luò)延遲應(yīng)用性能網(wǎng)絡(luò)監(jiān)控

2020-06-22 17:26:36

數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)數(shù)據(jù)庫(kù)

2021-05-27 11:26:46

nodesassCSS
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)