阿里數(shù)據(jù)治理進(jìn)化論:基于瓴羊Dataphin的多引擎兼容與統(tǒng)一資產(chǎn)消費(fèi)實(shí)踐
隨著十四五“數(shù)字中國(guó)”規(guī)劃的不斷深入,我國(guó)企業(yè)對(duì)數(shù)據(jù)治理和數(shù)據(jù)資產(chǎn)建設(shè)的廣闊需求依然亟待激活。不過(guò),由于數(shù)據(jù)分析領(lǐng)域長(zhǎng)期處于高速發(fā)展階段,加上國(guó)內(nèi)參差不齊的供給現(xiàn)狀,“看不懂”、“跟不上”、“學(xué)不會(huì)”、“用不起”仍是大多數(shù)企業(yè)的真實(shí)感受。
從ELT、Data Fabric、Semantic Layer、DataOps,再到Lakehouse和流批一體,近幾年,全球數(shù)據(jù)分析領(lǐng)域的“熱詞”層出不窮、令人目不暇接。行業(yè)發(fā)展脈絡(luò)存在共性,細(xì)究其中,可以提煉出三大主題:統(tǒng)一的基礎(chǔ)設(shè)施、統(tǒng)一的中間層、統(tǒng)一的數(shù)據(jù)資產(chǎn)。
瓴羊「數(shù)據(jù)薈」數(shù)據(jù)Meet Up 第3站線上開(kāi)講,來(lái)自中國(guó)信通院、瓴羊與企業(yè)大數(shù)據(jù)團(tuán)隊(duì)的多位技術(shù)專(zhuān)家齊聚一堂,共話大模型時(shí)代的數(shù)據(jù)治理創(chuàng)新實(shí)踐。阿里云智能集團(tuán)瓴羊高級(jí)技術(shù)專(zhuān)家江嵐以Dataphin為例,從多引擎兼容、混合云架構(gòu)、統(tǒng)一資產(chǎn)消費(fèi)的應(yīng)對(duì)策略,分享了“開(kāi)放、兼容的數(shù)據(jù)建設(shè)與治理平臺(tái)”的技術(shù)架構(gòu)與實(shí)踐路徑。
作為阿里巴巴全資子公司瓴羊的代表產(chǎn)品,Dataphin長(zhǎng)期專(zhuān)注于數(shù)據(jù)治理環(huán)節(jié),通過(guò)運(yùn)用阿里巴巴“OneData”方法論,持續(xù)打造統(tǒng)一的數(shù)據(jù)基建、高質(zhì)量的數(shù)據(jù)資產(chǎn)。近日,瓴羊Dataphin宣布全新功能升級(jí),推出Dataphin敏捷版、半托管及DataAgent智能體,以更普惠、可擴(kuò)展性和開(kāi)放性的架構(gòu)更新,為廣大企業(yè)“建好數(shù)據(jù)”、“用好數(shù)據(jù)”打好基礎(chǔ)。分析人士認(rèn)為,瓴羊Dataphin的本輪升級(jí),是其一次意義重大的變化,反映了能力架構(gòu)、底層技術(shù)的全面演進(jìn)。
一、從混合云架構(gòu)到安全管控,企業(yè)數(shù)據(jù)治理面臨哪些挑戰(zhàn)?
瓴羊,脫胎于阿里巴巴這座“超級(jí)工廠”的數(shù)字化實(shí)踐,旨在將內(nèi)部經(jīng)驗(yàn)系統(tǒng)化、產(chǎn)品化地向千行百業(yè)進(jìn)行輸出。作為瓴羊旗下的智能數(shù)據(jù)建設(shè)與治理工具,Dataphin能夠提供一站式的采、建、管、用的大數(shù)據(jù)能力,涵蓋企業(yè)數(shù)據(jù)資產(chǎn)的建設(shè)、治理、消費(fèi)等不同環(huán)節(jié)。自2018年上線以來(lái),瓴羊Dataphin已服務(wù)了百余家客戶(hù),覆蓋了餐飲、通信、乳品、汽車(chē)等多個(gè)行業(yè)。
以往,用戶(hù)在使用Dataphin時(shí),首要任務(wù)是配置集成管道,將業(yè)務(wù)庫(kù)數(shù)據(jù)同步至數(shù)據(jù)庫(kù),并通過(guò)代碼研發(fā)、規(guī)范建模等多種方式對(duì)數(shù)據(jù)進(jìn)行加工處理。加工后的數(shù)據(jù)或通過(guò)集成管道任務(wù)回流至用戶(hù)生產(chǎn)庫(kù),或通過(guò)配置數(shù)據(jù)服務(wù)API供下游系統(tǒng)使用。
在服務(wù)合作伙伴的過(guò)程中,瓴羊Dataphin發(fā)現(xiàn),由于部署環(huán)境、引擎類(lèi)型、治理目標(biāo)等方面的差異,企業(yè)數(shù)據(jù)治理的需求變得越發(fā)精細(xì)和復(fù)雜,給平臺(tái)既有的功能提出了諸多挑戰(zhàn)。
一方面,許多企業(yè)迫切需要打通整個(gè)數(shù)據(jù)生產(chǎn)消費(fèi)鏈路,不只限于傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)環(huán)節(jié),而是實(shí)現(xiàn)全域的數(shù)據(jù)資產(chǎn)治理。另一方面,不少企業(yè)的數(shù)據(jù)資產(chǎn)不再處于單一云環(huán)境,而是既涉及公共云、也涉及線下IDC機(jī)房,因而需要支持混合云架構(gòu)的數(shù)據(jù)治理工具。同時(shí),不少企業(yè)開(kāi)展信創(chuàng)工作,眾多國(guó)產(chǎn)化的引擎確實(shí)給兼容適配帶來(lái)了不小的挑戰(zhàn)。
因此,本輪產(chǎn)品升級(jí)的背后,是瓴羊Dataphin圍繞數(shù)據(jù)治理的一線場(chǎng)景需求,通過(guò)持續(xù)的研發(fā)投入和自我迭代,實(shí)現(xiàn)了“多引擎適配”、“混合云統(tǒng)一調(diào)度”、“統(tǒng)一消費(fèi)出口”三個(gè)層面的全新升級(jí),從而與諸多企業(yè)伙伴共同進(jìn)步,更好順應(yīng)“統(tǒng)一基建”、“全域治理”的行業(yè)發(fā)展趨勢(shì)。
二、從多引擎兼容到統(tǒng)一資產(chǎn)消費(fèi),Dataphin的成果與經(jīng)驗(yàn)
企業(yè)所使用的引擎各不相同,如果沒(méi)有一個(gè)設(shè)計(jì)良好的多引擎中間件,就有可能帶來(lái)重復(fù)的引擎對(duì)接成本,乃至潛在的類(lèi)沖突和處理邏輯不一致的風(fēng)險(xiǎn)。如何適配數(shù)據(jù)庫(kù)產(chǎn)業(yè)生態(tài)現(xiàn)存的眾多引擎,是擺在瓴羊Dataphin面前的第一項(xiàng)難題。
目前,多引擎適配模式存在富客戶(hù)端、輕客戶(hù)端兩種模式。富客戶(hù)端直接對(duì)接引擎,網(wǎng)絡(luò)開(kāi)銷(xiāo)少,且無(wú)單點(diǎn)瓶頸的風(fēng)險(xiǎn);輕客戶(hù)端壓力小,無(wú)類(lèi)沖突風(fēng)險(xiǎn),且服務(wù)端可實(shí)現(xiàn)統(tǒng)一版本管理。
瓴羊Dataphin結(jié)合富/輕客戶(hù)端兩者優(yōu)勢(shì),通過(guò)“多引擎SDK+插件”的模式,提煉出了SQL、File、Schema三大API接口,每種插件相互獨(dú)立的同時(shí),還增設(shè)了類(lèi)隔離的機(jī)制,確保多引擎的處理邏輯對(duì)業(yè)務(wù)代碼沒(méi)有侵入,最終通過(guò)JAR包的合并,有效減少了部署資源。截至目前,瓴羊Dataphin不僅支持公共云多租戶(hù)、獨(dú)立部署、私有云部署等環(huán)境,還實(shí)現(xiàn)了對(duì)MaxCompute、EMR、CDH等十余種主流大數(shù)據(jù)計(jì)算引擎的適配,通過(guò)插件化模式,也降低了后續(xù)新引擎的兼容成本。
混合云架構(gòu)方面的挑戰(zhàn)則更加復(fù)雜:有的企業(yè)出于信息安全性考慮,部分業(yè)務(wù)只能存于線下IDC機(jī)房,同時(shí)擁有公共云和私有云環(huán)境,導(dǎo)致管理和運(yùn)維的難度大大增加。
為此,瓴羊Dataphin采用了外部調(diào)度集群技術(shù)可以同時(shí)管理多個(gè)Kubernetes集群的資源,由調(diào)度模塊負(fù)責(zé)在指定的集群上拉取任務(wù)配置并調(diào)起任務(wù)。這一設(shè)計(jì)使得平臺(tái)能夠高效地在混合云環(huán)境中調(diào)度和執(zhí)行數(shù)據(jù)任務(wù),有效避免跨網(wǎng)絡(luò)的訪問(wèn)限制,并大大提升集成性能。
具體而言,在數(shù)據(jù)集成場(chǎng)景,瓴羊Dataphin實(shí)現(xiàn)了一套集群對(duì)多個(gè)云環(huán)境的調(diào)度,僅任務(wù)調(diào)度需要跨網(wǎng)絡(luò),而數(shù)據(jù)本身無(wú)需經(jīng)過(guò)專(zhuān)線網(wǎng)絡(luò)傳輸,降低了跨網(wǎng)絡(luò)傳輸?shù)某杀竞蛷?fù)雜性。而在資產(chǎn)采集場(chǎng)景,平臺(tái)通過(guò)配置元數(shù)據(jù)采集任務(wù),手動(dòng)或周期性地運(yùn)行采集任務(wù),將采集到的資產(chǎn)元數(shù)據(jù)寫(xiě)入存儲(chǔ),以供后續(xù)的數(shù)據(jù)消費(fèi)鏈路使用。此外,瓴羊Dataphin通過(guò)于外部集群中拉起的數(shù)據(jù)服務(wù)常駐容器,確保了數(shù)據(jù)服務(wù)場(chǎng)景的靈活性、安全性和隱私性。
在數(shù)據(jù)資產(chǎn)消費(fèi)時(shí),企業(yè)常常面臨著資產(chǎn)分散、權(quán)限管理不一致、使用鏈路長(zhǎng)等問(wèn)題。為了實(shí)現(xiàn)統(tǒng)一的資產(chǎn)消費(fèi),瓴羊Dataphin提供了標(biāo)準(zhǔn)的JDBC接口,通過(guò)多引擎插件對(duì)接底層數(shù)據(jù)庫(kù),打造了唯一的消費(fèi)出口,實(shí)現(xiàn)了對(duì)底層數(shù)據(jù)的統(tǒng)一訪問(wèn)。
更值得注意的是,Dataphin還實(shí)現(xiàn)了瓴羊旗下BI工具——QuickBI的無(wú)縫對(duì)接,資產(chǎn)消費(fèi)可以自動(dòng)創(chuàng)建QuickBI的數(shù)據(jù)源以及數(shù)據(jù)集,并且減少用戶(hù)查看數(shù)據(jù)的操作成本。
目前,Dataphin提供了豐富的資產(chǎn)消費(fèi)方式,不論是自助取數(shù)、數(shù)據(jù)探查還是接口調(diào)用,企業(yè)無(wú)需復(fù)雜處理鏈路,即可輕松實(shí)現(xiàn)數(shù)據(jù)分析和可視化展示。
三、從全域資產(chǎn)運(yùn)營(yíng)到AI+,數(shù)據(jù)資產(chǎn)運(yùn)營(yíng)將去向何方?
在企業(yè)數(shù)字化浪潮中,有越來(lái)越多企業(yè)通過(guò)瓴羊Dataphin,實(shí)現(xiàn)了數(shù)據(jù)資產(chǎn)的采、建、管、用,在數(shù)據(jù)洞察力提升的同時(shí),也挖掘出了隱藏在資產(chǎn)之中的價(jià)值。
相較以前,如今的瓴羊Dataphin功能架構(gòu)得到了多重升級(jí),不僅引擎兼容性增強(qiáng),支持多種類(lèi)型的數(shù)據(jù)源,還豐富了資產(chǎn)消費(fèi)的形式,此外,瓴羊Dataphin還新增支持了混合云的部署模式和公共云半托管模式,能讓企業(yè)以最小的成本實(shí)現(xiàn)復(fù)雜網(wǎng)絡(luò)環(huán)境下的部署,由此,平臺(tái)的覆蓋范圍不再局限于數(shù)據(jù)倉(cāng)庫(kù),而是朝著實(shí)現(xiàn)全域資產(chǎn)運(yùn)營(yíng)的目標(biāo)邁進(jìn)。
在未來(lái),瓴羊Dataphin將持續(xù)深化采、建、管、用的一體化平臺(tái)定位,沿著數(shù)據(jù)資產(chǎn)建設(shè)-治理-消費(fèi)的路徑不斷完善。在建設(shè)方面,平臺(tái)將對(duì)接更多種類(lèi)的引擎、支持更大規(guī)模的統(tǒng)一調(diào)度和運(yùn)維,還將上線拖拽式標(biāo)簽工廠等;在治理方面,平臺(tái)將打造統(tǒng)一的元數(shù)據(jù)中心,讓企業(yè)的數(shù)據(jù)資產(chǎn)“標(biāo)準(zhǔn)可循、質(zhì)量可靠、安全可控、成本經(jīng)濟(jì)”;在消費(fèi)方面,瓴羊Dataphin已經(jīng)推出資產(chǎn)目錄管理、資產(chǎn)搜索及查看等運(yùn)營(yíng)功能,未來(lái)還將上線資產(chǎn)門(mén)戶(hù)、質(zhì)量報(bào)告等。
隨著大模型時(shí)代到來(lái),瓴羊Dataphin也將積極擁抱AI技術(shù),探索“數(shù)智結(jié)合”的資產(chǎn)運(yùn)營(yíng)手段。比如,在智能問(wèn)數(shù)的幫助下,用戶(hù)無(wú)需技術(shù)背景即可問(wèn)詢(xún)需要的數(shù)據(jù),極大地降低了數(shù)據(jù)分析的門(mén)檻;通過(guò)智能特征識(shí)別、智能分類(lèi)分級(jí)等手段,提高資產(chǎn)質(zhì)量和生產(chǎn)效率。
在產(chǎn)業(yè)、政策、技術(shù)等多種因素的影響下,我國(guó)的數(shù)據(jù)治理領(lǐng)域仍然方興未艾,如何在高速變化的外部環(huán)境下,為不同企業(yè)提供個(gè)性、易用、專(zhuān)業(yè)、安全的治理體驗(yàn),仍然是橫亙?cè)诋a(chǎn)業(yè)各方面前的重要課題。未來(lái),依托阿里巴巴數(shù)字化轉(zhuǎn)型經(jīng)驗(yàn),瓴羊Dataphin有望以持續(xù)的迭代和演進(jìn),為企業(yè)打造全生命周期的數(shù)據(jù)資產(chǎn)解決方案,幫助千行百業(yè)“建好數(shù)據(jù)”、“用好數(shù)據(jù)”。