通過(guò)數(shù)據(jù)目錄集中數(shù)據(jù)治理
在最近與Tredence數(shù)據(jù)工程和治理經(jīng)理Elliot Huebler的一次交談中,我們深入探討了錯(cuò)綜復(fù)雜的數(shù)據(jù)治理世界,以及數(shù)據(jù)編目如何在集中和簡(jiǎn)化這些工作方面發(fā)揮關(guān)鍵作用。
Huebler在密歇根大學(xué)的銀河演化天體物理學(xué)專業(yè)背景下帶來(lái)了豐富的經(jīng)驗(yàn),他揭示了企業(yè)所面臨的挑戰(zhàn),以及Tredence為克服這些挑戰(zhàn)而采用的創(chuàng)新解決方案。他說(shuō):“我喜歡治理和編目,因?yàn)樗侨祟惡蛿?shù)據(jù)的交叉點(diǎn)?!?/p>
Huebler為Tredence的歷程提供了見(jiàn)解,強(qiáng)調(diào)了他們從一家AI、ML解決方案公司到專注于數(shù)據(jù)工程的演變。Huebler非常強(qiáng)調(diào)數(shù)據(jù)治理,描述了構(gòu)成有效治理的各種支柱,從數(shù)據(jù)編目到數(shù)據(jù)質(zhì)量、譜系、主數(shù)據(jù)管理、安全、隱私政策和組織結(jié)構(gòu)。
數(shù)據(jù)目錄在治理中的作用
正如Huebler解釋的那樣,數(shù)據(jù)編目成為Tredence首批治理項(xiàng)目之一。Tredence認(rèn)識(shí)到跨不同支柱實(shí)施各種利基解決方案的復(fù)雜性,確定了集中化方法的必要性。
數(shù)據(jù)目錄不僅是為數(shù)據(jù)民主化設(shè)計(jì)的工具,也是為集中治理舉措而設(shè)計(jì)的工具,成為他們戰(zhàn)略中的關(guān)鍵參與者?!皵?shù)據(jù)編目、數(shù)據(jù)質(zhì)量、數(shù)據(jù)譜系、主數(shù)據(jù)管理、安全、隱私政策都是數(shù)據(jù)治理的支柱,”他說(shuō),“我們需要一個(gè)利基和集中化的解決方案來(lái)解決所有這些問(wèn)題?!?/p>
Huebler承認(rèn)治理需求的多樣性,概述了Tredence用于不同治理支柱的多種工具。他解釋說(shuō):“從Alation、ColLibra和Microsoft Perview等數(shù)據(jù)目錄工具,到Databricks的統(tǒng)一目錄等企業(yè)數(shù)據(jù)目錄,前景是廣闊的。”用于數(shù)據(jù)質(zhì)量、安全性和主數(shù)據(jù)管理的定制解決方案和供應(yīng)商工具在他們的方法中也發(fā)揮著關(guān)鍵作用。
Huebler詳細(xì)介紹了Tredence構(gòu)建定制數(shù)據(jù)目錄的方法。他說(shuō):“通過(guò)從小規(guī)模開(kāi)始并專注于特定的用例或領(lǐng)域,我們創(chuàng)建了一個(gè)強(qiáng)大的數(shù)據(jù)用戶之旅,整合了數(shù)據(jù)質(zhì)量檢查、譜系和其他相關(guān)元數(shù)據(jù)?!边@一迭代過(guò)程使他們能夠展示定制目錄的整體價(jià)值,為進(jìn)一步擴(kuò)大規(guī)模鋪平道路。
通過(guò)數(shù)據(jù)目錄提高可訪問(wèn)性和透明度
在將數(shù)據(jù)目錄與圖書(shū)館的杜威十進(jìn)制系統(tǒng)進(jìn)行比較時(shí),Huebler強(qiáng)調(diào)了目錄在使數(shù)據(jù)易于導(dǎo)航方面的基礎(chǔ)作用?!皵?shù)據(jù)目錄的好處之一就是它,它幾乎從來(lái)沒(méi)有真正查看過(guò)數(shù)據(jù),它只是在查看元數(shù)據(jù)?!盚uebler說(shuō)。以元數(shù)據(jù)為中心的方法確保了可擴(kuò)展性和適應(yīng)性,使目錄能夠自動(dòng)獲取更改和添加內(nèi)容,而不會(huì)影響數(shù)據(jù)質(zhì)量或安全性。
在安全方面,Huebler澄清說(shuō),雖然數(shù)據(jù)目錄側(cè)重于元數(shù)據(jù),但分析實(shí)際數(shù)據(jù)的工具或解決方案對(duì)于評(píng)估和改進(jìn)數(shù)據(jù)質(zhì)量和安全性是必要的,然而,目錄可以捕捉和顯示這些評(píng)估的結(jié)果,有助于全面的治理概述。
對(duì)于可伸縮性,Huebler說(shuō)“如果要添加新的表,就必須刪除舊的表。它會(huì)自動(dòng)拾取這些資產(chǎn),掃描它們,然后一旦掃描,你就會(huì)在目錄中獲得該資產(chǎn)的頁(yè)面。目錄中的那一頁(yè)有一系列不同的字段,你可以填寫有關(guān)元數(shù)據(jù)的信息,而這些字段可能就是對(duì)表格的描述?!?/p>
Huebler還表示,Tredence正在試驗(yàn)大量的生成性人工智能能力,如LLMS,以使數(shù)據(jù)目錄更容易,更具互動(dòng)性,這將在客戶中推動(dòng)更多的采用。
數(shù)據(jù)目錄采用面臨的挑戰(zhàn)和解決方案
Huebler解釋說(shuō):“我們看到的最常見(jiàn)的事情之一就是用戶對(duì)目錄不感興趣?!盩redence的客戶面臨的一個(gè)共同挑戰(zhàn)是采用數(shù)據(jù)目錄。Huebler認(rèn)為,缺乏用戶參與度是一個(gè)重大障礙,他將其歸因于帶寬限制、缺乏高管贊助以及人們認(rèn)為缺乏價(jià)值等因素。
為了解決這一問(wèn)題,Tredence采用了創(chuàng)造性的策略,包括管理競(jìng)賽和游戲化的方法,使數(shù)據(jù)體驗(yàn)變得愉快和有價(jià)值?!拔覀冎谱髁艘淮蠖巡牧虾脱菔荆皇菫榱苏嬲龑⑽覀兊某h在整個(gè)企業(yè)中社會(huì)化。希望我們能看到這會(huì)帶來(lái)更高水平的管理參與度?!?/p>
有了數(shù)據(jù)目錄,你就可以在它的基礎(chǔ)上建立一層可視化?!澳憧梢垣@得目錄和Power BI儀表板的用戶群參與,以及目錄管理過(guò)程的進(jìn)度。因此,對(duì)于基于用戶的參與度,我們希望追究管理人員的責(zé)任?!?/p>
Tredence剛剛花了三個(gè)月的時(shí)間將20名用戶添加到目錄中?!斑@很可能是因?yàn)槲覀兊木W(wǎng)絡(luò)研討會(huì),還有另一個(gè)監(jiān)測(cè)因素,那就是目錄管理的進(jìn)展,”他補(bǔ)充道。除了用戶基礎(chǔ),Tredence還希望衡量我們治理目標(biāo)的成功程度,為此,公司正在研究新的方法。
Huebler強(qiáng)調(diào)了高管買入對(duì)推動(dòng)采用率的重要性,并強(qiáng)調(diào)了監(jiān)控工具的必要性。成功的衡量標(biāo)準(zhǔn)包括用戶參與度、內(nèi)容增長(zhǎng)和實(shí)現(xiàn)治理目標(biāo)的進(jìn)展。展望未來(lái),Huebler設(shè)想數(shù)據(jù)目錄將演變?yōu)榫哂懈嘀卫砉δ?,并預(yù)計(jì)人工智能領(lǐng)域?qū)⒊霈F(xiàn)令人興奮的發(fā)展,特別是在語(yǔ)言模型領(lǐng)域,使數(shù)據(jù)交互更加直觀和用戶友好。