數(shù)據(jù)發(fā)現(xiàn)在數(shù)據(jù)網(wǎng)格架構(gòu)中的重要性
為什么數(shù)據(jù)發(fā)現(xiàn)很重要?
數(shù)據(jù)發(fā)現(xiàn)是一個面向業(yè)務(wù)用戶的過程,可以通過分析可視化數(shù)據(jù)并理解不同的模式。然而,訪問數(shù)據(jù)是每個數(shù)據(jù)科學(xué)家、軟件開發(fā)人員、產(chǎn)品經(jīng)理或業(yè)務(wù)分析師每天都會遇到的障礙。
無論我們是數(shù)據(jù)的生產(chǎn)者還是消費者,數(shù)據(jù)發(fā)現(xiàn)都會影響到我們所有人。要使用和分析數(shù)據(jù),我們需要訪問數(shù)據(jù),但訪問數(shù)據(jù)意味著我們需要知道在哪里存在什么,然后才能分析和操作它,這使得數(shù)據(jù)發(fā)現(xiàn)對于數(shù)據(jù)專業(yè)人員和行業(yè)查詢數(shù)據(jù)和做出明智的業(yè)務(wù)決策至關(guān)重要。
為什么是現(xiàn)在?
數(shù)據(jù)發(fā)現(xiàn)領(lǐng)域正在不斷變化;我們不能再一次設(shè)置模式目錄并多次使用它了。這種變化本質(zhì)上是由于現(xiàn)代數(shù)據(jù)棧的興起。今天,公司正在從各種不同的來源收集無數(shù)的數(shù)據(jù)。
將這些動態(tài)來源的數(shù)據(jù)連接到一個地方已經(jīng)成為一個重大挑戰(zhàn),因為使用這些數(shù)據(jù)的不再只是一個集中的數(shù)據(jù)團(tuán)隊?,F(xiàn)在,工程師、分析師、營銷和銷售團(tuán)隊以及其他職能團(tuán)隊都在使用這些數(shù)據(jù)。
數(shù)據(jù)的概念也發(fā)生了巨大的變化,從數(shù)據(jù)倉庫中的數(shù)據(jù)表,到消費端的機(jī)器學(xué)習(xí)(ML)模型、分析報告、商業(yè)智能(BI)儀表板等,以及生產(chǎn)端的倉庫和操作數(shù)據(jù)庫、api等的Postgres/Kafka上游。
此外,將集中式數(shù)據(jù)倉庫遷移到云中,已經(jīng)改變了從提取、轉(zhuǎn)換和加載(ETL)過程攝取和處理數(shù)據(jù)的方式,從而將提取、加載和轉(zhuǎn)換(ELT)過程轉(zhuǎn)換為提取、加載和轉(zhuǎn)換(ELT)過程,這給企業(yè)留下了更多的數(shù)據(jù)集。再加上數(shù)據(jù)網(wǎng)格體系結(jié)構(gòu)的分散所有權(quán)和分布式數(shù)據(jù)訪問,數(shù)據(jù)發(fā)現(xiàn)變得比以往任何時候都更加困難。
這種數(shù)據(jù)的高度專門化和穩(wěn)定增長導(dǎo)致我們不知道什么數(shù)據(jù)存在,為什么存在,以及它存在于哪里。所有這些都阻止了組織使用數(shù)據(jù),這使得現(xiàn)在解決這個問題變得更加重要。
發(fā)現(xiàn)在數(shù)據(jù)網(wǎng)格中的作用
數(shù)據(jù)網(wǎng)格的全部概念是認(rèn)識到我們?nèi)绾谓?、產(chǎn)生和消費數(shù)據(jù)是解耦的。對于解耦數(shù)據(jù),常見的問題是,如果用戶需要訪問不是他們創(chuàng)建的數(shù)據(jù)或服務(wù),他們將如何找到它并學(xué)會使用它?數(shù)據(jù)網(wǎng)格的這一部分對數(shù)據(jù)發(fā)現(xiàn)的影響最大。
數(shù)據(jù)網(wǎng)格將集中的數(shù)據(jù)劃分為數(shù)據(jù)域,允許用戶將高質(zhì)量的數(shù)據(jù)產(chǎn)品思維應(yīng)用到數(shù)據(jù)的共享上。數(shù)據(jù)發(fā)現(xiàn)本質(zhì)上是一種在數(shù)據(jù)網(wǎng)格上啟用數(shù)據(jù)和控制平面的能力,這為發(fā)現(xiàn)和標(biāo)記數(shù)據(jù)創(chuàng)造了一個更好的環(huán)境。
已經(jīng)有數(shù)據(jù)網(wǎng)格模型的公司首先需要一個數(shù)據(jù)發(fā)現(xiàn)平臺來發(fā)現(xiàn)和理解他們的數(shù)據(jù),而數(shù)據(jù)發(fā)現(xiàn)就是從數(shù)據(jù)網(wǎng)格開始的。然后,當(dāng)團(tuán)隊開始擁有自己的數(shù)據(jù)的數(shù)據(jù)將標(biāo)簽和所有權(quán),數(shù)據(jù)網(wǎng)格允許這些團(tuán)隊邀請其他用戶通過民主化對數(shù)據(jù)的訪問,同時保持完整的治理和控制真理的來源與分布式所有權(quán)的主要十字路口--這是發(fā)現(xiàn)和它在數(shù)據(jù)網(wǎng)格中的作用。
數(shù)據(jù)治理還與可見性有關(guān),它為數(shù)據(jù)團(tuán)隊提供了一個上下文,告訴他們正在進(jìn)行的工作或其他團(tuán)隊已經(jīng)做了什么,以消除重新發(fā)現(xiàn)或重新構(gòu)建一切的需要。
關(guān)于數(shù)據(jù)網(wǎng)格的問題和機(jī)遇
數(shù)據(jù)網(wǎng)格與發(fā)現(xiàn)使團(tuán)隊了解數(shù)據(jù)生產(chǎn)成為可能,因此他們不會重復(fù)做無頭工作。它避免了數(shù)據(jù)團(tuán)隊必須花費大量時間重新發(fā)現(xiàn)元數(shù)據(jù)的兩種常見場景。首先,當(dāng)企業(yè)雇傭新的專家時,這些專家具備數(shù)據(jù)驅(qū)動決策的知識,但缺乏數(shù)據(jù)背景。其次,當(dāng)一個業(yè)務(wù)單元移動到一個不同的單元一段時間后返回時,會發(fā)現(xiàn)元數(shù)據(jù)在這段時間內(nèi)完全改變了。
在任何給定的時間,組織都運行許多不同的數(shù)據(jù)模型來將數(shù)據(jù)記錄到倉庫中,并使其對用戶可用。公司的數(shù)據(jù)倉庫可能有200列和儀表板,它們與一個操作方面有關(guān)。這使得用戶幾乎不可能知道什么是唯一的真相來源。
數(shù)據(jù)網(wǎng)格中的發(fā)現(xiàn)有助于建立數(shù)據(jù)生產(chǎn)者和消費者之間的平衡,通過以下實踐使數(shù)據(jù)更容易被發(fā)現(xiàn)和更可靠:
開源激發(fā)了共享所有權(quán)
就像在開源社區(qū)一樣,數(shù)據(jù)可靠性和發(fā)現(xiàn)的所有權(quán)取決于與數(shù)據(jù)交互的每個人。數(shù)據(jù)發(fā)現(xiàn)失敗的主要原因是數(shù)據(jù)沒有足夠的文檔供用戶獲取值。這種來自開源方法的共同責(zé)任感激勵用戶解決他們發(fā)現(xiàn)的數(shù)據(jù)問題,從而為其他人省去麻煩。
自動化洞察力的集成
數(shù)據(jù)文檔對于更好的發(fā)現(xiàn)至關(guān)重要,特別是對于產(chǎn)品的生產(chǎn)者來說,但與此同時,它只會創(chuàng)建更多的數(shù)據(jù)表。我們需要的是自動化來提取現(xiàn)有的、可操作的元數(shù)據(jù),以增強(qiáng)發(fā)現(xiàn)透視圖。用戶可以使用自動化的洞察力來培養(yǎng)更好的文檔,并創(chuàng)建傳承來傳播不同的信息。
簡化用戶體驗
理解如何以及在何處使用數(shù)據(jù)來簡化用戶體驗是很重要的。比如,這些數(shù)據(jù)主要用于銷售報告,還是用于產(chǎn)品分析?一旦數(shù)據(jù)分析團(tuán)隊或業(yè)務(wù)智能團(tuán)隊可以定義如何查看數(shù)據(jù)分類的結(jié)構(gòu),其他人就可以貢獻(xiàn)和維護(hù)該協(xié)議。簡化的用戶體驗可以幫助文檔化過程,或者促進(jìn)最初的文檔化工作,這些工作通常在數(shù)據(jù)發(fā)現(xiàn)時也需要進(jìn)行。
將數(shù)據(jù)視為代碼
在數(shù)據(jù)網(wǎng)格社區(qū)中,將數(shù)據(jù)和元數(shù)據(jù)視為代碼是很常見的。當(dāng)我們創(chuàng)建數(shù)據(jù)產(chǎn)品時,應(yīng)該有使其有效的規(guī)則/文檔,這些規(guī)則應(yīng)該作為構(gòu)建的系統(tǒng)的一部分應(yīng)用。它需要有文檔,包括合規(guī)標(biāo)簽、自動身份檢查等。這些集成到數(shù)據(jù)發(fā)現(xiàn)平臺中的系統(tǒng)大大降低了產(chǎn)生壞數(shù)據(jù)的可能性。
以代碼為中心的發(fā)現(xiàn)
為了實現(xiàn)有效的數(shù)據(jù)治理(這通常會導(dǎo)致數(shù)據(jù)遵從性),數(shù)據(jù)發(fā)現(xiàn)應(yīng)該以用戶和代碼為中心。它必須具有編程抽象,其中用戶的數(shù)據(jù)發(fā)現(xiàn)抽象也適用于代碼的數(shù)據(jù)發(fā)現(xiàn),例如,特性或模型注冊表。它們都需要后端,能夠在運行時可靠地處理相關(guān)查詢,這樣用戶就可以在運行時應(yīng)用正確的策略,而不是將數(shù)據(jù)還原。