AI如何影響數(shù)據(jù)治理
與其他因素相比,可訪問數(shù)據(jù)的過量推動了當(dāng)前AI采用和GenAI能力的激增。收集、清洗、企業(yè)和保護(hù)這些數(shù)據(jù)以供AI和機(jī)器學(xué)習(xí)使用已成為一項獨立的項目——在這個治理工作中,AI工具本身也扮演著重要角色。結(jié)果是,數(shù)據(jù)治理得到極大改善,惠及整個企業(yè)。
數(shù)據(jù)庫仍然是數(shù)據(jù)的基礎(chǔ)存儲庫,但AI驅(qū)動的數(shù)據(jù)治理工具的生態(tài)系統(tǒng)遍布各地,包括來自初創(chuàng)公司的產(chǎn)品,這些初創(chuàng)公司可能缺乏持久力或深厚的數(shù)據(jù)庫專業(yè)知識。隨著時間的推移,越來越多的治理能力可能會與數(shù)據(jù)庫軟件產(chǎn)品和云數(shù)據(jù)庫服務(wù)集成。
使用AI自動化數(shù)據(jù)治理會立即帶來回報。企業(yè)數(shù)據(jù)治理越好,其MLOps(機(jī)器學(xué)習(xí)運(yùn)營)人員就越能利用這些數(shù)據(jù)構(gòu)建AI驅(qū)動的應(yīng)用程序。更廣泛地說,向數(shù)據(jù)治理中添加AI對任何企業(yè)的數(shù)據(jù)分析、合規(guī)性和數(shù)據(jù)質(zhì)量工作都有積極影響。
以下是AI如何使治理流程現(xiàn)代化,以及AI增強(qiáng)工具如何確保AI/ML應(yīng)用程序和一般數(shù)據(jù)處理成功的方式。
數(shù)據(jù)目錄
你知道你的數(shù)據(jù)在哪里嗎?為了讓治理工作有效,企業(yè)需要對所有相關(guān)數(shù)據(jù)存儲進(jìn)行全面的清查,并了解其內(nèi)容。由于云數(shù)據(jù)存儲的無序激增,再加上用于識別運(yùn)營趨勢和異常的半結(jié)構(gòu)化日志,識別、訪問和分類企業(yè)數(shù)據(jù)的任務(wù)變得越來越艱巨。數(shù)據(jù)目錄軟件將所有這些存儲庫映射出來。
AI可以幫助企業(yè)數(shù)據(jù)目錄的每個階段,從自動發(fā)現(xiàn)企業(yè)相關(guān)的每個數(shù)據(jù)存儲開始。目錄工具的范圍各不相同,但有些工具使用AI來企業(yè)訪問控制策略和/或在企業(yè)的數(shù)據(jù)結(jié)構(gòu)中啟用自然語言搜索。AI驅(qū)動的數(shù)據(jù)目錄大大減少了與分類數(shù)據(jù)資產(chǎn)相關(guān)的手工勞動,并揭示了數(shù)據(jù)譜系,顯示數(shù)據(jù)的來源及其變化。
元數(shù)據(jù)管理
有效的元數(shù)據(jù)管理,即管理描述公司數(shù)據(jù)的信息,是成功治理的基礎(chǔ)。AI目錄工具可以識別元數(shù)據(jù),以正確分類數(shù)據(jù)資產(chǎn),但元數(shù)據(jù)管理對健康的數(shù)據(jù)資產(chǎn)也至關(guān)重要。因此,從數(shù)據(jù)集成軟件到數(shù)據(jù)可觀察性平臺的一系列產(chǎn)品現(xiàn)在都提供元數(shù)據(jù)管理功能。
AI注入的元數(shù)據(jù)管理工具緩解了手動數(shù)據(jù)分類的乏味工作,并幫助調(diào)和元數(shù)據(jù)描述中的差異。過去,企業(yè)一直認(rèn)為元數(shù)據(jù)是相對靜態(tài)的,但如今,AI工具可以持續(xù)監(jiān)控和收集關(guān)于數(shù)據(jù)存儲、使用和流動的動態(tài)元數(shù)據(jù)。除了其他好處外,深層次的元數(shù)據(jù)可用于AI推薦最佳存儲平臺,甚至建議潛在的數(shù)據(jù)集成管道。
數(shù)據(jù)質(zhì)量
AI對數(shù)據(jù)治理的最大影響體現(xiàn)在數(shù)據(jù)質(zhì)量上,數(shù)據(jù)質(zhì)量有六個維度:準(zhǔn)確性、完整性、一致性、唯一性、及時性和有效性。顯然,缺乏這些質(zhì)量的數(shù)據(jù)會對操作造成災(zāi)難性后果。更不用說,數(shù)據(jù)科學(xué)家和分析師通常在使用數(shù)據(jù)之前就深陷清洗數(shù)據(jù)的困境。
AI/ML 工具可以自動推斷缺失值、規(guī)范化數(shù)據(jù)格式、標(biāo)記數(shù)據(jù)異常等功能。盡管人類仍然需要做出判斷(例如兩個名字相同的客戶是同一個人還是不同人),但總體上節(jié)省的時間可以是巨大的。隨著 AI 工具從大量數(shù)據(jù)中學(xué)習(xí)模式,它們的推薦、關(guān)聯(lián)和校正能力將不斷提升,這些基線可以用于實時監(jiān)控數(shù)據(jù)質(zhì)量。
數(shù)據(jù)建模
構(gòu)建數(shù)據(jù)庫或整個數(shù)據(jù)架構(gòu)從收集和分析數(shù)據(jù)需求開始,并開發(fā)適應(yīng)這些需求的邏輯和物理模型。幾種產(chǎn)品提供使用 AI 讓數(shù)據(jù)架構(gòu)師和工程師輕松生成數(shù)據(jù)模型的可視化表示。
如今,在許多企業(yè)中,數(shù)據(jù)建模正在被顛覆,以服務(wù)于 AI/ML 應(yīng)用。許多 AI 數(shù)據(jù)工具提供自動特征工程,從數(shù)據(jù)集中提取關(guān)鍵數(shù)據(jù)特征,為 AI 訓(xùn)練做準(zhǔn)備。結(jié)合 AutoML(自動化機(jī)器學(xué)習(xí)),這種活動反過來支持不同類型的模型選擇:選擇合適的 ML 模型來驅(qū)動應(yīng)用程序或支持預(yù)測分析。如果數(shù)據(jù)不足以適當(dāng)訓(xùn)練模型,AI 驅(qū)動的數(shù)據(jù)模擬工具可以從現(xiàn)有數(shù)據(jù)存儲中提取數(shù)據(jù)并生成類似真實數(shù)據(jù)的合成數(shù)據(jù)。
數(shù)據(jù)政策和生命周期管理
每個企業(yè)都需要圍繞數(shù)據(jù)處理建立政策,這些政策由聯(lián)邦、州、行業(yè)和國際法規(guī)以及內(nèi)部業(yè)務(wù)規(guī)則指導(dǎo)。在大型企業(yè)中,數(shù)據(jù)治理委員會制定這些政策,并在一個活文件中指定如何遵循這些政策,該文件隨著法規(guī)和程序的變化而演變。GenAI 的自然語言能力可以生成該文檔的初稿,并使隨后的更改更容易處理。
通過分析數(shù)據(jù)使用模式、法規(guī)要求和內(nèi)部工作流程,AI 可以幫助企業(yè)定義和執(zhí)行數(shù)據(jù)保留政策,并自動識別已達(dá)到使用壽命的數(shù)據(jù)。AI 甚至可以啟動歸檔或刪除過程。除了減少風(fēng)險和確保合規(guī)性,自動數(shù)據(jù)歸檔還可以釋放存儲空間并降低存儲成本。
數(shù)據(jù)可用性
AI 驅(qū)動的災(zāi)難恢復(fù)系統(tǒng)可以通過預(yù)測潛在的故障場景并建立預(yù)防措施來幫助企業(yè)制定可靠的恢復(fù)策略,以最大限度地減少停機(jī)時間和數(shù)據(jù)丟失。注入 AI 的備份系統(tǒng)可以確保備份的完整性,并在災(zāi)難發(fā)生時自動啟動恢復(fù)程序,以恢復(fù)丟失或損壞的數(shù)據(jù)。
注入 AI 的存儲管理系統(tǒng)可以復(fù)制和分發(fā)數(shù)據(jù)到多個存儲位置,以確保高可用性和低延遲。同時,AI 驅(qū)動的預(yù)測分析可以從傳感器、設(shè)備日志和歷史維護(hù)記錄中攝取數(shù)據(jù),以預(yù)測潛在的故障或停機(jī)。預(yù)測性維護(hù)是防止數(shù)據(jù)可用性喪失的最佳措施。
仍然需要人類
AI 對數(shù)據(jù)治理有許多易于實現(xiàn)的任務(wù)。許多與治理相關(guān)的任務(wù),從數(shù)據(jù)發(fā)現(xiàn)到數(shù)據(jù)清理再到政策管理,都充滿了 AI 可以輕松處理的重復(fù)手動任務(wù)——并且完成的準(zhǔn)確性比人類更高,這是一個巨大的勝利,尤其是在 MLOps 尋求清晰、企業(yè)良好的數(shù)據(jù)存儲以構(gòu)建和訓(xùn)練 AI 應(yīng)用程序時。
但請記住,AI 并不具備任何有意義的智能。即使是解決輕微的數(shù)據(jù)差異,也可能需要廣泛經(jīng)驗所帶來的背景知識,這是只有人類才能獲得和理解的。沒有人會把創(chuàng)建企業(yè)數(shù)據(jù)架構(gòu)的任務(wù)交給機(jī)器。是的,AI 已經(jīng)從數(shù)據(jù)治理中消除了大量手動勞動,但它不會替你思考。