最近想到了數(shù)據(jù)治理,所以我決定通過輸入提示來查詢ChatGPT:“什么是數(shù)據(jù)治理?” AI 回應(yīng)道:“數(shù)據(jù)治理是一組流程、政策、標(biāo)準(zhǔn)和指南,可確保數(shù)據(jù)在組織內(nèi)得到正確管理、保護(hù)和利用?!边@是一個(gè)好的開始,目前關(guān)于數(shù)據(jù)治理及其意義還有很多話要說。
生成人工智能時(shí)代的數(shù)據(jù)治理
數(shù)據(jù)治理涵蓋一系列學(xué)科,包括數(shù)據(jù)安全、管理、質(zhì)量和編目。該實(shí)踐需要定義使用策略、創(chuàng)建主數(shù)據(jù)源、分析數(shù)據(jù)集、記錄字典以及監(jiān)督數(shù)據(jù)生命周期。組織模型通常定義促進(jìn)戰(zhàn)略的首席數(shù)據(jù)官、制定數(shù)據(jù)集策略的數(shù)據(jù)所有者以及負(fù)責(zé)提高數(shù)據(jù)質(zhì)量的數(shù)據(jù)管理員的角色。
Precisely首席技術(shù)官 Tendü Yogurt?u 博士表示:“數(shù)據(jù)治理是數(shù)據(jù)完整性的關(guān)鍵要素,它使組織能夠輕松查找、理解和利用關(guān)鍵數(shù)據(jù),從而實(shí)現(xiàn)準(zhǔn)確的報(bào)告和明智的決策。” “它提供了對(duì)數(shù)據(jù)含義、沿襲和影響的理解,因此企業(yè)可以保持合規(guī)性,并確保人工智能模型由值得信賴的數(shù)據(jù)提供支持,以獲得可靠的結(jié)果?!?/span>
Yogurt?u 表示,數(shù)據(jù)治理曾經(jīng)是一項(xiàng)專注于合規(guī)性的技術(shù)事業(yè)。 “隨著人工智能使用得越來越多,數(shù)據(jù)已成為最重要的企業(yè)資產(chǎn),數(shù)據(jù)治理應(yīng)該成為企業(yè)范圍內(nèi)的優(yōu)先事項(xiàng),”她說。
對(duì)于許多嘗試 genAI 或使用大型語言模型(LLM) 構(gòu)建應(yīng)用程序的組織來說,存在更大的數(shù)據(jù)治理責(zé)任,并且員工使用人工智能工具的方式帶來了更多風(fēng)險(xiǎn)以及非結(jié)構(gòu)化數(shù)據(jù)的新范圍。我咨詢了幾位專家,了解數(shù)據(jù)治理必須如何發(fā)展才能滿足生成人工智能工具和功能固有的機(jī)遇和風(fēng)險(xiǎn)。
發(fā)展 genAI 數(shù)據(jù)治理的 4 種方法
1.審查 genAI 工具和LLM中使用的數(shù)據(jù)政策
數(shù)據(jù)治理部門負(fù)責(zé)監(jiān)督數(shù)據(jù)目錄并傳達(dá)數(shù)據(jù)使用政策,以幫助員工利用集中式數(shù)據(jù)集并將其用于構(gòu)建機(jī)器學(xué)習(xí)模型、儀表板和其他分析工具。這些部門現(xiàn)在正在更新政策,包括是否以及如何在法學(xué)碩士和開放 genAI 工具中使用企業(yè)數(shù)據(jù)源。開發(fā)人員和數(shù)據(jù)科學(xué)家必須審查這些政策,并就有關(guān)使用數(shù)據(jù)集支持 genAI 實(shí)驗(yàn)的任何問題咨詢數(shù)據(jù)所有者。
Egnyte聯(lián)合創(chuàng)始人兼首席安全官 Kris Lahiri 表示:“隨著生成式 AI 帶來更多數(shù)據(jù)復(fù)雜性,組織必須制定良好的數(shù)據(jù)治理和隱私政策,以管理和保護(hù)用于訓(xùn)練這些模型的內(nèi)容?!?“組織必須特別注意這些人工智能工具使用了哪些數(shù)據(jù),無論是 OpenAI、PaLM 等第三方,還是公司可能在內(nèi)部使用的內(nèi)部法學(xué)碩士?!?/span>
審查有關(guān)隱私、數(shù)據(jù)保護(hù)和可接受使用的 genAI 政策。許多組織要求在將數(shù)據(jù)集用于 genAI 用例之前提交數(shù)據(jù)所有者的請(qǐng)求和批準(zhǔn)。在使用必須符合 GDPR、CCPA、PCI、HIPAA 或其他數(shù)據(jù)合規(guī)標(biāo)準(zhǔn)的數(shù)據(jù)集之前,請(qǐng)咨詢風(fēng)險(xiǎn)、合規(guī)和法律部門。
數(shù)據(jù)政策還必須考慮使用第三方數(shù)據(jù)源時(shí)的數(shù)據(jù)供應(yīng)鏈和責(zé)任。 “如果發(fā)生涉及某個(gè)區(qū)域內(nèi)受保護(hù)數(shù)據(jù)的安全事件,供應(yīng)商需要明確自己及其客戶的責(zé)任,以適當(dāng)緩解事件,特別是如果這些數(shù)據(jù)打算用于 AI/ML 平臺(tái)的話?!?Jozef de Vries, EDB首席產(chǎn)品工程官。
對(duì)于那些對(duì) genAI 機(jī)會(huì)感到興奮的人來說,了解其組織的數(shù)據(jù)隱私、安全性和合規(guī)性政策非常重要。
2.加速數(shù)據(jù)質(zhì)量舉措
許多公司提供數(shù)據(jù)質(zhì)量解決方案,包括 Attacama、Collibra、Experian、IBM、Informatica、Precisely、SAP、SAS 和 Talend。 2022年,全球數(shù)據(jù)質(zhì)量工具市場(chǎng)規(guī)模將超過40億美元,預(yù)計(jì)每年增長17.7%。由于許多公司正在嘗試人工智能工具和法學(xué)碩士,我預(yù)計(jì)會(huì)有更高的增長。
Piwik Pro首席運(yùn)營官 Mateusz Krempa 表示:“人工智能的好壞取決于為其提供動(dòng)力的數(shù)據(jù),因此使用人工智能面臨的許多挑戰(zhàn)都與數(shù)據(jù)質(zhì)量有關(guān)。” “數(shù)據(jù)質(zhì)量差可能會(huì)導(dǎo)致誤導(dǎo)或錯(cuò)誤的見解,嚴(yán)重影響結(jié)果?!?/span>
Krempa 表示,數(shù)據(jù)質(zhì)量挑戰(zhàn)源于大數(shù)據(jù)的數(shù)量、速度和種類,特別是因?yàn)?/span>LLM現(xiàn)在利用了組織的非結(jié)構(gòu)化數(shù)據(jù)源。希望開發(fā)內(nèi)部LLM的公司將需要擴(kuò)展數(shù)據(jù)質(zhì)量計(jì)劃,以包括從文檔、協(xié)作工具、代碼存儲(chǔ)庫以及其他存儲(chǔ)企業(yè)知識(shí)和知識(shí)產(chǎn)權(quán)的工具中提取的信息。
Hakkoda數(shù)據(jù)治理主管 Karen Meppen 表示:“數(shù)據(jù)治理正在轉(zhuǎn)變,不僅是為了向 LLM 系統(tǒng)提供大量數(shù)據(jù),而且是為了明智、安全地提供數(shù)據(jù)。 ” “重點(diǎn)是確保數(shù)據(jù)不僅大,而且智能——準(zhǔn)確、易于理解、隱私意識(shí)強(qiáng)、安全,并尊重知識(shí)產(chǎn)權(quán)和公平的風(fēng)險(xiǎn)和影響?!?/span>
根據(jù)業(yè)務(wù)目標(biāo)和數(shù)據(jù)類型,可以使用不同的工具來提高數(shù)據(jù)質(zhì)量。
- 傳統(tǒng)的數(shù)據(jù)質(zhì)量工具可以刪除重復(fù)數(shù)據(jù)、規(guī)范數(shù)據(jù)字段、根據(jù)業(yè)務(wù)規(guī)則驗(yàn)證數(shù)據(jù)、檢測(cè)異常并計(jì)算質(zhì)量指標(biāo)。
- 主數(shù)據(jù)管理工具 (MDM) 可幫助組織連接多個(gè)數(shù)據(jù)源并圍繞客戶和產(chǎn)品等業(yè)務(wù)實(shí)體創(chuàng)建真實(shí)來源。
- 客戶數(shù)據(jù)平臺(tái)(CDP) 是用于集中客戶信息并支持營銷、銷售、客戶服務(wù)和其他客戶交互的專用工具。
預(yù)計(jì)升級(jí)和新的數(shù)據(jù)質(zhì)量工具將改善對(duì)非結(jié)構(gòu)化數(shù)據(jù)源的支持,并提高 genAI 用例的數(shù)據(jù)質(zhì)量能力。
Matillion首席信息安全官 Graeme Cantu-Park 的另一項(xiàng)建議重點(diǎn)關(guān)注數(shù)據(jù)沿襲的重要性。 “人工智能將需要一種完全不同的方式來看待治理優(yōu)先事項(xiàng)和實(shí)踐,以便更好地了解為人工智能應(yīng)用程序和模型提供數(shù)據(jù)的數(shù)據(jù)管道和數(shù)據(jù)沿襲。”
數(shù)據(jù)沿襲有助于揭示數(shù)據(jù)的生命周期,并回答有關(guān)數(shù)據(jù)更改的人員、時(shí)間、地點(diǎn)、原因和方式的問題。由于人工智能擴(kuò)展了數(shù)據(jù)及其用例的范圍,因此了解數(shù)據(jù)沿襲對(duì)于組織中的更多人員(包括安全人員和其他風(fēng)險(xiǎn)管理職能人員)變得更加重要。
3.審查數(shù)據(jù)管理和管道架構(gòu)
除了政策和數(shù)據(jù)質(zhì)量之外,數(shù)據(jù)治理領(lǐng)導(dǎo)者還必須將其影響力擴(kuò)展到數(shù)據(jù)管理和架構(gòu)功能。主動(dòng)數(shù)據(jù)治理可實(shí)現(xiàn)一系列功能,以便更多員工可以利用數(shù)據(jù)、分析(以及現(xiàn)在的人工智能)來完成工作并做出更明智的決策。數(shù)據(jù)的存儲(chǔ)、訪問、產(chǎn)品化、編目和記錄方式都是組織能夠如何快速、輕松和安全地將其數(shù)據(jù)擴(kuò)展到 genAI 用例的因素。
Teradata首席產(chǎn)品官 Hillary Ashton建議采用以下方法來實(shí)現(xiàn)最令人興奮的 AI 用例:
- 創(chuàng)建可重復(fù)使用的數(shù)據(jù)產(chǎn)品或精心策劃的已知良好數(shù)據(jù)集,以幫助組織更好地控制數(shù)據(jù)并灌輸對(duì)其數(shù)據(jù)的信任。
- 尊重?cái)?shù)據(jù)引力,讓更多員工能夠訪問信息,而無需在不同環(huán)境之間移動(dòng)數(shù)據(jù)。
- 試點(diǎn)人工智能計(jì)劃時(shí)要考慮到可擴(kuò)展性,包括具有強(qiáng)大治理能力的人工智能/機(jī)器學(xué)習(xí)數(shù)據(jù)管道,同時(shí)也支持開放和互聯(lián)的生態(tài)系統(tǒng)。
數(shù)據(jù)團(tuán)隊(duì)的關(guān)鍵是確定易于使用并支持多種用例的框架和平臺(tái)。Ensono總經(jīng)理兼副總裁 Sean Mahoney表示:“治理框架開始變得更加敏捷,使團(tuán)隊(duì)能夠更快地響應(yīng)技術(shù)進(jìn)步的步伐。”他建議數(shù)據(jù)治理領(lǐng)導(dǎo)者也審查并參與這些工具:
- 數(shù)據(jù)網(wǎng)格用于將數(shù)據(jù)的管理委托給創(chuàng)建數(shù)據(jù)的人。
- 用于處理生成式人工智能和法學(xué)碩士固有的可擴(kuò)展性和復(fù)雜性的矢量數(shù)據(jù)庫。
- 實(shí)時(shí)監(jiān)控工具可將數(shù)據(jù)治理擴(kuò)展到更多系統(tǒng)。
另一個(gè)考慮因素是數(shù)據(jù)治理、管理和架構(gòu)如何需要了解數(shù)據(jù)存儲(chǔ)的全球法規(guī)。 EDB 的 de Vries 建議:“企業(yè)應(yīng)實(shí)施全球分布式數(shù)據(jù)庫,通過將高度監(jiān)管的數(shù)據(jù)保留在其區(qū)域內(nèi),同時(shí)在全球范圍內(nèi)分發(fā)限制較少的數(shù)據(jù),以提高其數(shù)據(jù)治理實(shí)踐,以便在輸入人工智能平臺(tái)時(shí)實(shí)現(xiàn)敏捷性?!?/span>
4.將數(shù)據(jù)治理擴(kuò)展到 genAI 工作流程
數(shù)據(jù)治理職能還必須考慮使用 genAI 工具和法學(xué)碩士如何需要政策和最佳實(shí)踐。例如,在本文開頭,我明確引用了 ChatGPT,以便讀者知道該響應(yīng)來自 genAI 來源。良好的數(shù)據(jù)治理要求對(duì)員工進(jìn)行有關(guān)提高透明度的程序、允許他們使用的工具以及最大限度地減少數(shù)據(jù)隱私問題的實(shí)踐方面的教育。
Forethought首席執(zhí)行官 Deon Nicholas 表示:“我看到的最重要的事情是,在保持隱私和真實(shí)性的同時(shí),準(zhǔn)確利用、共享和學(xué)習(xí)數(shù)據(jù)的方法正在興起。 ” “例如,像 Perplexity 這樣基于 LLM 的搜索引擎總是引用它們的來源,或者像 Private AI 這樣的數(shù)據(jù)編輯技術(shù),使您能夠在提取或發(fā)送數(shù)據(jù)到 LLMS 之前清理和編輯 PIl?!?/span>
數(shù)據(jù)治理領(lǐng)導(dǎo)者應(yīng)該考慮的一項(xiàng)新的主動(dòng)措施是創(chuàng)建提示庫,員工可以在其中記錄他們的提示用例并在整個(gè)組織中共享。該學(xué)科擴(kuò)展了許多數(shù)據(jù)治理團(tuán)隊(duì)已經(jīng)圍繞維護(hù)數(shù)據(jù)目錄和數(shù)據(jù)字典所做的知識(shí)管理實(shí)踐。
RelationalAI機(jī)器學(xué)習(xí)研究副總裁 Nikolaos Vasiloglou表示:“法學(xué)碩士的動(dòng)力包括通常存儲(chǔ)在知識(shí)圖中的干凈且精心策劃的內(nèi)容以及通常以提示庫形式存在的專家知識(shí)。雖然我們對(duì)知識(shí)圖有良好的治理實(shí)踐,但如何治理后者并不明顯。”
我喜歡《蜘蛛俠》電影中流行的一句話:“能力越大,責(zé)任越大。”我們看到 genAI 功能正在快速發(fā)展,但問題是數(shù)據(jù)治理團(tuán)隊(duì)是否會(huì)采取行動(dòng)。
作者 | Isaac Sacolick