作者 | Isaac Sacolick
編輯 | 言征
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
數(shù)據(jù)治理涵蓋一系列學(xué)科,包括數(shù)據(jù)安全、管理、質(zhì)量和編目。這種做法需要定義使用策略、創(chuàng)建主數(shù)據(jù)源、分析數(shù)據(jù)集、記錄字典以及監(jiān)督數(shù)據(jù)生命周期。組織模型通常定義促進戰(zhàn)略的首席數(shù)據(jù)官、制定數(shù)據(jù)集政策的數(shù)據(jù)所有者和負(fù)責(zé)提高數(shù)據(jù)質(zhì)量的數(shù)據(jù)管理員的角色。
Precisly首席技術(shù)官TendüYogurt?u博士表示:“數(shù)據(jù)治理是數(shù)據(jù)完整性的關(guān)鍵要素,使組織能夠輕松地發(fā)現(xiàn)、理解和利用關(guān)鍵數(shù)據(jù),從而實現(xiàn)準(zhǔn)確的報告和明智的決策?!薄八峁┝藢?shù)據(jù)含義、譜系和影響的理解,因此企業(yè)可以保持合規(guī)性,并確保人工智能模型由可靠的數(shù)據(jù)推動,以獲得可靠的結(jié)果?!?/p>
Yogurt?u表示,數(shù)據(jù)治理曾經(jīng)是一項專注于合規(guī)性的技術(shù)任務(wù)?!彪S著人工智能的日益普及,數(shù)據(jù)已成為最重要的企業(yè)資產(chǎn),數(shù)據(jù)治理應(yīng)成為整個企業(yè)的優(yōu)先事項,”她說。
對于許多嘗試GenAI或使用大型語言模型(LLM)構(gòu)建應(yīng)用程序的組織來說,數(shù)據(jù)治理責(zé)任更大,員工使用人工智能工具的風(fēng)險更大,非結(jié)構(gòu)化數(shù)據(jù)的范圍也更廣。我咨詢了幾位專家,了解數(shù)據(jù)治理必須如何發(fā)展,以應(yīng)對生成人工智能工具和能力所固有的機遇和風(fēng)險。
GenAI時代,組織獲取和使用數(shù)據(jù)面臨著新的風(fēng)險、挑戰(zhàn)和機遇。以下是數(shù)據(jù)治理團隊?wèi)?yīng)對這種情況的四種方式。
1.審查用于GenAI工具和LLM的數(shù)據(jù)政策
數(shù)據(jù)治理部門負(fù)責(zé)監(jiān)督數(shù)據(jù)目錄,并傳達(dá)數(shù)據(jù)使用政策,以幫助員工訪問集中式數(shù)據(jù)集并使用它們構(gòu)建機器學(xué)習(xí)模型、儀表板和其他分析工具。這些部門現(xiàn)在正在更新政策,以確定是否以及如何在LLM和開放的GenAI工具中使用企業(yè)數(shù)據(jù)源。開發(fā)人員和數(shù)據(jù)科學(xué)家必須審查這些政策,并與數(shù)據(jù)所有者就使用數(shù)據(jù)集支持GenAI實驗的問題進行協(xié)商。
“隨著生成式AI帶來更復(fù)雜的數(shù)據(jù),組織必須擁有出色的數(shù)據(jù)治理和隱私政策來管理和保護用于訓(xùn)練這些模型的內(nèi)容,”Egnyte聯(lián)合創(chuàng)始人兼首席安全官Kris Lahiri表示?!敖M織必須特別注意這些AI工具使用了哪些數(shù)據(jù),無論是像OpenAI、PaLM這樣的第三方,還是公司可能內(nèi)部使用的內(nèi)部LLM?!?/p>
審查GenAI政策中關(guān)于隱私、數(shù)據(jù)保護和可接受使用的規(guī)定。許多組織要求在使用數(shù)據(jù)集進行GenAI用例之前提交請求并獲得數(shù)據(jù)所有者的批準(zhǔn)。在使用必須滿足GDPR、CCPA、PCI、HIPAA或其他數(shù)據(jù)合規(guī)性標(biāo)準(zhǔn)的數(shù)據(jù)集之前,請與風(fēng)險、合規(guī)和法律部門協(xié)商。
數(shù)據(jù)政策還必須考慮與第三方數(shù)據(jù)源合作時的數(shù)據(jù)供應(yīng)鏈和責(zé)任。“如果發(fā)生涉及在特定區(qū)域內(nèi)受保護的數(shù)據(jù)的安全事件,供應(yīng)商需要明確他們及其客戶的責(zé)任,以妥善緩解這種情況,尤其是如果這些數(shù)據(jù)旨在用于AI/ML平臺,”EDB首席產(chǎn)品工程官Jozef de Vries表示。
對于那些對GenAI機會感到興奮的人來說,重要的是首先了解他們組織的數(shù)據(jù)隱私、安全和合規(guī)政策。
2.加速數(shù)據(jù)質(zhì)量提升
許多公司提供數(shù)據(jù)質(zhì)量解決方案,包括Attacama、Collibra、Experian、IBM、Informatica、Precisely、SAP、SAS和Talend。2022年全球數(shù)據(jù)質(zhì)量工具市場規(guī)模超過40億美元,預(yù)計年增長率將達(dá)到17.7%?,F(xiàn)在,許多公司都在嘗試使用AI工具和LLM,我預(yù)計這一增長會更高。
“由于人工智能的質(zhì)量僅取決于為其提供的數(shù)據(jù),因此使用人工智能面臨的許多挑戰(zhàn)都與數(shù)據(jù)質(zhì)量有關(guān),”Piwik Pro首席運營官Mateusz Krempa表示?!皵?shù)據(jù)質(zhì)量差可能導(dǎo)致誤導(dǎo)性或錯誤的見解,嚴(yán)重影響結(jié)果?!?/p>
Krempa表示,數(shù)據(jù)質(zhì)量的挑戰(zhàn)來自于大數(shù)據(jù)的體量、速度和多樣性,尤其是現(xiàn)在LLM利用組織的非結(jié)構(gòu)化數(shù)據(jù)源。希望開發(fā)內(nèi)部LLM的公司需要將數(shù)據(jù)質(zhì)量倡議擴展到從文檔、協(xié)作工具、代碼存儲庫和其他存儲企業(yè)知識和知識產(chǎn)權(quán)的工具中提取的信息。
“數(shù)據(jù)治理不僅在為LLM系統(tǒng)提供大量數(shù)據(jù)方面正在發(fā)生變化,而且還在明智和安全地做到這一點,”Hakkoda數(shù)據(jù)治理負(fù)責(zé)人Karen Meppen表示?!爸攸c是確保數(shù)據(jù)不僅規(guī)模龐大,而且智能——準(zhǔn)確、可理解、注重隱私、安全,并考慮到知識產(chǎn)權(quán)和公平性的風(fēng)險和影響?!?/p>
根據(jù)業(yè)務(wù)目標(biāo)和數(shù)據(jù)類型,可以使用不同的工具來提高數(shù)據(jù)質(zhì)量。
傳統(tǒng)的數(shù)據(jù)質(zhì)量工具:可以刪除重復(fù)項、規(guī)范化數(shù)據(jù)字段、根據(jù)業(yè)務(wù)規(guī)則驗證數(shù)據(jù)、檢測異常并計算質(zhì)量指標(biāo)。
主數(shù)據(jù)管理工具(MDM):有助于組織連接多個數(shù)據(jù)源,并為商業(yè)實體(如客戶和產(chǎn)品)創(chuàng)建真實的來源。
客戶數(shù)據(jù)平臺(CDP):是專門用于集中客戶信息并啟用市場營銷、銷售、客戶服務(wù)和其他客戶互動的工具。
預(yù)計會有升級和新的數(shù)據(jù)質(zhì)量工具,以改善對非結(jié)構(gòu)化數(shù)據(jù)源的支持,并增加針對GenAI用例的數(shù)據(jù)質(zhì)量能力。
Matillion的首席信息安全官Graeme Cantu-Park的另一個建議集中在數(shù)據(jù)血統(tǒng)的重要性上?!叭斯ぶ悄軐⑿枰环N完全不同的方式來審視治理優(yōu)先級和實踐,以便更好地了解為AI應(yīng)用程序和模型提供數(shù)據(jù)的數(shù)據(jù)管道和數(shù)據(jù)血統(tǒng)?!?/p>
數(shù)據(jù)血統(tǒng)有助于揭示數(shù)據(jù)的生命周期,并回答關(guān)于數(shù)據(jù)何時、何地、由誰、為何以及如何更改的問題。由于人工智能擴大了數(shù)據(jù)的范圍和使用案例,了解數(shù)據(jù)血統(tǒng)對于組織中的更多人來說變得更加重要,包括安全和其他風(fēng)險管理職能的人員。
3.審查數(shù)據(jù)管理和管道體系結(jié)構(gòu)
除了政策和數(shù)據(jù)質(zhì)量之外,數(shù)據(jù)治理領(lǐng)導(dǎo)者還必須將其影響力擴展到數(shù)據(jù)管理和體系結(jié)構(gòu)功能中。主動數(shù)據(jù)治理提供了一系列功能,使更多的員工能夠利用數(shù)據(jù)、分析——現(xiàn)在還有人工智能——來完成工作并做出更明智的決策。數(shù)據(jù)的存儲、訪問、產(chǎn)品化、編目和文檔化方式都是組織將數(shù)據(jù)擴展到GenAI用例中的快速、輕松和安全的因素。Teradata首席產(chǎn)品官Hillary Ashton提出了以下方法來實現(xiàn)最令人興奮的人工智能用例:
創(chuàng)建可重復(fù)使用的數(shù)據(jù)產(chǎn)品,或精心組織的已知良好數(shù)據(jù)集,以幫助組織更好地控制和灌輸對其數(shù)據(jù)的信任。
尊重數(shù)據(jù)的重要性,使更多人能夠訪問信息,而無需在不同的環(huán)境中移動數(shù)據(jù)。
考慮到可擴展性的人工智能試點計劃,包括具有強大治理的人工智能/ML數(shù)據(jù)管道,也可以實現(xiàn)開放和互聯(lián)的生態(tài)系統(tǒng)。
數(shù)據(jù)團隊的一個關(guān)鍵是確定易于使用并支持多個用例的框架和平臺。Ensono總經(jīng)理兼副總裁Sean Mahoney表示,“治理框架開始變得更加靈活,使團隊能夠更快地響應(yīng)技術(shù)進步的步伐?!彼ㄗh數(shù)據(jù)治理領(lǐng)導(dǎo)者也要審查并參與這些工具:
- 用于將數(shù)據(jù)管理委托給創(chuàng)建數(shù)據(jù)的人的數(shù)據(jù)網(wǎng)格。
- 用于處理生成人工智能和LLM固有的可擴展性和復(fù)雜性的矢量數(shù)據(jù)庫。
- 實時監(jiān)控工具,可將數(shù)據(jù)治理擴展到更多系統(tǒng)。
另一個需要考慮的問題是,數(shù)據(jù)治理、管理和體系結(jié)構(gòu)需要了解有關(guān)數(shù)據(jù)存儲的全球法規(guī)。EDB的de Vries建議,“企業(yè)應(yīng)實施全球分布式數(shù)據(jù)庫,通過在其區(qū)域內(nèi)保持高度監(jiān)管的數(shù)據(jù)來提升其數(shù)據(jù)治理實踐,同時在全球范圍內(nèi)分發(fā)限制較少的數(shù)據(jù),以提高向人工智能平臺提供數(shù)據(jù)時的靈活性?!?/p>
4. 將數(shù)據(jù)治理擴展到GenAI工作流
數(shù)據(jù)治理職能部門還必須考慮,使用GenAI工具和LLM的使用政策和最佳實踐。
例如,在本文的開頭,我明確引用了ChatGPT,以便讀者知道響應(yīng)來自GenAI來源。良好的數(shù)據(jù)治理要求教育員工提高透明度的程序、允許他們使用的工具以及最大限度地減少數(shù)據(jù)隱私問題的做法。Forethink首席執(zhí)行官Deon Nicholas表示:“我看到的最重要的事情是,在保持隱私和真實性的同時,準(zhǔn)確利用、共享和學(xué)習(xí)數(shù)據(jù)的方法正在興起?!?/p>
“例如,像Perplexity這樣基于LLM的搜索引擎總是引用它們的來源,或者像Private AI這樣的數(shù)據(jù)編輯技術(shù),這些技術(shù)使你能夠在接收或向LLMS發(fā)送數(shù)據(jù)之前清除和編輯PIl?!?/p>
數(shù)據(jù)治理領(lǐng)導(dǎo)者應(yīng)該考慮的積極措施是創(chuàng)建即時庫,員工可以在其中記錄他們的即時用例并在組織中共享。該規(guī)程擴展了許多數(shù)據(jù)治理團隊已經(jīng)圍繞維護數(shù)據(jù)目錄和數(shù)據(jù)字典所做的知識管理實踐。RelationalAI研究ML副總裁Nikolaos Vasiloglou表示,“LLM的訓(xùn)練語料包括通常存儲在知識圖譜中的簡潔和精心處理的內(nèi)容,以及通常以提示庫形式存在的專家知識。雖然我們對知識圖有良好的治理實踐,但如何治理后者并不明顯?!?/p>
我喜歡蜘蛛俠電影中流行的一句話,“有大的權(quán)力就有大的責(zé)任?!蔽覀兛吹搅薌enAI能力的快速發(fā)展,問題是數(shù)據(jù)治理團隊是否會站在他們一邊。