生成式人工智能時代的數(shù)據(jù)治理挑戰(zhàn) ?
譯文應對隱私、安全和合規(guī)性挑戰(zhàn)以推動創(chuàng)新。有效的數(shù)據(jù)治理由于生成式人工智能的最新發(fā)展變得更加關(guān)鍵。
數(shù)據(jù)治理的定義
數(shù)據(jù)治理指的是確保組織數(shù)據(jù)的管理、完整性和安全性的政策和流程。傳統(tǒng)框架,如 DAMA-DMBOK 和 COBIT,側(cè)重于結(jié)構(gòu)化數(shù)據(jù)管理和標準化流程(Otto, 2011)。這些框架是管理企業(yè)數(shù)據(jù)的基礎,但在處理生成式人工智能所需的非結(jié)構(gòu)化數(shù)據(jù)類型時,通常缺乏所需的靈活性(Khatri & Brown, 2010)。
生成式人工智能概述
生成式人工智能技術(shù),例如GPT、DALL·E 等模型,正在金融、醫(yī)療和電子商務等行業(yè)廣泛應用。這些模型根據(jù)大量數(shù)據(jù)集生成文本、圖像和代碼(IBM, 2022)。雖然這些技術(shù)的潛力巨大,但它們也帶來了傳統(tǒng)數(shù)據(jù)管理策略無法應對的治理問題,尤其是在處理龐大、多樣且非結(jié)構(gòu)化的數(shù)據(jù)集時。
數(shù)據(jù)治理與生成式人工智能的交集
研究表明,生成式人工智能通過影響數(shù)據(jù)的收集、處理和利用方式,影響了數(shù)據(jù)治理(Gartner, 2023)。管理非結(jié)構(gòu)化數(shù)據(jù)(如媒體文件和PDF文件)尤為關(guān)鍵,因為這些數(shù)據(jù)由于缺乏結(jié)構(gòu)化模式,不符合傳統(tǒng)數(shù)據(jù)治理模型。如果沒有有效的管理和治理,AI 應用可能會處理不當敏感數(shù)據(jù),從而導致安全漏洞和合規(guī)性失敗。
生成式人工智能中的數(shù)據(jù)治理挑戰(zhàn)
數(shù)據(jù)隱私與安全風險
生成式人工智能系統(tǒng)處理大量數(shù)據(jù),通常包括敏感信息。如果沒有強有力的安全措施,組織面臨數(shù)據(jù)泄露和安全漏洞的重大風險。像《通用數(shù)據(jù)保護條例》(GDPR)和《加利福尼亞消費者隱私法案》(CCPA)這樣的法律框架要求嚴格的數(shù)據(jù)隱私標準,迫使組織采取先進的數(shù)據(jù)治理策略以確保合規(guī)(European Union, 2018; CCPA, 2020)。
倫理與合規(guī)問題
生成式人工智能的使用引發(fā)了倫理問題,例如AI生成內(nèi)容中的偏見和數(shù)據(jù)操控。當組織試圖使AI操作與現(xiàn)有的監(jiān)管框架對接時,會遇到合規(guī)挑戰(zhàn),因為這些框架設計之初并未考慮到AI帶來的復雜性(IBM, 2022)。新的治理模型必須將倫理標準和合規(guī)性檢查整合到AI開發(fā)過程中,以應對這些問題。
質(zhì)量控制與數(shù)據(jù)完整性
質(zhì)量控制在“確保AI生成的內(nèi)容可靠”方面至關(guān)重要。像AWS Glue、Google Cloud的Data Quality功能和Microsoft Azure Data Factory等工具都用于維護AI模型中的數(shù)據(jù)完整性,提供數(shù)據(jù)分析和質(zhì)量評分等功能,以此幫助組織監(jiān)控和提升數(shù)據(jù)質(zhì)量。
理論框架
數(shù)據(jù)治理框架
傳統(tǒng)框架如 DAMA-DMBOK 和 COBIT 強調(diào)結(jié)構(gòu)化數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量保障和合規(guī)性(Khatri & Brown, 2010)。然而,這些框架在應用于非結(jié)構(gòu)化數(shù)據(jù)時往往存在不足,而非結(jié)構(gòu)化數(shù)據(jù)在生成式AI中非常常見。不健全的數(shù)據(jù)管理能力會帶來風險,因為AI模型往往依賴于多樣化的數(shù)據(jù)集(Otto, 2011)。
生成式人工智能框架
生成式人工智能要求新的治理框架來應對其獨特的挑戰(zhàn)。首先要整合針對AI的特定考慮因素,如精細化的訪問控制、用戶角色權(quán)限以及像AWS Glue、AWS Lake Formation、Google Cloud Data Catalog和Microsoft Azure Cognitive Services等管理非結(jié)構(gòu)化數(shù)據(jù)的工具。這些平臺強調(diào)了在AI數(shù)據(jù)管理中需要強有力策略,尤其是在數(shù)據(jù)發(fā)現(xiàn)和隱私方面(Gartner, 2023; IBM, 2022)。
提議的數(shù)據(jù)治理框架
該框架結(jié)合了傳統(tǒng)治理模型的元素,但還擴展到包括專門設計用于管理非結(jié)構(gòu)化數(shù)據(jù)和確保隱私的工具。例如,AWS服務如Amazon Textract和AWS Glue可以自動編制數(shù)據(jù)目錄和提取元數(shù)據(jù),從而提升生成式AI應用中的數(shù)據(jù)治理效率。采用這種混合方法,組織可以在保持傳統(tǒng)治理標準的同時,整合AI特定工具以改善數(shù)據(jù)管理。
生成式人工智能應用的演變
生成式人工智能時代有效數(shù)據(jù)治理的策略
政策和框架制定
組織必須制定專門針對AI的政策,整合數(shù)據(jù)隱私、安全和合規(guī)性等考慮因素。例如,通過哈希處理或遮掩技術(shù)掩碼個人身份信息(PII),或者采用字段級加密。根據(jù)地理位置劃分數(shù)據(jù),并將AI框架本地化到該區(qū)域,再根據(jù)來源將流量分流到相應的AI框架。結(jié)合傳統(tǒng)框架,如DAMA-DMBOK和AI專用工具,可以有效應對這些挑戰(zhàn)。
此外,來自云服務提供商的現(xiàn)代化工具,如AWS Glue和Amazon Macie,有助于確保數(shù)據(jù)隱私。大多數(shù)AWS服務設計時考慮到了數(shù)據(jù)部署所在的地理區(qū)域,因此選擇合適的區(qū)域服務有助于遵守數(shù)據(jù)駐留合規(guī)要求。
技術(shù)解決方案
利用AI和機器學習技術(shù)自動化治理流程至關(guān)重要。AWS、Google Cloud和Microsoft Azure等提供了用于管理AI數(shù)據(jù)和確保合規(guī)性的先進工具(Gartner, 2023)。實施這些解決方案有助于提高數(shù)據(jù)治理實踐的效率和安全性。此外,數(shù)據(jù)質(zhì)量和數(shù)據(jù)增強解決方案也是數(shù)據(jù)治理過程中的重要組成部分。當生成式AI框架中獲取的數(shù)據(jù)格式不正確時,可能導致大語言模型產(chǎn)生幻覺。像AWS Glue或Informatica等工具的質(zhì)量評分可以與數(shù)據(jù)一起獲取,為生成式AI提供更好的數(shù)據(jù)上下文。數(shù)據(jù)增強解決方案可以通過合成數(shù)據(jù)生成、實體解析和修改數(shù)據(jù)點來避免偏見和有毒內(nèi)容。之后,這些可以用于訓練大型語言模型(LLMs)。
持續(xù)監(jiān)控與審計
基于AI的監(jiān)控工具可以實時跟蹤數(shù)據(jù)使用情況和潛在的安全威脅,使組織能夠迅速應對異常。定期使用自動化工具進行審計,如AWS Audit Manager或Azure Purview,確保遵守治理政策,促進透明度,并突出改進領域,以保持有效的數(shù)據(jù)治理。
數(shù)據(jù)集成和互操作性解決方案
統(tǒng)一的數(shù)據(jù)管理平臺,整合各種數(shù)據(jù)源(如數(shù)據(jù)湖和數(shù)據(jù)倉庫),可以確保AI系統(tǒng)的一致性和合規(guī)性。采用這種互操作性標準和開放API,能夠促進不同系統(tǒng)之間的安全數(shù)據(jù)交換,保持AI平臺上的數(shù)據(jù)完整性和安全性,同時支持一個統(tǒng)一的治理環(huán)境。獲取結(jié)構(gòu)化數(shù)據(jù)已經(jīng)得心應手,但獲取非結(jié)構(gòu)化數(shù)據(jù)在數(shù)據(jù)集成中至關(guān)重要。目前,獲取非結(jié)構(gòu)化數(shù)據(jù)需要將數(shù)據(jù)和元數(shù)據(jù)分開,并通過引入模式進行數(shù)據(jù)標準化。通過這種方式,便能對非結(jié)構(gòu)化元數(shù)據(jù)進行目錄化,從而提高數(shù)據(jù)的可發(fā)現(xiàn)性。
統(tǒng)一的數(shù)據(jù)目錄系統(tǒng)能夠更好地發(fā)現(xiàn)和實現(xiàn)數(shù)據(jù)集成,因為這些數(shù)據(jù)經(jīng)過了標準化。像AWS Glue Data Catalog、Azure Data Catalog和Google Cloud Data Catalog這樣的數(shù)據(jù)目錄工具提供了這一功能。AWS的服務,如Amazon Textract、Amazon Comprehend和Amazon Rekognition,將從非結(jié)構(gòu)化數(shù)據(jù)中提取元數(shù)據(jù),并將其存儲在這些數(shù)據(jù)目錄中。像AWS Glue和Informatica這樣的數(shù)據(jù)集成工具有助于數(shù)據(jù)的集成。
跨職能團隊與協(xié)作
建立跨職能團隊,包括數(shù)據(jù)科學家、IT專家、合規(guī)官員和業(yè)務領導者,對于使數(shù)據(jù)治理策略與業(yè)務目標和監(jiān)管要求對接至關(guān)重要。將外部利益相關(guān)者(如監(jiān)管機構(gòu)和行業(yè)專家)納入決策過程中,也有助于組織及時了解新的法規(guī)和最佳實踐,確保政策能夠主動調(diào)整。
總結(jié)
生成式人工智能的數(shù)據(jù)治理計劃的成功實施,為安全的數(shù)據(jù)管理和機器學習奠定了堅實的生產(chǎn)就緒基礎。構(gòu)建良好治理的生成式AI數(shù)據(jù)平臺的解決方案可以在云平臺上實現(xiàn),比如AWS??梢詫⑦@些解決方案分為兩個主要工作流,以應對生成式AI的獨特需求。
在工作流1中,設置了一個帶有AWS Lake Formation的Amazon S3數(shù)據(jù)湖,以確保安全訪問,數(shù)據(jù)管道和質(zhì)量檢查提供了干凈、標記的數(shù)據(jù)集,用于模型訓練。工作流2引入了Amazon Bedrock環(huán)境,用于復雜的數(shù)據(jù)增強,包括合成數(shù)據(jù)生成和實體解析,以最小化偏見和有毒內(nèi)容,同時通過Amazon SageMaker部署實時分類模型。這些工作流共同構(gòu)建了一個可擴展、適應性強的框架,支持持續(xù)的數(shù)據(jù)驅(qū)動洞察。
這個生產(chǎn)級別的設置不僅使數(shù)據(jù)在模型訓練和操作中變得可訪問、安全且有序,還突出了傳統(tǒng)數(shù)據(jù)治理方法的不足。生成式AI需要超越傳統(tǒng)框架的增強治理實踐,尤其是在隱私、非結(jié)構(gòu)化數(shù)據(jù)管理和持續(xù)監(jiān)控方面。通過整合AI特定的政策、先進的管理工具和持續(xù)監(jiān)控,組織能夠更好地保護數(shù)據(jù)資產(chǎn),確保生產(chǎn)環(huán)境中的安全性和靈活性。
未來的研究應建立在這一基礎上,通過評估不同行業(yè)中的AI治理框架,幫助組織制定適應快速變化的AI環(huán)境的最佳實踐。這一持續(xù)的探索將支持治理策略的演進,確保在規(guī)?;僮髦械暮弦?guī)性、數(shù)據(jù)完整性和靈活運營。
原文標題:Data Governance Challenges in the Age of Generative AI
作者:nishchai jayanna manjula , Kiran Randhi user avatar Kiran Randhi