數(shù)據(jù)管理對生成式人工智能的影響
2023年將是我們記住的人工智能時代的主流開端,由每個人都在談?wù)摰募夹g(shù):ChatGPT推動。
像ChatGPT這樣的生成式人工智能語言模型已經(jīng)抓住了我們的想象力,因為我們第一次能夠看到人工智能像真人一樣與我們對話,并生成散文、詩歌和其他我們認(rèn)為有創(chuàng)意的新內(nèi)容。生成式人工智能解決方案似乎充滿了突破性的潛力,可以實現(xiàn)更快、更好的創(chuàng)新、生產(chǎn)力和實現(xiàn)價值的時間。然而,它們的局限性尚未得到廣泛理解,它們的數(shù)據(jù)隱私和數(shù)據(jù)管理最佳實踐也尚未得到廣泛理解。
最近,由于缺乏對人工智能技術(shù)使用的理解和足夠的監(jiān)管護欄,技術(shù)和安全界的許多人都敲響了警鐘。我們已經(jīng)看到人們對人工智能工具輸出的可靠性、知識產(chǎn)權(quán)和敏感數(shù)據(jù)泄露以及侵犯隱私和安全的擔(dān)憂。
在這家科技巨頭無意中將自己的秘密泄露給ChatGPT后,三星與ChatGPT的事件成為頭條新聞。三星并不是唯一這樣做的公司:Cyberhaven的一項研究發(fā)現(xiàn),4%的員工曾將敏感的公司數(shù)據(jù)輸入大型語言模型。許多人沒有意識到,當(dāng)他們用企業(yè)數(shù)據(jù)訓(xùn)練模型時,人工智能公司可能能夠在其他地方重用這些數(shù)據(jù)。
似乎我們不需要更多的網(wǎng)絡(luò)犯罪素材,網(wǎng)絡(luò)安全情報公司RecordedFuture透露:“在ChatGPT發(fā)布的幾天內(nèi),我們在暗網(wǎng)和特殊訪問論壇上發(fā)現(xiàn)了許多威脅行為者,他們分享有缺陷但功能齊全的惡意軟件、社會工程教程、賺錢計劃等等——所有這些都是通過使用ChatGPT實現(xiàn)的?!?/p>
私人互聯(lián)網(wǎng)接入工程總監(jiān)JoseBlaya說,在隱私方面,當(dāng)一個人使用ChatGPT這樣的工具注冊時,它可以訪問IP地址、瀏覽器設(shè)置和瀏覽活動——就像今天的搜索引擎一樣。但風(fēng)險更高,因為未經(jīng)個人同意,它可能會泄露政治信仰或性取向,并可能意味著尷尬甚至毀掉職業(yè)生涯的信息被發(fā)布。
顯然,我們需要更好的法規(guī)和標(biāo)準(zhǔn)來實施這些新的人工智能技術(shù)。但是對于數(shù)據(jù)治理和數(shù)據(jù)管理的重要作用卻缺少討論,因為這在企業(yè)采用和安全使用人工智能方面可以發(fā)揮關(guān)鍵作用。
一切都與數(shù)據(jù)有關(guān)
以下是應(yīng)該關(guān)注的三個方面:
1.訓(xùn)練數(shù)據(jù)的數(shù)據(jù)治理和透明度:核心問題圍繞專有的預(yù)訓(xùn)練AI模型或大型語言模型(LLM)展開。使用llm的機器學(xué)習(xí)程序包含來自許多來源的大量數(shù)據(jù)集。問題是,LLM是一個黑盒子,幾乎不提供源數(shù)據(jù)的透明度。我們不知道來源是否可信,無偏見,準(zhǔn)確或非法包含個人身份信息或欺詐性數(shù)據(jù)。例如,開放人工智能就不會共享其源數(shù)據(jù)?!度A盛頓郵報》分析了谷歌的C4數(shù)據(jù)集,涵蓋了1500萬個網(wǎng)站,發(fā)現(xiàn)了數(shù)十個令人討厭的網(wǎng)站,其中包括煽動性和個人身份信息數(shù)據(jù)以及其他可疑內(nèi)容。我們需要數(shù)據(jù)治理,它要求所使用的數(shù)據(jù)源透明,并要求來自這些數(shù)據(jù)源的知識的有效性/可信度。例如,你的人工智能機器人可能會根據(jù)未經(jīng)證實的來源或虛假新聞網(wǎng)站的數(shù)據(jù)進行訓(xùn)練,從而使其知識產(chǎn)生偏差,而這些知識現(xiàn)在是你公司新政策或研發(fā)計劃的一部分。
2.數(shù)據(jù)隔離和數(shù)據(jù)域:目前,不同的人工智能供應(yīng)商在如何處理你提供的數(shù)據(jù)隱私方面有不同的策略。不知不覺中,您的員工可能會在他們的提示中向LLM提供數(shù)據(jù),而不知道該模型可能會將數(shù)據(jù)合并到其知識庫中。公司可能會在不知情的情況下將商業(yè)機密、軟件代碼和個人數(shù)據(jù)泄露給世界。一些人工智能解決方案提供了變通方法,例如通過將數(shù)據(jù)排除在預(yù)訓(xùn)練模型之外來保護數(shù)據(jù)隱私的api,但這限制了它們的價值,因為理想的用例是用特定情況的數(shù)據(jù)增強預(yù)訓(xùn)練模型,同時保持?jǐn)?shù)據(jù)的私密性。一個解決方案是讓預(yù)先訓(xùn)練過的人工智能工具理解數(shù)據(jù)“域”的概念。訓(xùn)練數(shù)據(jù)的“通用”領(lǐng)域用于預(yù)訓(xùn)練,并在實體之間共享,而基于“專有數(shù)據(jù)”的訓(xùn)練模型擴展則安全地限制在組織的邊界內(nèi)。數(shù)據(jù)管理可以確保創(chuàng)建和保留這些邊界。
3.人工智能的衍生作品:數(shù)據(jù)管理的第三個領(lǐng)域與人工智能過程及其最終所有者生成的數(shù)據(jù)有關(guān)。假設(shè)我使用AI機器人來解決編碼問題。如果某些事情沒有正確完成,導(dǎo)致bug或錯誤,通常我會知道誰做了該調(diào)查和修復(fù)的事情。但有了人工智能,我的組織要為我要求人工智能執(zhí)行的任務(wù)所導(dǎo)致的任何錯誤或不良后果負(fù)責(zé)——即使我們對流程或源數(shù)據(jù)不透明。你不能責(zé)怪機器:在某個地方,是人類造成了錯誤或糟糕的結(jié)果。那么IP呢?你是否擁有使用生成式AI工具創(chuàng)作的作品的IP?你在法庭上怎么辯護?據(jù)《哈佛商業(yè)評論》報道,藝術(shù)界已經(jīng)開始提起訴訟。
現(xiàn)在要考慮的數(shù)據(jù)管理策略
在這些早期階段,我們不知道我們對人工智能的不了解,包括壞數(shù)據(jù)、隱私和安全、知識產(chǎn)權(quán)和其他敏感數(shù)據(jù)集的風(fēng)險。人工智能也是一個廣泛的領(lǐng)域,有多種方法,如法學(xué)碩士,基于邏輯的自動化,這些只是通過結(jié)合數(shù)據(jù)治理政策和數(shù)據(jù)管理實踐來探索的一些主題:
- 暫停對生成式人工智能的實驗,直到你有一個監(jiān)督戰(zhàn)略、政策、
以及降低風(fēng)險和驗證結(jié)果的程序。
- 合并數(shù)據(jù)管理指南:首先要對自己的數(shù)據(jù)有一個堅實的理解,無論它位于哪里。你的敏感個人信息和客戶數(shù)據(jù)在哪里?你有多少IP數(shù)據(jù),這些文件在哪里?你能否監(jiān)控使用情況,以確保這些數(shù)據(jù)類型不會被無意中輸入人工智能工具,并防止安全或隱私泄露?
?不要給人工智能應(yīng)用程序提供超過所需的數(shù)據(jù),不要共享任何敏感的專有數(shù)據(jù)。鎖定/加密IP和客戶數(shù)據(jù),防止其被共享。
- 了解人工智能工具如何以及是否可以與數(shù)據(jù)源透明。
供應(yīng)商能保護你的數(shù)據(jù)嗎?谷歌在其博客中分享了這一聲明,但“如何”并不清楚:“無論一家公司是在VertexAI中訓(xùn)練模型,還是在GenerativeAIAppBuilder上構(gòu)建客戶服務(wù)體驗,私人數(shù)據(jù)都是保密的,不會用于更廣泛的基礎(chǔ)模型訓(xùn)練語料庫?!遍喿x每個人工智能工具的合同語言,了解你提供給它的任何數(shù)據(jù)是否可以保密
標(biāo)記業(yè)主或委托項目的個人或部門的衍生作品的數(shù)據(jù)。這很有幫助,因為你可能最終要對公司產(chǎn)生的任何工作負(fù)責(zé),你想知道人工智能是如何被納入過程的,以及由誰加入的。
- 確保域間數(shù)據(jù)的可移植性。例如,團隊可能想要剝離其IP和識別特征的數(shù)據(jù),并將其提供給通用訓(xùn)練數(shù)據(jù)集以供將來使用。這個過程的自動化和跟蹤是至關(guān)重要的。
- 隨時了解正在制定的任何行業(yè)法規(guī)和指導(dǎo)方針,并與其他組織的同行交流,了解他們是如何實現(xiàn)風(fēng)險緩解和數(shù)據(jù)管理的。
- 在開始任何生成式人工智能項目之前,請咨詢法律專家,了解發(fā)生數(shù)據(jù)泄露、隱私和知識產(chǎn)權(quán)侵犯、惡意行為者或虛假/錯誤結(jié)果時應(yīng)遵循的風(fēng)險和流程。
企業(yè)中人工智能的實用方法
人工智能正在迅速發(fā)展,并以前所未有的速度加速創(chuàng)新、削減成本和改善用戶體驗,具有巨大的潛力。但就像大多數(shù)強大的工具一樣,人工智能需要在適當(dāng)?shù)沫h(huán)境中謹(jǐn)慎使用,并配備適當(dāng)?shù)臄?shù)據(jù)治理和數(shù)據(jù)管理護欄。人工智能數(shù)據(jù)管理的明確標(biāo)準(zhǔn)尚未出現(xiàn),這是一個需要進一步探索的領(lǐng)域。同時,企業(yè)在使用人工智能應(yīng)用之前,應(yīng)該謹(jǐn)慎行事,確保清楚地了解數(shù)據(jù)暴露、數(shù)據(jù)泄露和潛在的數(shù)據(jù)安全風(fēng)險。