確保貴企業(yè)的數(shù)據(jù)為生成式AI做好準(zhǔn)備的七個(gè)方法
譯文譯者 | 布加迪
審校 | 重樓
大家都想利用生成式AI和大語言模型的力量,但這里有一個(gè)難題。讓AI滿足很高的期望需要高質(zhì)量的實(shí)用數(shù)據(jù),這正是許多組織的不足之處。
麥肯錫最近一份由Joe Caserta和Kayvaun Rowshankish共同撰寫的報(bào)告指出,許多組織要求用生成式AI做點(diǎn)什么。然而,這種壓力伴隨著其他問題:如果貴企業(yè)的數(shù)據(jù)還沒有為生成式AI做好準(zhǔn)備,貴企業(yè)也就沒有為生成式AI做好準(zhǔn)備。
報(bào)告作者建議,IT和數(shù)據(jù)管理員需要對(duì)生成式AI的數(shù)據(jù)含義有一個(gè)清晰的認(rèn)識(shí)。數(shù)據(jù)可能通過應(yīng)用編程接口或企業(yè)自己的模型借助原先存在的服務(wù)來使用,這不僅需要更大筆的投入,還需要復(fù)雜的數(shù)據(jù)標(biāo)記和標(biāo)注策略。
Caserta及其團(tuán)隊(duì)認(rèn)為,也許最具挑戰(zhàn)性的是生成式AI處理非結(jié)構(gòu)化數(shù)據(jù)的能力,比如聊天、視頻和代碼。數(shù)據(jù)型組織歷來只能處理結(jié)構(gòu)化數(shù)據(jù),比如表中的數(shù)據(jù)。
這種數(shù)據(jù)方面的轉(zhuǎn)變意味著組織需要重新考慮支持生成式AI項(xiàng)目的整體數(shù)據(jù)架構(gòu)。雖然這聽起來像是舊新聞,但以前企業(yè)可以逃避的系統(tǒng)漏洞將成為生成式AI的大問題。如果沒有強(qiáng)大的數(shù)據(jù)基礎(chǔ),生成式AI的許多優(yōu)點(diǎn)根本不可能實(shí)現(xiàn)。
在整個(gè)行業(yè),越來越多的領(lǐng)導(dǎo)者對(duì)企業(yè)處理可以應(yīng)對(duì)生成式AI等新興挑戰(zhàn)所需的大量流入數(shù)據(jù)的能力表示了擔(dān)憂。Faction Inc.的技術(shù)和運(yùn)營副總裁Jeff Heller表示:“在不斷創(chuàng)新和技術(shù)進(jìn)步的推動(dòng)下,數(shù)字化轉(zhuǎn)型意味著組織的運(yùn)作方式要有所轉(zhuǎn)變。”
此外,AI并不是促使企業(yè)需要更有效、響應(yīng)更迅即的數(shù)據(jù)架構(gòu)的唯一因素。Interzoid創(chuàng)始人兼首席執(zhí)行官Bob Brauer表示:“客戶將繼續(xù)期待量身定制的服務(wù)和溝通,這當(dāng)然在很大程度上依賴準(zhǔn)確的數(shù)據(jù)。”
傳達(dá)出來的訊息很明確——企業(yè)是制定戰(zhàn)略并采用先進(jìn)技術(shù)的時(shí)候了,以確保數(shù)據(jù)仍然是寶貴的資產(chǎn),而不是沉重的負(fù)擔(dān)。
專家們建議,為了讓數(shù)據(jù)為快速崛起的AI時(shí)代做好準(zhǔn)備,需要考慮以下幾個(gè)因素:
1. 制定數(shù)據(jù)治理策略:有了合適的優(yōu)先事項(xiàng)、員工、治理、工具和管理層要求,企業(yè)可以將數(shù)據(jù)質(zhì)量挑戰(zhàn)由負(fù)擔(dān)變?yōu)?/span>重大的競爭優(yōu)勢。為了讓AI及其他計(jì)劃背后的數(shù)據(jù)獲得組織支持,一個(gè)步驟可能是創(chuàng)建一個(gè)工作組,以研究如何運(yùn)用生成式AI的新興創(chuàng)新、大語言模型及基于AI的其他新技術(shù)以獲得競爭優(yōu)勢。
2. 制定數(shù)據(jù)存儲(chǔ)策略:找到一個(gè)存放所有數(shù)據(jù)的地方,并使數(shù)據(jù)能夠易于發(fā)現(xiàn)和訪問,這是一項(xiàng)必要的工作。昆騰首席開發(fā)官Brian Pawlowski表示,最近的行業(yè)調(diào)查發(fā)現(xiàn),一半以上(60%)的存儲(chǔ)數(shù)據(jù)處于非活躍狀態(tài),這意味著這些數(shù)據(jù)很少或從未被訪問過。即便如此,企業(yè)也不想丟棄這些數(shù)據(jù),因?yàn)?/span>它們明白,這些數(shù)據(jù)可能會(huì)在未來幾年提供寶貴的解決方案和商業(yè)價(jià)值,尤其是在生成式AI廣泛應(yīng)用的情況下。這個(gè)難題需要重新評(píng)估現(xiàn)有能力,以建立現(xiàn)代化、自動(dòng)化的存儲(chǔ)架構(gòu),以便人們能夠在整個(gè)生命周期內(nèi)輕松訪問和處理活躍數(shù)據(jù)和非活躍數(shù)據(jù)。
3. 確保擁有數(shù)據(jù)質(zhì)量策略:準(zhǔn)備好數(shù)據(jù)架構(gòu)以處理AI帶來的新需求,需要從確保很高的數(shù)據(jù)質(zhì)量成為戰(zhàn)略優(yōu)先事項(xiàng)入手。一個(gè)好的開端是任命首席數(shù)據(jù)官或類似職位,專門為數(shù)據(jù)質(zhì)量項(xiàng)目提供預(yù)算和資源。
4. 確保評(píng)估進(jìn)度:領(lǐng)導(dǎo)力優(yōu)先事項(xiàng)應(yīng)該包括面向整個(gè)企業(yè)的數(shù)據(jù)評(píng)估,并制定衡量成功的指標(biāo)和目標(biāo)。
5. 確保擁有處理非結(jié)構(gòu)化數(shù)據(jù)的能力:與傳統(tǒng)的機(jī)器學(xué)習(xí)模型相比,生成式AI模型方面的數(shù)據(jù)質(zhì)量問題變得更明顯,因?yàn)橛刑嗟臄?shù)據(jù),而且其中大部分是非結(jié)構(gòu)化數(shù)據(jù),因而很難使用現(xiàn)有的跟蹤工具。將來,非結(jié)構(gòu)化數(shù)據(jù)約占所生成的數(shù)據(jù)總量的90%,未來五年全球存儲(chǔ)容量的年復(fù)合增長率將達(dá)到25%。這些非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在文件和對(duì)象中:高分辨率視頻和圖像、復(fù)雜的醫(yī)療數(shù)據(jù)、基因組測序、機(jī)器學(xué)習(xí)模型的輸入、捕獲的有關(guān)自然界的科學(xué)數(shù)據(jù)(如繪制油氣田地圖)以及現(xiàn)實(shí)模擬,包括特效、動(dòng)畫和增強(qiáng)現(xiàn)實(shí)。組織部署解決方案,以自動(dòng)化方式管理數(shù)據(jù)的生命周期,并利用AI等尖端技術(shù)幫助提取更高的商業(yè)價(jià)值,這一點(diǎn)至關(guān)重要。
6. 將支持廣泛用例的功能融入到數(shù)據(jù)架構(gòu)中:將相關(guān)的功能(比如矢量數(shù)據(jù)庫和數(shù)據(jù)預(yù)處理及后處理管道)融入到現(xiàn)有的數(shù)據(jù)架構(gòu)中,特別是支持非結(jié)構(gòu)化數(shù)據(jù)方面的功能。
7. 利用AI幫助構(gòu)建AI:使用生成式AI幫助您管理自己的數(shù)據(jù)。生成式AI可以加快現(xiàn)有任務(wù),并改善整條數(shù)據(jù)價(jià)值鏈上從數(shù)據(jù)工程到數(shù)據(jù)治理和數(shù)據(jù)分析的各種任務(wù)處理方式。
原文標(biāo)題:7 ways to make sure your data is ready for generative AI,作者:Joe McKendrick