讓你的數據為AI做好準備的三個步驟
大多數IT領導者會發(fā)現,依靠他們現有的數據管理實踐來增加AI的應用是不可能的。
雖然許多企業(yè)已經運行了少數成功的概念驗證,以證明GenAI的價值,但在未將生產AI就緒的數據成為標準實踐之前,將這些概念驗證進行擴展并將新技術應用于業(yè)務的其他部分將永遠行不通。Gartner最近的預測顯示,60%在沒有AI就緒的數據的情況下運行的AI項目將在明年被放棄,這揭示了IT領導者需要立即解除的時間炸彈。
對于許多CIO來說,為哪怕一個AI項目準備數據也是一項艱巨的任務?!爱斔麄兲ど螦I之旅時,許多人發(fā)現自己的數據是垃圾,”軟件支持公司Rimini Street的CTO Eric Helmer說,“在某些情況下,他們不確定這些數據在數百個不同的系統(tǒng)中的哪個位置。當他們找到數據時,又往往不知道這些數據是否處于AI可以使用的狀態(tài)。這往往會阻礙他們的AI愿望?!?/p>
為了應對即將到來的、要求在整個企業(yè)中支持AI項目使用的海嘯,CIO們應該采取以下三個步驟,以確保使數據為AI就緒做好準備成為標準實踐。
放棄使用傳統(tǒng)IT來支持AI
“最終目標是擁有AI就緒的數據,這意味著質量高、一致性強、結構合理的數據,這些數據經過優(yōu)化,可以有效地用于AI模型中,并為特定應用程序產生所需的結果,”安永全球AI領域負責人Beatriz Sanz Sáiz說。AI就緒的數據并不是CIO們只需要為單個應用程序生產的東西——對于所有需要企業(yè)特定智能的應用程序,他們都需要它。
然而,許多IT領導者發(fā)現,使用標準數據實踐以及傳統(tǒng)IT硬件和軟件,無法實現這一目標?!霸邶嫶蟮摹⒒ゲ贿B通的系統(tǒng)中清理數據,使其對AI有用幾乎是不可能的,”Helmer說,“如果你進入一個人力資源系統(tǒng)并刪除重復記錄或以任何其他方式清理數據,這些更改可能不會傳播到所有相關的數據存儲中,從而造成數據不一致。”
為了定期訓練企業(yè)特定用例所需的模型,CIO們需要建立AI就緒的數據的管道,采用新的方法來收集、清理和編目企業(yè)信息。安永最近對數據管理領導者進行的一項研究表明,大多數企業(yè)都還沒有做到這一點。在超過1200個企業(yè)參與的研究中,有三分之二的企業(yè)要么沒有適合AI的數據管理實踐,要么不確定自己是否有這樣的實踐。因此,計劃增加AI采用率的IT領導者顯然需要重新考慮他們的數據管理方式。
據日立萬達(Hitachi Vantara)AI領域的CTO Jason Hardy稱,到目前為止,大多數企業(yè)一直在依賴傳統(tǒng)系統(tǒng),而這些系統(tǒng)已經在努力支持生產工作負載?,F在,隨著AI工作負載的增加,結果是出現了許多影響日常運營的下游問題。CIO們不僅需要改造基礎設施,以便通過新的接口呈現大量數據,還需要處理GenAI以前所未見的方式產生的所有數據。“AI革命正在迫使所有行業(yè)的數據中心進行現代化改造,”Hardy說。
據Sáiz稱,早在2018年左右,現代化就已經開始大規(guī)模進行。新技術問世,使企業(yè)能夠開始改變其數據基礎設施和實踐,以滿足對大型結構化和非結構化數據集不斷增長的需求,這些數據集要為分析和機器學習提供動力。他們開始使用數據虛擬化,通過將數據消費與數據起源分離,減少了對大型數據倉庫的需求?,F在,隨著自主式AI的出現,對高質量數據的需求比以往任何時候都增長得更快,這更加快了現有趨勢的緊迫性。
使用AI改進數據,并用知識改進AI
Sáiz補充道,好消息是AI是解決方案的一部分。例如,可以使用GenAI生成合成數據,還可以使用其他形式的AI來幫助分析和提高數據質量。一些企業(yè)使用AI來分析數據分布,通過識別不在合理范圍內的值,然后填充缺失的值。AI還可以幫助工程師定位有問題的數據集,應用不同的技術來確定給定值的真實性概率?!拔覀兡壳翱吹?,‘AI用于數據’是企業(yè)中應用AI最大的領域之一,”Sáiz說,“數據和AI的革命同時進行,產生了雙贏的局面?!?/p>
AI還可以通過擁有一個使用自助式AI來管理分散基礎設施的中央智能,來實現更加分散的數據基礎設施。數十萬個智能體可以強制執(zhí)行標準并確保數據一致性,據Sáiz稱,這是公司在數據基礎設施方面面臨的最大挑戰(zhàn)之一。
例如,AI可以幫助確保特定客戶的記錄在所有系統(tǒng)中(包括CRM、呼叫中心軟件和財務應用程序)保持一致。“為了保持一致,每當客戶與呼叫中心或網站互動時,所有系統(tǒng)都會在近乎實時的情況下獲得更改,”Sáiz說,“過去,你需要更多的延遲和大量的手動檢查,而現在,這一切都是由AI驅動的,AI不斷檢查狀態(tài)和主數據集,根據智能判斷是否需要在整個系統(tǒng)中更新記錄?!?/p>
據Sáiz稱,知識比數據更重要,因為它有助于解釋數據??梢栽跀祿A設施之上構建一個知識層,以提供上下文并減少錯誤判斷。“如果某人在電信行業(yè)運行一個預測模型,那么變量、輸入和結果將與在金融預測中運行相同模型時的變量、輸入和結果不同,”她說,“你越關注知識,你的AI就越準確?!?/p>
采用迭代方法進行轉型
一些IT領導者覺得眼前的挑戰(zhàn)令人難以承受,認為他們需要在開始AI之旅之前將所有的數據都調整到完美狀態(tài)。但Hardy說,更好的方法是讓他們以迭代的方式改變其數據管理實踐和基礎設施。“一旦你奠定了基本原則和實踐,你就可以一次一個項目地進行轉型,”他說。
其中一個基本原則是網絡安全,這是CIO們的首要關注點,據Hardy稱。IT領導者需要確保用于訓練模型的數據不違反任何數據隱私規(guī)則,而且模型產生的響應與用戶的訪問權限一致?!癆I系統(tǒng)需要知道是誰在提問,以便帶回適當級別的信息,并且不暴露任何額外信息,”Hardy說。
當AI作為云服務提供時,還必須減輕暴露知識產權的風險?!案鶕闩c服務的接口方式,以及數據的類型、主權要求、敏感性要求和法規(guī),你可能會決定一些數據永遠不應該存儲在云中,”Hardy補充說,“制定指導原則將有助于你根據具體情況決定哪些數據保留在本地,哪些數據上傳至云端?!?/p>
據Helmer稱,應該建立一個管理機構來幫助確保遵循最佳實踐。任何開發(fā)或部署AI應用程序的人都必須遵守一套規(guī)則,這些規(guī)則不僅與數據質量一致,而且與保留政策、數據依賴政策和所有適當的法規(guī)一致。
“在你的旅程中,決定每個項目的目標結果,”Hardy說,“然后弄清楚你需要什么數據,以及你需要與哪些系統(tǒng)接口來實現這個結果。與其在看不到任何回報之前就試圖解決所有問題,不如一次關注一個數據轉換結果。”