GenAI可以照亮數(shù)十年的暗數(shù)據(jù)
? GenAI正在改變組織管理和利用非結(jié)構(gòu)化數(shù)據(jù)的方式。
? 非結(jié)構(gòu)化數(shù)據(jù)包括文檔、照片和視頻,雖然數(shù)量巨大,但難以駕馭。
? 盡管GenAI提供了強(qiáng)大的工具來(lái)提取和利用這些數(shù)據(jù),但專家強(qiáng)調(diào)需要強(qiáng)有力的數(shù)據(jù)治理。
GenAI正在革新組織管理和使用非結(jié)構(gòu)化數(shù)據(jù)的方式,這是一種長(zhǎng)期以來(lái)數(shù)量龐大卻難以駕馭的資源,但如果沒(méi)有明確的策略,它可能會(huì)打開(kāi)“潘多拉的盒子”。
結(jié)構(gòu)化數(shù)據(jù)包括常見(jiàn)的表格、Excel表和數(shù)據(jù)庫(kù),而非結(jié)構(gòu)化數(shù)據(jù)則涵蓋從舊郵件、PDF、采購(gòu)訂單和發(fā)票到培訓(xùn)手冊(cè)和維修指南的所有內(nèi)容。IDC數(shù)據(jù)智能與集成軟件副總裁Steward Bond指出,由于管理不當(dāng),這些數(shù)據(jù)通常被忽視,閑置在硬盤或云存儲(chǔ)中未被使用。
“我認(rèn)為,使用GenAI來(lái)揭示‘黑暗數(shù)據(jù)’中隱藏的機(jī)會(huì)是巨大的,”Bond在接受Fierce Network采訪時(shí)表示,“GenAI可以用于讀取未標(biāo)記或未標(biāo)簽的內(nèi)容,識(shí)別內(nèi)容中的信息(包括任何敏感信息),并添加適當(dāng)?shù)脑獢?shù)據(jù),使其變得可見(jiàn)并可用于使用?!?/p>
組織生成了海量的非結(jié)構(gòu)化數(shù)據(jù),根據(jù)IDC全球數(shù)據(jù)球體(Global DataSphere)的估計(jì),僅在2023年就創(chuàng)造了132澤字節(jié)的數(shù)據(jù),其中64%來(lái)自企業(yè)。Bond表示,這其中很多是“黑暗數(shù)據(jù)”,即沒(méi)有被適當(dāng)?shù)夭蹲?、?biāo)記或管理,因此難以訪問(wèn)和使用。
然而,大型語(yǔ)言模型非常適合理解和處理非結(jié)構(gòu)化數(shù)據(jù),因?yàn)樗鼈兺ㄟ^(guò)大量此類內(nèi)容進(jìn)行訓(xùn)練。Bond解釋說(shuō),大型語(yǔ)言模型可以基于非結(jié)構(gòu)化數(shù)據(jù)輸入回答各種問(wèn)題并生成內(nèi)容。
事實(shí)上,像檢索增強(qiáng)生成(RAG)這樣的技術(shù)提供了一種將額外數(shù)據(jù)融入模型提示中的方法,從而提高生成內(nèi)容的準(zhǔn)確性和相關(guān)性。
非結(jié)構(gòu)化數(shù)據(jù)能告訴我們什么?
企業(yè)和服務(wù)提供商都認(rèn)識(shí)到GenAI在從長(zhǎng)篇文檔、研究論文和電子郵件等非結(jié)構(gòu)化來(lái)源中提取并結(jié)構(gòu)化數(shù)據(jù)方面的潛力。
這種能力對(duì)于需要將非結(jié)構(gòu)化數(shù)據(jù)與下游流程連接的組織至關(guān)重要,例如將采購(gòu)訂單集成到ERP系統(tǒng)中,IDC企業(yè)內(nèi)容與知識(shí)管理戰(zhàn)略研究經(jīng)理Amy Machado表示。除了簡(jiǎn)單的提取,GenAI還可以幫助組織搜索、發(fā)現(xiàn)、總結(jié),甚至基于現(xiàn)有的非結(jié)構(gòu)化數(shù)據(jù)生成新內(nèi)容。
Machado在接受Fierce采訪時(shí)表示,這將以往難以訪問(wèn)的知識(shí)轉(zhuǎn)化為可執(zhí)行的洞察,從而推動(dòng)業(yè)務(wù)流程和決策?!昂芏喾墙Y(jié)構(gòu)化數(shù)據(jù)中存儲(chǔ)了知識(shí)。”她補(bǔ)充道。
例如,AWS現(xiàn)在使用GenAI來(lái)增強(qiáng)其銷售團(tuán)隊(duì)的能力,通過(guò)將CRM系統(tǒng)中的結(jié)構(gòu)化數(shù)據(jù)與銷售資料等非結(jié)構(gòu)化數(shù)據(jù)結(jié)合,模型能夠生成全面的客戶賬戶摘要,為銷售團(tuán)隊(duì)提供更多上下文相關(guān)的見(jiàn)解。
結(jié)構(gòu)化數(shù)據(jù)提供了定量基礎(chǔ)(例如,消費(fèi)、管道)以及歷史趨勢(shì),而非結(jié)構(gòu)化數(shù)據(jù)則增加了定性的深度。像銷售資料和外部網(wǎng)頁(yè)數(shù)據(jù)這樣的非結(jié)構(gòu)化內(nèi)容提供了結(jié)構(gòu)化數(shù)據(jù)可能遺漏的背景和細(xì)節(jié)。
“GenAI和大型語(yǔ)言模型徹底改變了我們對(duì)非結(jié)構(gòu)化內(nèi)容的處理方式,過(guò)去大規(guī)模分析這些內(nèi)容一直具有挑戰(zhàn)性。”AWS GenAI首席技術(shù)產(chǎn)品經(jīng)理Rupa Boddu在接受Fierce Network采訪時(shí)表示。
清理不良數(shù)據(jù)
盡管利用GenAI處理非結(jié)構(gòu)化數(shù)據(jù)的好處顯而易見(jiàn),但同樣重要的是確保這些模型所使用的數(shù)據(jù)是準(zhǔn)確的、公正的,并且不包含敏感信息。
非結(jié)構(gòu)化數(shù)據(jù)就像一個(gè)數(shù)字垃圾場(chǎng),信息被拋棄并遺忘了很多年。現(xiàn)在,許多公司對(duì)其中隱藏的信息幾乎沒(méi)有了解,打開(kāi)這個(gè)“垃圾場(chǎng)”可能會(huì)帶來(lái)不可預(yù)見(jiàn)的后果。
Gartner副總裁分析師Bart Willemsen表示,使用非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行GenAI應(yīng)用引發(fā)了有關(guān)隱私和數(shù)據(jù)治理的關(guān)鍵問(wèn)題,“這是大多數(shù)企業(yè)似乎還未解決的問(wèn)題。”
Willemsen指出,大多數(shù)公司實(shí)際上并不了解他們所積累的數(shù)據(jù)——在某些情況下,這些數(shù)據(jù)可能有幾十年的歷史——他們不清楚最初為什么會(huì)擁有這些數(shù)據(jù),或這些數(shù)據(jù)服務(wù)于什么目的。
如果沒(méi)有適當(dāng)?shù)臄?shù)據(jù)治理,GenAI可能會(huì)傳播錯(cuò)誤信息或偏見(jiàn),導(dǎo)致錯(cuò)誤的輸出和潛在的有害決策。因此,企業(yè)必須實(shí)施強(qiáng)有力的數(shù)據(jù)治理框架,以管理用于訓(xùn)練和部署GenAI模型的非結(jié)構(gòu)化數(shù)據(jù)的質(zhì)量和安全性。
Willemsen總結(jié)道,企業(yè)應(yīng)該在使用任何AI之前,具備“絕對(duì)的、細(xì)致的”數(shù)據(jù)治理控制?!拔也辉诤魽I技術(shù)本身有多好,如果你有糟糕的數(shù)據(jù),那么你的AI也會(huì)很糟糕?!?/p>