你對AI未來的數(shù)據(jù)戰(zhàn)略是什么?
不良數(shù)據(jù)的代價
Gartner估計,企業(yè)因使用質(zhì)量不佳的數(shù)據(jù)而平均每年損失1290萬美元。IBM計算出,糟糕的數(shù)據(jù)每年給美國經(jīng)濟造成的損失超過3萬億美元,其中大部分費用涉及企業(yè)內(nèi)部在數(shù)據(jù)通過和跨部門傳遞時檢查和更正數(shù)據(jù)的工作。IBM認為,知識工作者有一半的時間被浪費在這些活動上。
除了這些內(nèi)部成本外,客戶、監(jiān)管機構(gòu)和供應(yīng)商之間的聲譽損害也是一個更大的問題,這些問題來自基于不良或誤導(dǎo)性數(shù)據(jù)而行為不當(dāng)?shù)慕M織?!扼w育畫報》及其CEO最近發(fā)現(xiàn)了這一點,當(dāng)時該雜志被披露發(fā)表了由虛假作者撰寫的文章,并使用AI生成的圖像。雖然CEO丟掉了工作,但母公司Arena Group的市值損失了20%。也有幾起備受矚目的律師事務(wù)所通過提交虛假的AI生成的案件作為法律糾紛中優(yōu)先地位的證據(jù)而陷入困境。
AI黑匣子
盡管成本高昂,但檢查和更正企業(yè)決策和業(yè)務(wù)運營中使用的數(shù)據(jù)已成為大多數(shù)企業(yè)的既定做法,然而,考慮到幻覺的發(fā)生率越來越高,了解一些大型語言模型(LLM)是如何訓(xùn)練的,以及關(guān)于哪些數(shù)據(jù)和輸出是否可信,則是另一回事。例如,在澳大利亞,一位當(dāng)選的地區(qū)市長威脅要起訴OpenAI,因為該公司的ChatGPT虛假地聲稱,他曾因賄賂而入獄,而事實上,他一直是犯罪活動的舉報人。
對LLM進行可信數(shù)據(jù)培訓(xùn),并采用迭代查詢、檢索增強生成或推理等方法,是顯著減少幻覺危險的好方法,但不能保證它們不會發(fā)生。
關(guān)于合成數(shù)據(jù)的培訓(xùn)
隨著企業(yè)通過部署AI系統(tǒng)尋求競爭優(yōu)勢,回報可能會流向那些能夠獲得足夠和相關(guān)的專有數(shù)據(jù)來訓(xùn)練他們的模型的人,但是,無法獲得這些數(shù)據(jù)的大多數(shù)企業(yè)怎么辦?研究人員預(yù)測,如果目前的趨勢繼續(xù)下去,用于訓(xùn)練LLM模型的高質(zhì)量文本數(shù)據(jù)將在2026年前耗盡。
解決這個迫在眉睫的問題的一個辦法是增加對合成訓(xùn)練數(shù)據(jù)的使用。Gartner估計,到2030年,AI模型中合成數(shù)據(jù)將超過真實數(shù)據(jù)的使用,然而,回到GIGO的警告,過度依賴合成數(shù)據(jù)可能會加速產(chǎn)出不準確和決策失誤的危險。此類數(shù)據(jù)只能與創(chuàng)建它的模型一樣好。數(shù)據(jù)混亂可能會帶來更長期的危險,因為AI模型是在不符合標準的合成數(shù)據(jù)上進行訓(xùn)練的,這些數(shù)據(jù)產(chǎn)生的輸出然后被反饋到后來的模型中。
謹慎行事
AI精靈已經(jīng)從瓶子里出來了,雖然一些過于熱情的技術(shù)供應(yīng)商和咨詢公司承諾的廣泛的數(shù)字革命需要更多時間才能發(fā)生,但AI將繼續(xù)以我們尚無法想象的方式改變商業(yè),然而,訪問企業(yè)所需規(guī)模的可靠和可信數(shù)據(jù)已經(jīng)成為CIO和其他企業(yè)領(lǐng)導(dǎo)人必須在為時已晚之前找到補救方法的瓶頸。