GenAI時代的數(shù)據(jù)治理藍圖
隨著我們深入ML和GenAI領(lǐng)域,對數(shù)據(jù)質(zhì)量的重視變得至關(guān)重要。KMS Technology高級技術(shù)創(chuàng)新小組的首席技術(shù)官John Jeske深入研究了數(shù)據(jù)治理方法,如數(shù)據(jù)沿襲跟蹤和聯(lián)合學(xué)習(xí),以確保頂級模型的性能。
數(shù)據(jù)質(zhì)量是模型可持續(xù)性和利益相關(guān)者信任的關(guān)鍵。在建模過程中,數(shù)據(jù)質(zhì)量使長期維護變得更容易,并使你能夠在利益相關(guān)者社區(qū)中建立用戶信心和信心。在包括大規(guī)模語言和生成性算法在內(nèi)的復(fù)雜模型中,‘垃圾輸入,垃圾輸出’的影響會加劇?!癑eske說。
基因AI偏向與數(shù)據(jù)代表性問題
無論你為用例選擇哪種模型,糟糕的數(shù)據(jù)質(zhì)量都不可避免地會導(dǎo)致GenAI模型的扭曲。陷阱通常來自培訓(xùn)數(shù)據(jù),這些數(shù)據(jù)錯誤地表示了公司的范圍、客戶基礎(chǔ)或應(yīng)用程序范圍。
真正的資產(chǎn)是數(shù)據(jù)本身,而不是曇花一現(xiàn)的模型或建模架構(gòu)。最近幾個月,隨著大量建??蚣艿某霈F(xiàn),數(shù)據(jù)作為可貨幣化資產(chǎn)的一貫價值變得格外明顯。
KMS Technology軟件服務(wù)高級副總裁Jeff Scott補充道:“當(dāng)AI生成的內(nèi)容偏離預(yù)期輸出時,這不是算法的錯誤。相反,這反映了培訓(xùn)數(shù)據(jù)的不足或扭曲。
嚴格的數(shù)據(jù)完整性治理
數(shù)據(jù)治理方面的最佳實踐包括元數(shù)據(jù)管理、數(shù)據(jù)管理和部署自動化質(zhì)量檢查等活動。例如,確保數(shù)據(jù)的來源,在獲取用于培訓(xùn)和建模的數(shù)據(jù)時使用經(jīng)過認證的數(shù)據(jù)集,以及考慮使用自動化數(shù)據(jù)質(zhì)量工具。雖然增加了一層復(fù)雜性,但這些工具對于實現(xiàn)數(shù)據(jù)完整性非常有用。
為了提高數(shù)據(jù)質(zhì)量,我們使用了提供數(shù)據(jù)有效性、完整性檢查和時間一致性等屬性的工具,這促進了可靠、一致的數(shù)據(jù),而這對于健壯的AI模型來說是不可或缺的。
AI發(fā)展中的責(zé)任追究和持續(xù)改進
數(shù)據(jù)是每個人的問題,在公司內(nèi)分配數(shù)據(jù)治理的責(zé)任是一項基本任務(wù)。
最重要的是確保功能按設(shè)計工作,并且從潛在客戶的角度來看,正在訓(xùn)練的數(shù)據(jù)是合理的。反饋加強了學(xué)習(xí),然后在下一次訓(xùn)練模型時考慮到反饋,從而調(diào)用持續(xù)改進,直到信任點。
在我們的工作流程中,AI和ML模型在公開推出之前要經(jīng)過嚴格的內(nèi)部測試。我們的數(shù)據(jù)工程團隊不斷收到反饋,允許對模型進行迭代改進,以最大限度地減少偏差和其他異常情況。
風(fēng)險管理與客戶信任
數(shù)據(jù)治理需要相關(guān)業(yè)務(wù)領(lǐng)域的數(shù)據(jù)管理,并需要主題專家持續(xù)參與,這確保了流經(jīng)其團隊和系統(tǒng)的數(shù)據(jù)得到適當(dāng)整理和一致的責(zé)任。
必須了解與接收來自技術(shù)的不準確結(jié)果相關(guān)的風(fēng)險,公司必須評估其透明度,從數(shù)據(jù)來源和處理知識產(chǎn)權(quán)到整體數(shù)據(jù)質(zhì)量和完整性。
透明度對客戶的信任是不可或缺的,數(shù)據(jù)治理不僅僅是一項技術(shù)工作,由于風(fēng)險從不準確的AI預(yù)測轉(zhuǎn)移到最終用戶,它還會影響公司的聲譽。
總之,隨著GenAI的不斷發(fā)展,掌握數(shù)據(jù)治理變得更加關(guān)鍵,這不僅僅是為了維護數(shù)據(jù)質(zhì)量,也是為了理解這些數(shù)據(jù)與利用它的AI模型之間的復(fù)雜關(guān)系。這種洞察力對于技術(shù)進步、業(yè)務(wù)健康以及維護利益相關(guān)者和更廣泛公眾的信任至關(guān)重要。