?譯者 | 崔皓
審校 | 孫淑娟
眾所周知,數(shù)據(jù)治理可以確保數(shù)據(jù)的可用性、一致性、可信性和安全性。這些都是任何一個(gè)組織努力的方向,當(dāng)大數(shù)據(jù)、人工智能、機(jī)器語(yǔ)言接踵而至?xí)r,組織在數(shù)據(jù)治理的投入也在不斷加碼。大家很快意識(shí)到 AI/ML 系統(tǒng)的功能不同于傳統(tǒng)系統(tǒng)。
AI/ML 的應(yīng)用目標(biāo)并不是處理單個(gè)事務(wù),并返回結(jié)果與狀態(tài)。相反,AI/ML 系統(tǒng)會(huì)對(duì) PB 級(jí)別的數(shù)據(jù)進(jìn)行篩選,從而找出對(duì)應(yīng)的查詢方式或者開放的算法。數(shù)據(jù)可以進(jìn)行并行處理,也就是處理數(shù)據(jù)的線程可以同時(shí)輸入到處理器中。海量高并發(fā)的數(shù)據(jù)會(huì)進(jìn)行異步處理,此舉可以讓IT系統(tǒng)提取數(shù)據(jù)并加快數(shù)據(jù)的處理速度。
數(shù)據(jù)的來(lái)源多種多樣,可以來(lái)自系統(tǒng)的內(nèi)部或者外部。針對(duì)不同的來(lái)源會(huì)定制不同的收集、管理和存儲(chǔ)方式——盡管這些方式與組織治理標(biāo)準(zhǔn)有所異同。面對(duì)人工智能本身的問題,你信任他們嗎?這是公司及其審計(jì)師在 AI/ML 數(shù)據(jù)治理時(shí),尋找有效工具時(shí)都會(huì)面臨的問題。
一、數(shù)據(jù)治理如何應(yīng)用到AI/ML 系統(tǒng)中
1.確保數(shù)據(jù)一致性和準(zhǔn)確性
如果需要對(duì)系統(tǒng)內(nèi)外的事務(wù)數(shù)據(jù)進(jìn)行處理,首先要將其進(jìn)行標(biāo)準(zhǔn)化處理,以便這些處理過的數(shù)據(jù)可以和其他來(lái)源的數(shù)據(jù)進(jìn)行通信和整合。也可以在系統(tǒng)中預(yù)建的應(yīng)用程序接口,可以保證與其他系統(tǒng)的數(shù)據(jù)進(jìn)行交互。如果沒有預(yù)建接口 API,也可以使用ETL 工具,將數(shù)據(jù)從一個(gè)系統(tǒng)傳輸?shù)搅硪粋€(gè)系統(tǒng),即進(jìn)行系統(tǒng)之間的數(shù)據(jù)格式轉(zhuǎn)換。
如果要添加照片、視頻和聲音等非結(jié)構(gòu)化的對(duì)象,則可以使用對(duì)象鏈接工具通過引用的方式讓對(duì)象相互鏈接和關(guān)聯(lián)。對(duì)象鏈接器的典型案例就是GIS 系統(tǒng),它結(jié)合了照片、示意圖和其他類型的數(shù)據(jù),為特定環(huán)境提供完整的地理環(huán)境。
2.確保數(shù)據(jù)的可用性
一般而言,我們會(huì)將可用數(shù)據(jù)等同于可訪問數(shù)據(jù)——但不僅如此。如果保留的數(shù)據(jù)因?yàn)檫^時(shí)而失去價(jià)值,則應(yīng)將其清除。IT 系統(tǒng)和最終用戶必須就何時(shí)清除數(shù)據(jù)達(dá)成一致。然后通過數(shù)據(jù)保留政策將其固化。
在其他場(chǎng)景也需要考慮清除 AI/ML 數(shù)據(jù),例如當(dāng) AI 的數(shù)據(jù)模型發(fā)生更改并且數(shù)據(jù)不再適合該模型時(shí),就應(yīng)該清除對(duì)應(yīng)的數(shù)據(jù)。
在 AI/ML 治理審計(jì)中,審查員將期望看到以上兩種數(shù)據(jù)清除的書面政策和程序。他們還將檢查您的數(shù)據(jù)清除做法是否符合行業(yè)標(biāo)準(zhǔn)。市場(chǎng)上有許多數(shù)據(jù)清除工具和實(shí)用程序可以參考使用。
3.確保數(shù)據(jù)的可信性
一旦情況發(fā)生變化:曾經(jīng)有效的 AI/ML 系統(tǒng)可能會(huì)失效。通過定期檢查 AI/ML 結(jié)果以及系統(tǒng)歷史表現(xiàn),觀察周圍的環(huán)境就能發(fā)現(xiàn)一些蛛絲馬跡。如果 AI/ML 系統(tǒng)的準(zhǔn)確性產(chǎn)生了偏離,就必須修復(fù)它。
亞馬遜招聘模式就是一個(gè)很好的例子。亞馬遜的人工智能系統(tǒng)得出的結(jié)論是,最好雇用男性求職者,因?yàn)樵撓到y(tǒng)正在研究過去的招聘做法,而且大多數(shù)被雇用的都是男性。由于歷史數(shù)據(jù)的原因,該模型未能考慮未來(lái)有發(fā)展的,且具備高素質(zhì)的女性申請(qǐng)人。從而AI/ML 系統(tǒng)偏離了真相,反而在系統(tǒng)中植入招聘偏見。從監(jiān)管的角度來(lái)看,這樣的人工智能系統(tǒng)是不合規(guī)的。
事實(shí)證明,亞馬遜最終取消了該系統(tǒng)的實(shí)施——但其他公司可以避免類似錯(cuò)誤的發(fā)生,如果能夠定期監(jiān)控系統(tǒng)性能,將預(yù)測(cè)結(jié)果與過去數(shù)據(jù)進(jìn)行對(duì)比,并與外部環(huán)境進(jìn)行比較,就可以發(fā)現(xiàn)AI/ML 模型不同步的情況,并可以進(jìn)行調(diào)整。
數(shù)據(jù)科學(xué)家使用 AI/ML 工具來(lái)測(cè)量模型漂移,但業(yè)務(wù)專業(yè)人員檢查漂移的最直接方法是將 AI/ML 系統(tǒng)性能數(shù)據(jù)與歷史性能數(shù)據(jù)進(jìn)行交叉比較。如果你突然發(fā)現(xiàn)天氣預(yù)報(bào)的準(zhǔn)確度降低了 30%,那是時(shí)候檢查AI/ML 系統(tǒng)運(yùn)行的數(shù)據(jù)和算法了。
原文鏈接:https://www.techrepublic.com/article/data-governance-ai-systems/
譯者介紹
崔皓,51CTO社區(qū)編輯,資深架構(gòu)師,擁有18年的軟件開發(fā)和架構(gòu)經(jīng)驗(yàn),10年分布式架構(gòu)經(jīng)驗(yàn)。?