結(jié)合數(shù)據(jù)和知識(shí)多樣性解決數(shù)據(jù)偏差
大數(shù)據(jù)是一種加速發(fā)展的趨勢,正在各個(gè)行業(yè)滲透。為了使系統(tǒng)自動(dòng)化并消除對(duì)人力的需求,需要多種多樣的數(shù)據(jù),這些數(shù)據(jù)全面涵蓋人類行為和行動(dòng)的所有可能方面。世界正在以比正常速度更快的速度數(shù)字化。方式上存在一些挑戰(zhàn)。例如,數(shù)字世界需要強(qiáng)大的處理能力和安全性。這些屬性因利基而異。挑戰(zhàn)是要在兩者之間保持平衡并順利進(jìn)行數(shù)字處理。
為了自動(dòng)化在線系統(tǒng),應(yīng)用了先進(jìn)的技術(shù)和算法。例如,與在線系統(tǒng)集成的自動(dòng)聊天機(jī)器人傾向于在沒有人工查詢處理程序任何幫助的情況下與客戶進(jìn)行通信。在這些聊天機(jī)器人中,大量數(shù)據(jù)用于針對(duì)在線查詢進(jìn)行訓(xùn)練。數(shù)據(jù)包括常見問題和一些非常規(guī)問題。模型中嵌入了多樣化的字典以進(jìn)行訓(xùn)練和測試。
人工智能和機(jī)器學(xué)習(xí)模型渴望獲得數(shù)據(jù)。在AI方法中,一種被稱為“終身學(xué)習(xí)機(jī)器”的新品種正在被設(shè)計(jì)為無限地,連續(xù)地處理數(shù)據(jù)。數(shù)據(jù)流構(gòu)建了渴望的模型和所需的模型。但是,對(duì)數(shù)據(jù)的日益增長的重要性和需求正在以“數(shù)據(jù)偏差”的形式引入障礙。全世界的AI公司在積極解決數(shù)據(jù)偏差問題方面都面臨著困難。
AI模型的過失
“技術(shù)界需要改進(jìn)”。由于AI模型中的多次失敗,這種姿態(tài)出現(xiàn)了。例如,Google照片有時(shí)無法正確標(biāo)記實(shí)體。該應(yīng)用程序?qū)⒎且崦绹藰?biāo)記為“大猩猩”。還有更多 亞馬遜的面部識(shí)別系統(tǒng)標(biāo)記了國會(huì)議員的罪犯。這種冗長的詞句進(jìn)入現(xiàn)實(shí)世界會(huì)導(dǎo)致毀滅性的環(huán)境。這就是微軟公司的創(chuàng)始人比爾·蓋茨不贊成將AI模型和此類技術(shù)用于監(jiān)視目的(例如在戰(zhàn)爭中)的原因。
數(shù)據(jù)偏差不是AI模型的一部分,但數(shù)據(jù)包含偏差元素。例如,用于數(shù)據(jù)處理,過濾,標(biāo)記和分析的算法無法有效地按比例對(duì)特定性狀進(jìn)行分類。所有問題通常都與數(shù)據(jù)偏見相對(duì)應(yīng),在這種情況下,模型無法將案例無障礙地分類到相關(guān)類別中。此外,由于實(shí)踐模型失敗,法律后果對(duì)AI公司施加了重罰。
多樣化的數(shù)據(jù)集:解決方案
AI數(shù)據(jù)經(jīng)過各個(gè)階段。在策劃階段可以積極解決數(shù)據(jù)偏差問題。原因是有時(shí)收集的數(shù)據(jù)不包含所有可能性或各種元素。在此問題上,數(shù)據(jù)源起著關(guān)鍵作用。例如,從某些來源收集的數(shù)據(jù)包含有關(guān)男人長相的更多數(shù)據(jù)。
有關(guān)男性的屬性已明確定義并顯示在數(shù)據(jù)中,但其中并未包含有關(guān)女性特征的任何細(xì)節(jié)。現(xiàn)在,在分類時(shí),與男性有關(guān)的數(shù)據(jù)在女性類別中越來越少。該數(shù)據(jù)集將被有效地訓(xùn)練以識(shí)別男性,并且在識(shí)別女性的情況下將給出負(fù)面結(jié)果。這導(dǎo)致數(shù)據(jù)偏差。因此,第一件事是均勻而多樣化的數(shù)據(jù)收集。
人種學(xué)視角
在數(shù)據(jù)收集階段,應(yīng)進(jìn)行多元化的調(diào)查和人口分析。具體而言,此方法稱為人種志。順便說一句,在技術(shù)研究方法論中,人種學(xué)對(duì)應(yīng)于提出解決方案的多種社會(huì)分析。在收集AI模型的數(shù)據(jù)時(shí)應(yīng)考慮這一點(diǎn),同時(shí)要牢記抽象觀點(diǎn)和來源。例如,基于AI的面部識(shí)別系統(tǒng)對(duì)女性的面部特征的影響要大于女性的特征,這將使女性比男性更容易識(shí)別男性的特征。
如今,在構(gòu)建面部識(shí)別系統(tǒng)時(shí)要考慮到寬敞的數(shù)據(jù)視圖。它們涵蓋了來自不同文化和國家的面孔的廣闊視角。這就是人臉識(shí)別技術(shù)的重大改進(jìn)使其在全球范圍內(nèi)被工業(yè)應(yīng)用的原因。
智力多樣性
另一種類型的多樣性。當(dāng)要在解決問題中發(fā)揮創(chuàng)造力和提高生產(chǎn)力時(shí),需要一個(gè)知識(shí)分子團(tuán)隊(duì)。該小組包括政治方面,學(xué)術(shù)紀(jì)律和風(fēng)險(xiǎn)承受能力計(jì)劃。知識(shí)多樣性可以提高模型的生產(chǎn)率和增長速度。而且,它增加了在正確類別中識(shí)別特征的可能性,并最終減少了數(shù)據(jù)偏差。當(dāng)一個(gè)知識(shí)團(tuán)隊(duì)為開發(fā)AI模型做出貢獻(xiàn)時(shí),可以有效地涵蓋更廣闊的視野,而標(biāo)準(zhǔn)實(shí)體無法顯示任何重大成果。
但是,數(shù)據(jù)偏差問題尚未完全解決。AI模型中存在一些漏洞,這些漏洞是他們從未面對(duì)過的例外。全世界的數(shù)據(jù)科學(xué)家都在積極提出新方法,以幫助最大程度地減少AI模型中的問題并將其商業(yè)化以產(chǎn)生更好的收入。
大數(shù)據(jù)游戲就此誕生。大數(shù)據(jù)技術(shù)和方法論正在為各種數(shù)據(jù)源和類型的海量數(shù)據(jù)集的生產(chǎn)做出貢獻(xiàn)。數(shù)據(jù)越多,AI模型越好。因此,機(jī)器和自動(dòng)化系統(tǒng)將在不久的將來取代人工,這為組織中的員工差異創(chuàng)造了令人震驚的局面。
人與各種數(shù)據(jù)的融合塑造了未來
個(gè)體多樣化的數(shù)據(jù)和人類知識(shí)分子無法從AI模型獲得預(yù)期結(jié)果。需要集體利用它們。將多樣化的數(shù)據(jù)集進(jìn)行模型訓(xùn)練和測試以及智能多樣性相結(jié)合,可以幫助提高模型效率。游戲只是在相關(guān)類別中準(zhǔn)確標(biāo)記輸入要素并相應(yīng)地提供輸出。多種數(shù)據(jù)和人類知識(shí)分子的融合共同增強(qiáng)了AI模型的優(yōu)化,使它們?cè)诮Y(jié)果精度方面更加強(qiáng)大和準(zhǔn)確。