機器學(xué)習(xí)的教訓(xùn):5家公司分享的錯誤經(jīng)驗
機器學(xué)習(xí)是當(dāng)下的熱門技術(shù)之一,許多業(yè)務(wù)和技術(shù)高管都在爭相了解他們的組織可以如何參與其中。如果操作得當(dāng),機器學(xué)習(xí)可以幫助您創(chuàng)建更有效的銷售和營銷活動,改進財務(wù)模型,更輕松地檢測欺詐,提高設(shè)備的預(yù)測性維護,好處不一而足。
但是機器學(xué)習(xí)也可能會出嚴(yán)重的錯誤,讓你悔不該當(dāng)初。根據(jù)采用機器學(xué)習(xí)的公司的實際經(jīng)驗,這里有五種機器學(xué)習(xí)可能出錯的方式。他們分享了他們的經(jīng)驗,希望你可以吸取經(jīng)驗以避免同樣的失敗。
教訓(xùn)1:錯誤的假設(shè)使機器學(xué)習(xí)偏離了軌道
Projector PSA是美國一家設(shè)計和制造專業(yè)服務(wù)自動化軟件的公司,并幫助咨詢公司經(jīng)營業(yè)務(wù)。當(dāng)它試圖用機器學(xué)習(xí)來預(yù)測人員配置計劃的差異時,它慘痛地吸取了這一教訓(xùn)。
因為咨詢公司里面都是專業(yè)的、訓(xùn)練有素的顧問,能有效地利用他們的才能,所以公司經(jīng)常需要雇傭項目經(jīng)理來評估和預(yù)測他們項目的人員需求。
然后,他們跟蹤顧問花在每個項目上的時間,以便向客戶收取費用。如果組織在單一系統(tǒng)(例如專業(yè)的服務(wù)自動化工具)中同時管理這兩項活動,則有一些明顯的優(yōu)勢,例如能夠?qū)㈩A(yù)測與實際時間進行比較,從而了解不同的項目經(jīng)理在規(guī)劃方面的準(zhǔn)確性。
Projector PSA的首席運營官Steve Chong回憶說,該公司與一位客戶開始了一項研究,該客戶雇傭了數(shù)百名的項目經(jīng)理。它建立的模型比較了在不斷增加的規(guī)劃范圍內(nèi)實際工作的平均小時數(shù)與預(yù)測小時數(shù)之間的差異。它還在幾個月的時間里研究了項目經(jīng)理預(yù)測的一致性以及可變性。
也就是說,如果在一周內(nèi)預(yù)測過高,而在下一周預(yù)測過低(高可變性),Projector PSA希望知道這兩者是否能夠相互抵消,讓預(yù)測的平均值差異很小,或者說方差很小。
“最初的前提是低方差和低可變性是好的,而高方差和高可變性是壞的,”Chong說。基于這一前提,Projector PSA實現(xiàn)了一種機器學(xué)習(xí)算法,將項目經(jīng)理分為不同的群體,比如“囤積者”和“樂觀主義者”,基于這些數(shù)據(jù),該算法使用公司項目經(jīng)理的樣本作為訓(xùn)練集。
然后,公司讓機器學(xué)習(xí)算法根據(jù)學(xué)到的知識對剩下的項目經(jīng)理進行分類。事實證明,它將一些公司最有經(jīng)驗和受過良好培訓(xùn)的項目經(jīng)理列為了最糟糕的違規(guī)者,因為他們具有高的方差和高的可變性。
他說:“事實上,這些項目經(jīng)理是公司能夠針對那些已經(jīng)陷入困境的項目提出解決方案的人,他們希望這些項目能夠得到控制。”
類似地,最初的機器學(xué)習(xí)算法對一個項目經(jīng)理的評價很高,因為她的方差和可變性幾乎為零。但事實證明,她將預(yù)測的時間發(fā)送給她的團隊,隱含著一種期望,即他們會將這些時間報告為他們實際工作的時間。Chong表示,這導(dǎo)致了她從未超出預(yù)算或出現(xiàn)預(yù)算不足的局面,但這樣做實際上鼓勵了她的團隊以不利于大局的方式行事。
“這些錯誤不是機器學(xué)習(xí)算法本身造成的,而是我們最初訓(xùn)練它們時的假設(shè)造成的,”Chong說。“它們只是還原了完全依賴于數(shù)據(jù)而沒有充分了解數(shù)據(jù)所代表的現(xiàn)實。”
一旦該公司訓(xùn)練其機器學(xué)習(xí)算法識別了這些新的配置文件,它就會覺得它能更好地反映現(xiàn)實。
教訓(xùn)2:無監(jiān)督的機器學(xué)習(xí)可能會有意想不到的偏差
雖然許多任務(wù)可以通過機器學(xué)習(xí)來完成,但是因為有些情況在項目開始時并沒有被考慮到,從而導(dǎo)致機器學(xué)習(xí)產(chǎn)生了錯誤的結(jié)果。這就是巴西金融服務(wù)公司Mejor Trato的遭遇,該公司將機器學(xué)習(xí)作為人力資源部門數(shù)字化轉(zhuǎn)型的一部分。
該項目涉及讓潛在的新員工通過實時聊天和使用公司內(nèi)部開發(fā)的機器學(xué)習(xí)聊天機器人來回答一系列問題。
最初使用聊天機器人時出現(xiàn)了兩個關(guān)鍵問題。一個是要求求職者填寫了錯誤的個人資料/職業(yè)表格。另一個問題是,給出了與人力資源員工會議重疊的面試時間,這意味著人力資源員工無法根據(jù)需要監(jiān)控聊天機器人。
CTO Cristian Rennella表示,在最初幾周,HR團隊中的一些人需要對每一次對話進行監(jiān)控,以便在必要時糾正機器人,這一點至關(guān)重要。“我們犯了一個錯誤,以為一切都解決了,沒有監(jiān)督就離開了聊天機器人,”她說。教訓(xùn)是“不要忘記在幾個月內(nèi)持續(xù)監(jiān)控聊天機器人的全職工作。”
由于沒有對聊天機器人進行微調(diào),該公司斷定,收集到的數(shù)據(jù)中有10%是錯誤的。
Rennella說:“機器學(xué)習(xí)在一開始可能會對90%的答案有用,但是剩下的10%應(yīng)該由人工監(jiān)督來修正算法。”隨著時間的推移,可用性將從90%增加到99%,“但我們不能停止關(guān)注可能出現(xiàn)的偏差甚至新情況,當(dāng)我們開始這個項目時,這是出乎意料的,”她說。
教訓(xùn)3:糟糕的數(shù)據(jù)標(biāo)注會損害機器學(xué)習(xí)的結(jié)果
俄羅斯的兩家關(guān)聯(lián)公司Ashmanov神經(jīng)網(wǎng)絡(luò)和SOVA(智能開放式虛擬助理)在為其商業(yè)客戶開發(fā)基于機器學(xué)習(xí)的產(chǎn)品。其內(nèi)容包括了視頻分析、自然語言處理、信號處理和神經(jīng)網(wǎng)絡(luò)。
兩家公司的首席執(zhí)行官Stanislav Ashmanov表示,公司在機器學(xué)習(xí)方面遇到的最大問題之一是基于標(biāo)簽難度的糟糕數(shù)據(jù)。 “提供高質(zhì)量的數(shù)據(jù)標(biāo)簽是非常困難的,”Ashmanov說。“通常情況下,從事數(shù)據(jù)標(biāo)識工作的人都很草率,因為他們經(jīng)常只是匆忙地工作著。更重要的是,以一種每個人都能以同樣的方式和理解任務(wù)的方式來傳遞任務(wù)是非常困難的。”
因此,這些數(shù)據(jù)可能包含多個標(biāo)記的樣本,比如圖片中錯誤識別的輪廓,這些樣本對訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)的性能多少產(chǎn)生了一些影響。
在短時間內(nèi)收集所需的大量數(shù)據(jù)也很有挑戰(zhàn)性。Ashmanov說,數(shù)據(jù)收集可能需要幾個月的時間。此外,從公開渠道收集的數(shù)據(jù),比如在互聯(lián)網(wǎng)上找到的數(shù)據(jù),并不總是能夠準(zhǔn)確地反映現(xiàn)實。例如,在工作室或?qū)嶒炇遗臄z的照片可能與現(xiàn)實生活中的街景或工廠生產(chǎn)單元快照截然不同。結(jié)果,這樣訓(xùn)練出的神經(jīng)網(wǎng)絡(luò)的性能會很低。
作為客戶項目的一部分,當(dāng)公司訓(xùn)練神經(jīng)網(wǎng)絡(luò)來識別在線自拍中的眼鏡時,就出現(xiàn)了一個可能出錯的例子。他們從社交媒體上收集了一些照片并貼上標(biāo)簽。Ashmanov說,神經(jīng)網(wǎng)絡(luò)的表現(xiàn)質(zhì)量很低,因為它把眼睛下面有黑眼圈的人誤認為戴著眼鏡。
另一個客戶提交了一個城市的兩幅衛(wèi)星圖像。任務(wù)是在圖像中標(biāo)記汽車,并教神經(jīng)網(wǎng)絡(luò)識別它們并計算它們的近似數(shù)量。在這個例子中,問題是神經(jīng)網(wǎng)絡(luò)將建筑屋頂上的壁架也識別為汽車,因為它們在外觀上相似——它們都是小的、矩形的,而且大多是深色的。
“這一切都取決于對特殊案例的仔細研究,創(chuàng)建啟發(fā)式方法,以及改進初步數(shù)據(jù)處理和后處理證明檢查,”Ashmanov說。
教訓(xùn)4:過于細微的分類問題可能會混淆機器學(xué)習(xí)
Casepoint是美國一家為法律行業(yè)和其他市場提供電子發(fā)現(xiàn)技術(shù)的公司,它也經(jīng)歷了機器學(xué)習(xí)算法的缺陷問題。該公司使用機器學(xué)習(xí)來進行文檔分類和預(yù)測分析。通過使用這項技術(shù),法律團隊可以大大減少審查和分類文件的時間。
首席戰(zhàn)略官David Carns表示,利用機器學(xué)習(xí)對文件進行分類是有效的,但并非完美無缺。該公司發(fā)現(xiàn)的一個弱點是,人們會過度依賴機器學(xué)習(xí)來解決微妙、復(fù)雜的分類問題。
例如,在法律領(lǐng)域,機器學(xué)習(xí)文檔分類器經(jīng)常用于識別響應(yīng)“生成文檔請求”的文檔。甲方要求提供與特定主題或內(nèi)容相關(guān)的文檔,乙方可以使用機器學(xué)習(xí)文檔分類器進行分類來幫助篩選文檔存儲庫以獲取響應(yīng)文檔。
Carns說,這種方法非常有效,律師已經(jīng)開始定期使用這種技術(shù)來輔助審查(TAR)文件。“這種成功導(dǎo)致人們希望能夠盲目地使用機器學(xué)習(xí)文檔分類器來進行更細微的分類,例如識別受律師-客戶特權(quán)保護的文檔,”他說。
雖然使用機器學(xué)習(xí)對文檔分類器進行特權(quán)文檔內(nèi)容的訓(xùn)練很容易,但是如何使文檔具有合法特權(quán)在很大程度上取決于文檔的受眾、保密性、接收時間以及與法律咨詢或訴訟的關(guān)系。Carns說,大多數(shù)機器學(xué)習(xí)文檔分類器無法對這些額外的上下文線索進行充分分類。
Carns說:“這并不意味著機器學(xué)習(xí)文檔分類器不能幫助對潛在的特權(quán)文檔進行選擇和分類。但法律專業(yè)人士不應(yīng)僅僅依靠機器學(xué)習(xí)來確定特權(quán)。”他說,如今,人類律師需要手動審查潛在的特權(quán)文件,以便最終決定是否適用法律特權(quán)。
教訓(xùn)5:測試/訓(xùn)練數(shù)據(jù)的污染可能會影響機器學(xué)習(xí)
美國自動化公司Indico多年來一直在為客戶提供企業(yè)人工智能和深度學(xué)習(xí)服務(wù),它不斷遇到的最大問題之一是機器學(xué)習(xí)測試和訓(xùn)練數(shù)據(jù)的污染。
CTO Slater Victoroff說,一個客戶正在創(chuàng)建一個模型來確定一條新聞是否會影響其股價。由于很難準(zhǔn)確地確定影響時間,所以公司創(chuàng)建了一個模型來預(yù)測第二天的影響。
“他們沒有意識到的是,他們忽略了確保測試/訓(xùn)練數(shù)據(jù)完全分開的數(shù)據(jù)科學(xué)基礎(chǔ),”Victoroff說。“因此,在預(yù)測第二天的影響方面,他們給出了接近100%的準(zhǔn)確率,而實際上,這個模型并不會比隨機的模型更好。”
另一次體驗則涉及到一名客戶查看其內(nèi)部自然語言處理( NLP )系統(tǒng)。客戶有一個團隊,多年來一直在為機器學(xué)習(xí)模型創(chuàng)建和更新功能,并根據(jù)同一組搜索結(jié)果不斷測試這些功能。該團隊也經(jīng)歷了測試/訓(xùn)練數(shù)據(jù)污染的影響。Victoroff說:“如果你看到你的測試錯誤就改變你的算法來改進你的測試錯誤,你的數(shù)字就不再準(zhǔn)確了。”
在一些特殊情況下,人們對該問題的理解往往不足。在內(nèi)部,該模型對于特定任務(wù)實現(xiàn)了接近100%的準(zhǔn)確性。“但在生產(chǎn)過程中,該系統(tǒng)往往無法正常運行,因為他們無意中污染了他們的結(jié)果,”Victoroff說。“任何組織在機器學(xué)習(xí)中最關(guān)鍵的錯誤都是測試/訓(xùn)練數(shù)據(jù)的污染問題。”