企業(yè)在機(jī)器學(xué)習(xí)應(yīng)用中需要吸取的經(jīng)驗(yàn)和教訓(xùn)
在商業(yè)世界中,機(jī)器學(xué)習(xí)(ML)應(yīng)用程序的持續(xù)宣傳和炒作有其合理的原因。機(jī)器學(xué)習(xí)(ML)可能是當(dāng)今最為普及的人工智能(AI)領(lǐng)域。雖然人工智能和機(jī)器學(xué)習(xí)緊密相關(guān),但并不是可以互換的術(shù)語。機(jī)器學(xué)習(xí)已經(jīng)融入到許多業(yè)務(wù)應(yīng)用程序以及面向客戶的服務(wù)中,并且可以自我學(xué)習(xí)的機(jī)器聽起來很酷。
企業(yè)在機(jī)器學(xué)習(xí)應(yīng)用中需要吸取的經(jīng)驗(yàn)和教訓(xùn)
但是,正如許多IT主管說的那樣,采用新技術(shù)可能會(huì)導(dǎo)致一些不切實(shí)際的期望。為此,一些機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)專家分享了企業(yè)和團(tuán)隊(duì)在采用機(jī)器學(xué)習(xí)技術(shù)時(shí)需要吸取的經(jīng)驗(yàn)和教訓(xùn)。
1. 沒有建立合適的團(tuán)隊(duì)
企業(yè)可能擁有足夠的數(shù)據(jù)量和計(jì)算能力,但是如果團(tuán)隊(duì)中沒有適合的人才,也會(huì)對(duì)業(yè)務(wù)發(fā)展造成影響。
Very公司數(shù)據(jù)科學(xué)業(yè)務(wù)負(fù)責(zé)人Jenn Gamble博士說:“我經(jīng)常強(qiáng)調(diào)的一件事是,企業(yè)需要建立密切合作的跨學(xué)科團(tuán)隊(duì)來構(gòu)建機(jī)器學(xué)習(xí)產(chǎn)品。而數(shù)據(jù)科學(xué)家很少自己做到這一點(diǎn)。”
機(jī)器學(xué)習(xí)(ML)的成功應(yīng)用需要具備更多的能力和技能,Gamble指出以下是關(guān)鍵的技能:
- 機(jī)器學(xué)習(xí)建模
- 數(shù)據(jù)管道開發(fā)
- 后端/API開發(fā)
- 前端開發(fā)
- 用戶界面(UI)和用戶體驗(yàn)(UX)
- 產(chǎn)品管理
Gamble說:“沒有人在這些領(lǐng)域中擁有所有技能,因此有必要將擁有不同技能的人集中在一起,并鼓勵(lì)他們?cè)谡麄€(gè)過程中緊密合作。”
2. 沒有在業(yè)務(wù)期望和技術(shù)現(xiàn)實(shí)之間架起橋梁
Gamble還建議負(fù)責(zé)實(shí)施機(jī)器學(xué)習(xí)(ML)計(jì)劃的團(tuán)隊(duì)還要納入與行業(yè)專家和最終用戶緊密合作的工作人員,這些人并不一定是技術(shù)人員。
Gamble說,“重要的是要有人擔(dān)任人工智能產(chǎn)品經(jīng)理,與傳統(tǒng)的產(chǎn)品經(jīng)理一樣,他們的工作將集中在如何使用最終機(jī)器學(xué)習(xí)技術(shù)上:最終用戶是誰,他們的工作流程是什么,以及他們將根據(jù)所提供的信息做出什么決定。”
大多數(shù)IT專業(yè)人員都可以理解這個(gè)問題,無論他們擁有什么特殊的技能:在業(yè)務(wù)上期望機(jī)器學(xué)習(xí)(ML)能做什么和實(shí)現(xiàn)之間可能會(huì)有一些差距(或者是巨大的差距)。
Gamble說:“從機(jī)器學(xué)習(xí)建模的角度來看,將業(yè)務(wù)理解、數(shù)據(jù)理解、可能實(shí)現(xiàn)的功能結(jié)合在一起也增加了復(fù)雜性。正如許多優(yōu)秀的產(chǎn)品經(jīng)理都是軟件工程師一樣,我認(rèn)為很多優(yōu)秀的人工智能產(chǎn)品經(jīng)理也是數(shù)據(jù)科學(xué)家,盡管這是一個(gè)新興領(lǐng)域,走上這條路的人并不多,但我們將看到,對(duì)這一角色的需求將會(huì)繼續(xù)增長。”
3. 對(duì)真相有太多的版本
機(jī)器學(xué)習(xí)的一個(gè)基本現(xiàn)實(shí):模型或算法只取決于所提供的數(shù)據(jù)。
Indico公司首席執(zhí)行官Tom Wilde說,“對(duì)于人工智能和機(jī)器學(xué)習(xí)來說,人們最好把它想像成一只非常聰明的鸚鵡,它對(duì)于為學(xué)習(xí)預(yù)期任務(wù)而提供的培訓(xùn)輸入數(shù)據(jù)非常敏感。”
但這導(dǎo)致了不同的學(xué)習(xí)方式:人們(甚至是同一團(tuán)隊(duì)中的成員)如何感知特定業(yè)務(wù)流程或服務(wù)的現(xiàn)實(shí)可能存在很大的差異。
Indico公司使客戶可以讓多個(gè)人參與為模型建模而對(duì)培訓(xùn)數(shù)據(jù)進(jìn)行標(biāo)記的過程。他認(rèn)為這就像投票一樣:每個(gè)利益相關(guān)者在流程或任務(wù)中都有發(fā)言權(quán)。最近,該公司的一家客戶有六個(gè)人參加了數(shù)據(jù)標(biāo)記過程,雖然在短期內(nèi)最終失敗,但獲得了長期利益。
Wilde說:“一旦建立了模型,他們發(fā)現(xiàn)模型的性能非常差,經(jīng)過進(jìn)一步調(diào)查,他們發(fā)現(xiàn)這六個(gè)人對(duì)如何標(biāo)記訓(xùn)練樣本有完全不同的看法。這反過來迫使他們就特定任務(wù)進(jìn)行了非常有價(jià)值的對(duì)話,并使他們能夠更好地對(duì)特定用例的‘基本事實(shí)'有著深入的理解。”
4. 認(rèn)為訓(xùn)練數(shù)據(jù)才是終點(diǎn)
在生產(chǎn)過程中,企業(yè)可能會(huì)發(fā)現(xiàn)對(duì)最初的訓(xùn)練數(shù)據(jù)有點(diǎn)過于自信,并最終還是回到了起點(diǎn)。SigOpt公司工程主管Jim Blomo認(rèn)為,即使是很好的訓(xùn)練數(shù)據(jù)也不一定更好執(zhí)行。
Blomo說:“不能只是訓(xùn)練模型并相信它會(huì)執(zhí)行。需要運(yùn)行一個(gè)高度迭代的、科學(xué)的過程來使其正確執(zhí)行,即使到那時(shí),也可能仍會(huì)看到生產(chǎn)的高度可變性。模擬和驗(yàn)證過程以及持續(xù)的性能評(píng)估也是如此。”
企業(yè)通常會(huì)發(fā)現(xiàn),用于預(yù)測(cè)生產(chǎn)模型性能的基準(zhǔn)實(shí)際上需要在模型開發(fā)過程中進(jìn)行更改和調(diào)整。建模者首先了解到的一點(diǎn)是,定義正確的度量標(biāo)準(zhǔn)是最重要的任務(wù)之一,并且在通常情況下,跟蹤多個(gè)度量標(biāo)準(zhǔn)對(duì)于理解更完整的模型行為至關(guān)重要。
5. 重復(fù)傳統(tǒng)的軟件開發(fā)錯(cuò)誤
機(jī)器學(xué)習(xí)也容易遇到困擾其他IT部門的同樣問題。企業(yè)是否在無法協(xié)同工作的功能孤島中建立了人工智能/機(jī)器學(xué)習(xí)團(tuán)隊(duì)?這將產(chǎn)生許多與傳統(tǒng)軟件項(xiàng)目相同的問題:考慮范圍的擴(kuò)大、期限的延長、工具的損壞,以及對(duì)企業(yè)文化的不利影響。
Algorithmia公司創(chuàng)始人Kenny Daniel說:“很多企業(yè)花費(fèi)數(shù)年時(shí)間收集大量數(shù)據(jù),雇傭了數(shù)據(jù)科學(xué)家團(tuán)隊(duì),盡管投入大量人力和物力,卻未能使任何模型投入生產(chǎn)。其錯(cuò)誤的做法是讓數(shù)據(jù)科學(xué)家讓實(shí)施團(tuán)隊(duì)編寫程序代碼,期望數(shù)據(jù)科學(xué)家成為DevOps專家也是錯(cuò)誤的。”
那么正確的做法是什么?采用與現(xiàn)代化和優(yōu)化用于機(jī)器學(xué)習(xí)的軟件管道相同的思維方式(例如DevOps思維方式)。
Daniel說,“建議企業(yè)學(xué)習(xí)傳統(tǒng)軟件世界中的DevOps經(jīng)驗(yàn)和教訓(xùn):創(chuàng)建自動(dòng)化的、可重復(fù)的管道和工具,將底層的實(shí)現(xiàn)細(xì)節(jié)實(shí)現(xiàn)容器化和抽象化。”
Gamble說:“企業(yè)在構(gòu)建機(jī)器學(xué)習(xí)產(chǎn)品時(shí),仍然需要從軟件開發(fā)中汲取的所有相同的原則和經(jīng)驗(yàn)教訓(xùn),例如DevOps原則、以用戶為中心的設(shè)計(jì)等。許多數(shù)據(jù)科學(xué)家花費(fèi)很多時(shí)間來學(xué)習(xí)機(jī)器學(xué)習(xí),但是他們可能并不像軟件工程師、產(chǎn)品經(jīng)理或設(shè)計(jì)師那樣精通這些主題。”
正如DevOps可以被看作是對(duì)傳統(tǒng)軟件開發(fā)面臨問題的一種廣泛響應(yīng),在機(jī)器學(xué)習(xí)和人工智能的其他方面已經(jīng)出現(xiàn)了新方法。
Gamble說:“由于將機(jī)器學(xué)習(xí)納入傳統(tǒng)產(chǎn)品開發(fā)組合時(shí)還需要考慮其他因素,一些新領(lǐng)域如MLops、DataOps、DataViz和MLUX(機(jī)器學(xué)習(xí)用戶體驗(yàn))正在蓬勃發(fā)展,試圖填補(bǔ)這一空白。”