自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

機(jī)器教學(xué)入門指南

人工智能
近年來,機(jī)器教學(xué)日益受到關(guān)注,主要側(cè)重于解決人工智能的領(lǐng)域?qū)<移款i問題。傳統(tǒng)的機(jī)器學(xué)習(xí)研究通常聚焦于優(yōu)化學(xué)習(xí)算法或網(wǎng)絡(luò)架構(gòu),而如今的機(jī)器教學(xué)則更關(guān)注如何提高人類在訓(xùn)練模型時的效率

什么是機(jī)器教學(xué)?

盡管人工智能(AI)已在許多行業(yè)得到廣泛應(yīng)用,但根據(jù)麻省理工學(xué)院斯隆管理學(xué)院的研究,只有不到10%的采用人工智能的企業(yè)真正實現(xiàn)了預(yù)期的商業(yè)收益。要從人工智能中真正獲益,企業(yè)必須找到將人類與機(jī)器緊密結(jié)合的方式,這一概念被稱為“組織學(xué)習(xí)”。具體而言,許多企業(yè)在初期應(yīng)用人工智能時,通常會選擇那些已經(jīng)具備大量可用數(shù)據(jù)且容易訓(xùn)練模型的低難度場景,比如客戶支持分流、社交媒體情感分析以及市場營銷中的客戶細(xì)分等。雖然這些應(yīng)用場景較為普遍,但往往并不是企業(yè)中最具價值的部分。對于成功的企業(yè)來說,要利用人工智能創(chuàng)造最大價值,通常應(yīng)關(guān)注那些能夠增強(qiáng)領(lǐng)域?qū)<夷芰Φ膽?yīng)用場景。

然而,這也帶來了一個問題:要利用人工智能來增強(qiáng)領(lǐng)域?qū)<业哪芰?,就必須讓這些專家參與到模型的訓(xùn)練過程中。例如,一家大型醫(yī)療機(jī)構(gòu)可能會選擇開發(fā)一個人工智能系統(tǒng),用于診斷某些特定類型的癌癥。為了讓人工智能完成該任務(wù),必須使用由腫瘤學(xué)家和放射科醫(yī)生等專家標(biāo)注的高質(zhì)量數(shù)據(jù)進(jìn)行模型訓(xùn)練。然而,對大多數(shù)企業(yè)而言,這個過程成本過高,因為專家資源非常緊張,難以長時間投入到數(shù)據(jù)標(biāo)注工作中。麻省理工學(xué)院的研究團(tuán)隊提出了“組織學(xué)習(xí)”的解決方案,即讓領(lǐng)域?qū)<遗c機(jī)器協(xié)作,共同學(xué)習(xí)。這種人機(jī)互學(xué)的模式被認(rèn)為是人工智能成功的關(guān)鍵。然而,要實現(xiàn)這種模式并不容易,首先是領(lǐng)域?qū)<冶揪拖∪?,難以兼顧數(shù)據(jù)標(biāo)注工作和日常專業(yè)任務(wù)。因此,人機(jī)互學(xué)并未完全解決企業(yè)面臨的專家數(shù)量不足的核心問題。

近年來,機(jī)器教學(xué)日益受到關(guān)注,主要側(cè)重于解決人工智能的領(lǐng)域?qū)<移款i問題。傳統(tǒng)的機(jī)器學(xué)習(xí)研究通常聚焦于優(yōu)化學(xué)習(xí)算法或網(wǎng)絡(luò)架構(gòu),而如今的機(jī)器教學(xué)則更關(guān)注如何提高人類在訓(xùn)練模型時的效率。雖然一個“更聰明的學(xué)生”(即創(chuàng)新的模型架構(gòu))能夠用更少的樣本比“普通學(xué)生”更快地學(xué)習(xí)專家知識,但這種創(chuàng)新往往非常稀少且難以預(yù)測。與此相比,在任何人工智能/機(jī)器學(xué)習(xí)應(yīng)用中,無論“學(xué)生”模型有多么復(fù)雜,一個更高效的“老師”(即領(lǐng)域?qū)<?都能產(chǎn)生巨大的影響,可以在同一時間內(nèi)完成成百上千人的工作。

目前人工智能/機(jī)器學(xué)習(xí)實施中的最大制約因素是專家稀缺,但在現(xiàn)有的機(jī)器學(xué)習(xí)工作流程中,還存在其他重大障礙,妨礙各企業(yè)從投資中獲得應(yīng)有的回報。機(jī)器學(xué)習(xí)工作流程本身存在脫節(jié)和技術(shù)債務(wù),導(dǎo)致機(jī)器學(xué)習(xí)科學(xué)家發(fā)揮的效率遠(yuǎn)低于潛在水平。此外,隨著模型漂移問題的出現(xiàn),幾乎無法保持工作流程的敏捷性,因為發(fā)生漂移的模型需要通過新的數(shù)據(jù)進(jìn)行重新訓(xùn)練,而這往往會耗費(fèi)專家標(biāo)注員大量的時間去維護(hù)原有模型管道。此外,現(xiàn)有的機(jī)器學(xué)習(xí)流程在可解釋性方面也存在問題。如果訓(xùn)練數(shù)據(jù)集存在偏差且無法追溯到具體的標(biāo)注員(因為標(biāo)注員太多或者相應(yīng)標(biāo)注員已經(jīng)離職),那就難以理解導(dǎo)致這些偏差的原因。

工作效率

軟件工程師長期強(qiáng)調(diào)“心流狀態(tài)”(Flow State)對于編程的重要性,但在數(shù)據(jù)科學(xué)的工作流程中,這一概念并未得到足夠重視。例如,在開始構(gòu)建模型之前,首先需要標(biāo)注好的數(shù)據(jù)才能進(jìn)入下一步。然而,在項目確定后,可能還需要等待數(shù)周才能完成數(shù)據(jù)標(biāo)注。這個標(biāo)注過程常常是整個工作流程中最為耗時的環(huán)節(jié),而在此環(huán)節(jié)完成之前,幾乎無法進(jìn)行其他任何后續(xù)工作。

“你永遠(yuǎn)都在標(biāo)注數(shù)據(jù)”是機(jī)器學(xué)習(xí)專家常常帶著憤怒說出的一句話。即便模型已經(jīng)構(gòu)建并投入使用,標(biāo)注工作也沒有結(jié)束。模型并不會永遠(yuǎn)保持靜態(tài)。隨著時間的推移,由于數(shù)據(jù)環(huán)境的變化,模型會產(chǎn)生漂移,性能也會下降。為了應(yīng)對漂移,需要定期重新訓(xùn)練模型。然而,如何衡量模型漂移?盡管可以通過一些統(tǒng)計指標(biāo)(例如Kullback-Leibler散度、Jensen-Shannon散度或Kolmogorov-Smirnov檢驗)來追蹤模型輸入和輸出,但在沒有具體標(biāo)注數(shù)據(jù)可供參考的情況下,難以解讀這些統(tǒng)計指標(biāo)。與在開發(fā)環(huán)境中一樣,通常通過查看精度、準(zhǔn)確率、召回率等指標(biāo)來評估模型性能,但這些指標(biāo)都是通過將模型預(yù)測結(jié)果與標(biāo)注數(shù)據(jù)對比得出的。在開發(fā)環(huán)境中,可以使用驗證數(shù)據(jù)集作為基準(zhǔn),然而在生產(chǎn)環(huán)境中,唯一可用的基準(zhǔn)標(biāo)注數(shù)據(jù),往往只能通過定期標(biāo)注生產(chǎn)數(shù)據(jù)來獲得。這一過程難以擴(kuò)展,因為每個生產(chǎn)模型都需要持續(xù)的人力投入來進(jìn)行維護(hù)。

簡而言之,標(biāo)注工作是機(jī)器學(xué)習(xí)工作流程中最需要反復(fù)進(jìn)行的環(huán)節(jié),也是整個過程中的關(guān)鍵瓶頸。由于人工標(biāo)注需要耗費(fèi)大量時間,現(xiàn)有的機(jī)器學(xué)習(xí)工作流程往往存在脫節(jié)且效率低下的問題,難以保持高效、流暢的進(jìn)展?fàn)顟B(tài)。

敏捷性

當(dāng)預(yù)測對象發(fā)生變化時,模型會受到什么影響?例如,假設(shè)你正在構(gòu)建一個分類器,用以基于相關(guān)規(guī)則或法規(guī)來識別個人身份信息(PII),如果這些規(guī)則或法規(guī)發(fā)生變化,新增了某種全新的個人身份信息類型,那么模型該如何應(yīng)對?

再比如,假設(shè)你是電子郵件服務(wù)數(shù)據(jù)科學(xué)團(tuán)隊的一員。你們團(tuán)隊負(fù)責(zé)管理垃圾郵件檢測模型,并且曾投入大量精力,基于多個特征構(gòu)建了一個高效的模型,成功識別了垃圾郵件??墒?,隨著時間的推移,你們發(fā)現(xiàn)模型的性能開始下滑,誤報和漏報的比例逐漸增加。這很可能是因為輸入數(shù)據(jù)發(fā)生了變化,比如,用戶的行為發(fā)生了變化,可能用戶現(xiàn)在發(fā)送郵件的頻率大幅增加;或者垃圾郵件發(fā)送者改進(jìn)了策略,繞過了模型的檢測。

為了解決這些問題,團(tuán)隊需要重新標(biāo)注數(shù)據(jù)并重新訓(xùn)練模型,但應(yīng)該多久進(jìn)行一次重新標(biāo)注和重新訓(xùn)練?應(yīng)該從什么時候開始提前創(chuàng)建新的訓(xùn)練數(shù)據(jù)?重新標(biāo)注和重新訓(xùn)練的過程往往需要數(shù)周的時間,這意味著團(tuán)隊難以快速適應(yīng)變化,尤其是在發(fā)生突發(fā)事件(比如新冠疫情爆發(fā))時,快速響應(yīng)至關(guān)重要,而目前的機(jī)器學(xué)習(xí)工作流程無法充分適應(yīng)這種需求,導(dǎo)致響應(yīng)速度較慢。

可解釋性

在模型開發(fā)流程中,可解釋性是大多數(shù)機(jī)器學(xué)習(xí)從業(yè)者都非常重視的一個關(guān)鍵概念。為了提升模型的可解釋性,我們可以采取多種方法,例如使用Shapley值,或者選擇本身易于解讀的模型。然而,偏差問題通常來源于訓(xùn)練數(shù)據(jù)本身。如果標(biāo)注員帶有偏見,或數(shù)據(jù)采樣方式本身存在偏差,則模型很容易學(xué)習(xí)到這些偏差。通過各種方法提升模型的可解釋性,我們可以診斷出模型偏差,發(fā)現(xiàn)訓(xùn)練數(shù)據(jù)中的問題,但真正的挑戰(zhàn)在于如何解讀數(shù)據(jù)中標(biāo)注的標(biāo)簽。

雖然找出數(shù)據(jù)中存在的偏見和偏差很有幫助,但更重要的問題是能否解釋其中原因,例如,為什么標(biāo)注員認(rèn)為某條包含仇恨言論的推文不屬于有毒內(nèi)容?為什么標(biāo)注員錯誤地將某份來自少數(shù)群體的信貸申請打上了不合格標(biāo)簽?目前,唯一能夠獲得這種深層次可解釋性的方法就是直接詢問標(biāo)注員,了解他們打上某個標(biāo)簽的具體原因,但這并非易事。標(biāo)注團(tuán)隊人員流動率高,標(biāo)注員可能為了趕進(jìn)度而無法做到充分專注,而且有時難免會出現(xiàn)失誤。這些因素使得我們很難追溯到標(biāo)注錯誤的根本原因,也導(dǎo)致數(shù)據(jù)團(tuán)隊難以快速解決模型中的問題。

應(yīng)用場景覆蓋

如前文所述,大多數(shù)企業(yè)未能從人工智能投資中獲得預(yù)期回報的主要原因是,最具價值的應(yīng)用場景往往需要領(lǐng)域?qū)<腋冻龃罅繒r間和精力。目前,許多最具影響力的機(jī)器學(xué)習(xí)/人工智能解決方案都需要大量標(biāo)注數(shù)據(jù),往往被認(rèn)為太難實現(xiàn)或成本過高,甚至不值得嘗試。例如,假設(shè)你想開發(fā)一個用于檢測磁共振(MRI)影像中特定類型癌癥的模型,就需要大量的放射科醫(yī)生和腫瘤學(xué)專家參與數(shù)據(jù)標(biāo)注工作。毫無疑問,如果這類模型能夠成功構(gòu)建,將會帶來巨大的價值,因此從影響力的角度來看,構(gòu)建這類模型的理由非常明確。然而,很多企業(yè)可能只有少數(shù)幾位這類領(lǐng)域?qū)<?,而他們的時間非常寶貴,難以投入到數(shù)據(jù)標(biāo)注工作中。于是,盡管該項目存在巨大的潛在價值,但由于專家資源稀缺,商業(yè)案例難以推進(jìn),最終導(dǎo)致項目擱置。

幾乎所有垂直行業(yè)都面臨這一挑戰(zhàn):領(lǐng)域?qū)<业某杀具^高,導(dǎo)致極具價值的模型難以獲得足夠的資源支持。而那些易于構(gòu)建的模型往往實際價值較低。這樣一來,很多企業(yè)陷入困境,難以讓人工智能真正發(fā)揮出巨大的影響力。

機(jī)器教學(xué)解決方案的特性

通過聚焦于提高機(jī)器教師的效率,我們可以更有效地解決工作流程中的人工瓶頸,一舉解決上述四個問題。一個高效的機(jī)器教學(xué)解決方案應(yīng)具備以下特性,才能顯著降低人力成本:

  • 簡便的數(shù)據(jù)探索領(lǐng)域?qū)<覒?yīng)能輕松瀏覽數(shù)據(jù),從中發(fā)現(xiàn)規(guī)律,提煉出有價值的信息。
  • 表達(dá)能力強(qiáng)的信息和上下文捕捉接口在與數(shù)據(jù)交互的過程中,領(lǐng)域?qū)<覒?yīng)能夠記錄他們發(fā)現(xiàn)的模式及上下文信息。例如,用戶可能希望定義一個正則表達(dá)式或其他函數(shù),大致描述某一標(biāo)簽所對應(yīng)的數(shù)據(jù)特征。
  • 緊密的反饋循環(huán)在工作過程中,領(lǐng)域?qū)<覒?yīng)能獲得平臺的反饋,指導(dǎo)他們?nèi)绾胃咝Ю脮r間。這些指導(dǎo)可能是對領(lǐng)域?qū)<乙寻l(fā)現(xiàn)模式的反饋,或是平臺提供的優(yōu)化建議,幫助專家將精力集中在最具影響力的方面。
  • 以自動化為核心最終,標(biāo)注員的工作應(yīng)僅限于系統(tǒng)完全接管前的階段。持續(xù)維護(hù)工作流程的成本應(yīng)盡可能接近零。
  • 良好的可解釋性和推理能力由于高度依賴自動化,機(jī)器教學(xué)平臺必須具備強(qiáng)大的可解釋性。這些系統(tǒng)用于訓(xùn)練并部署在生產(chǎn)環(huán)境中使用的模型,因此,關(guān)鍵在于能夠清晰地解釋“為什么標(biāo)簽是Y1而不是Y2”,并基于此做出相應(yīng)調(diào)整。
  • 機(jī)器學(xué)習(xí)專家與領(lǐng)域?qū)<业穆氊?zé)分離在某些情況下,“領(lǐng)域?qū)<摇笨赡苁菣C(jī)器學(xué)習(xí)從業(yè)者,但大多數(shù)時候并非如此。因此,必須明確區(qū)分兩者的職責(zé):領(lǐng)域?qū)<覒?yīng)專注于提供專業(yè)知識,而機(jī)器學(xué)習(xí)專家則專注于從這些領(lǐng)域知識中進(jìn)行機(jī)器學(xué)習(xí)和模型訓(xùn)練。將這一框架應(yīng)用于上述實際問題,可以清晰地展現(xiàn)機(jī)器教學(xué)如何顯著改善現(xiàn)有工作流程。

工作效率

不再需要大量標(biāo)注員,通常只需一兩位領(lǐng)域?qū)<壹纯赏瓿蓸?biāo)注工作。

得益于高度自動化,標(biāo)注過程從幾周縮短為幾小時或幾天。

敏捷性

隨著環(huán)境的變化,根據(jù)平臺中提煉出的上下文進(jìn)行調(diào)整時成本應(yīng)該可以忽略不計。如果類別定義發(fā)生變化,或者輸入數(shù)據(jù)出現(xiàn)漂移,平臺應(yīng)能輕松調(diào)整以適應(yīng)這些變化。

應(yīng)用場景覆蓋

由于機(jī)器教學(xué)工作流不需要大量領(lǐng)域?qū)<?,這就能夠輕松實現(xiàn)一些原本由于領(lǐng)域?qū)<页杀具^高而難以實現(xiàn)的應(yīng)用場景。只需一名領(lǐng)域?qū)<一ㄙM(fèi)幾小時啟動系統(tǒng),等到自動化技術(shù)開始運(yùn)作,后續(xù)就只需偶爾檢查,處理模型在生產(chǎn)環(huán)境中出現(xiàn)的漂移。

可解釋性

可解釋性是機(jī)器教學(xué)平臺的核心特性,我們能夠獲得比單純模型輸出更為深入的解釋。通過機(jī)器教學(xué)平臺,我們可以快速發(fā)現(xiàn)標(biāo)注錯誤,并迅速分析原因(是概念提煉不準(zhǔn)確?環(huán)境發(fā)生了變化?還是平臺缺少足夠的信號來正確理解該類別?)

責(zé)任編輯:趙寧寧 來源: Thoughtworks洞見
相關(guān)推薦

2019-08-09 10:15:14

機(jī)器學(xué)習(xí)人工智能監(jiān)督學(xué)習(xí)

2017-07-13 10:50:22

人工智能機(jī)器學(xué)習(xí)認(rèn)知計算

2010-09-02 11:24:21

路由器網(wǎng)絡(luò)診斷

2011-05-18 15:15:44

MySQL

2010-08-03 15:19:08

FlexBuilder

2021-03-26 10:31:19

人工智能AIOps

2011-03-08 09:22:37

2010-01-21 16:17:32

VB.NET文件對象

2013-01-08 13:33:07

Android開發(fā)Activity入門指南

2019-10-12 00:24:29

微隔離SDN安全架構(gòu)

2010-07-20 16:13:25

Perl線程

2010-12-31 13:30:12

2011-01-10 13:21:45

linuxsamba

2015-09-24 09:54:32

物聯(lián)網(wǎng)

2019-07-18 07:52:01

路由策略IP路由

2022-05-08 16:42:27

Rust編程語言

2011-03-08 16:50:35

2019-11-13 15:44:17

Kafka架構(gòu)數(shù)據(jù)

2020-11-25 19:05:50

云計算SaaS公有云

2014-07-28 09:52:14

PythonPython性能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號