機(jī)器學(xué)習(xí)嶄露頭角 九大認(rèn)知誤區(qū)早知道
譯文【51CTO.com原創(chuàng)稿件】當(dāng)下,圍繞機(jī)器學(xué)習(xí)技術(shù)出現(xiàn)的炒作之聲可謂沸沸揚(yáng)揚(yáng),其中自然包含諸多認(rèn)知誤區(qū)。在本文中,我們將撥亂反正、聊聊關(guān)于機(jī)器學(xué)習(xí)的那些真相。
實(shí)踐證明,機(jī)器學(xué)習(xí)技術(shù)確實(shí)具有強(qiáng)大的實(shí)用度,因此很多朋友會誤以為其能夠解決一切問題并適用于所有情況。但事實(shí)上,與其它工具一樣,機(jī)器學(xué)習(xí)也只是在特定領(lǐng)域非常強(qiáng)大——例如長期困擾著您,但您永遠(yuǎn)無法雇用足夠的人手來解決的問題; 或者擁有著明確目標(biāo),但沒有明確實(shí)現(xiàn)方法的問題。
當(dāng)然,各類組織機(jī)構(gòu)都能夠通過各種方式運(yùn)用機(jī)器學(xué)習(xí)的強(qiáng)大能力。根據(jù)埃森哲公司的調(diào)查,42%的企業(yè)高管表示他們預(yù)計(jì)人工智能將在2021年時(shí)被引入其全部創(chuàng)新項(xiàng)目。然而,要想真正發(fā)揮機(jī)器學(xué)習(xí)的全部潛能并借此實(shí)現(xiàn)以往所不可能實(shí)現(xiàn)的目標(biāo),下面這些誤區(qū)必須加以破除。
誤區(qū)一:機(jī)器學(xué)習(xí)就是人工智能
機(jī)器學(xué)習(xí)與人工智能常常被作為同義詞使用,但更具體地講,機(jī)器學(xué)習(xí)是一種成功由研究實(shí)驗(yàn)室走入現(xiàn)實(shí)世界的技術(shù),而人工智能則屬于一類廣泛的領(lǐng)域——其中涵蓋計(jì)算機(jī)視覺、機(jī)器人與自然語言處理等可能并不涉及機(jī)器學(xué)習(xí)的方向。事實(shí)上,大家可能將人工智能理解為給機(jī)器賦予智能的一切相關(guān)手段。另外需要強(qiáng)調(diào),二者都不會帶來普通民眾所畏懼的“擁有自主意識的人工智能”或者會與人類競爭甚至發(fā)動攻擊的產(chǎn)物。
請注意具體用詞并盡可能準(zhǔn)確表述。機(jī)器學(xué)習(xí)屬于同學(xué)習(xí)模式及大數(shù)據(jù)集預(yù)測相關(guān)的結(jié)果; 其結(jié)果看起來具備“智能”,但其核心則在于前所未有的處理速度與統(tǒng)計(jì)數(shù)據(jù)的大規(guī)模應(yīng)用。
誤區(qū)二:所有數(shù)據(jù)都很有用
我們需要為機(jī)器學(xué)習(xí)方案提供數(shù)據(jù),但并非所有數(shù)據(jù)皆可用于機(jī)器學(xué)習(xí)。為了進(jìn)行系統(tǒng)訓(xùn)練,大家需要的是有代表性的數(shù)據(jù),用以涵蓋機(jī)器學(xué)習(xí)系統(tǒng)所應(yīng)處理的各種模式及結(jié)果。我們需要的數(shù)據(jù)不應(yīng)包含不相關(guān)的模式(例如照片中所有男性皆站立,所有女性皆坐下; 或者所有車輛都在車庫內(nèi),而所有自行車都在戶外等等),這是因?yàn)槟鶆?chuàng)建的機(jī)器學(xué)習(xí)模型將直接反映出那些過于具體的模式,并在所提供的數(shù)據(jù)中反復(fù)加以驗(yàn)證。所有用于訓(xùn)練的數(shù)據(jù)都需要添加標(biāo)簽,同時(shí)與您打算讓機(jī)器學(xué)習(xí)系統(tǒng)回答的問題相匹配——這無疑需要大量處理工作。
總之,請不要假設(shè)您掌握的數(shù)據(jù)已經(jīng)非常清晰、明確、有代表性或者易于標(biāo)記,這實(shí)在是一項(xiàng)耗神耗力的龐大工程。
誤區(qū)三:您總是需要大量數(shù)據(jù)
最近一段時(shí)間,圖像識別、機(jī)器閱讀理解、語言翻譯以及其它重要領(lǐng)域已經(jīng)出現(xiàn)了一系列關(guān)鍵性進(jìn)展,這主要是由于我們擁有了更為強(qiáng)大的工具選項(xiàng)——包括能夠并行處理大量數(shù)據(jù)的GPU等計(jì)算硬件,外加ImageNet與斯坦福問答數(shù)據(jù)集等經(jīng)過標(biāo)記的龐大數(shù)據(jù)集合。然而,遷移學(xué)習(xí)技術(shù)也在快速興起。利用這種技術(shù),我們無需大量數(shù)據(jù)即可在特定領(lǐng)域內(nèi)獲得良好的結(jié)果。我們可以教授機(jī)器學(xué)習(xí)系統(tǒng)如何利用一套大型數(shù)據(jù)集完成學(xué)習(xí),而后將其遷移至自己的小型訓(xùn)練數(shù)據(jù)集內(nèi)。這也正是Salesforce與微軟Azure提供的自定義視覺API的起效原理:只需要30到50張圖像,即可獲得良好的內(nèi)容分類能力。
遷移學(xué)習(xí)能夠幫助大家利用相對較少的數(shù)據(jù),根據(jù)需要解決的問題對預(yù)先訓(xùn)練好的系統(tǒng)加以定制。
誤區(qū)四:任何人都能夠構(gòu)建起機(jī)器學(xué)習(xí)系統(tǒng)
目前市面上存在大量機(jī)器學(xué)習(xí)類開源工具與框架,網(wǎng)絡(luò)上也擁有無數(shù)講解具體使用方法的課程。然而,機(jī)器學(xué)習(xí)仍然是一項(xiàng)專業(yè)性極強(qiáng)的技術(shù); 我們需要了解如何準(zhǔn)備數(shù)據(jù)并對其進(jìn)行分類,從而用于訓(xùn)練及測試; 我們需要了解如何選擇最佳算法以及使用哪種啟發(fā)式算法; 我們還需要思考如何將其轉(zhuǎn)化為可靠的生產(chǎn)系統(tǒng)。此外,大家還需要監(jiān)控系統(tǒng)以確保結(jié)果能夠隨時(shí)間推移而持續(xù)有效。畢竟無論是市場變化還是客戶群體轉(zhuǎn)換,機(jī)器學(xué)習(xí)系統(tǒng)面臨的問題都在快速變化,因此我們需要持續(xù)追蹤相關(guān)模型以判斷其是否仍適用于當(dāng)前問題。
讓機(jī)器學(xué)習(xí)擁有正確的處理能力需要豐富的經(jīng)驗(yàn); 如果您剛剛開始進(jìn)行嘗試,不妨先利用API接入預(yù)先訓(xùn)練完成的模型,或者聘用數(shù)據(jù)科學(xué)家就機(jī)器學(xué)習(xí)專家為您構(gòu)建定制化系統(tǒng)。
誤區(qū)五:數(shù)據(jù)中的所有模式都很有用
患有哮喘、胸痛或心臟病以及任何100歲以上的肺炎患者的存活率遠(yuǎn)高于預(yù)期。實(shí)際上,一套簡單的機(jī)器學(xué)習(xí)系統(tǒng)往往會得出這樣的結(jié)論(這類基于規(guī)則的系統(tǒng)以神經(jīng)網(wǎng)絡(luò)方式進(jìn)行數(shù)據(jù)訓(xùn)練)。遺憾的是,他們之所以擁有更高的生存率,是因?yàn)閷@類人群而言,肺炎往往非常致命因此會得到高度重視與快速診治。
這套系統(tǒng)能夠從數(shù)據(jù)當(dāng)中發(fā)現(xiàn)有效的模式; 然而,根據(jù)實(shí)際應(yīng)用場景的不同,這些模式并不一定擁有現(xiàn)實(shí)意義。更可怕的是,除非意識到這些模式的具體判斷機(jī)制,否則我們很可能根本無法發(fā)現(xiàn)自己的數(shù)據(jù)集中存在著哪些無用的反模式。
另外,系統(tǒng)也可能會學(xué)習(xí)到一種雖然實(shí)際起效,但卻會因?yàn)闊o法作出明確解釋而不能實(shí)踐使用的模式——例如目前存在爭議的面部識別系統(tǒng),其能夠準(zhǔn)確預(yù)測自拍者的性取向,但卻無法給出具體理由。
這種“黑匣子”模型雖然非常高效,但無法表達(dá)其學(xué)習(xí)到了怎樣的模式。因此,更易于理解的通用附加模型等透明算法往往更適合自我表達(dá),從而幫助使用者判斷其適合哪些部署場景。
誤區(qū)六:強(qiáng)化學(xué)習(xí)已經(jīng)做好充分準(zhǔn)備
當(dāng)前使用的幾乎所有機(jī)器學(xué)習(xí)系統(tǒng)都在使用監(jiān)督學(xué)習(xí)技術(shù); 在大多數(shù)情況下,其需要接受由人類參與準(zhǔn)備、且擁有明確標(biāo)記的數(shù)據(jù)集進(jìn)行訓(xùn)練。籌備這些數(shù)據(jù)集需要投入大量時(shí)間與精力,因此目前業(yè)界對非監(jiān)督式學(xué)習(xí),特別是強(qiáng)化學(xué)習(xí)(簡稱RL)抱有極大興趣——在這類方案當(dāng)中,模型將通過反復(fù)試驗(yàn)性學(xué)習(xí)以及與環(huán)境的交互獲得正確行為獎(jiǎng)勵(lì)。DeepMind的AlphaGo系統(tǒng)即利用強(qiáng)化學(xué)習(xí)配合監(jiān)督學(xué)習(xí)一舉擊敗世界頂尖圍棋選手,而由卡內(nèi)基梅隆大學(xué)構(gòu)建的Libratus系統(tǒng)則利用強(qiáng)化學(xué)習(xí)及其它兩種人工智能技術(shù)輕松碾壓全球最強(qiáng)的德州撲克玩家(這種撲克游戲以復(fù)雜的投注策略而著稱)。研究人員正在嘗試?yán)脧?qiáng)化學(xué)習(xí)實(shí)現(xiàn)從機(jī)器人到安全軟件測試的各類實(shí)踐工作。
但在研究領(lǐng)域之外,強(qiáng)化學(xué)習(xí)的應(yīng)用還比較少見。谷歌DeepMind利用強(qiáng)化學(xué)習(xí)以降低數(shù)據(jù)中心功耗,從而節(jié)約基礎(chǔ)設(shè)施電力成本; 微軟則在其MSN.com當(dāng)中使用強(qiáng)化學(xué)習(xí)的一套特殊版本——contextual bandits,用于為訪問者提供更具個(gè)性化的新聞推薦。不過問題在于,真實(shí)環(huán)境很難快速提供獎(jiǎng)勵(lì)與即時(shí)反饋,這意味著強(qiáng)化學(xué)習(xí)真正步入實(shí)踐仍有很長的道路要走。
誤區(qū)七:機(jī)器學(xué)習(xí)不存在偏見
由于機(jī)器學(xué)習(xí)會從數(shù)據(jù)當(dāng)中學(xué)習(xí)模式,因此其也會直接繼承數(shù)據(jù)集中的一切偏見。其可能會將CEO與白人男性聯(lián)系起來,因?yàn)槌鋈蜟EO的群體中白人男性比例更高。更可怕的是,機(jī)器學(xué)習(xí)往往還會放大這種偏見性結(jié)論。
常被用于訓(xùn)練圖像識別系統(tǒng)的COCO數(shù)據(jù)集中包含大量男性與女性照片;然而更多女性在照片中身處廚房之內(nèi),更多男性則身處包含電腦鍵盤、鼠標(biāo)或者網(wǎng)球拍及滑雪板的場景下。如果利用COCO進(jìn)行系統(tǒng)訓(xùn)練,則其會認(rèn)定男性更傾向于使用計(jì)算機(jī)硬件——這一點(diǎn)與原始照片中的統(tǒng)計(jì)數(shù)據(jù)并不相符。
另外,一套機(jī)器學(xué)習(xí)系統(tǒng)也可能給另一套機(jī)器學(xué)習(xí)系統(tǒng)帶來偏見。在訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)進(jìn)行詞匯表達(dá)時(shí),目前的各類主流框架會將詞匯作為向量進(jìn)行關(guān)系表達(dá)。在這樣的學(xué)習(xí)中,結(jié)論中往往存在“計(jì)算機(jī)程序員更偏向男性,家務(wù)工作則更偏向女性; 醫(yī)生更偏向男性,護(hù)士更偏向女性; 老板更偏向男性,文員更偏向女性”等刻板印象。
了解機(jī)器學(xué)習(xí)中的偏見問題非常重要。如果無法徹底消除訓(xùn)練數(shù)據(jù)集中的偏差,請大家使用規(guī)則化等技術(shù)處理詞匯中的性別關(guān)聯(lián),從而減少偏差或者避免將不相關(guān)項(xiàng)目添加到建議當(dāng)中。
誤區(qū)八:機(jī)器學(xué)習(xí)僅會帶來善意用途
機(jī)器學(xué)習(xí)為反病毒工具提供強(qiáng)大的能力,并可幫助其盡快發(fā)現(xiàn)全新攻擊行為。但與此同時(shí),黑客們也在利用機(jī)器學(xué)習(xí)研究如何攻克反病毒工具的防御體系,并通過分析大量公開數(shù)據(jù)或分析以往成功的網(wǎng)絡(luò)釣魚嘗試,指導(dǎo)后續(xù)攻擊活動的設(shè)計(jì)思路。
誤區(qū)九:機(jī)器學(xué)習(xí)將取代人類
人們常常擔(dān)心人工智能會奪走我們的工作崗位。沒錯(cuò),其確實(shí)會改變我們的工作內(nèi)容以及工作方式,同時(shí)提高效率并降低合規(guī)性成本。事實(shí)上,從長遠(yuǎn)角度來看,其會在企業(yè)當(dāng)中創(chuàng)造新的職能角色,并消除一部分現(xiàn)有職位。然而,機(jī)器學(xué)習(xí)的主要價(jià)值,仍然體現(xiàn)在完成一些此前因復(fù)雜性或規(guī)模水平限制而不可能以自動化或人工形式實(shí)現(xiàn)的任務(wù)——例如查看發(fā)布至社交媒體上的每張照片,并分析其中是否包含某些品牌特征。
在另一方面,機(jī)器學(xué)習(xí)會帶來更多新的商業(yè)機(jī)遇,例如通過預(yù)測性維護(hù)改善客戶體驗(yàn),并向業(yè)務(wù)決策者提供建議與支持。因此與前幾代自動化革命一樣,機(jī)器學(xué)習(xí)更多代表著為員工提供自由使用專業(yè)知識與創(chuàng)造力空間的可能。
原文鏈接:https://www.cio.com/article/3263776/artificial-intelligence/machine-learning-myths.html
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請注明原文作者和出處為51CTO.com】