深度學(xué)習(xí)未來(lái)發(fā)展的三種學(xué)習(xí)范式:混合學(xué)習(xí),成分學(xué)習(xí)和簡(jiǎn)化學(xué)習(xí)
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。
深度學(xué)習(xí)是一個(gè)很大的領(lǐng)域,其核心是一個(gè)神經(jīng)網(wǎng)絡(luò)的算法,神經(jīng)網(wǎng)絡(luò)的尺寸由數(shù)百萬(wàn)甚至數(shù)十億個(gè)不斷改變的參數(shù)決定。似乎每隔幾天就有大量的新方法提出。
然而,一般來(lái)說(shuō),現(xiàn)在的深度學(xué)習(xí)算法可以分為三個(gè)基礎(chǔ)的學(xué)習(xí)范式。每一種學(xué)習(xí)方法和信念都為提高當(dāng)前深度學(xué)習(xí)的能力和范圍提供了巨大的潛力和興趣。
混合學(xué)習(xí)-現(xiàn)代深度學(xué)習(xí)方法如何跨越有監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)的界限,以適應(yīng)大量未使用的未標(biāo)記數(shù)據(jù)?
成分學(xué)習(xí)-如何采用一種創(chuàng)新的方法將不同的組件鏈接起來(lái)生成一個(gè)混合的模型,這個(gè)模型的效果比各個(gè)部分簡(jiǎn)單的加和效果要好?
簡(jiǎn)化學(xué)習(xí)-如何在保持相同或規(guī)模的預(yù)測(cè)能力的同時(shí),減少模型的大小和信息流,以達(dá)到性能和部署的目的?
深度學(xué)習(xí)的未來(lái)主要在于這三種學(xué)習(xí)范式,每一種都緊密鏈接。
混合學(xué)習(xí)
這種學(xué)習(xí)范式試圖去跨越監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)邊界。由于標(biāo)簽數(shù)據(jù)的匱乏和收集有標(biāo)注數(shù)據(jù)集的高昂成本,它經(jīng)常被用于商業(yè)環(huán)境中。從本質(zhì)上講,混合學(xué)習(xí)是這個(gè)問(wèn)題的答案。
我們?nèi)绾尾拍苁褂帽O(jiān)督學(xué)習(xí)方法來(lái)解決或者鏈接無(wú)監(jiān)督學(xué)習(xí)問(wèn)題?
例如這樣一個(gè)例子,半監(jiān)督學(xué)習(xí)在機(jī)器學(xué)習(xí)領(lǐng)域正日益流行,因?yàn)樗軌蛟诤苌贅?biāo)注數(shù)據(jù)的情況下對(duì)有監(jiān)督的問(wèn)題表現(xiàn)得異常出色。例如,一個(gè)設(shè)計(jì)良好的半監(jiān)督生成對(duì)抗網(wǎng)絡(luò)(Generative antimarial Network)在MNIST數(shù)據(jù)集上僅使用25個(gè)訓(xùn)練樣本,就達(dá)到了90%以上的準(zhǔn)確率。
半監(jiān)督學(xué)習(xí)學(xué)習(xí)專門為了那些有打大量無(wú)標(biāo)注樣本和少量有標(biāo)注樣本的數(shù)據(jù)集。傳統(tǒng)來(lái)說(shuō), 監(jiān)督學(xué)習(xí)是使用有標(biāo)注的那一部分?jǐn)?shù)據(jù)集,而無(wú)監(jiān)督學(xué)習(xí)則采用另外無(wú)標(biāo)注的一部分?jǐn)?shù)據(jù)集, 半監(jiān)督學(xué)習(xí)模型可以將有標(biāo)注數(shù)據(jù)和從無(wú)標(biāo)注數(shù)據(jù)集中提取的信息結(jié)合起來(lái)。
作者創(chuàng)建的圖像
半監(jiān)督生成對(duì)抗網(wǎng)絡(luò)(簡(jiǎn)稱SGAN), 是標(biāo)準(zhǔn)的生成對(duì)抗網(wǎng)絡(luò)的一種改進(jìn)。判別器不僅輸出0和1去判別是否為生成的圖像,而且輸出樣本的類別(多輸出學(xué)習(xí))。
這是基于這樣的一個(gè)想法,通過(guò)判別器學(xué)習(xí)區(qū)分真實(shí)和生成的圖像, 能夠在沒有標(biāo)簽的情況下學(xué)得具體的結(jié)構(gòu)。通過(guò)從少量的標(biāo)記數(shù)據(jù)中進(jìn)行額外的增強(qiáng),半監(jiān)督模型可以在最少的監(jiān)督數(shù)據(jù)量下獲得最佳性能。
你可以在這兒閱讀更多關(guān)于SGAN和半監(jiān)督學(xué)習(xí)的信息。
GAN也涉及了其他的混合學(xué)習(xí)的領(lǐng)域——自監(jiān)督學(xué)習(xí), 在自監(jiān)督學(xué)習(xí)中無(wú)監(jiān)督問(wèn)題被明確地定義為有監(jiān)督的問(wèn)題。GANs通過(guò)引入生成器來(lái)人工創(chuàng)建監(jiān)督數(shù)據(jù);創(chuàng)建的標(biāo)簽被用來(lái)來(lái)識(shí)別真實(shí)/生成的圖像。在無(wú)監(jiān)督的前提下,創(chuàng)建了一個(gè)有監(jiān)督的任務(wù)。
另外,考慮使用進(jìn)行壓縮的編碼器-解碼器模型。在它們最簡(jiǎn)單的形式中,它們是中間有少量節(jié)點(diǎn)的神經(jīng)網(wǎng)絡(luò),用來(lái)表示某種bottleneck與壓縮形式,兩邊的兩個(gè)部分是編碼器和解碼器。
作者創(chuàng)建的圖像
訓(xùn)練這個(gè)網(wǎng)絡(luò)生成與輸入向量相同的輸入(一個(gè)無(wú)監(jiān)督數(shù)據(jù)手工設(shè)計(jì)的有監(jiān)督任務(wù))。由于中間有一個(gè)故意設(shè)計(jì)的bottleneck,因此網(wǎng)絡(luò)不能被動(dòng)地傳輸信息。相反, 為了解碼器能夠更好的解碼, 它一定要找到最好的方式將輸入的信息保留至一個(gè)非常小的單元中。
訓(xùn)練之后, 編碼器與解碼器分離, 編碼器用在壓縮數(shù)據(jù)的接收端或編碼數(shù)據(jù)用來(lái)傳輸, 利用極少的數(shù)據(jù)格式來(lái)傳輸信息同時(shí)保證丟失最少的數(shù)據(jù)信息。 也可以用來(lái)降低數(shù)據(jù)的維度。
另一個(gè)例子是,考慮大量的文本集合(也許是來(lái)自數(shù)字平臺(tái)的評(píng)論)。通過(guò)某種聚類或流形學(xué)習(xí)方法,我們可以為文本集合生成聚類標(biāo)簽,然后將其作為標(biāo)簽處理(前提是聚類工作做得很好)。
在對(duì)每個(gè)聚類簇進(jìn)行解釋后(例如,聚類A代表抱怨產(chǎn)品的評(píng)論,聚類B代表積極反饋等),然后可以使用BERT這樣的深層NLP架構(gòu)將新文本分類到這些聚類簇中,所有這些都是完全未標(biāo)記的數(shù)據(jù)和最少的人工參與。
這又是一個(gè)將無(wú)監(jiān)督任務(wù)轉(zhuǎn)換為有監(jiān)督任務(wù)的有趣應(yīng)用程序。在一個(gè)絕大多數(shù)數(shù)據(jù)都是無(wú)監(jiān)督數(shù)據(jù)的時(shí)代,通過(guò)混合學(xué)習(xí)建立創(chuàng)造性的橋梁,跨越有監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)之間的界限,具有巨大的價(jià)值和潛力。
成分學(xué)習(xí)
成分學(xué)習(xí)不僅使用一個(gè)模型的知識(shí),而且使用多個(gè)模型的知識(shí)。人們相信,通過(guò)獨(dú)特的信息組合或投入(包括靜態(tài)和動(dòng)態(tài)的),深度學(xué)習(xí)可以比單一的模型在理解和性能上不斷深入。
遷移學(xué)習(xí)是一個(gè)非常明顯的成分學(xué)習(xí)的例子, 基于這樣的一個(gè)想法, 在相似問(wèn)題上預(yù)訓(xùn)練的模型權(quán)重可以用來(lái)在一個(gè)特定的問(wèn)題上進(jìn)行微調(diào)。構(gòu)建像Inception或者VGG-16這樣的預(yù)訓(xùn)練模型來(lái)區(qū)分不同類別的圖像。
如果我打算訓(xùn)練一個(gè)識(shí)別動(dòng)物(例如貓和狗)的模型, 我不會(huì)從頭訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò),因?yàn)檫@樣會(huì)消耗太多的時(shí)間才能夠達(dá)到很好的結(jié)果。相反,我會(huì)采用一個(gè)像Inception的預(yù)訓(xùn)練模型,這個(gè)模型已經(jīng)存儲(chǔ)了圖像識(shí)別的基本信息, 然后在這個(gè)數(shù)據(jù)集(貓狗數(shù)據(jù)集)上訓(xùn)練額外的迭代次數(shù)即可。
類似地,在NLP神經(jīng)網(wǎng)絡(luò)中的詞嵌入模型,它根據(jù)單詞之間的關(guān)系將單詞映射到嵌入空間中更接近其他單詞的位置(例如,蘋果和句子的距離比蘋果和卡車的距離要?。?。像GloVe這樣的預(yù)訓(xùn)練embedding可以被放入神經(jīng)網(wǎng)絡(luò)中,從已經(jīng)有效地將單詞映射到數(shù)值的, 有意義的實(shí)體開始。
不那么明顯的是,競(jìng)爭(zhēng)也能刺激知識(shí)增長(zhǎng)。其一,生成性對(duì)抗性網(wǎng)絡(luò)借用了復(fù)合學(xué)習(xí)范式從根本上使兩個(gè)神經(jīng)網(wǎng)絡(luò)相互對(duì)立。生成器的目標(biāo)是欺騙鑒別器,而鑒別器的目標(biāo)是不被欺騙。
模型之間的競(jìng)爭(zhēng)將被稱為“對(duì)抗性學(xué)習(xí)”,不要與另一種類型的對(duì)抗性學(xué)習(xí)相混淆,那是設(shè)計(jì)惡意輸入并發(fā)現(xiàn)模型中的弱決策邊界。
對(duì)抗性學(xué)習(xí)可以刺激模型,通常是不同類型的模型,其中模型的性能可以表示為與其他模型的性能相關(guān)。在對(duì)抗性學(xué)習(xí)領(lǐng)域還有很多研究要做,生成性對(duì)抗性網(wǎng)絡(luò)是對(duì)抗性學(xué)習(xí)的唯一突出創(chuàng)舉。
另一方面,競(jìng)爭(zhēng)學(xué)習(xí)類似于對(duì)抗性學(xué)習(xí),但是在逐節(jié)點(diǎn)規(guī)模上進(jìn)行的:節(jié)點(diǎn)競(jìng)爭(zhēng)對(duì)輸入數(shù)據(jù)子集的響應(yīng)權(quán)。競(jìng)爭(zhēng)學(xué)習(xí)是在一個(gè)“競(jìng)爭(zhēng)層”中實(shí)現(xiàn)的,在競(jìng)爭(zhēng)層中,除了一些隨機(jī)分布的權(quán)值外,一組神經(jīng)元都是相同的。
將每個(gè)神經(jīng)元的權(quán)重向量與輸入向量進(jìn)行比較,并激活相似度最高的神經(jīng)元也就是“贏家通吃”神經(jīng)元(輸出=1)。其他的被“停用”(輸出=0)。這種無(wú)監(jiān)督技術(shù)是自組織映射和特征發(fā)現(xiàn)的核心部分。
另一個(gè)成分學(xué)習(xí)的又去例子時(shí)神經(jīng)架構(gòu)搜索。簡(jiǎn)單來(lái)說(shuō), 在強(qiáng)化學(xué)習(xí)環(huán)境中, 一個(gè)神經(jīng)網(wǎng)絡(luò)(通常時(shí)遞歸神經(jīng)網(wǎng)絡(luò))學(xué)習(xí)生成對(duì)于這個(gè)數(shù)據(jù)集來(lái)說(shuō)最好的網(wǎng)絡(luò)架構(gòu)——算法為你找到最好的架構(gòu),你可以在這兒讀到更多的關(guān)于這個(gè)理論的知識(shí),并且在這兒應(yīng)用python代碼實(shí)現(xiàn)。
集成的方法在成分學(xué)習(xí)中也時(shí)主要的, 深度集成的方法已經(jīng)展示出了其高效性。并且模型端到端的堆疊, 例如編碼器與解碼器已經(jīng)變得非常受歡迎。
許多成分學(xué)習(xí)都在尋找在不同模型之間建立聯(lián)系的獨(dú)特方法。它們都基于這個(gè)想法:
單一的模型甚至一個(gè)非常大的模型,通常也比幾個(gè)小模型/組件表現(xiàn)的差,這些小模型每一個(gè)都被分配專門處理任務(wù)中的一部分
例如, 考慮構(gòu)建餐廳聊天機(jī)器人的任務(wù)。
作者創(chuàng)建的圖像
我們可以將這個(gè)機(jī)器人分割為三個(gè)分離的部分:寒暄/閑聊,信息檢索和行動(dòng)機(jī)器人,并為每一部分專門設(shè)計(jì)一個(gè)模型。或者,我們可以委托一個(gè)單一的模型來(lái)執(zhí)行這三個(gè)任務(wù)。
作者創(chuàng)建的圖像
組合模型可以在占用較少空間的同時(shí)表現(xiàn)更好,這一點(diǎn)也不奇怪。此外,這些類型的非線性拓?fù)淇梢杂肒eras functional API等工具輕松構(gòu)建。
為了處理像視頻和三維數(shù)據(jù)等形式日益多樣化的數(shù)據(jù)類型,研究人員必須構(gòu)建創(chuàng)造性的組合模型。
在這里閱讀更多關(guān)于成分學(xué)習(xí)和未來(lái)的信息。
簡(jiǎn)化學(xué)習(xí)
在深度學(xué)習(xí)領(lǐng)域, 特別是在NLP(深度學(xué)習(xí)領(lǐng)域研究最熱潮激動(dòng)人心的領(lǐng)域)中,模型的規(guī)模正在不斷增長(zhǎng)。最新的GPT-3模型有1750億個(gè)參數(shù)。把它和BERT比較就像把木星比作蚊子一樣(好吧,不是字面意思)。深度學(xué)習(xí)的未來(lái)會(huì)更大嗎?
資源:TDS. 可免費(fèi)分享的圖片
按理來(lái)說(shuō),不會(huì),GPT-3是非常有說(shuō)服力的,但它在過(guò)去反復(fù)表明,“成功的科學(xué)”是對(duì)人類影響最大的科學(xué)。學(xué)術(shù)界總是離現(xiàn)實(shí)太遠(yuǎn),太過(guò)模糊。在19世紀(jì)末,由于可用數(shù)據(jù)太少,神經(jīng)網(wǎng)絡(luò)被遺忘了很短一段時(shí)間,所以這個(gè)想法,無(wú)論多么巧妙,都毫無(wú)用處。
GPT-3是另一種語(yǔ)言模型,它可以編寫令人信服的文本。它的應(yīng)用在哪里?是的,例如,它可以生成查詢的答案。然而,有更有效的方法來(lái)做到這一點(diǎn)(例如,遍歷一個(gè)知識(shí)圖譜并使用一個(gè)更小的模型,如BERT來(lái)輸出答案)。
在計(jì)算能力枯竭的情況下,GPT-3的巨大尺寸(更不用說(shuō)更大的模型)是不可行的或不必要的。
“摩爾定律有點(diǎn)沒用了。” Satya Nadella,微軟首席執(zhí)行官
取而代之的是,我們正在走向一個(gè)人工智能嵌入式世界,智能冰箱可以自動(dòng)訂購(gòu)食品,而無(wú)人機(jī)可以自動(dòng)導(dǎo)航整個(gè)城市。強(qiáng)大的機(jī)器學(xué)習(xí)方法應(yīng)該能夠下載到個(gè)人電腦、手機(jī)和小芯片上。
這就需要輕量級(jí)人工智能:在保持性能的同時(shí)使神經(jīng)網(wǎng)絡(luò)更小。
這直接或間接地表明,在深度學(xué)習(xí)研究中,幾乎所有的事情都與減少必要的參數(shù)量有關(guān),這與提高泛化能力和性能密切相關(guān)。例如,卷積層的引入大大減少了神經(jīng)網(wǎng)絡(luò)處理圖像所需的參數(shù)數(shù)量。遞歸層融合了時(shí)間的思想,同時(shí)使用相同的權(quán)值,使得神經(jīng)網(wǎng)絡(luò)能夠更好地處理序列,并且參數(shù)更少。
嵌入層顯式地將實(shí)體映射到具有物理意義的數(shù)值,這樣就不會(huì)給附加參數(shù)增加負(fù)擔(dān)。在一種解釋中,Dropout 層顯式地阻止參數(shù)對(duì)輸入的某些部分進(jìn)行操作。L1/L2正則化通過(guò)確保所有參數(shù)都不會(huì)增長(zhǎng)過(guò)大來(lái)確保網(wǎng)絡(luò)利用了所有參數(shù),并且每個(gè)參數(shù)都能使其信息價(jià)值最大化。
隨著這種特殊專用層的創(chuàng)建,網(wǎng)絡(luò)對(duì)更復(fù)雜和更大的數(shù)據(jù)所需的參數(shù)越來(lái)越少。其他較新的方法顯式地尋求壓縮網(wǎng)絡(luò)。
神經(jīng)網(wǎng)絡(luò)修剪試圖去除那些對(duì)網(wǎng)絡(luò)輸出沒有價(jià)值的突觸和神經(jīng)元。通過(guò)修剪,網(wǎng)絡(luò)可以保持其性能,同時(shí)刪除幾乎所有的自身。
資源:O'Reilly. 免費(fèi)分享的圖片
其他的方法像Patient Knowledge Distillation找到一些壓縮語(yǔ)言模型的方法, 使其可以下載到例如用戶的手機(jī)的格式。 對(duì)于谷歌神經(jīng)機(jī)器翻譯系統(tǒng)來(lái)說(shuō)這是必要的考慮, 這個(gè)系統(tǒng)支持谷歌翻譯, 谷歌翻譯公司需要?jiǎng)?chuàng)建一個(gè)可以離線訪問(wèn)的高性能翻譯服務(wù)。
本質(zhì)上,簡(jiǎn)化學(xué)習(xí)集中在以部署為中心的設(shè)計(jì)上。這就是為什么大多數(shù)簡(jiǎn)化學(xué)習(xí)的研究來(lái)自公司的研究部門。以部署為中心的設(shè)計(jì)的一個(gè)方面不是盲目地遵循數(shù)據(jù)集的性能指標(biāo),而是在部署模型時(shí)關(guān)注潛在的問(wèn)題。
例如,前面提到的對(duì)抗輸入是設(shè)計(jì)用來(lái)欺騙網(wǎng)絡(luò)的惡意輸入。在標(biāo)牌上噴漆或貼上標(biāo)簽,會(huì)誘使自動(dòng)駕駛汽車加速超過(guò)限速。負(fù)責(zé)任的簡(jiǎn)化學(xué)習(xí)的不僅使模型足夠輕量級(jí)以供使用,而且確保它能夠適應(yīng)數(shù)據(jù)集中沒有出現(xiàn)過(guò)的角落情況。
在深度學(xué)習(xí)的研究中,簡(jiǎn)化學(xué)習(xí)可能是最不受關(guān)注的,因?yàn)?ldquo;我們通過(guò)一個(gè)可行的架構(gòu)尺寸實(shí)現(xiàn)了良好的性能” 并不像 “我們通過(guò)由數(shù)千千萬(wàn)萬(wàn)個(gè)參數(shù)組成的體系結(jié)構(gòu)實(shí)現(xiàn)了最先進(jìn)的性能”一樣吸引人。
不可避免地,當(dāng)追求更高得分表現(xiàn)的宣傳消失時(shí),正如創(chuàng)新的歷史所示,簡(jiǎn)化學(xué)習(xí)—實(shí)際上是真正的實(shí)踐性學(xué)習(xí)—將得到更多應(yīng)有的關(guān)注。
總結(jié)
- 混合學(xué)習(xí)目標(biāo)是去跨越監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)的邊界, 類似半監(jiān)督與自監(jiān)督的方法能夠去從無(wú)標(biāo)注的數(shù)據(jù)中提取信息, 當(dāng)無(wú)監(jiān)督的數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng)時(shí),這是非常有價(jià)值的東西。
- 隨著任務(wù)變得越來(lái)越復(fù)雜, 成分學(xué)習(xí)將一個(gè)任務(wù)解構(gòu)為數(shù)個(gè)簡(jiǎn)單的組件。 當(dāng)這些組件一起聯(lián)合工作或者對(duì)抗工作時(shí), 結(jié)果會(huì)是一個(gè)更加優(yōu)良的模型。
- 簡(jiǎn)化學(xué)習(xí)沒有受到過(guò)多的關(guān)注因?yàn)樯疃葘W(xué)習(xí)正在經(jīng)歷一個(gè)大肆宣傳階段, 單是很快足夠的實(shí)踐和以部署為中心的設(shè)計(jì)將會(huì)出現(xiàn)。