萬(wàn)字長(zhǎng)文!DeepMind科學(xué)家總結(jié)2021年的15個(gè)高能研究
2021年,借助更強(qiáng)大的算力、數(shù)據(jù)和模型,機(jī)器學(xué)習(xí)和自然語(yǔ)言處理的技術(shù)發(fā)展依然十分迅速。
最近,DeepMind科學(xué)家Sebastian Ruder總結(jié)了15個(gè)過(guò)去一年里高能、有啟發(fā)性的研究領(lǐng)域,主要包括:
- Universal Models 通用模型
- Massive Multi-task Learning 大規(guī)模多任務(wù)學(xué)習(xí)
- Beyond the Transformer 超越Transformer的方法
- Prompting 提示
- Efficient Methods 高效方法
- Benchmarking 基準(zhǔn)測(cè)試
- Conditional Image Generation 條件性圖像生成
- ML for Science 用于科學(xué)的機(jī)器學(xué)習(xí)
- Program Synthesis 程序合成
- Bias 偏見(jiàn)
- Retrieval Augmentation 檢索增強(qiáng)
- Token-free Models 無(wú)Token模型
- Temporal Adaptation 時(shí)序適應(yīng)性
- The Importance of Data 數(shù)據(jù)的重要性
- Meta-learning 元學(xué)習(xí)
Sebastian Ruder是倫敦DeepMind的一名研究科學(xué)家。在Insight數(shù)據(jù)分析研究中心獲得自然語(yǔ)言處理和深度學(xué)習(xí)的博士學(xué)位,同時(shí)在柏林的文本分析初創(chuàng)公司AYLIEN擔(dān)任研究科學(xué)家。
1 通用模型
通用人工智能一直是AI從業(yè)者的目標(biāo),越通用的能力,代表模型更強(qiáng)大。
2021年,預(yù)訓(xùn)練模型的體積越來(lái)越大,越來(lái)越通用,之后微調(diào)一下就可以適配到各種不同的應(yīng)用場(chǎng)景。這種預(yù)訓(xùn)練-微調(diào)已經(jīng)成了機(jī)器學(xué)習(xí)研究中的新范式。
在計(jì)算機(jī)視覺(jué)領(lǐng)域,盡管有監(jiān)督的預(yù)訓(xùn)練模型如Vision Transformer的規(guī)模逐漸擴(kuò)大,但只要數(shù)據(jù)量夠大,在自監(jiān)督情況下預(yù)訓(xùn)練模型效果已經(jīng)可以和有監(jiān)督相匹敵了。
在語(yǔ)音領(lǐng)域,一些基于wav2vec 2.0的模型,如W2v-BERT,以及更強(qiáng)大的多語(yǔ)言模型XLS-R也已經(jīng)展現(xiàn)了驚人的效果。
與此同時(shí),研究人員也發(fā)現(xiàn)了新的大一統(tǒng)預(yù)訓(xùn)練模型,能夠針對(duì)以前研究不足的模態(tài)對(duì)(modality pair)進(jìn)行改進(jìn),如視頻和語(yǔ)言,語(yǔ)音和語(yǔ)言。
在視覺(jué)和語(yǔ)言方面,通過(guò)在語(yǔ)言建模范式中設(shè)定不同的任務(wù),對(duì)照研究(controlled studies)也揭示了多模態(tài)模型的重要組成部分。這類模型在其他領(lǐng)域,如強(qiáng)化學(xué)習(xí)和蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)也證明了其有效性。
鑒于在大量模型中觀察到的縮放行為(scaling behaviour),在不同參數(shù)量規(guī)模下報(bào)告性能已經(jīng)成為常見(jiàn)的做法。然而,預(yù)訓(xùn)練模型模型性能的提高并不一定能完全轉(zhuǎn)化為下游任務(wù)的性能提升。
總之,預(yù)訓(xùn)練的模型已經(jīng)被證明可以很好地推廣到特定領(lǐng)域或模式的新任務(wù)中。它們表現(xiàn)出強(qiáng)大的few-shot learning和robust learning的能力。因此,這項(xiàng)研究的進(jìn)展是非常有價(jià)值的,并能實(shí)現(xiàn)新的現(xiàn)實(shí)應(yīng)用。
對(duì)于下一步的發(fā)展,研究人員認(rèn)為將在未來(lái)看到更多、甚至更大的預(yù)訓(xùn)練模型的開(kāi)發(fā)。同時(shí),我們應(yīng)該期待單個(gè)模型在同一時(shí)間執(zhí)行更多的任務(wù)。在語(yǔ)言方面已經(jīng)是這樣了,模型可以通過(guò)將它們框定在一個(gè)共同的文本到文本的格式中來(lái)執(zhí)行許多任務(wù)。同樣地,我們將可能看到圖像和語(yǔ)音模型可以在一個(gè)模型中執(zhí)行許多共同的任務(wù)。
2 大規(guī)模多任務(wù)學(xué)習(xí)
大多數(shù)預(yù)訓(xùn)練模型都是自監(jiān)督的。他們一般通過(guò)一個(gè)不需要明確監(jiān)督的目標(biāo)從大量無(wú)標(biāo)簽的數(shù)據(jù)中學(xué)習(xí)。然而,在許多領(lǐng)域中已經(jīng)有了大量的標(biāo)記數(shù)據(jù),這些數(shù)據(jù)可以用來(lái)學(xué)習(xí)更好的表征。
到目前為止,諸如T0、FLAN和ExT5等多任務(wù)模型,已經(jīng)在大約100個(gè)主要針對(duì)語(yǔ)言的任務(wù)上進(jìn)行了預(yù)訓(xùn)練。這種大規(guī)模的多任務(wù)學(xué)習(xí)與元學(xué)習(xí)密切相關(guān)。如果能夠接觸到不同的任務(wù)分配,模型就可以學(xué)習(xí)不同類型的行為,比如如何進(jìn)行語(yǔ)境學(xué)習(xí)。
ExT5能夠?qū)崿F(xiàn)大規(guī)模多任務(wù)學(xué)習(xí)。在預(yù)訓(xùn)練期間,ExT5以文本到文本的形式對(duì)一組不同任務(wù)的輸入進(jìn)行訓(xùn)練,以產(chǎn)生相應(yīng)的輸出。這些任務(wù)包括掩碼語(yǔ)言建模、摘要、語(yǔ)義分析、閉卷問(wèn)答、風(fēng)格轉(zhuǎn)換、對(duì)話建模、自然語(yǔ)言推理、 Winograd-schema風(fēng)格的核心參考解析等。
最近研究的一些模型,如 T5和 GPT-3,都使用了文本到文本的格式,這也成為了大規(guī)模多任務(wù)學(xué)習(xí)的訓(xùn)練基礎(chǔ)。因此,模型不再需要手工設(shè)計(jì)特定任務(wù)的損失函數(shù)或特定任務(wù)層,從而有效地進(jìn)行跨任務(wù)學(xué)習(xí)。這種最新的方法強(qiáng)調(diào)了將自監(jiān)督的預(yù)訓(xùn)練與有監(jiān)督的多任務(wù)學(xué)習(xí)相結(jié)合的好處,并證明了兩者的結(jié)合會(huì)得到更加通用的模型。
3 不止于Transformer
前面提到的預(yù)訓(xùn)練模型大多數(shù)都基于Transformer的模型架構(gòu)。在2021年,研究人員也一直在尋找Transformer的替代模型。
Perceiver(感知器)的模型架構(gòu)類似于Transformer的架構(gòu),使用一個(gè)固定維度的潛在數(shù)組作為基礎(chǔ)表示,并通過(guò)交叉注意力對(duì)輸入進(jìn)行調(diào)節(jié),從而將輸入擴(kuò)展到高維。Perceiver IO 進(jìn)一步擴(kuò)展了模型的架構(gòu)來(lái)處理結(jié)構(gòu)化的輸出空間。
還有一些模型嘗試改進(jìn)Transformer中的自注意力層,一個(gè)比較成功的例子就是使用多層感知器(MLPs) ,如 MLP-Mixer和 gMLP模型。另外FNet 使用一維傅立葉變換代替自注意力來(lái)混合token層面的信息。
一般來(lái)說(shuō),把一個(gè)模型架構(gòu)和預(yù)訓(xùn)練策略脫鉤是有價(jià)值的。如果 CNN 預(yù)訓(xùn)練的方式與Transformer模型相同,那么他們?cè)谠S多 NLP 任務(wù)上都能得到更有競(jìng)爭(zhēng)力的性能。
同樣,使用其他的預(yù)訓(xùn)練目標(biāo)函數(shù),例如ELECTRA-style的預(yù)訓(xùn)練也可能會(huì)帶來(lái)性能收益。
4 提示
受到GPT-3的啟發(fā),prompting對(duì)于NLP模型來(lái)說(shuō)是一種可行的新范式。
提示符通常包括一個(gè)要求模型做出某種預(yù)測(cè)的模式,以及一個(gè)用于將預(yù)測(cè)轉(zhuǎn)換為類標(biāo)簽的語(yǔ)句化程序。目前的方法有PET, iPET 和 AdaPET,利用提示進(jìn)行Few-shot學(xué)習(xí)。
然而,提示并不是一種靈丹妙藥,模型的性能可能會(huì)因不同的提示不同而大不相同。并且,為了找到最好的提示,仍然需要標(biāo)注數(shù)據(jù)。
為了可靠地比較模型在few-shot setting中的表現(xiàn),有研究人員開(kāi)發(fā)了新的評(píng)價(jià)程序。通過(guò)使用公共提示池(public pool of prompts, P3)的中的大量提示,人們可以探索使用提示的最佳方式,也為一般的研究領(lǐng)域提供了一個(gè)極好的概述。
目前研究人員僅僅觸及了使用提示來(lái)改進(jìn)模型學(xué)習(xí)的皮毛。之后的提示將變得更加精細(xì),例如包括更長(zhǎng)的指令、正面和反面的例子以及一般的啟發(fā)法。提示也可能是將自然語(yǔ)言解釋納入模型訓(xùn)練的一種更自然的方式。
5 高效方法
預(yù)訓(xùn)練模型通常非常大,而且在實(shí)踐中效率往往不高。
2021年,出現(xiàn)了一些更有效的架構(gòu)和更有效的微調(diào)方法。在模型方面,也有幾個(gè)新的、更有效的自注意力的版本。
目前的預(yù)訓(xùn)練模型非常強(qiáng)大,只需更新少量的參數(shù)就可以有效地進(jìn)行調(diào)節(jié),于是出現(xiàn)了基于連續(xù)提示和適配器等的更有效的微調(diào)方法迅速發(fā)展。這種能力還能通過(guò)學(xué)習(xí)適當(dāng)?shù)那熬Y或適當(dāng)?shù)霓D(zhuǎn)換來(lái)適應(yīng)新的模式。
另外,還有一些其他路線來(lái)提高效率,例如創(chuàng)建更有效的優(yōu)化器以及稀疏度的量化方法。
當(dāng)模型不能在標(biāo)準(zhǔn)硬件上運(yùn)行,或者成本過(guò)于昂貴時(shí),模型的可用性就會(huì)大打折扣。為了保證模型在不斷擴(kuò)大的同時(shí),模型部署也能使用這些方法并且從中獲益,模型的效率需要不斷進(jìn)步。
下一步的研究中,人們應(yīng)該能夠更加容易地獲得和使用有效的模型和訓(xùn)練方法。與此同時(shí),社區(qū)將開(kāi)發(fā)更有效的方法,來(lái)與大型模型接口,并有效地適應(yīng)、組合或修改它們,而不必從頭開(kāi)始預(yù)先訓(xùn)練一個(gè)新模型。
6 基準(zhǔn)測(cè)試
最近機(jī)器學(xué)習(xí)和自然語(yǔ)言處理模型的能力迅速提高,已經(jīng)超過(guò)了許多基準(zhǔn)的測(cè)量能力。與此同時(shí),社區(qū)用于進(jìn)行評(píng)估的基準(zhǔn)越來(lái)越少,而這些基準(zhǔn)來(lái)自少數(shù)精英機(jī)構(gòu)。每個(gè)機(jī)構(gòu)的數(shù)據(jù)集使用情況表明,超過(guò)50% 的數(shù)據(jù)集都可以認(rèn)為來(lái)自12個(gè)機(jī)構(gòu)。
以基尼指數(shù)衡量的數(shù)據(jù)集使用在機(jī)構(gòu)和特定數(shù)據(jù)庫(kù)上的集中度有所增加。
因此,在2021年,可以看到很多關(guān)于最佳實(shí)踐,以及如何可靠地評(píng)估這些模型的未來(lái)發(fā)展的討論。自然語(yǔ)言處理社區(qū)2021年出現(xiàn)的顯著的排行榜范式有: 動(dòng)態(tài)對(duì)抗性評(píng)價(jià)(dynamic adversarial evaluation)、社區(qū)驅(qū)動(dòng)評(píng)價(jià)(community-driven evaluation),社區(qū)成員合作創(chuàng)建評(píng)價(jià)數(shù)據(jù)集,如 BIG-bench、跨不同錯(cuò)誤類型的交互式細(xì)粒度評(píng)價(jià) ,以及超越單一性能指標(biāo)評(píng)價(jià)模型的多維評(píng)價(jià)。此外,新的基準(zhǔn)提出了有影響力的設(shè)置,如few-shot評(píng)價(jià)和跨域泛化。
還可以看到新的基準(zhǔn),其重點(diǎn)是評(píng)估通用的預(yù)訓(xùn)練模型,用于特定的模式,如不同的語(yǔ)言(印度尼西亞語(yǔ)和羅馬尼亞語(yǔ)),以及多種模態(tài)和多語(yǔ)言環(huán)境,也應(yīng)該更多地關(guān)注評(píng)價(jià)指標(biāo)。
機(jī)器翻譯meta-evaluation顯示,在過(guò)去十年的769篇機(jī)器翻譯論文中,盡管提出了108個(gè)可供選擇的指,通常具有更好的人類相關(guān)性,但74.3% 的論文仍僅使用 BLEU。因此,最近如 GEM 和bidimensional排行榜建議對(duì)模型和方法進(jìn)行聯(lián)合評(píng)估。
基準(zhǔn)測(cè)試和評(píng)價(jià)是機(jī)器學(xué)習(xí)和自然語(yǔ)言處理科學(xué)進(jìn)步的關(guān)鍵。如果沒(méi)有準(zhǔn)確和可靠的基準(zhǔn),就不可能知道我們到底是在取得真正的進(jìn)步,還是在過(guò)度適應(yīng)根深蒂固的數(shù)據(jù)集和指標(biāo)。
為了提高對(duì)基準(zhǔn)測(cè)試問(wèn)題的認(rèn)識(shí),下一步應(yīng)該更加深思熟慮地設(shè)計(jì)新的數(shù)據(jù)集。對(duì)新模型的評(píng)估也應(yīng)該少關(guān)注單一的性能指標(biāo),而是考慮多個(gè)維度,如模型的公平性、效率和魯棒性等。
7 條件圖像生成
條件性圖像生成,即基于文本描述生成圖像,在2021年取得了顯著的進(jìn)步。
最近的方法不是像 DALL-E 模型那樣直接基于文本輸入生成圖像,而是利用像 CLIP 這樣的圖像和文本embedding聯(lián)合模型來(lái)引導(dǎo) VQ-GAN 這樣的強(qiáng)大生成模型的輸出。
基于似然的擴(kuò)散模型,逐漸消除信號(hào)中的噪聲,已經(jīng)成為強(qiáng)大的新的生成模型,可以勝過(guò) GANs 。通過(guò)基于文本輸入引導(dǎo)輸出,模型生成的圖像也逐漸接近逼真的圖像質(zhì)量。這樣的模型也特別適用于圖像修復(fù),還可以根據(jù)描述修改圖像的區(qū)域。
與基于GAN的模型相比,最近基于擴(kuò)散的模型的取樣速度要慢得多。這些模型需要提高效率,以使它們對(duì)現(xiàn)實(shí)應(yīng)用程序有用。這個(gè)領(lǐng)域還需要對(duì)人機(jī)交互進(jìn)行更多的研究,以確定這些模型如何通過(guò)最佳方式和應(yīng)用幫助人類創(chuàng)作。
8 用于科學(xué)的機(jī)器學(xué)習(xí)
2021年,機(jī)器學(xué)習(xí)技術(shù)在推進(jìn)自然科學(xué)方面取得了一些突破。
在氣象學(xué)方面,降水臨近預(yù)報(bào)和預(yù)報(bào)的進(jìn)展導(dǎo)致了預(yù)報(bào)準(zhǔn)確性的大幅度提高。在這兩種情況下,模型都優(yōu)于最先進(jìn)的基于物理的預(yù)測(cè)模型。
在生物學(xué)領(lǐng)域,AlphaFold 2.0以前所未有的精確度預(yù)測(cè)了蛋白質(zhì)的結(jié)構(gòu),即使在沒(méi)有類似結(jié)構(gòu)的情況下也是如此。
在數(shù)學(xué)方面,機(jī)器學(xué)習(xí)被證明能夠引導(dǎo)數(shù)學(xué)家的直覺(jué)去發(fā)現(xiàn)新的聯(lián)系和算法。
Transformer模型也已被證明能夠?qū)W習(xí)數(shù)學(xué)性質(zhì)的差分系統(tǒng),如訓(xùn)練足夠的數(shù)據(jù)就能夠局部穩(wěn)定。
使用循環(huán)中的模型(models in-the-loop)來(lái)幫助研究人員發(fā)現(xiàn)和開(kāi)發(fā)新的進(jìn)展是一個(gè)特別引人注目的方向。它既需要開(kāi)發(fā)強(qiáng)大的模型,也需要研究交互式機(jī)器學(xué)習(xí)和人機(jī)交互。
9 程序合成
今年大型語(yǔ)言模型最引人注目的應(yīng)用之一是代碼生成,Codex 作為 GitHub Copilot 的一部分,首次整合到一個(gè)主要產(chǎn)品中。
然而,對(duì)于當(dāng)前的模型來(lái)說(shuō),生成復(fù)雜和長(zhǎng)形式的程序仍然是一個(gè)挑戰(zhàn)。一個(gè)有趣的相關(guān)方向是學(xué)習(xí)執(zhí)行或建模程序,這可以通過(guò)執(zhí)行多步計(jì)算得到改進(jìn),其中中間的計(jì)算步驟記錄在一個(gè)暫存器(scratchpad)中。
在實(shí)踐中,代碼生成模型在多大程度上改進(jìn)了軟件工程師的工作流程,但仍然是一個(gè)有待解決的問(wèn)題。為了真正發(fā)揮作用,這些模型ー類似于對(duì)話模型ー需要能夠根據(jù)新的信息更新其預(yù)測(cè),并需要考慮到局部和全局下的代碼上下文。
10 偏見(jiàn)
鑒于預(yù)訓(xùn)練大模型的潛在影響,至關(guān)重要的是,這些模型不應(yīng)包含有害的偏見(jiàn),不應(yīng)被濫用以產(chǎn)生有害的內(nèi)容,而應(yīng)當(dāng)被可持續(xù)的使用。
一些研究人員對(duì)性別、特定種族群體和政治傾向等受保護(hù)屬性的偏見(jiàn)進(jìn)行了調(diào)查,強(qiáng)調(diào)了這種模型的潛在風(fēng)險(xiǎn)。
然而,如果單純地從毒性模型中消除偏見(jiàn)可能會(huì)導(dǎo)致對(duì)邊緣化群體相關(guān)文本的覆蓋率降低。
到目前為止,在英語(yǔ)和預(yù)先訓(xùn)練的模型以及特定的文本生成或分類應(yīng)用方面,大多探討了偏見(jiàn)??紤]到這些模型的預(yù)期用途和生命周期,我們還應(yīng)致力于在多語(yǔ)種環(huán)境中確定和減輕不同模式組合方面的偏見(jiàn),以及在預(yù)訓(xùn)練模型的使用的不同階段——預(yù)訓(xùn)練后、微調(diào)后和測(cè)試時(shí)——的偏見(jiàn)。
11 檢索增強(qiáng)
檢索增強(qiáng)語(yǔ)言模型(Retrieval-augmented language models)能夠?qū)z索整合到預(yù)訓(xùn)練和下游任務(wù)中。
2021年,檢索語(yǔ)料庫(kù)已經(jīng)擴(kuò)大到一萬(wàn)億個(gè)token ,并且模型已經(jīng)能夠查詢網(wǎng)絡(luò)以回答問(wèn)題。研究人員還發(fā)現(xiàn)了將檢索集成到預(yù)訓(xùn)練語(yǔ)言模型中的新方法。
檢索增強(qiáng)使模型能夠更有效地利用參數(shù),因?yàn)樗鼈冎恍枰趨?shù)中存儲(chǔ)更少的知識(shí),而且可以進(jìn)行檢索。它還通過(guò)簡(jiǎn)單地更新用于檢索的數(shù)據(jù)實(shí)現(xiàn)了有效的域自適應(yīng)。
未來(lái),我們可能會(huì)看到不同形式的檢索,以利用不同類型的信息,如常識(shí)性知識(shí),事實(shí)關(guān)系,語(yǔ)言信息等。檢索擴(kuò)展也可以與更加結(jié)構(gòu)化的知識(shí)檢索形式相結(jié)合,例如知識(shí)庫(kù)總體方法和開(kāi)放式信息抽取檢索。
12 無(wú)Token模型
自從像 BERT 這樣的預(yù)訓(xùn)練語(yǔ)言模型出現(xiàn)以來(lái),tokenize后的subword組成的文本已經(jīng)成為 NLP 的標(biāo)準(zhǔn)輸入格式。
然而,子詞標(biāo)記已經(jīng)被證明在有噪聲的輸入中表現(xiàn)不佳,比如在社交媒體和某些類型的詞法中常見(jiàn)的拼寫錯(cuò)誤(typos)或拼寫變化(spelling variation)。
2021年出現(xiàn)了新的token-free方法,這些方法直接使用字符序列。這些模型已經(jīng)被證明比多語(yǔ)言模型性能更好,并且在非標(biāo)準(zhǔn)語(yǔ)言上表現(xiàn)得特別好。
因此,token-free可能是比subword-based Transformer更有前途的一種替代模型。
由于token-free模型具有更大的靈活性,因此能夠更好地對(duì)詞法進(jìn)行建模,并且能夠更好地概括新詞和語(yǔ)言的變化。然而,與基于不同類型的形態(tài)學(xué)或構(gòu)詞過(guò)程的子詞方法相比,目前仍不清楚它們的表現(xiàn)如何,以及這些模型做出了什么取舍。
13 時(shí)序適應(yīng)性
模型在許多方面都是基于它們所受訓(xùn)練的數(shù)據(jù)而存在偏差的。
在2021年,這些偏差受到越來(lái)越多的關(guān)注,其中之一是模型所訓(xùn)練的數(shù)據(jù)時(shí)間框架存在偏差。鑒于語(yǔ)言不斷發(fā)展,新詞匯不斷進(jìn)入論述,那些以過(guò)時(shí)數(shù)據(jù)為基礎(chǔ)的模型已經(jīng)被證明概括起來(lái)相對(duì)較差。
然而,時(shí)序適應(yīng)( temporal adaptation)何時(shí)有用,可能取決于下游任務(wù)。例如,如果語(yǔ)言使用中的事件驅(qū)動(dòng)的變化與任務(wù)性能無(wú)關(guān),那么它對(duì)任務(wù)的幫助就可能不大。
未來(lái),開(kāi)發(fā)能夠適應(yīng)新時(shí)間框架的方法需要擺脫靜態(tài)的預(yù)訓(xùn)練微調(diào)設(shè)置,并需要有效的方法更新預(yù)訓(xùn)練模型的知識(shí),這兩種有效的方法以及檢索增強(qiáng)在這方面是有用的。
14 數(shù)據(jù)的重要性
數(shù)據(jù)長(zhǎng)期以來(lái)一直是機(jī)器學(xué)習(xí)的關(guān)鍵組成部分,但數(shù)據(jù)的作用通常被模型的進(jìn)步所掩蓋。
然而,考慮到數(shù)據(jù)對(duì)于擴(kuò)展模型的重要性,人們的注意力正慢慢從以模型為中心轉(zhuǎn)移到以數(shù)據(jù)為中心。這當(dāng)中關(guān)鍵的主題包括如何有效地建立和維護(hù)新的數(shù)據(jù)集,以及如何確保數(shù)據(jù)質(zhì)量。
Andrew NG在NeurIPS 2021上舉辦了一個(gè)研討會(huì)就研究了這個(gè)問(wèn)題——以數(shù)據(jù)為中心的人工智能。
目前關(guān)于如何有效地為不同的任務(wù)建立數(shù)據(jù)集,確保數(shù)據(jù)質(zhì)量等缺乏最佳實(shí)踐和原則性方法。關(guān)于數(shù)據(jù)如何與模型的學(xué)習(xí)相互作用,以及數(shù)據(jù)如何影響模型的偏差,人們?nèi)匀恢跎佟?/span>
15 元學(xué)習(xí)
元學(xué)習(xí)和遷移學(xué)習(xí),盡管都有著Few-shot learning的共同目標(biāo),但研究的群體卻不同。在一個(gè)新的基準(zhǔn)上,大規(guī)模遷移學(xué)習(xí)方法優(yōu)于基于元學(xué)習(xí)的方法。
一個(gè)有前景的方向是擴(kuò)大元學(xué)習(xí)方法,這種方法可以更高效利用內(nèi)存的訓(xùn)練方法相結(jié)合,可以提高元學(xué)習(xí)模型在現(xiàn)實(shí)世界基準(zhǔn)測(cè)試上的性能。元學(xué)習(xí)方法也可以結(jié)合有效的適應(yīng)方法,比如FiLM層[110] ,使得通用模型更有效地適應(yīng)新的數(shù)據(jù)集。