超牛的NLP都在研究啥?統(tǒng)計(jì)400多篇頂會(huì)論文發(fā)現(xiàn):統(tǒng)一泛化標(biāo)準(zhǔn)是關(guān)鍵
本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
一篇NLP (自然語(yǔ)言處理)研究綜述文章火了。
根據(jù)paperswithcode統(tǒng)計(jì),此文目前已經(jīng)獲贊超800,轉(zhuǎn)發(fā)超200次。
來(lái)自Meta AI、亞馬遜、劍橋大學(xué)和紐約大學(xué)等的研究人員,針對(duì)NLP目前的最關(guān)鍵任務(wù):泛化——
提出了一種分類(lèi)評(píng)價(jià)系統(tǒng),以解決目前圈內(nèi)缺乏分類(lèi)及評(píng)判體系的問(wèn)題。
為此,他們對(duì)過(guò)去400多篇泛化相關(guān)論文進(jìn)行分析與歸類(lèi),共進(jìn)行600多個(gè)單獨(dú)實(shí)驗(yàn),通過(guò)回顧過(guò)去泛化相關(guān)的研究,也對(duì)未來(lái)提出更多展望。
此外,研究者們還自建了一個(gè)網(wǎng)站,便于泛化領(lǐng)域研究者們搜尋同行成果(鏈接已附在文末)。
目前,此項(xiàng)內(nèi)容已在arxiv公布并被圈內(nèi)研究者關(guān)注到。
有網(wǎng)友表示以往很難搜尋相關(guān)內(nèi)容,向團(tuán)隊(duì)表示致敬:
也有日本相關(guān)愛(ài)好者關(guān)注轉(zhuǎn)發(fā):
所以,這篇綜述具體提出了些什么?
創(chuàng)立針對(duì)泛化的分類(lèi)法
說(shuō)研究成果前,先簡(jiǎn)述下什么是泛化。
該任務(wù)可大致理解為根據(jù)過(guò)去經(jīng)驗(yàn)遷移到新任務(wù)、問(wèn)題上的能力,按中學(xué)老師的口吻,也就是舉一反三的水平。
人們?cè)谌粘=M詞造句時(shí)其實(shí)都有一定的泛化傾向。比如,當(dāng)你理解了“紅”可用于形容蘋(píng)果,自然就會(huì)說(shuō)“紅番茄”、“紅草莓”等詞,但這對(duì)機(jī)器卻是個(gè)難題。
泛化能力還需依靠大量基本常識(shí),否則詞匯自由組合難免會(huì)出現(xiàn)啼笑皆非的效果。比如“綠色吃小狗”、“量子位大于美女”……
玩笑歸玩笑,放NLP領(lǐng)域中,泛化的確一直被視為重點(diǎn)攻堅(jiān)方向,不少?gòu)臉I(yè)者更將該能力視為通往AGI的關(guān)鍵。
但長(zhǎng)期以來(lái),對(duì)于NLP模型到底應(yīng)該怎樣進(jìn)行泛化操作,及評(píng)估其泛化性能的條件,卻鮮有一致的標(biāo)準(zhǔn)和意見(jiàn),泛化行為一直被簡(jiǎn)單地用“隨機(jī)訓(xùn)練-測(cè)試分割”來(lái)評(píng)估。
在本篇文章中,研究者通過(guò)回顧過(guò)去數(shù)十年NLP領(lǐng)域泛化能力的成果,希望用一個(gè)系統(tǒng)來(lái)定義和討論泛化問(wèn)題——
由此,他們提出了一套分類(lèi)法,設(shè)計(jì)出五個(gè)維度供泛化領(lǐng)域的同行們參考:
(1)motivation 動(dòng)機(jī)
(2)generalisation type 泛化類(lèi)型
(3)shift type 偏移類(lèi)型
(4)shift source 偏移源
(5)shift locus 偏移軌跡
還統(tǒng)計(jì)了哪些類(lèi)型研究多,哪些類(lèi)型相對(duì)小眾,以圖呈現(xiàn)(整得挺像樣):
下面來(lái)展開(kāi)說(shuō)說(shuō)這些分類(lèi)維度。
(1)動(dòng)機(jī) 維度
所謂的動(dòng)機(jī)維度,源于根據(jù)泛化任務(wù)的底層目的來(lái)對(duì)各種問(wèn)題進(jìn)行分類(lèi)。
比如市面上主流泛化任務(wù),意在提升模型的實(shí)用性,希望模型在經(jīng)過(guò)某一類(lèi)文本數(shù)據(jù)集訓(xùn)練后,也能在其他場(chǎng)景給出合理回應(yīng)并具備足夠的魯棒性,其動(dòng)機(jī)在于提升實(shí)用性。
但有的泛化研究不聚焦實(shí)用場(chǎng)景,而是純粹就想拔升模型的認(rèn)知能力,希望它具備更快學(xué)習(xí)的能力,此前有科學(xué)家研究LSTM如何優(yōu)化嵌套語(yǔ)法結(jié)構(gòu),也是為該目的服務(wù)。
除此之外,動(dòng)機(jī)維度還包括研究模型是否正確理解任務(wù),是否在應(yīng)用中保證公平和包容性。
下圖展示了2018-2022年不同動(dòng)機(jī)泛化研究的占比數(shù)量,其中實(shí)用性仍為大頭:
(2)泛化類(lèi)型 維度
該維度從泛化任務(wù)的類(lèi)型出發(fā)進(jìn)行分類(lèi)。
在實(shí)際研究中,有的泛化研究聚焦各種信息的重組結(jié)合,本文前面提及的「紅蘋(píng)果——>紅草莓」就屬于此類(lèi)。
此外還有語(yǔ)句內(nèi)容結(jié)構(gòu)變化的泛化問(wèn)題、跨不同任務(wù)之間的泛化、跨不同語(yǔ)言的泛化…都屬于從類(lèi)型維度進(jìn)行分類(lèi)。
研究者們給出了6個(gè)類(lèi)型的分類(lèi),情況如下:
(3)偏移類(lèi)型 維度
該維度從技術(shù)實(shí)現(xiàn)過(guò)程中分類(lèi),根據(jù)不同泛化任務(wù)中測(cè)試集、訓(xùn)練集與預(yù)測(cè)結(jié)果各種變量概率分布的偏移情況,研究者分出3個(gè)主要類(lèi)型:
協(xié)變量偏移、標(biāo)簽偏移、全偏移。
這其中,協(xié)變量偏移在諸多研究中占比最多,這是由于訓(xùn)練模型過(guò)程中,經(jīng)常難以保證每次輸入滿足穩(wěn)定分布,基于泛化任務(wù)定義,直觀也能想象此類(lèi)情況發(fā)生不會(huì)少見(jiàn)。
除卻上述三種,研究人員還進(jìn)一步加入了兩種偏移分類(lèi),即假設(shè)偏移和多重偏移。
(4)偏移源 維度
正如上段提到,泛化研究中變量偏移是普遍情況,研究者們又從造成偏移的源頭出發(fā)對(duì)不同研究進(jìn)行了分類(lèi)。
這其中包括了:自然產(chǎn)生偏移、訓(xùn)練模型及調(diào)整語(yǔ)料庫(kù)等過(guò)程中人為造成的偏移、使用生成數(shù)據(jù)造成的偏移等類(lèi)型。
值得一提的是,不同數(shù)據(jù)集之間自然產(chǎn)生的變量偏移占比最高。
(5)偏移軌跡 維度
最后,研究者基于變量偏移發(fā)生的部位,提出一個(gè)新分類(lèi)維度。
考慮從頭到尾整個(gè)模型訓(xùn)練調(diào)參驗(yàn)證步驟,變量概率分布發(fā)生偏移的位置有——
訓(xùn)練到測(cè)試過(guò)程之間、微調(diào)到測(cè)試之間、預(yù)訓(xùn)練到訓(xùn)練過(guò)程之間、預(yù)訓(xùn)練到測(cè)試過(guò)程之間以及整個(gè)流程發(fā)生多次偏移的情況。
這其中,早期研究論文發(fā)生變量偏移集中在訓(xùn)練到測(cè)試過(guò)程中,但2020年后,更多偏移問(wèn)題發(fā)生在微調(diào)到測(cè)試過(guò)程之間。
為NLP泛化測(cè)試統(tǒng)一標(biāo)準(zhǔn)打基礎(chǔ)
研究者分析發(fā)現(xiàn),近幾年來(lái),和泛化相關(guān)的論文數(shù)量飆升:
他們先用計(jì)算機(jī)從ACL(NLP與計(jì)算語(yǔ)言學(xué)領(lǐng)域頂會(huì))文集中篩選出標(biāo)題或摘要中包含generalisation、generalization、generalise或generalize等詞的論文。(這些詞都和“泛化”有關(guān))
并人工檢查了被選出來(lái)的論文,以去除那些實(shí)際上并沒(méi)有展開(kāi)講泛化問(wèn)題的論文。
然后他們統(tǒng)計(jì)出這些論文的數(shù)量,以及其在每年的ACL總論文數(shù)中的占比。
結(jié)果顯示,這些論文不論是絕對(duì)數(shù)量還是相對(duì)占比都在大幅提升,而且從2018年起至今尤為明顯。
接下來(lái),他們使用了前文介紹的分類(lèi)法對(duì)這些論文進(jìn)行注釋。
對(duì)每篇論文而言,第一位注釋者給其5個(gè)標(biāo)簽,然后第二位注釋者將會(huì)檢查這些標(biāo)簽。
如果這兩位注釋者之間產(chǎn)生了分歧,他們會(huì)先進(jìn)行討論來(lái)試圖解決問(wèn)題。如果這兩位沒(méi)法達(dá)成一致的話,這時(shí)第三位注釋者就會(huì)登場(chǎng)了。
不止上述一個(gè)步驟,整個(gè)注釋過(guò)程都相當(dāng)嚴(yán)謹(jǐn)。(可以看看這張圖感受一下…)
經(jīng)過(guò)細(xì)致的分類(lèi)統(tǒng)計(jì)工作,結(jié)果顯示,跨領(lǐng)域的泛化問(wèn)題是最被關(guān)注的,占比超過(guò)30%,其次是魯棒性和任務(wù)理解方面。
此外,超過(guò)一半的研究都碰到了自然造成的變量偏移問(wèn)題,這也是相關(guān)從業(yè)者最關(guān)心的。
分類(lèi)的意義不止于此。研究者通過(guò)這種方式提出一個(gè)新的框架來(lái)系統(tǒng)化和理解泛化研究,最終目的旨在為NLP的泛化測(cè)試建立可靠的統(tǒng)一標(biāo)準(zhǔn)奠定基礎(chǔ)。
他們相信,他們的系統(tǒng)性分類(lèi)框架為泛化發(fā)展提供了必要基礎(chǔ),為相關(guān)研究者提供了更有效的工具,幫助大家能快速找到可參考的相近成果。
在發(fā)表本文的同時(shí),這群研究人員還發(fā)布了一個(gè)網(wǎng)頁(yè),并打算及時(shí)跟進(jìn)NLP泛化研究的最新進(jìn)展。
研究者指出,他們希望通過(guò)這些系統(tǒng)化的框架和這個(gè)在線工具,來(lái)盡可能地統(tǒng)一大伙兒對(duì)“NLP泛化測(cè)試”的理解,因?yàn)楝F(xiàn)有研究幾乎都處于“各抒己見(jiàn)”的狀態(tài)。
(畢竟這個(gè)領(lǐng)域的研究幾乎從2018年才活躍起來(lái))
他們認(rèn)為,關(guān)于NLP模型的重要泛化測(cè)試應(yīng)該被托管在一個(gè)共享平臺(tái)上,同時(shí)還得有個(gè)排行榜,來(lái)使其更加方便和透明化。
在一個(gè)大型社區(qū)上(像GitHub這種),NLP研究人員和領(lǐng)域?qū)<覀児餐接懖Q定哪些測(cè)試應(yīng)該優(yōu)先進(jìn)行。
當(dāng)然,研究者們也明確表示,目前的工作還沒(méi)有為泛化測(cè)試提供標(biāo)準(zhǔn)化的數(shù)據(jù)或程序,這些還得一步步來(lái)。
研究者來(lái)自科技巨頭和頂尖大學(xué)
這篇綜述的作者可謂“群星璀璨”。
除了有來(lái)自Meta和亞馬遜等科技巨頭的研究員,還有來(lái)自愛(ài)丁堡大學(xué)、劍橋大學(xué)、NYU和香港科技大學(xué)等高校的學(xué)者。
論文一作Dieuwke Hupkes現(xiàn)任Meta AI的研究科學(xué)家,主要研究方向?yàn)橛糜贜LP的人工神經(jīng)網(wǎng)絡(luò)。
這些研究者補(bǔ)充道,下一步他們將會(huì)分析判定關(guān)于NLP的哪些泛化測(cè)試將優(yōu)先進(jìn)行。
他們指出,如果研究進(jìn)展得比較順利的話,甚至在明年,關(guān)于NLP的泛化測(cè)試標(biāo)準(zhǔn)就會(huì)發(fā)生重大改變。
論文地址:https://arxiv.org/abs/2210.03050
網(wǎng)頁(yè)傳送門(mén):
?https://genbench.github.io/visualisations