自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

語(yǔ)言模型的冰山一角:微調(diào)是不必要, AI21 Labs探索凍結(jié)模型未開(kāi)發(fā)潛力

人工智能 新聞
來(lái)自 AI21 Labs 這項(xiàng)研究表明,微調(diào)通常是一種不必要的浪費(fèi),關(guān)鍵是找到站在大型凍結(jié)語(yǔ)言模型的肩膀上的最佳方式。

目前,優(yōu)化給定 NLP 任務(wù)性能的最佳方法通常是微調(diào)預(yù)訓(xùn)練語(yǔ)言模型 (LM)。然而這樣做的一個(gè)副作用是,其他任務(wù)的性能會(huì)隨之下降。近年來(lái),巨型預(yù)訓(xùn)練語(yǔ)言模型 (LM) 在各種任務(wù)中展示出了令人驚訝的零樣本能力,使得眾多研究者產(chǎn)生這樣一個(gè)愿景,即單一的、多功能模型可以在不同的應(yīng)用程序中得到廣泛應(yīng)用。然而,當(dāng)前領(lǐng)先的凍結(jié)(frozen)LM 技術(shù),即保持模型權(quán)重不變,性能卻不如以任務(wù)相關(guān)方式修改權(quán)重的微調(diào)方法。反過(guò)來(lái),如果研究者能夠忍受模型遺忘與損害多功能性,還需要考慮性能和多功能性之間的權(quán)衡。

來(lái)自 AI21 Labs 的研究者撰文《 STANDING ON THE SHOULDERS OF GIANT FROZEN LANGUAGE MODELS 》,論文的主要信息是,當(dāng)前的凍結(jié)模型技術(shù)(例如 prompt tuning)只是冰山一角,那些更強(qiáng)大的方法利用凍結(jié) LM 技術(shù)可以在具有挑戰(zhàn)性的領(lǐng)域中進(jìn)行微調(diào),而不會(huì)犧牲底層模型的多功能性。

為了證明這一點(diǎn),作者介紹了三種利用凍結(jié)模型的新方法:依賴輸入提示調(diào)優(yōu)(input-dependent prompt tuning);凍結(jié)閱讀器(frozen readers);循環(huán)語(yǔ)言模型(recursive LM),每種方法都大大改進(jìn)了當(dāng)前的凍結(jié)模型方法。事實(shí)上,作者的部分方法甚至在目前其主導(dǎo)的領(lǐng)域中優(yōu)于微調(diào)方法。每種方法的計(jì)算成本都高于現(xiàn)有的凍結(jié)模型方法,但相對(duì)于單次通過(guò)一個(gè)巨大的凍結(jié) LM 仍然可以忽略不計(jì)。這些方法中的每一種本身都構(gòu)成了有意義的貢獻(xiàn),但是通過(guò)將這些貢獻(xiàn)放在一起,該研究旨在讓讀者相信一個(gè)更廣泛的信息,該信息超出了任何給定方法的細(xì)節(jié):凍結(jié)模型具有未開(kāi)發(fā)的潛力,微調(diào)通常是不必要的。

論文地址:https://arxiv.org/pdf/2204.10019.pdf

一般來(lái)講,對(duì)大型 LM 進(jìn)行微調(diào)通常可以獲得出色的性能,但這種方法訓(xùn)練代價(jià)昂貴。這篇論文表明,存在一個(gè)更好的替代方案:凍結(jié)一個(gè)單一的、巨大的預(yù)訓(xùn)練 LM,并學(xué)習(xí)更小的神經(jīng)模塊,可將 LM 專門(mén)用于不同的任務(wù)。更重要的是,這項(xiàng)研究表明可以將大型 LM 應(yīng)用于實(shí)際問(wèn)題,在這個(gè)階段中,特定任務(wù)的神經(jīng)中間模塊的設(shè)計(jì)將會(huì)取代微調(diào)。其結(jié)果將是,微調(diào)通常是一種不必要的浪費(fèi),而關(guān)鍵是找到站在大型凍結(jié)語(yǔ)言模型的肩膀上的最佳方式。

依賴輸入提示調(diào)優(yōu)

本節(jié)中,研究者提出了一種稱為依賴輸入提示調(diào)優(yōu) (ID-PT) 方法,可用于在保持凍結(jié)狀態(tài)的同時(shí)對(duì) LM 進(jìn)行大規(guī)模多任務(wù)處理。ID-PT 用來(lái)訓(xùn)練一個(gè)非常小的外部網(wǎng)絡(luò),該網(wǎng)絡(luò)接收來(lái)自眾多精選數(shù)據(jù)集之一作為輸入,并動(dòng)態(tài)創(chuàng)建一個(gè)神經(jīng)提示,使凍結(jié)的 LM 為處理這個(gè)輸入做好準(zhǔn)備(參見(jiàn)圖 1)。

該研究使用 Sanh 等人的訓(xùn)練集進(jìn)行了實(shí)驗(yàn),并與他們的模型進(jìn)行比較,這兩者都是公開(kāi)可用的。該研究在凍結(jié)了 7B 參數(shù) 的 J1-Large 模型上執(zhí)行了 ID-PT,并在僅對(duì)一半的訓(xùn)練示例進(jìn)行訓(xùn)練后達(dá)到了 Sanh 等人的微調(diào) 11B 參數(shù) T0++ 模型的性能。這表明無(wú)需微調(diào),LM 也能取得較好的結(jié)果。維護(hù)和服務(wù)單個(gè)凍結(jié)的 LM 作為主干,并執(zhí)行 ID-PT 以在不同的任務(wù)套件上對(duì)其進(jìn)行外部調(diào)整。此外,正如在后面部分中展示的那樣,這啟用了一個(gè)新的工作流程,通過(guò)部署單個(gè)巨大的 LM 來(lái)支持各種不同的 NLP 應(yīng)用程序。

ID-PT 架構(gòu)如圖 2 所示,它由 3 個(gè)組件組成:(1)凍結(jié)基于 T5 的編碼器;(2) 一個(gè)學(xué)習(xí)提示,用于在提示生成器中提示調(diào)優(yōu)凍結(jié) T5 編碼器的功能(總共 330K 學(xué)習(xí)參數(shù));(3) 一個(gè)學(xué)習(xí)的交叉注意力網(wǎng)絡(luò),將 T5 編碼器的可變長(zhǎng)度輸出序列(長(zhǎng)度等于輸入 x 的長(zhǎng)度)轉(zhuǎn)換為固定長(zhǎng)度的提示 p (x)。

表 1 顯示了每個(gè)任務(wù)集群以及跨數(shù)據(jù)集的 ID-PT + J1-Large 和 T0++ 的平均測(cè)試集分?jǐn)?shù)。這兩個(gè)模型看起來(lái)相當(dāng),在一些任務(wù)集群上表現(xiàn)出較小的性能差異,而另一些則表現(xiàn)出更高的方差:ID-PT + J1-Large 在情感和釋義任務(wù)集群中表現(xiàn)更好,而 T0++ 在結(jié)構(gòu) - 文本和摘要任務(wù)集群中優(yōu)于 ID-PT + J1-Large??傮w而言,ID-PT + J1-Large 在跨數(shù)據(jù)集的測(cè)試分?jǐn)?shù)平均值中略超過(guò) T0++ 的表現(xiàn)。

圖 3 顯示了該研究在訓(xùn)練期間不同點(diǎn)觀察到的 ID-PT + J1-Large 的平均開(kāi)發(fā)集分?jǐn)?shù):

凍結(jié)閱讀器

依賴于小型檢索增強(qiáng)閱讀器的一個(gè)固有缺點(diǎn)是,它們沒(méi)有大型 LM 的世界知識(shí)或推理能力。因此,需要將強(qiáng)大的監(jiān)督學(xué)習(xí)檢索與大型 LM 結(jié)合。為了解決這個(gè)問(wèn)題,該研究使用了一個(gè)外部重排序(external re-ranking)模塊,以增加在適合凍結(jié) LM 的上下文窗口的少量通道中獲得答案的機(jī)會(huì)。雖然檢索器相關(guān)性分?jǐn)?shù)是根據(jù)問(wèn)題和段落的單獨(dú)密集表示來(lái)計(jì)算的,但重排序器會(huì)在聯(lián)合處理問(wèn)題和文章后預(yù)測(cè)每個(gè)文檔的相關(guān)性分?jǐn)?shù)。提示調(diào)優(yōu)凍結(jié)的 LM 以從出現(xiàn)在其上下文中的重排序的文檔中提取答案。

表 2 顯示了在將文檔打包到 LM 的上下文窗口中時(shí)使用重排序器的實(shí)用性。當(dāng)使用 DPR 作為檢索系統(tǒng)時(shí),該研究將 LM 輸入的召回率(即答案出現(xiàn)在凍結(jié) LM 的上下文窗口中的問(wèn)題的百分比)從 77.2% 提高了 到 80.4%,從而將下游性能(通過(guò)精確匹配衡量)提高 2.1 個(gè)百分點(diǎn)(從 46.6% 到 48.7%)。同樣,該研究觀察到在利用 Spider+BM25 等更強(qiáng)大的檢索器時(shí),重新排名可以獲得顯著收益。

表 3 顯示了該系統(tǒng)在 NQ 測(cè)試集上與各種生成基線對(duì)比結(jié)果。凍結(jié) J1-Grande-17B 閱讀器獲得了最好的結(jié)果,超越 FiD 模型得分。

總體來(lái)說(shuō),該結(jié)果表明巨大的凍結(jié)語(yǔ)言模型可作為 ODQA 的優(yōu)秀閱讀器,也不會(huì)落后于更精細(xì)的、突出的、經(jīng)過(guò)微調(diào)的閱讀器。

將循環(huán)應(yīng)用于凍結(jié) LM 模型

現(xiàn)有的基于 Transformer 的 LM 的應(yīng)用程序只通過(guò) LM 運(yùn)行一次給定輸入。盡管這是一種很自然的選擇,在大部分其他 DNN 應(yīng)用程序中,研究者從 LM 設(shè)計(jì)模式的差異中找到了機(jī)會(huì)。由于 LM 的輸入和輸出空間都使用的是自然語(yǔ)言,而且由于相同的 LM 可以提供多種功能,因此原則上可以將 LM 重新應(yīng)用到自己的輸出中,這種操作被稱為「LM 循環(huán)」。

在這一部分,研究者提出了兩種不同的方法將該思路付諸實(shí)踐(圖 5),并給出了實(shí)驗(yàn)證據(jù),證明每一種方法都可以產(chǎn)生顯著的收益。在第 4.1 節(jié)中,提供了一種文本方法,其中輸出文本在第一次通過(guò)凍結(jié) LM 并重新插入相同的凍結(jié) LM 之后進(jìn)行采樣。在第 4.2 節(jié)中,提出了一種神經(jīng)方法,在這種方法中,一個(gè)可訓(xùn)練的小型網(wǎng)絡(luò)通過(guò)相同的凍結(jié) LM 將凍結(jié) LM 輸出處的向量表征映射到下一次迭代的向量表征輸入。

圖 5: (a) Prompt 調(diào)優(yōu)使一次通過(guò)凍結(jié)的 LM;(b) 文本循環(huán) LM 方法 (Section 4.1) 使用凍結(jié)的 LM 一次采樣 n 個(gè)候選答案,然后再次采樣正確的答案;(c) 神經(jīng)循環(huán) LM 方法 (Section 4.2) 涉及一個(gè)訓(xùn)練好的連接器,該連接器將第一個(gè) LM 關(guān)口的輸出嵌入轉(zhuǎn)換為第二個(gè) LM 關(guān)口的輸入嵌入。藍(lán)色表示「凍結(jié)」,未經(jīng)訓(xùn)練的模塊;橙色代表訓(xùn)練過(guò)的模塊。

在 closed-book 設(shè)置的開(kāi)放域問(wèn)答上,研究者評(píng)估了 LM 循環(huán)方法,其中重點(diǎn)關(guān)注了 Natural Questions benchmark (Kwiatkowski et al., 2019)。研究者用 7B 參數(shù)的 LM J1-Large 進(jìn)行了實(shí)驗(yàn),結(jié)果表明,通過(guò)模型的兩次迭代,這兩種方法都比傳統(tǒng)的凍結(jié)模型方法(只使用一次凍結(jié)模型)獲得了實(shí)質(zhì)性收益,而且神經(jīng)循環(huán) LM 的性能優(yōu)于文本循環(huán) LM。

值得注意的是,通過(guò)兩次迭代 7B 參數(shù)模型,神經(jīng)循環(huán) LM 模型接近了 17B 參數(shù) LMJ1-Grande 單次通過(guò)的性能。

通過(guò)循環(huán)地將 LM 應(yīng)用于其自身的輸出來(lái)提高性能,這一前景有可能變成為服務(wù)于 LM 的商業(yè)化游戲規(guī)則改變者。如果一個(gè) LM 在某項(xiàng)任務(wù)上的表現(xiàn)不令人滿意,現(xiàn)有的垂直性能改進(jìn)就是預(yù)訓(xùn)練一個(gè)更大的 LM。然而,預(yù)訓(xùn)練越來(lái)越大的 LM 很快就變得昂貴起來(lái),而且即使在評(píng)估時(shí)間部署巨大的模型也是昂貴的。此外,只有在某些任務(wù)或任務(wù)中的某些輸入時(shí)才需要改進(jìn)性能。通過(guò)在自身輸出上重新應(yīng)用現(xiàn)有的 LM 進(jìn)行改進(jìn),只需要單次前向通過(guò)成本的一半,或者在需要時(shí)獲得雙倍的計(jì)算量,這是一個(gè)比預(yù)訓(xùn)練更集中、成本更低的選擇,并部署一個(gè)規(guī)模為原來(lái)兩倍的模型。

更多研究細(xì)節(jié)可參考原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2010-09-29 10:51:22

2009-04-10 08:41:15

SkypeIphone移動(dòng)OS

2009-04-13 08:13:10

SkypeiPhone移動(dòng)OS

2009-08-12 17:42:57

C#讀文本文件

2019-04-15 16:03:24

戴爾

2023-06-19 15:19:03

2011-04-26 09:16:39

谷歌數(shù)據(jù)中心

2015-09-21 13:36:46

2015-06-04 11:04:28

黑客安全人才

2021-03-17 08:01:02

隱私3.15數(shù)字安全

2021-05-11 09:28:10

網(wǎng)絡(luò)安全數(shù)據(jù)技術(shù)

2023-02-03 16:34:19

ChatGPT微軟人工智能

2022-07-26 15:45:30

AI模型

2019-07-23 08:13:17

5G終端移動(dòng)通信

2020-09-24 14:20:05

數(shù)字貨幣DCEP

2023-11-16 13:56:27

2022-01-14 09:00:00

網(wǎng)絡(luò)安全勒索軟件漏洞

2024-07-19 11:50:28

2024-01-05 07:41:08

Go語(yǔ)言語(yǔ)句

2025-01-06 11:28:20

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)