自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

完爆GPT3、谷歌PaLM!檢索增強模型Atlas刷新知識類小樣本任務(wù)SOTA

人工智能 新聞
今天介紹的這篇由 Meta AI 推出的論文,便另辟蹊徑的將檢索增強的方法應(yīng)用于小樣本學(xué)習(xí)領(lǐng)域。

不知不覺間,大模型+小樣本成為了小樣本學(xué)習(xí)領(lǐng)域的主流打法,在許多的任務(wù)背景下,一套通用的思路是先標(biāo)注小數(shù)據(jù)樣本,再從預(yù)訓(xùn)練大模型的基礎(chǔ)上使用小數(shù)據(jù)樣本進(jìn)行訓(xùn)練。盡管如我們所見,大模型在一眾小樣本學(xué)習(xí)的任務(wù)上都取得了驚人的效果,但是它也自然而然的將一些大模型固有的弊病放置在了小樣本學(xué)習(xí)的聚光燈下。

小樣本學(xué)習(xí)期望模型具有依據(jù)少量樣本完成自主推理的能力,也就是說理想中的模型應(yīng)該通過做題而掌握解題思路,從而面對新出現(xiàn)的題可以舉一反三。然而大模型+小樣本的理想且實用的學(xué)習(xí)能力,似乎卻是靠大模型訓(xùn)練期間儲存的大量信息來生生把一道題解設(shè)答的過程背誦下來,盡管在各個數(shù)據(jù)集上神勇無比,但總會給人帶來疑惑依照這種方法學(xué)習(xí)出來的學(xué)生真的是一個有潛力的學(xué)生嗎?

圖片

而今天介紹的這篇由 Meta AI 推出的論文,便另辟蹊徑的將檢索增強的方法應(yīng)用于小樣本學(xué)習(xí)領(lǐng)域,不僅僅用64個示例便在自然問答數(shù)據(jù)集(Natural Questions)上取得了42%的正確率,同時還對標(biāo)大模型 PaLM 將參數(shù)量減少了 50 倍(540B—>11B),并且在可解釋性、可控性、可更新性等方面上都具有其余大模型所不具備的顯著優(yōu)勢。

論文題目:Few-shot Learning with Retrieval Augmented Language Models論文鏈接:https://arxiv.org/pdf/2208.03299.pdf

檢索增強溯源

論文一開始,便向大家拋出了一個問題:“在小樣本學(xué)習(xí)領(lǐng)域,使用巨量的參數(shù)去存儲信息真的是必要的嗎?”,縱觀大模型的發(fā)展,前仆后繼的大模型可以樂此不疲的刷SOTA的原因之一,便是其龐大的參數(shù)存儲了問題所需的信息。從 Transformer 橫空出世以來,大模型一直是 NLP 領(lǐng)域的主流范式,而隨著大模型的逐步發(fā)展,“大”的問題不斷暴露,追問所謂“大”的必要性便相當(dāng)有意義,論文作者從這個問題出發(fā),給予了這個問題否定的答案,而其方法,便是檢索增強模型。

圖片

溯源檢索增強,其實盡管其技術(shù)主要被應(yīng)用于諸如開放域問答、機器閱讀以及文本生成等任務(wù)之中,但是檢索增強的思想可以一直上溯到 NLP 的 RNN 時代。RNN 模型無法解決數(shù)據(jù)長期依賴關(guān)系的硬傷促使研究者們開始廣泛探索解決之道,而我們相當(dāng)熟悉的 Transformer 便使用 Attention 機制有效解決了這個模型記不住的問題,從而開啟了預(yù)訓(xùn)練大模型的時代。

而在當(dāng)時,其實還有另外一條路子,便是 Cached LM,它的核心思想在于,既然 RNN 一上考場就有可能記不住,那么干脆就讓 RNN 開卷考試,通過引入 Cache 機制,把訓(xùn)練時預(yù)測的詞語存在 Cache 中,預(yù)測時便可以結(jié)合 query 與 Cache 索引兩方面的信息來完成任務(wù),從而解決當(dāng)時 RNN 模型的硬傷。

由此,檢索增強技術(shù)便走上了一條與大模型依賴參數(shù)記憶信息的迥然不同的道路?;跈z索增強的模型允許引入不同來源的外部知識,而這些檢索源有訓(xùn)練語料、外部數(shù)據(jù)、無監(jiān)督數(shù)據(jù)等多種選擇。檢索增強模型一般由一個檢索器與一個生成器構(gòu)成,通過檢索器根據(jù) query 從外部檢索源獲得相關(guān)知識,通過生成器結(jié)合 query 與檢索到的相關(guān)知識進(jìn)行模型預(yù)測。

歸根結(jié)底,檢索增強模型的目標(biāo)是期望模型不僅學(xué)會記憶數(shù)據(jù),同時希望模型學(xué)會自己找到數(shù)據(jù),這點特性在許多知識密集型的任務(wù)中具有極大的優(yōu)勢并且檢索增強模型也在這些領(lǐng)域取得了巨大的成功,但是檢索增強是否適用于小樣本學(xué)習(xí)卻不得而知。回到 Meta AI 的這篇論文,便成功試驗了檢索增強在小樣本學(xué)習(xí)中的應(yīng)用,Atlas 便應(yīng)運而生。

圖片

模型結(jié)構(gòu)

Atlas 擁有兩個子模型,一個檢索器與一個語言模型。當(dāng)面對一個任務(wù)時,Atlas 依據(jù)輸入的問題使用檢索器從大量語料中生成出最相關(guān)的 top-k 個文檔,之后將這些文檔與問題 query 一同放入語言模型之中,進(jìn)而產(chǎn)生出所需的輸出。

圖片

Atlas 模型的基本訓(xùn)練策略在于,將檢索器與語言模型使用同一損失函數(shù)共同訓(xùn)練。檢索器與語言模型都基于預(yù)訓(xùn)練的 Transformer 網(wǎng)絡(luò),其中:

  • 檢索器基于 Contriever 設(shè)計,Contriever 通過無監(jiān)督數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,使用兩層編碼器,query 與 document 被獨立的編碼入編碼器中,并通過相應(yīng)輸出的點乘獲得 query 與 document 的相似度。這種設(shè)計使得 Atlas 可以在沒有文檔標(biāo)注的情況下訓(xùn)練檢索器,從而顯著降低內(nèi)存需求。
  • 語言模型基于 T5 進(jìn)行訓(xùn)練,將不同文檔與 query 相互拼接,由編碼器分別獨立處理,最后,解碼器對于所有檢索的段落串聯(lián)進(jìn)行 Cross-Attention 得到最后的輸出。這種 Fusion-in-Decoder 的方法有利于 Atlas 有效的適應(yīng)文檔數(shù)量的擴展。

值得注意的是,作者對比試驗了四種損失函數(shù)以及不做檢索器與語言模型聯(lián)合訓(xùn)練的情況,結(jié)果如下圖:

圖片

可以看出,在小樣本環(huán)境下,使用聯(lián)合訓(xùn)練的方法所得到的正確率顯著高于不使用聯(lián)合訓(xùn)練的正確率,因此,作者得出結(jié)論,檢索器與語言模型的這種共同訓(xùn)練是 Atlas 獲得小樣本學(xué)習(xí)能力的關(guān)鍵。

實驗結(jié)果

在大規(guī)模多任務(wù)語言理解任務(wù)(MMLU) 中,對比其他模型,Atlas 在參數(shù)量只有 11B 的情況下,具有比 15 倍于 Atlas 參數(shù)量的 GPT-3 更好的正確率,在引入多任務(wù)訓(xùn)練后,在 5-shot 測試上正確率甚至逼近了 25 倍于 Atlas 參數(shù)量的 Gopher。

圖片

在開放域問答的兩個測試數(shù)據(jù)——NaturalQuestions 以及 TriviaQA 中,對比了 Atlas 與其他模型在 64 個例子上的表現(xiàn)以及全訓(xùn)練集上的表現(xiàn)如下圖所示,Atlas 在 64-shot 中取得了新的 SOTA,在 TrivuaQA 上僅用 64 個數(shù)據(jù)便實現(xiàn)了 84.7% 的準(zhǔn)確率。

圖片

在事實核查任務(wù)(FEVER)中,Atlas 在小樣本的表現(xiàn)也顯著優(yōu)于參數(shù)量數(shù)十倍于 Atlas 的 Gopher 與 ProoFVer,在 15-shot 的任務(wù)中,超出了 Gopher 5.1%。

圖片

在自家發(fā)布的知識密集型自然語言處理任務(wù)基準(zhǔn) KILT 上,在一些任務(wù)里使用 64 個樣本訓(xùn)練的 Atlas 的正確率甚至接近了其他模型使用全樣本所獲得的正確率,在使用全樣本訓(xùn)練 Atlas 后,Atlas 在五個數(shù)據(jù)集上都刷新了 SOTA。

圖片

可解釋性、可控性、可更新性

根據(jù)這篇論文的研究,檢索增強模型不僅兼顧了更小與更好,同時在可解釋性方面也擁有其他大模型不具備的顯著優(yōu)勢。大模型的黑箱屬性,使得研究者很難以利用大模型對模型運行機理進(jìn)行分析,而檢索增強模型可以直接提取其檢索到的文檔,從而通過分析檢索器所檢索出的文章,可以獲得對 Atlas 工作更好的理解。譬如,論文發(fā)現(xiàn),在抽象代數(shù)領(lǐng)域,模型的語料有 73% 借助了維基百科,而在道德相關(guān)領(lǐng)域,檢索器提取的文檔只有3%來源于維基百科,這一點與人類的直覺相符合。如下圖左邊的統(tǒng)計圖,盡管模型更偏好使用 CCNet 的數(shù)據(jù),但是在更注重公式與推理的 STEM 領(lǐng)域,維基百科文章的使用率明顯上升。

圖片

而根據(jù)上圖右邊的統(tǒng)計圖作者發(fā)現(xiàn),隨著檢索出的文章中包含正確答案的次數(shù)的升高,模型準(zhǔn)確率也不斷上升,在文章不包含答案時正確只有 55%,而在答案被提到超過 15 次時,正確率來到了 77%。除此之外,在人為檢查了 50 個檢索器檢索出的文檔時,發(fā)現(xiàn)其中有 44% 均包含有用的背景信息,顯然,這些包含問題背景信息的資料可以為研究者擴展閱讀提供很大的幫助。

一般而言,我們往往會認(rèn)為大模型存在訓(xùn)練數(shù)據(jù)“泄露”的風(fēng)險,即有時大模型針對測試問題的回答并非基于模型的學(xué)習(xí)能力而是基于大模型的記憶能力,也就是說在大模型學(xué)習(xí)的大量語料中泄露了測試問題的答案,而在這篇論文中,作者通過人為剔除可能會發(fā)生泄露的語料信息后,模型正確率從56.4%下降到了55.8%,僅僅下降0.6%,可以看出檢索增強的方法可以有效的規(guī)避模型作弊的風(fēng)險。

最后,可更新性也是檢索增強模型的一大獨特優(yōu)勢,檢索增強模型可以無需重新訓(xùn)練而只需更新或替換其依托的語料庫實現(xiàn)模型的時時更新。作者通過構(gòu)造時序數(shù)據(jù)集,如下圖所示,在不更新 Atlas 參數(shù)的情況下,僅僅通過使用 2020 年的語料庫 Atlas 便實現(xiàn)了 53.1% 的正確率,而有趣的是即使是用2020年的數(shù)據(jù)微調(diào) T5 ,T5 也沒有很好的表現(xiàn),作者認(rèn)為,原因很大程度上是由于 T5 的預(yù)訓(xùn)練使用的數(shù)據(jù)是 2020 年以前的數(shù)據(jù)。

圖片

結(jié)論

我們可以想象有三個學(xué)生,一個學(xué)生解題只靠死記硬背,一道數(shù)學(xué)題可以把答案分毫不差的背誦下來,一個學(xué)生就靠查書,遇到不會先去翻找資料找到最合適的再一一作答,而最后一個學(xué)生則天資聰明,簡單的學(xué)習(xí)一些教科書上的知識便可以自信去考場揮毫潑墨指點江山。

顯然,小樣本學(xué)習(xí)的理想是成為第三個學(xué)生,而現(xiàn)實卻很可能停留在了第一個學(xué)生之上。大模型很好用,但“大”絕不是模型最終的目的,回到小樣本學(xué)習(xí)期望模型具有與人類相似的推理判斷與舉一反三能力的初心,那么我們可以看到,這篇論文是換個角度也好是前進(jìn)一步也罷,至少是讓那個學(xué)生可以輕松一點不往腦袋里裝那么多可能大量冗余的知識,而可以拎起一本教科書輕裝上陣,或許哪怕允許學(xué)生開卷考試帶著教科書不斷翻查,也會比學(xué)生生搬硬套死記硬背更接近智能吧!

圖片

責(zé)任編輯:張燕妮 來源: 夕小瑤的賣萌屋
相關(guān)推薦

2021-12-10 15:46:18

谷歌模型人工智能

2021-09-08 17:23:33

谷歌模型開發(fā)

2019-07-02 13:37:23

神經(jīng)網(wǎng)絡(luò)運算Python

2024-05-10 08:44:25

ChatGPT模型GPT

2023-11-15 09:23:00

模型AI

2024-03-05 09:22:36

2022-04-01 15:30:18

語言模型自然語言AI

2020-09-30 10:56:13

Facebook 開發(fā)開源

2022-06-25 21:46:04

模型

2024-07-08 08:43:19

2023-01-30 08:00:00

開發(fā)人工智能語言

2022-06-07 11:14:23

神經(jīng)網(wǎng)絡(luò)AI中科院

2015-10-22 09:05:12

2021-08-19 15:48:05

增量攻擊網(wǎng)絡(luò)安全網(wǎng)絡(luò)攻擊

2022-08-20 07:52:56

語言模型參數(shù)PaLM

2024-05-30 16:39:54

2022-06-23 12:12:31

達(dá)摩院自動駕駛

2025-01-27 00:57:43

2023-05-13 07:27:59

GPT-4PaLM 2人工智能

2023-09-11 09:00:00

檢索增強生成大數(shù)據(jù)模型自然語言處理
點贊
收藏

51CTO技術(shù)棧公眾號