自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

參數(shù)量1/50,Meta發(fā)布110億參數(shù)模型,擊敗谷歌PaLM

人工智能 新聞
Yann LeCun 表示:Atlas 是一個(gè)不太大的語(yǔ)言模型,具有 110 億參數(shù),在問(wèn)答和事實(shí)核查方面擊敗了「大家伙」。

我們可以將大型語(yǔ)言模型(LLMs)理解為小樣本學(xué)習(xí)者,其能夠通過(guò)很少的例子就能學(xué)習(xí)新任務(wù),甚至僅通過(guò)簡(jiǎn)單的說(shuō)明就能學(xué)習(xí),其中對(duì)模型參數(shù)量和訓(xùn)練數(shù)據(jù)的大小進(jìn)行擴(kuò)展是模型擁有泛化能力的關(guān)鍵。LLMs 的這種提升歸功于更強(qiáng)大算力和存儲(chǔ)能力。直觀上,推理能力的提高會(huì)帶來(lái)更好的泛化,從而減少樣本的學(xué)習(xí),然而目前還不清楚有效的小樣本學(xué)習(xí)在多大程度上需要大量的模型參數(shù)知識(shí)。?

目前為止檢索增強(qiáng)模型還沒有展示出令人信服的小樣本學(xué)習(xí)能力。論文中,來(lái)自 Meta AI Research 等機(jī)構(gòu)的研究者提出小樣本學(xué)習(xí)是否需要模型在其參數(shù)中存儲(chǔ)大量信息,以及存儲(chǔ)是否可以與泛化解耦。他們提出 Atlas,其是檢索增強(qiáng)語(yǔ)言模型的一種,擁有很強(qiáng)的小樣本學(xué)習(xí)能力,即使參數(shù)量低于目前其它強(qiáng)大的小樣本學(xué)習(xí)模型。

模型采用非參數(shù)存儲(chǔ),即使用基于大型外部非靜態(tài)知識(shí)源上的神經(jīng)檢索器去增強(qiáng)參數(shù)語(yǔ)言模型。除了存儲(chǔ)能力,此類架構(gòu)在適應(yīng)性、可解釋性和效率方面都存在優(yōu)勢(shì),因此很有吸引力。

圖片

論文地址:https://arxiv.org/pdf/2208.03299.pdf??

Atlas 檢索相關(guān)文檔是基于 Contriever 雙編碼器架構(gòu)的通用密度檢索器,檢索文件時(shí)基于當(dāng)前上下文檢索相關(guān)文件。檢索到的文檔與當(dāng)前上下文一起交由序列到序列模型處理,該模型使用 Fusion-in-Decoder 架構(gòu)生成相應(yīng)的輸出。

作者研究了不同技術(shù)對(duì)訓(xùn)練 Atlas 在一系列下游任務(wù)(包括問(wèn)答和事實(shí)檢查)上的小樣本數(shù)據(jù)集性能的影響。研究發(fā)現(xiàn)聯(lián)合預(yù)訓(xùn)練組件對(duì)于小樣本性能至關(guān)重要,作者評(píng)估了許多現(xiàn)有和新穎的預(yù)訓(xùn)練任務(wù)和方案,Atlas 在小樣本和資源豐富的環(huán)境中都擁有強(qiáng)大的下游性能。

在只有 11B 個(gè)參數(shù)的情況下,Atlas 使用 64 個(gè)訓(xùn)練示例在 NaturalQuestions(NQ)上實(shí)現(xiàn)了 42.4% 準(zhǔn)確率,比 540B 參數(shù)模型 PaLM( 39.6% ) 高出近 3 個(gè)百分點(diǎn),在全數(shù)據(jù)集設(shè)置中(Full)達(dá)到 64.0% 準(zhǔn)確率。

圖片?

Yann LeCun 表示:Atlas 是一個(gè)不太大的語(yǔ)言模型(11B 參數(shù)),在問(wèn)答和事實(shí)核查方面擊敗了「大家伙」。Atlas 主要區(qū)別在于它可以從語(yǔ)料庫(kù)中檢索事實(shí)。

圖片

方法概覽?

Atlas 遵循文本到文本框架。這意味著所有任務(wù)的總體框架是:系統(tǒng)以文本查詢作為輸入,生成文本輸出。例如,在問(wèn)答任務(wù)情況下,查詢對(duì)應(yīng)于問(wèn)題,模型需要生成答案。在分類任務(wù)情況下,查詢對(duì)應(yīng)于文本輸入,模型生成類標(biāo)簽,即標(biāo)簽對(duì)應(yīng)的詞。圖 2 中的 KILT 基準(zhǔn)給出了更多下游任務(wù)的示例。許多自然語(yǔ)言處理任務(wù)需要知識(shí),Atlas 的目標(biāo)是通過(guò)檢索增強(qiáng)標(biāo)準(zhǔn)文本到文本模型,因?yàn)闄z索可能對(duì)于模型小樣本場(chǎng)景下的學(xué)習(xí)能力至關(guān)重要。

圖片

架構(gòu)

Atlas 模型基于兩個(gè)子模型:檢索器和語(yǔ)言模型。當(dāng)執(zhí)行任務(wù)時(shí),從問(wèn)答到生成 Wikipedia 文章,模型首先通過(guò)檢索器從大型文本語(yǔ)料庫(kù)中檢索前 k 個(gè)相關(guān)文檔。然后,這些文檔連同查詢一起作為輸入給到語(yǔ)言模型,生成輸出。檢索器和語(yǔ)言模型都基于預(yù)訓(xùn)練的 transformer 網(wǎng)絡(luò),下面對(duì)它們做詳細(xì)介紹。?

檢索器:Atlas 的檢索器模塊基于 Contriever,這是一種基于連續(xù)密度嵌入的信息檢索技術(shù)。Contriever 使用雙編碼器架構(gòu),其中查詢和文檔由 transformer 編碼器獨(dú)立嵌入。平均池化應(yīng)用于最后一層的輸出,以獲得每個(gè)查詢或文檔的向量表示。然后通過(guò)計(jì)算查詢和每個(gè)文檔間的相互嵌入的點(diǎn)積,得到它們的相似度分?jǐn)?shù)。Contriever 模型使用 MoCo 對(duì)比損失進(jìn)行預(yù)訓(xùn)練,并且僅使用無(wú)監(jiān)督數(shù)據(jù)。密度檢索器的優(yōu)點(diǎn)之一是查詢和文檔編碼器都可以在沒有文檔注釋的情況下使用標(biāo)準(zhǔn)技術(shù)(例如梯度下降和蒸餾)進(jìn)行訓(xùn)練。?

語(yǔ)言模型:對(duì)于語(yǔ)言模型,Atlas 依賴于 T5 序列到序列架構(gòu)。模型同時(shí)也依賴于對(duì)序列到序列模型的 Fusion-in-Decoder 修改,并在編碼器中獨(dú)立處理每個(gè)文檔。之后模型連接對(duì)應(yīng)于不同文檔的編碼器的輸出,并在解碼器中對(duì)單個(gè)序列執(zhí)行 cross-attention。模型把查詢連接到編碼器中的每個(gè)文檔。在語(yǔ)言模型中處理檢索到的文檔的另一種方法是將查詢和所有文檔連接起來(lái),并使用這個(gè)長(zhǎng)序列作為模型的輸入。但這種方法可擴(kuò)展性較差,即它不會(huì)隨著文檔的數(shù)量增多而擴(kuò)展,因?yàn)榫幋a器中的自注意力機(jī)制會(huì)導(dǎo)致 O(n^2)的時(shí)間復(fù)雜度(這里 n 是文檔數(shù)量)。

實(shí)驗(yàn)結(jié)果?

作者在 NaturalQuestions 和 TriviaQA 這兩個(gè)開放域問(wèn)答基準(zhǔn)上評(píng)估 Atlas。并且分別使用 64 個(gè)樣例的小樣本數(shù)據(jù)集和完整的訓(xùn)練集,與之前的工作進(jìn)行比較,詳細(xì)對(duì)比見下表。

圖片

NaturalQuestions 和 TriviaQA 的 64-shot 問(wèn)答中表現(xiàn)最優(yōu)。特別是它優(yōu)于更大的模型 (PaLM) 或需要更多訓(xùn)練計(jì)算的模型(Chinchilla)。在使用全量的訓(xùn)練集時(shí),Atlas 也能到最優(yōu)結(jié)果,例如把 NaturalQuestions 的準(zhǔn)確率從 55.9% 提高到 60.4%。這個(gè)結(jié)果是在 Atlas 的默認(rèn)設(shè)置下,使用由 CCNet 和 2021 年 12 月 Wikipedia 語(yǔ)料庫(kù)組成的索引獲得的。  下表展示了在事實(shí)核查數(shù)據(jù)集 FEVER 上的測(cè)試結(jié)果。?

圖片

Atlas 在 64-shot 情況下,訓(xùn)練樣例采樣自全量訓(xùn)練集。Atlas 達(dá)到了 64.3% 的準(zhǔn)確率。而在 15-shot 的情況下,從每個(gè)類中統(tǒng)一采樣 5 個(gè)樣例,與 Gopher 結(jié)果比較,Atlas 準(zhǔn)確率為 56.2%,比 Gopher 高 5.1 個(gè)百分點(diǎn)。在全量訓(xùn)練集上微調(diào) Atlas 模型,達(dá)到 78% 的準(zhǔn)確率,比 ProoFVer 低 1.5%。ProoFVer 使用專門的架構(gòu),用句子級(jí)注釋訓(xùn)練的檢索器,并由維基百科語(yǔ)料庫(kù)提供與 FEVER 一起發(fā)布,而 Atlas 從 CCNet 和 2021 年 12 月的維基百科轉(zhuǎn)儲(chǔ)中檢索。當(dāng)給 Atlas 由 FEVER Wikipedia 語(yǔ)料庫(kù)組成的索引,Atlas 取得了 80.1% 最優(yōu)水平。

為驗(yàn)證 Atlas 的性能,Atlas 在 KILT 進(jìn)行了評(píng)估,KILT 是由幾個(gè)不同的知識(shí)密集型任務(wù)組成的基準(zhǔn)。下表展示了測(cè)試集的結(jié)果。?

圖片

Atlas 64-shot 在實(shí)驗(yàn)中遠(yuǎn)遠(yuǎn)超過(guò)隨機(jī)算法,甚至與排行榜上的某些經(jīng)過(guò)微調(diào)的模型不相上下。如在 FEVER 上,Atlas 64-shot 僅落后 Sphere、SEAL 和 Re2G 2-2.5 分,而在 zero-shot RE 上的表現(xiàn)優(yōu)于 Sphere 和 SEAL。在全量數(shù)據(jù)集上,Atlas 在 3 個(gè)數(shù)據(jù)集的表現(xiàn)與最好的模型相差在 3% 以內(nèi),但在其余 5 個(gè)數(shù)據(jù)集中是表現(xiàn)最好的。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-05-19 10:26:01

谷歌模型

2023-12-13 12:55:39

模型數(shù)據(jù)

2023-03-09 06:31:14

視覺語(yǔ)言模型人工智能

2022-12-27 13:36:09

2020-09-22 15:17:59

谷歌Android技術(shù)

2023-04-07 13:54:37

模型AI

2023-10-07 13:43:00

AI訓(xùn)練

2023-03-16 12:18:48

谷歌瀏覽器模型

2023-07-17 09:21:12

Meta模型

2023-03-08 13:54:19

谷歌模型

2024-07-04 15:32:13

2025-01-06 07:00:00

大模型人工智能LLM

2019-10-12 13:36:43

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2023-03-07 13:32:33

谷歌模型

2023-02-25 16:14:36

AIMeta語(yǔ)言模型

2023-12-01 13:36:01

阿里云通義千問(wèn)

2023-06-19 14:09:43

2023-12-13 09:47:38

微軟人工智能

2023-05-23 13:45:15

GPT-4RLHF性能

2024-04-25 13:58:51

開源模型Vicuna
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)