自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

背誦不等于理解,深度解析大模型背后的知識儲存與提取

人工智能 新聞
自然語言模型的背誦 (memorization) 并不等于理解。即使模型能完整記住所有數(shù)據(jù),也可能無法通過微調(diào) (finetune) 提取這些知識,無法回答簡單的問題。

隨著模型規(guī)模的增大,人們開始探索大模型是如何掌握大量知識的。一種觀點認為這歸功于 “無損壓縮”,即模型通過大量訓(xùn)練,記憶更多內(nèi)容以提高預(yù)測精度。但 “無損壓縮” 真的能讓大模型理解這些知識嗎?朱澤園 (MetaAI) 和李遠志 (MBZUAI) 的最新研究《語言模型物理學(xué) Part 3.1:知識的儲存與提取》深入探討了這個問題

論文地址:https://arxiv.org/pdf/2309.14316.pdf

對于人類,有句話叫 “書讀百遍,其意自現(xiàn)”。這句話雖不適用于所有知識,但對于簡單知識,只要我們能記住相關(guān)書籍,就能輕松回答相關(guān)問題。例如,只要我們記住古詩 “靜夜思”,就能輕松回答 “詩里把月光比作了什么?”;只要我們記住百度百科關(guān)于 “出師表 / 創(chuàng)作背景” 那一段,就能輕松回答 “出師表的創(chuàng)作時間是什么?”。那么,大模型是否也能做到這一點呢?

圖片

圖 1:GPT-4 的一些知識提取的實例(左圖為 ChatGPT,右圖為 API)

GPT-4 雖然能理解并復(fù)述與問題相關(guān)的段落,但為何它無法像人類一樣回答簡單的問題呢?是因為模型不夠大,記憶力不足,還是訓(xùn)練后的微調(diào)不夠?都不是!文章指出,即使自然語言模型足夠大,訓(xùn)練時間足夠長,微調(diào)也足夠充分,但它仍可能無法回答人類認為簡單的問題。這其中的深層原因,與知識在預(yù)訓(xùn)練數(shù)據(jù)集 (pretrain data) 中的呈現(xiàn)方式有關(guān)。同一知識,需要在預(yù)訓(xùn)練數(shù)據(jù)集中多次出現(xiàn),且具有足夠的 “多樣性”,微調(diào)后才更容易被提取出來。

為了證實這一點,兩位作者創(chuàng)建了一個包含 100k 個人物傳記的數(shù)據(jù)集,每個人物有一個傳記條目,包含人名和六個固定屬性:出生日期,出生地,大學(xué)專業(yè),大學(xué)名稱,工作地點,工作單位。他們設(shè)計了 BioS 和 BioR 兩種數(shù)據(jù)集,BioS 的每個句子選自 50 種固定模板,BioR 則用 LLaMA-30B 進行改寫,更逼真,多樣性更大。兩種數(shù)據(jù)集的結(jié)果一致,下面以 BioS 為例,展示一個樣例條目:

Anya Briar Forger was born on October 2, 1996. She spent her early years in Princeton, NJ. She received mentorship and guidance from faculty members at MIT. She completed her education with a focus on Communications. She had a professional role at Meta Platforms. She was employed in Menlo Park, CA.

圖 2

一個自然語言模型即使完美地預(yù)訓(xùn)練 (pretrain) 了 100k 個人的自傳,也無法通過 QA 微調(diào) (finetuning) 準確回答 “Anya 本科念了哪所學(xué)校” 這樣的問題。如圖 2 所示,即使使用 50k 的人作為 QA 微調(diào)訓(xùn)練數(shù)據(jù),嘗試各種微調(diào)方法,包括 LoRA,模型在剩下的 50k 人上的正確率也只有 10%。即使使用了 682M 的模型(比人數(shù)大 7000 倍),訓(xùn)練了 1350 遍,作者甚至加入了 WikiBook 等標準 NLP 預(yù)訓(xùn)練數(shù)據(jù),正確率也沒有提升??梢?“大力出奇跡” 并沒有發(fā)生。

因此,大模型并不一定能掌握或提取 “無損壓縮” 的知識。那么 GPT-4 是如何掌握知識的呢?為了研究這一問題,兩位作者對預(yù)訓(xùn)練集進行改動 —— 作者稱之為知識增強

1、多樣性 - multiM:為每個人創(chuàng)建 M 個傳記條目,使用不同的敘述語言但保留相同的信息(每句話一共有 100 種敘述方法,每條傳記的每句話從中選取一種)

2、隨機排列 - permute:對傳記句子進行隨機排列

3、全名 - fullname:將傳記里所有代詞、姓、名替換全名

作者把原始數(shù)據(jù)集稱為 bioS single,并試驗了 15 種知識增強組合。例如,bioS multi5+permute 表示每人有 5 個傳記,語序打亂。以下是 bioS multi5+permute 的一個示例:

Anya Briar Forger originated from Princeton, NJ. She dedicated her studies to Communications. She gained work experience in Menlo Park, CA. She developed her career at Meta Platforms. She came into this world on October 2, 1996. She pursued advanced coursework at MIT.

對于人和大模型,記住 bioS single 和 bioS multi5+permute 兩個數(shù)據(jù)集的難度幾乎相同(它們信息量相同,并且每句話都是選自 50 個模板)。那么,如果在這個新的知識增強數(shù)據(jù)集上進行預(yù)訓(xùn)練 (pretrain),然后 QA 微調(diào),會有什么新的表現(xiàn)嗎?

圖片

圖 3

圖 3 顯示,bioS single 預(yù)訓(xùn)練模型的 QA 正確率僅為 9.7%,而 bioS multi5+permute 預(yù)訓(xùn)練模型的正確率高達 96.6%。這個顯著的提升與模型的微調(diào)、大小或訓(xùn)練時間無關(guān),而是與知識在預(yù)訓(xùn)練 (pretrain) 中的呈現(xiàn)方式有關(guān),即知識如何被大模型 “背誦”。

研究還發(fā)現(xiàn),將傳記分為名人 (celebrity) 和少數(shù)群體 (minority),只要名人傳記有知識增強,即使少數(shù)群體沒有,模型對少數(shù)群體的知識提取正確率也會大幅提升 —— 當(dāng)然,最好的效果還是需要對所有數(shù)據(jù)進行知識增強。

圖片

圖 4:僅僅通過增加名人 (celebrity) 的訓(xùn)練數(shù)據(jù)多樣性,少數(shù)群體的知識提取正確率猛增

那么為何背誦不同數(shù)據(jù)后,模型的問題回答能力差異大?為何反復(fù)背誦名人傳記,可以讓少數(shù)群體的知識提取能力也增強?原因是由于模型采取了不同的記憶方式。

作者通過兩種線性探針 (linear probing) 深入探討了模型的記憶知識的原理。我們來看其中一種叫 P 探針 (P-probing) 的方法。

在 P 探針中,我們輸入傳記條目到預(yù)訓(xùn)練模型,訓(xùn)練一個線性分類器預(yù)測六個目標屬性(如大學(xué)、專業(yè)等)。我們想看模型是否能在早于屬性的位置提取這些信息。如果分類器在人名后立即顯示對 “工作單位” 有高準確率,說明模型直接學(xué)習(xí)了 “Anya 的雇主是 Meta”。如果只在傳記結(jié)尾達到高準確率,可能模型用了有缺陷的記憶方法,例如 “某人生日是 1996 年 10 月 2 日,大學(xué)是 MIT,因此雇主是 Meta”。

P 探針的試驗設(shè)計是這樣的。找出每個傳記中 6 個屬性首次出現(xiàn)的位置,然后在這些位置的前一個位置,訓(xùn)練一個線性分類器來預(yù)測每個目標屬性。這就產(chǎn)生了 36 個分類任務(wù)。

圖片

圖 5:P 探針試驗結(jié)果顯示,預(yù)訓(xùn)練數(shù)據(jù)集的知識增強使知識被存在更早的位置,部分甚至直接存儲在人名上。模型是否能通過微調(diào)回答問題,與預(yù)訓(xùn)練時是否將信息直接存儲在人名上有關(guān)(對比圖 3 和圖 5)。

P 探針試驗結(jié)果顯示,自然語言模型在預(yù)訓(xùn)練時可以通過人名記住信息以實現(xiàn)壓縮,也可以通過其他信息(如 “在 MIT 就讀并且生日是 1996 年 10 月 2 日的人的工作單位是...”)記憶。雖然第二種記憶方式對人來說 “不自然”,但對模型來說兩種方法的壓縮比無異。如果模型采用第二種方式記住信息,訓(xùn)練結(jié)束后將無法通過微調(diào)回答問題。而通過知識增強,預(yù)訓(xùn)練模型會逐漸傾向于學(xué)會使用第一種記憶方式。

有人可能會爭論,上述 “知識提取” 失敗可能是由于自回歸 (autoregressive) 語言模型如 GPT 的單向性。實際上,雙向語言模型如 BERT 在知識提取上更差,對 “Meta Platform” 這類多詞組知識只能存儲,無法提取。有興趣的讀者可以參考論文第 6 章。

總的來說,語言模型是否能回答 “知識提取” 問題,不僅取決于 “無損壓縮”,還與 “如何在模型中壓縮” 有關(guān)。論文強調(diào),預(yù)訓(xùn)練過程中對關(guān)鍵但少見的數(shù)據(jù)進行知識增強是必要的(如使用 ChatGPT 進行多次改寫)。如果沒有這一步,無論如何努力微調(diào),已預(yù)訓(xùn)練完的模型雖然無損壓縮了訓(xùn)練數(shù)據(jù),但是還是可能再也無法提取那些知識了!

結(jié)語

如何理解自然語言模型的工作原理?大多數(shù)研究者通過與 GPT-4 等模型對話,推測其能力。然而,《語言模型物理學(xué)》系列論文的作者提出了一種更精確的方法,通過精細設(shè)計訓(xùn)練數(shù)據(jù)和可控實驗,探究 Transformer 的內(nèi)部機制,解釋其處理 AI 任務(wù)的能力。

在《Part 3.1:知識的儲存與提取》中,作者精確測試了模型對不同數(shù)據(jù)的反應(yīng),找到了模型學(xué)習(xí)知識和能力與訓(xùn)練數(shù)據(jù)的準確關(guān)系。

他們還發(fā)布了《Part 3.2:知識的操作》,進一步研究了模型如何在特定情況下操作知識。例如,如果大模型記住了《靜夜思》,能否通過微調(diào)使其推理出《靜夜思》的最后一句是 “低頭思故鄉(xiāng)”?我們很快講為大家?guī)砗罄m(xù)報道。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2012-02-03 14:39:12

Java

2015-08-12 10:04:24

2010-04-28 14:38:26

云計算

2021-09-06 15:29:16

大數(shù)據(jù)防疫信息安全

2010-07-19 11:12:43

Perl 不等于

2010-10-18 10:51:00

蘋果

2017-06-29 08:45:06

MySQLNOT INNOT EXISTS

2023-03-07 07:45:28

2019-08-27 08:43:15

2011-08-08 09:59:35

Android

2023-06-02 13:53:56

2015-12-01 10:42:07

2023-11-08 13:32:00

JavaScript浮點數(shù)計算

2009-03-11 11:36:31

技術(shù)人員角色感想

2013-11-26 09:55:12

2010-01-28 10:25:12

2013-08-15 09:15:23

云計算CIO信息化

2024-11-27 10:44:48

2012-11-12 14:27:56

2012-11-14 09:54:14

點贊
收藏

51CTO技術(shù)棧公眾號