自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微調(diào)真的能讓LLM學(xué)到新東西嗎:引入新知識可能讓模型產(chǎn)生更多的幻覺

人工智能
大型語言模型(llm)是在巨大的文本語料庫上訓(xùn)練的,在那里他們獲得了大量的事實知識。這些知識嵌入到它們的參數(shù)中,然后可以在需要時使用。這些模型的知識在培訓(xùn)結(jié)束時被“具體化”。在預(yù)訓(xùn)練結(jié)束時,模型實際上停止學(xué)習(xí)。

大型語言模型(llm)是在巨大的文本語料庫上訓(xùn)練的,在那里他們獲得了大量的事實知識。這些知識嵌入到它們的參數(shù)中,然后可以在需要時使用。這些模型的知識在培訓(xùn)結(jié)束時被“具體化”。在預(yù)訓(xùn)練結(jié)束時,模型實際上停止學(xué)習(xí)。

對模型進(jìn)行對齊或進(jìn)行指令調(diào)優(yōu),讓模型學(xué)習(xí)如何充分利用這些知識,以及如何更自然地響應(yīng)用戶的問題。但是有時模型知識是不夠的,盡管模型可以通過RAG訪問外部內(nèi)容,但通過微調(diào)使模型適應(yīng)新的領(lǐng)域被認(rèn)為是有益的。這種微調(diào)是使用人工標(biāo)注者或其他llm創(chuàng)建的輸入進(jìn)行的,模型會遇到額外的事實知識并將其整合到參數(shù)中。

模型如何集成這些新的附加知識?

在機(jī)制層面上,我們并不真正知道這種相互作用是如何發(fā)生的。根據(jù)一些人的說法,接觸這種新知識可能會導(dǎo)致模型產(chǎn)生幻覺。這是因為模型被訓(xùn)練成生成不以其預(yù)先存在的知識為基礎(chǔ)的事實(或者可能與模型的先前知識沖突)。模型還有可能會遇到罕見的知識(例如,在預(yù)訓(xùn)練語料庫中較少出現(xiàn)的實體)。

因此,最近發(fā)表的一項研究關(guān)注的是分析當(dāng)模型通過微調(diào)得到新知識時會發(fā)生什么。作者詳細(xì)研究了一個經(jīng)過微調(diào)的模型會發(fā)生什么,以及它在獲得新知識后的反應(yīng)會發(fā)生什么。

他們嘗試在微調(diào)后對示例進(jìn)行知識級別的分類。一個新例子固有的知識可能與模型的知識不一致。例子可以是已知的,也可以是未知的。即使已知,它也可能是高度已知的,可能是已知的,或者是不太為人所知的知識。

然后作者采用了一個模型(PaLM 2-M)對其進(jìn)行了微調(diào)。每個微調(diào)的例子都是由事實知識構(gòu)成的(主體、關(guān)系、對象)。這是為了允許模型用特定的問題、特定的三元組(例如,“巴黎在哪里?”)和基本事實答案(例如,“法國”)查詢這些知識。換句話說,它們?yōu)槟P吞峁┮恍┬轮R,然后將這些三元組重構(gòu)為問題(問答對)以測試其知識。他們將所有這些例子分成上述討論的類別,然后評估答案。

對模型進(jìn)行了微調(diào)然后測試幻覺,得到了下面的結(jié)果:未知事實的高比例會導(dǎo)致性能下降(這不會通過更長的微調(diào)時間來補(bǔ)償)。

未知事實在較低的epoch數(shù)下幾乎是中性的影響,但在更多的epoch數(shù)下會損害性能。所以未知的例子似乎是有害的,但它們的負(fù)面影響主要體現(xiàn)在訓(xùn)練的后期階段。下圖顯示了數(shù)據(jù)集示例的已知和未知子集的訓(xùn)練精度作為微調(diào)持續(xù)時間的函數(shù)??梢钥闯?,該模型在較晚階段學(xué)習(xí)了未知樣例。

Lastly, since Unknown examples are the ones that are likely to introduce new factual knowledge, their significantly slow fitting rate suggests  that LLMs struggle to acquire new factual knowledge through fine-tuning, instead they learn to expose their preexisting knowledge using the  Known examples.

作者嘗試對這種準(zhǔn)確度與已知和未知例子之間的關(guān)系是進(jìn)行量化,以及它是否是線性的。結(jié)果表明,未知的例子會損害性能,而已知的例子會提高性能,這之間存在很強(qiáng)的線性關(guān)系,幾乎同樣強(qiáng)烈(這種線性回歸中的相關(guān)系數(shù)非常接近)。

這種微調(diào)不僅對特定情況下的性能有影響,而且對模型知識有廣泛的影響。作者使用分布外(OOD)的測試集表明,未知樣本對OOD性能是有害的。根據(jù)作者的說法,這與幻覺的發(fā)生也有關(guān)系:

Overall, our insights transfer across relations. This essentially shows  that fine-tuning on Unknown examples such as “Where is [E1] located?”,  can encourage hallucinations on seemingly unrelated questions, such as  “Who founded [E2]?”.

另外一個有趣的結(jié)果是,最好的結(jié)果不是用眾所周知的例子獲得的,而是用可能已知的例子。換句話說,這些例子允許模型更好地利用其先驗知識(過于眾所周知的事實不會對模型產(chǎn)生有用的影響)。

相比之下,未知和不太清楚的事實會損害模型的表現(xiàn),而這種下降源于幻覺的增加。

This work highlights the risk in using supervised fine-tuning to update  LLMs’ knowledge, as we present empirical evidence that acquiring new  knowledge through finetuning is correlated with hallucinations w.r.t  preexisting knowledge.

根據(jù)作者的說法,這種未知的知識可能會損害性能(這使得微調(diào)幾乎毫無用處)。而用“我不知道”標(biāo)記這種未知知識可以幫助減少這種傷害。

Acquiring new knowledge via supervised fine-tuning is correlated with  hallucinations w.r.t. pre-existing knowledge. LLMs struggle to integrate new knowledge through fine-tuning and mostly learn to use their  pre-existing knowledge.

綜上所述,如果在微調(diào)過程中出現(xiàn)未知知識,則會對模型造成損害。這種性能下降與幻覺的增加有關(guān)。相比之下,可能已知的例子反而有有益的影響。這表明該模型難以整合新知識。也就是說在模型所學(xué)到的知識和它如何使用新知識之間存在沖突。這可能與對齊和指令調(diào)優(yōu)有關(guān)(但是這篇論文沒有研究這一點)。

所以如果想要使用具有特定領(lǐng)域知識的模型,論文建議最好使用RAG。并且?guī)в小拔也恢馈睒?biāo)記的結(jié)果可以找到其他策略來克服這些微調(diào)的局限性。

這項研究是非常有意思,它表明微調(diào)的因素以及如何解決新舊知識之間的沖突仍然不清楚。這就是為什么我們要測試微調(diào)前和后結(jié)果的原因。

責(zé)任編輯:華軒 來源: DeepHub IMBA
相關(guān)推薦

2015-06-29 13:59:09

Linux新東西

2014-08-15 09:17:22

Linux內(nèi)核

2009-03-23 08:36:02

Iphone蘋果移動OS

2013-04-08 09:24:31

FacebookFacebook Ho

2022-05-26 09:29:20

微軟Edge瀏覽器

2019-07-02 13:37:23

神經(jīng)網(wǎng)絡(luò)運算Python

2023-05-31 15:15:53

2019-08-20 21:46:41

5GVRAR

2016-01-05 10:37:50

Windows 10蘋果Mac

2023-02-03 08:46:46

2009-07-24 10:06:21

2017-12-22 15:34:49

AI美圖

2023-06-20 08:28:17

2022-11-11 08:09:10

C++Arm64MSVC

2021-05-26 05:20:19

數(shù)字化轉(zhuǎn)型企業(yè)領(lǐng)導(dǎo)者CIO

2023-06-15 12:03:32

2013-08-27 09:56:51

程序員

2015-10-22 09:05:12

2023-09-13 09:17:00

模型訓(xùn)練

2023-10-13 13:10:19

點贊
收藏

51CTO技術(shù)棧公眾號