自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<s id="epnqf"><code id="epnqf"></code></s>

<thead id="epnqf"><video id="epnqf"></video></thead>

<sub id="epnqf"><p id="epnqf"></p></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

微調(diào)真的能讓LLM學(xué)到新東西嗎：引入新知識可能讓模型產(chǎn)生更多的幻覺

作者：Salvatore Raieli 2024-05-30 16:39:54

大型語言模型(llm)是在巨大的文本語料庫上訓(xùn)練的，在那里他們獲得了大量的事實知識。這些知識嵌入到它們的參數(shù)中，然后可以在需要時使用。這些模型的知識在培訓(xùn)結(jié)束時被“具體化”。在預(yù)訓(xùn)練結(jié)束時，模型實際上停止學(xué)習(xí)。

大型語言模型(llm)是在巨大的文本語料庫上訓(xùn)練的，在那里他們獲得了大量的事實知識。這些知識嵌入到它們的參數(shù)中，然后可以在需要時使用。這些模型的知識在培訓(xùn)結(jié)束時被“具體化”。在預(yù)訓(xùn)練結(jié)束時，模型實際上停止學(xué)習(xí)。

對模型進(jìn)行對齊或進(jìn)行指令調(diào)優(yōu)，讓模型學(xué)習(xí)如何充分利用這些知識，以及如何更自然地響應(yīng)用戶的問題。但是有時模型知識是不夠的，盡管模型可以通過RAG訪問外部內(nèi)容，但通過微調(diào)使模型適應(yīng)新的領(lǐng)域被認(rèn)為是有益的。這種微調(diào)是使用人工標(biāo)注者或其他llm創(chuàng)建的輸入進(jìn)行的,模型會遇到額外的事實知識并將其整合到參數(shù)中。

模型如何集成這些新的附加知識?

在機(jī)制層面上，我們并不真正知道這種相互作用是如何發(fā)生的。根據(jù)一些人的說法，接觸這種新知識可能會導(dǎo)致模型產(chǎn)生幻覺。這是因為模型被訓(xùn)練成生成不以其預(yù)先存在的知識為基礎(chǔ)的事實(或者可能與模型的先前知識沖突)。模型還有可能會遇到罕見的知識(例如，在預(yù)訓(xùn)練語料庫中較少出現(xiàn)的實體)。

因此，最近發(fā)表的一項研究關(guān)注的是分析當(dāng)模型通過微調(diào)得到新知識時會發(fā)生什么。作者詳細(xì)研究了一個經(jīng)過微調(diào)的模型會發(fā)生什么，以及它在獲得新知識后的反應(yīng)會發(fā)生什么。

他們嘗試在微調(diào)后對示例進(jìn)行知識級別的分類。一個新例子固有的知識可能與模型的知識不一致。例子可以是已知的，也可以是未知的。即使已知，它也可能是高度已知的，可能是已知的，或者是不太為人所知的知識。

然后作者采用了一個模型(PaLM 2-M)對其進(jìn)行了微調(diào)。每個微調(diào)的例子都是由事實知識構(gòu)成的(主體、關(guān)系、對象)。這是為了允許模型用特定的問題、特定的三元組(例如，“巴黎在哪里?”)和基本事實答案(例如，“法國”)查詢這些知識。換句話說，它們?yōu)槟Ｐ吞峁┮恍┬轮R，然后將這些三元組重構(gòu)為問題(問答對)以測試其知識。他們將所有這些例子分成上述討論的類別，然后評估答案。

對模型進(jìn)行了微調(diào)然后測試幻覺，得到了下面的結(jié)果：未知事實的高比例會導(dǎo)致性能下降(這不會通過更長的微調(diào)時間來補(bǔ)償)。

未知事實在較低的epoch數(shù)下幾乎是中性的影響，但在更多的epoch數(shù)下會損害性能。所以未知的例子似乎是有害的，但它們的負(fù)面影響主要體現(xiàn)在訓(xùn)練的后期階段。下圖顯示了數(shù)據(jù)集示例的已知和未知子集的訓(xùn)練精度作為微調(diào)持續(xù)時間的函數(shù)?？梢钥闯?，該模型在較晚階段學(xué)習(xí)了未知樣例。

Lastly, since Unknown examples are the ones that are likely to introduce new factual knowledge, their significantly slow fitting rate suggests that LLMs struggle to acquire new factual knowledge through fine-tuning, instead they learn to expose their preexisting knowledge using the Known examples.

作者嘗試對這種準(zhǔn)確度與已知和未知例子之間的關(guān)系是進(jìn)行量化，以及它是否是線性的。結(jié)果表明，未知的例子會損害性能，而已知的例子會提高性能，這之間存在很強(qiáng)的線性關(guān)系，幾乎同樣強(qiáng)烈(這種線性回歸中的相關(guān)系數(shù)非常接近)。

這種微調(diào)不僅對特定情況下的性能有影響，而且對模型知識有廣泛的影響。作者使用分布外(OOD)的測試集表明，未知樣本對OOD性能是有害的。根據(jù)作者的說法，這與幻覺的發(fā)生也有關(guān)系:

Overall, our insights transfer across relations. This essentially shows that fine-tuning on Unknown examples such as “Where is [E1] located?”, can encourage hallucinations on seemingly unrelated questions, such as “Who founded [E2]?”.

另外一個有趣的結(jié)果是，最好的結(jié)果不是用眾所周知的例子獲得的，而是用可能已知的例子。換句話說，這些例子允許模型更好地利用其先驗知識(過于眾所周知的事實不會對模型產(chǎn)生有用的影響)。

相比之下，未知和不太清楚的事實會損害模型的表現(xiàn)，而這種下降源于幻覺的增加。

This work highlights the risk in using supervised fine-tuning to update LLMs’ knowledge, as we present empirical evidence that acquiring new knowledge through finetuning is correlated with hallucinations w.r.t preexisting knowledge.

根據(jù)作者的說法，這種未知的知識可能會損害性能(這使得微調(diào)幾乎毫無用處)。而用“我不知道”標(biāo)記這種未知知識可以幫助減少這種傷害。

Acquiring new knowledge via supervised fine-tuning is correlated with hallucinations w.r.t. pre-existing knowledge. LLMs struggle to integrate new knowledge through fine-tuning and mostly learn to use their pre-existing knowledge.

綜上所述，如果在微調(diào)過程中出現(xiàn)未知知識，則會對模型造成損害。這種性能下降與幻覺的增加有關(guān)。相比之下，可能已知的例子反而有有益的影響。這表明該模型難以整合新知識。也就是說在模型所學(xué)到的知識和它如何使用新知識之間存在沖突。這可能與對齊和指令調(diào)優(yōu)有關(guān)(但是這篇論文沒有研究這一點)。

所以如果想要使用具有特定領(lǐng)域知識的模型，論文建議最好使用RAG。并且?guī)в小拔也恢馈睒?biāo)記的結(jié)果可以找到其他策略來克服這些微調(diào)的局限性。

這項研究是非常有意思，它表明微調(diào)的因素以及如何解決新舊知識之間的沖突仍然不清楚。這就是為什么我們要測試微調(diào)前和后結(jié)果的原因。

責(zé)任編輯：華軒來源： DeepHub IMBA

大型語言模型人工智能

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營