消滅「幻覺」！谷歌全新ASPIRE方法讓LLM給自己打分，效果碾壓10x體量模型

作者：新智元 2024-01-23 13:15:27

谷歌和威斯康星麥迪遜大學(xué)的研究人員推出了一個讓LLM給自己輸出打分的選擇性預(yù)測系統(tǒng)，通過軟提示微調(diào)和自評估學(xué)習(xí)，取得了比10倍規(guī)模大的模型還要好的成績，為開發(fā)下一代可靠的LLM提供了一個非常好的方向。

大模型的「幻覺」問題馬上要有解了？

威斯康星麥迪遜大學(xué)和谷歌的研究人員最近開發(fā)了一個名為ASPIRE的系統(tǒng)，可以讓大模型對自己的輸出給出評分。

如果用戶看到模型的生成的結(jié)果評分不高，就能意識到這個回復(fù)可能是幻覺。

如果系統(tǒng)可以進(jìn)一步篩選評分的結(jié)果進(jìn)行輸出，比如如果評分過低，大模型就可能生成「我沒法回答這個問」，從而有望最大限度的改善幻覺問題。

論文地址：https://aclanthology.org/2023.findings-emnlp.345.pdf

ASPIRE能讓LLM輸出答案以及答案的置信度得分。

研究人員的實(shí)驗(yàn)結(jié)果表明，ASPIRE在各種QA數(shù)據(jù)集（例如 CoQA 基準(zhǔn)）上顯著優(yōu)于傳統(tǒng)的選擇性預(yù)測方法。

讓LLM不僅要回答問題，還要評估這些答案。

在選擇性預(yù)測的基準(zhǔn)測試上，研究人員通過ASPIRE系統(tǒng)取得了超過10倍規(guī)模的模型的成績。

就像讓學(xué)生在課本后面驗(yàn)證他們自己的答案，雖然聽起來有點(diǎn)不靠譜，但是細(xì)細(xì)一想，每個人在做出一道題目之后，確實(shí)會對答案的滿意程度會有一個評分。

這就是ASPIRE的本質(zhì)，它涉及三個階段：

(1) 針對特定任務(wù)的調(diào)優(yōu)，

(2) 答案采樣，

(3) 自我評估學(xué)習(xí)。

在研究人員看來，ASPIRE不僅僅是另一個框架，它代表著一個全面提升LLM可靠性，降低幻覺的美好未來。

如果LLM可以成為決策過程中值得信賴的合作伙伴。

只要通過不斷優(yōu)化選擇性預(yù)測的能力，人類距離充分發(fā)揮大模型的潛力就又近了一步。

研究人員希望能憑借ASPIRE，開啟下一代LLM的進(jìn)化，從而能創(chuàng)建更可靠和更具有自我意識的人工智能。

ASPIRE 的機(jī)制

針對特定任務(wù)的微調(diào)

ASPIRE執(zhí)行特定于任務(wù)的微調(diào)以訓(xùn)練適應(yīng)性參數(shù)，同時凍結(jié)LLM。

給定生成任務(wù)的訓(xùn)練數(shù)據(jù)集，它會微調(diào)預(yù)訓(xùn)練的LLM以提高其預(yù)測性能。

為此，可以采用參數(shù)高效的微調(diào)技術(shù)（例如，軟提示詞微調(diào)和LoRA）來微調(diào)任務(wù)上的預(yù)訓(xùn)練LLM，因?yàn)樗鼈兛梢杂行У赝ㄟ^少量目標(biāo)獲得強(qiáng)泛化任務(wù)數(shù)據(jù)。

具體來說，LLM參數(shù)（θ）被凍結(jié)，并添加自適應(yīng)參數(shù)進(jìn)行微調(diào)。

僅更新 θ (p) 以最小化標(biāo)準(zhǔn) LLM 訓(xùn)練損失（例如交叉熵）。

這種微調(diào)可以提高選擇性預(yù)測性能，因?yàn)樗粌H提高了預(yù)測精度，而且還提高了正確輸出序列的可能性。

答案采樣

在針對特定任務(wù)進(jìn)行調(diào)優(yōu)后，ASPIRE使用LLM和學(xué)習(xí)到的為每個訓(xùn)練問題生成不同的答案，并創(chuàng)建用于自評估學(xué)習(xí)的數(shù)據(jù)集。

研究人員的目標(biāo)是生成具有高可能性的輸出序列。他們使用波束搜索（Beam Search）作為解碼算法來生成高似然輸出序列，并使用Rouge-L度量來確定生成的輸出序列是否正確。

自評估學(xué)習(xí)

在對每個查詢的高似然輸出進(jìn)行采樣后，ASPIRE添加自適應(yīng)參數(shù)，并且僅微調(diào)來學(xué)習(xí)自評估。

由于輸出序列的生成僅取決于 θ 和，因此凍結(jié) θ 和學(xué)習(xí)到的可以避免在學(xué)習(xí)自評估時改變LLM的預(yù)測行為-評估。

研究人員優(yōu)化了，使得改編后的LLM可以自己區(qū)分正確和錯誤的答案。

在這個框架中，可以使用任何參數(shù)有效的微調(diào)方法來訓(xùn)練和。

在這項(xiàng)工作中，研究人員使用軟提示微調(diào)，這是一種簡單而有效的機(jī)制，用于學(xué)習(xí)「軟提示」來調(diào)節(jié)凍結(jié)的語言模型，從而比傳統(tǒng)的離散文本提示更有效地執(zhí)行特定的下游任務(wù)。

這種方法背后的核心在于認(rèn)識到，如果能夠開發(fā)出有效激發(fā)自我評價的提示，那么應(yīng)該可以通過結(jié)合有針對性的訓(xùn)練目標(biāo)的軟提示微調(diào)來發(fā)現(xiàn)這些提示。

在訓(xùn)練和后，研究人員通過波束搜索解碼獲得查詢的預(yù)測（beam search decoding）。

然后，研究人員定義一個選擇分?jǐn)?shù)，將生成答案的可能性與學(xué)習(xí)到的自我評估分?jǐn)?shù)（即，預(yù)測對于查詢正確的可能性）結(jié)合起來，以做出選擇性預(yù)測。

結(jié)果

為了證明ASPIRE的效果，研究人員使用各種開放式預(yù)訓(xùn)練Transformer (OPT)模型在三個問答數(shù)據(jù)集（CoQA、TriviaQA和SQuAD）上對其進(jìn)行評估。

通過使用軟提示調(diào)整訓(xùn)練研究人員觀察到LLM的準(zhǔn)確性大幅提高。

例如，與使用CoQA和SQuAD數(shù)據(jù)集的較大預(yù)訓(xùn)練OPT-30B模型相比，采用ASPIRE的OPT-2.7B模型表現(xiàn)出更好的性能。

這些結(jié)果表明，通過適當(dāng)?shù)恼{(diào)整，較小的LLM在某些情況下可能有能力匹配或可能超過較大模型的準(zhǔn)確性。

當(dāng)深入研究固定模型預(yù)測的選擇分?jǐn)?shù)計(jì)算時，ASPIRE獲得了比所有數(shù)據(jù)集的基線方法更高的AUROC分?jǐn)?shù)（隨機(jī)選擇的正確輸出序列比隨機(jī)選擇的不正確輸出序列具有更高選擇分?jǐn)?shù)的概率）。

例如，在CoQA基準(zhǔn)上，與基線相比，ASPIRE將AUROC從51.3%提高到80.3%。

TriviaQA數(shù)據(jù)集評估中出現(xiàn)了一個有趣的模式。

雖然預(yù)訓(xùn)練的OPT-30B模型表現(xiàn)出更高的基線精度，但當(dāng)應(yīng)用傳統(tǒng)的自我評估方法（Self-eval和P(True)）時，其選擇性預(yù)測的性能并沒有顯著提高。

相比之下，小得多的OPT-2.7B模型在使用ASPIRE進(jìn)行增強(qiáng)后，在這方面表現(xiàn)優(yōu)于其他模型。

這種差異體現(xiàn)了一個重要的問題：利用傳統(tǒng)自我評估技術(shù)的較大LLM在選擇性預(yù)測方面可能不如較小的ASPIRE增強(qiáng)模型有效。

研究人員與ASPIRE的實(shí)驗(yàn)之旅強(qiáng)調(diào)了LLM格局的關(guān)鍵轉(zhuǎn)變：語言模型的容量并不是其性能的全部和最終目的。

相反，可以通過策略調(diào)整來大幅提高模型的有效性，即使在較小的模型中也可以進(jìn)行更精確、更自信的預(yù)測。

因此，ASPIRE證明了LLM的潛力，它可以明智地確定自己答案的確定性，并在選擇性預(yù)測任務(wù)中顯著地超越地超越其他10倍體量的模型。

責(zé)任編輯：張燕妮來源：新智元

數(shù)據(jù)訓(xùn)練

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

消滅「幻覺」！谷歌全新ASPIRE方法讓LLM給自己打分，效果碾壓10x體量模型

針對特定任務(wù)的微調(diào)

答案采樣

自評估學(xué)習(xí)

消滅「幻覺」！谷歌全新ASPIRE方法讓LLM給自己打分，效果碾壓10x體量模型