DeepMind讓大模型學(xué)會(huì)歸納和演繹,GPT-4準(zhǔn)確率提升13.7%
當(dāng)前,大型語(yǔ)言模型(LLM)在推理任務(wù)上表現(xiàn)出令人驚艷的能力,特別是在給出一些樣例和中間步驟時(shí)。然而,prompt 方法往往依賴于 LLM 中的隱性知識(shí),當(dāng)隱性知識(shí)存在錯(cuò)誤或者與任務(wù)不一致時(shí),LLM 就會(huì)給出錯(cuò)誤的回答。
現(xiàn)在,來(lái)自谷歌、Mila 研究所等研究機(jī)構(gòu)的研究者聯(lián)合探索了一種新方法 —— 讓 LLM 學(xué)習(xí)推理規(guī)則,并提出一種名為假設(shè)到理論(Hypotheses-to-Theories,HtT)的新框架。這種新方法不僅改進(jìn)了多步推理,還具有可解釋、可遷移等優(yōu)勢(shì)。
論文地址:https://arxiv.org/abs/2310.07064
對(duì)數(shù)值推理和關(guān)系推理問(wèn)題的實(shí)驗(yàn)表明,HtT 改進(jìn)了現(xiàn)有的 prompt 方法,準(zhǔn)確率提升了 11-27%。學(xué)到的規(guī)則也可以遷移到不同的模型或同一問(wèn)題的不同形式。
方法簡(jiǎn)介
總的來(lái)說(shuō),HtT 框架包含兩個(gè)階段 —— 歸納階段和演繹階段,類似于傳統(tǒng)機(jī)器學(xué)習(xí)中的訓(xùn)練和測(cè)試。
在歸納階段,LLM 首先被要求生成并驗(yàn)證一組訓(xùn)練樣例的規(guī)則。該研究使用 CoT 來(lái)聲明規(guī)則并推導(dǎo)答案,判斷規(guī)則的出現(xiàn)頻率和準(zhǔn)確性,收集經(jīng)常出現(xiàn)并導(dǎo)致正確答案的規(guī)則來(lái)形成規(guī)則庫(kù)。
有了良好的規(guī)則庫(kù),下一步該研究如何應(yīng)用這些規(guī)則來(lái)解決問(wèn)題。為此,在演繹階段,該研究在 prompt 中添加規(guī)則庫(kù),并要求 LLM 從規(guī)則庫(kù)中檢索規(guī)則來(lái)進(jìn)行演繹,將隱式推理轉(zhuǎn)換為顯式推理。
然而,該研究發(fā)現(xiàn),即使是非常強(qiáng)大的 LLM(例如 GPT-4)也很難在每一步都檢索到正確的規(guī)則。為此,該研究開(kāi)發(fā)了 XML tagging trick,來(lái)增強(qiáng) LLM 的上下文檢索能力。
實(shí)驗(yàn)結(jié)果
為了評(píng)估 HtT,該研究針對(duì)兩個(gè)多步驟推理問(wèn)題進(jìn)行了基準(zhǔn)測(cè)試。實(shí)驗(yàn)結(jié)果表明,HtT 改進(jìn)了少樣本 prompt 方法。作者還進(jìn)行了廣泛的消融研究,以提供對(duì) HtT 更全面的了解。
他們?cè)跀?shù)值推理和關(guān)系推理問(wèn)題上評(píng)估新方法。在數(shù)值推理中,他們觀察到 GPT-4 的準(zhǔn)確率提高了 21.0%。在關(guān)系推理中,GPT-4 的準(zhǔn)確性提高了 13.7%,GPT-3.5 則獲益更多,性能提高了一倍。性能增益主要來(lái)自于規(guī)則幻覺(jué)的減少。
具體來(lái)說(shuō),下表 1 顯示了在算術(shù)的 base-16、base-11 和 base-9 數(shù)據(jù)集上的結(jié)果。在所有 base 系統(tǒng)中,0-shot CoT 在兩個(gè) LLM 中的性能都最差。
表 2 呈現(xiàn)了在 CLUTRR 上比較不同方法的結(jié)果??梢杂^察到,在 GPT3.5 和 GPT4 中,0-shot CoT 的性能最差。對(duì)于 few-shot 提示方法,CoT 和 LtM 的性能相似。在平均準(zhǔn)確率方面,HtT 始終比兩種模型的提示方法高出 11.1-27.2%。值得注意的是,GPT3.5 在檢索 CLUTRR 規(guī)則方面并不差,而且比 GPT4 從 HtT 中獲益更多,這可能是因?yàn)?CLUTRR 中的規(guī)則比算術(shù)中的規(guī)則少。
值得一提的是,使用 GPT4 的規(guī)則,GPT3.5 上的 CoT 性能提高了 27.2%,是 CoT 性能的兩倍多,接近 GPT4 上的 CoT 性能。因此,作者認(rèn)為 HtT 可以作為從強(qiáng) LLM 到弱 LLM 的一種新的知識(shí)蒸餾形式。
表 3 顯示,HtT 顯著提高了 GPT-4(文本版)的性能。對(duì)于 GPT3.5 來(lái)說(shuō),這種改進(jìn)并不顯著,因?yàn)樵谔幚砦谋据斎霑r(shí),它經(jīng)常產(chǎn)生除規(guī)則幻覺(jué)以外的錯(cuò)誤。