LLM準(zhǔn)確率飆升27%!谷歌DeepMind提出全新「后退一步」提示技術(shù)
前段時間,谷歌DeepMind提出了一種全新的「Step-Back Prompting」方法,直接讓prompt技術(shù)變得腦洞大開。
簡單來說,就是讓大語言模型自己把問題抽象化,得到一個更高維度的概念或者原理,再把抽象出來的知識當(dāng)作工具,推理并得出問題的答案。
論文地址:https://arxiv.org/abs/2310.06117
結(jié)果也是非常不錯的,在他們用PaLM-2L模型做了實(shí)驗(yàn),證明這種新型的Prompt技巧對某些任務(wù)和問題的處理表現(xiàn)極佳。
比方說,MMLU物理和化學(xué)方面的性能提高了7%,TimeQA提高了27%,MuSiQue則提高了7%。
其中MMLU是大規(guī)模多任務(wù)語言理解測試數(shù)據(jù)集,TimeOA是時間敏感問題測試數(shù)據(jù)集,MusiQue則是多跳問答數(shù)據(jù)集,包含25000個2至4跳的問題。
其中,多跳問題指的是,需要使用多個三元組所形成的多跳推理路徑才能夠回答的問題。
下面,讓我們來看看這項(xiàng)技術(shù)是如何實(shí)現(xiàn)的。
后退!
看完開頭的介紹,可能讀者朋友還沒太理解。什么叫讓LLM自己把問題抽象化,得到一個更高維度的概念或者原理呢。
我們拿一個具體的實(shí)例來講。
比方說,假如用戶想問的問題和物理學(xué)中的「力」相關(guān),那么LLM在回答此類問題時,就可以后退到有關(guān)力的基礎(chǔ)定義和原理的層面,作為進(jìn)一步推理出答案的根據(jù)。
基于這個思路,用戶在一開始輸入prompt的時候,大概就是這樣:
你現(xiàn)在是世界知識的專家,擅長用后退的提問策略,一步步仔細(xì)思考并回答問題。
后退提問是一種思考策略,為的是從一個更宏觀、更基礎(chǔ)的角度去理解和分析一個特定問題或情境。從而更好地回答原始問題。
當(dāng)然,上面舉的那個物理學(xué)的例子只體現(xiàn)了一種情況。有些問題下,后退策略可能會讓LLM嘗試識別問題的范圍和上下文。有的問題后退的多一點(diǎn),有的少一些。
論文
首先,研究人員指出,自然語言處理(NLP)領(lǐng)域因?yàn)橛辛嘶赥ransformer的LLM而迎來了一場突破性的變革。
模型規(guī)模的擴(kuò)大和預(yù)訓(xùn)練語料庫的增加,帶來了模型能力和采樣效率的顯著提高,同時也帶來了多步推理和指令遵循等新興能力。
上圖顯示了后退推理的強(qiáng)大性能,本篇論文中所提出的「抽象-推理」法,在科學(xué)、技術(shù)、工程與數(shù)學(xué)和多跳推理等需要復(fù)雜推理的各種高難度任務(wù)中取得了重大改進(jìn)。
有些任務(wù)非常具有挑戰(zhàn)性,一開始,PaLM-2L和GPT-4在TimeQA和MuSiQue上的準(zhǔn)確率僅為40%。而在應(yīng)用了后退推理以后,PaLM-2L的性能全線提高。在MMLU物理和化學(xué)任務(wù)中分別提高了7%和11%,在TimeQA任務(wù)中提高了27%,在MuSiQue任務(wù)中提高了7%。
不僅如此,研究人員還進(jìn)行了錯誤分析,他們發(fā)現(xiàn)大部分應(yīng)用后退推理時出現(xiàn)的錯誤,都是由于LLMs推理能力的內(nèi)在局限性造成的,與新的prompt技術(shù)無關(guān)。
而抽象能力又是LLMs比較容易學(xué)會的,所以這為后退推理的進(jìn)一步發(fā)展指明了方向。。
雖說確實(shí)取得了不小進(jìn)步,但復(fù)雜的多步驟推理還是很有挑戰(zhàn)性的。即使對最先進(jìn)的LLMs來說也是如此。
論文表明,具有逐步驗(yàn)證功能的過程監(jiān)督是提高中間推理步驟正確性的一種有效補(bǔ)救方法。
他們引入了思維鏈(Chain-of-Thought)提示等技術(shù),以產(chǎn)生一系列連貫的中間推理步驟,從而提高了遵循正確解碼路徑的成功率。
而談到這種promp技術(shù)的起源時,研究者指出,人類在面對具有挑戰(zhàn)性的任務(wù)時,往往會退一步進(jìn)行抽象,從而得出高層次的概念和原則來指導(dǎo)推理過程,受此啟發(fā),研究人員才提出了后退的prompt技術(shù),將推理建立在抽象概念的基礎(chǔ)上,從而降低在中間推理步驟中出錯的幾率。
上圖的上半部分中,以MMLU的高中物理為例,通過后退抽象,LLM得到理想氣體定律的第一條原理。
而在下半部分中,是來自TimeQA的示例,教育史這一高層次概念是依照這種策略,LLM抽象出來的結(jié)果。
從整張圖的左邊我們可以看到,PaLM-2L未能成功回答原始問題。思維鏈提示在中間推理步驟中,LLM出現(xiàn)了錯誤(紅色高亮部分)。
而右邊,應(yīng)用了后退prompt技術(shù)的PaLM-2L則成功回答了問題。
在眾多認(rèn)知技能中,抽象思考對于人類處理大量信息并推導(dǎo)出一般規(guī)則和原理的能力來說無處不在。
隨便舉幾個例子,開普勒將成千上萬的測量結(jié)果凝練成開普勒行星運(yùn)動三定律,精確地描述了行星圍繞太陽的軌道。
又或者,在關(guān)鍵決策制定中,人類也發(fā)現(xiàn)抽象是有幫助的,因?yàn)樗峁┝艘粋€更廣闊的環(huán)境視角。
而LLM是如何通過抽象和推理兩步法來處理涉及許多低級細(xì)節(jié)的復(fù)雜任務(wù),則是本篇論文的重點(diǎn)。
第一步就是教會LLMs退一步這個思路,讓它們從具體實(shí)例中推導(dǎo)出高級、抽象的概念,如某領(lǐng)域內(nèi)的基礎(chǔ)概念和第一原理。
第二步則是利用推理能力,將解決方案建立在高級概念和第一原理的基礎(chǔ)上。
研究人員在LLM上使用了少量的示例演示來執(zhí)行后退推理這一技術(shù)。他們在一系列涉及特定領(lǐng)域推理、需要事實(shí)知識的知識密集型問題解答、多跳常識推理的任務(wù)中進(jìn)行了實(shí)驗(yàn)。
結(jié)果表明,PaLM-2L的性能有了明顯提高(高達(dá)27%),這證明了后退推理在處理復(fù)雜任務(wù)方面的性能十分顯著。
在實(shí)驗(yàn)環(huán)節(jié),研究人員對以下不同種類的任務(wù)進(jìn)行了實(shí)驗(yàn):
(1)STEM
(2)知識QA
(3)多跳推理
研究人員評估了在STEM任務(wù)中的應(yīng)用,以衡量新方法在高度專業(yè)化領(lǐng)域中的推理效果。(本文中僅以此類問題進(jìn)行講解)
顯然,在MMLU基準(zhǔn)中的問題,需要LLM進(jìn)行更深層次的推理。此外,它們還要求理解和應(yīng)用公式,而這些公式往往是物理和化學(xué)原理和概念。
在這種情況下,研究人員首先要教會模型以概念和第一原理的形式進(jìn)行抽象,如牛頓第一運(yùn)動定律、多普勒效應(yīng)和吉布斯自由能等。這里隱含的退一步問題是「解決這項(xiàng)任務(wù)所涉及的物理或化學(xué)原理和概念是什么?」
團(tuán)隊(duì)提供了示范,教導(dǎo)模型從自身知識中背誦解決任務(wù)的相關(guān)原理。
上表中就是應(yīng)用了后退推理技術(shù)的模型性能,應(yīng)用了新技術(shù)的LLM在STEM任務(wù)中表現(xiàn)出色,達(dá)到了超越GPT-4的最先進(jìn)水平。
上表是針對少數(shù)幾個樣本的示例,展示了樣本數(shù)量變化時的穩(wěn)健性能。
首先,從上圖中我們可以看出,后退推理對用作示范的少量示例具有很強(qiáng)的魯棒性。
除了一個示例之外,增加更多的示例結(jié)果也還會是這樣。
這表明,檢索相關(guān)原理和概念的任務(wù)相對來說比較容易學(xué)習(xí),一個示范例子就足夠了。
當(dāng)然,在實(shí)驗(yàn)過程中,還是會出現(xiàn)一些問題。
其中除原則錯誤外,所有論文中出現(xiàn)的五類錯誤都發(fā)生在LLM的推理步驟中,而原則錯誤則表明抽象步驟的失敗。
如下圖右側(cè)所示,原則錯誤實(shí)際上只占模型錯誤的一小部分,90%以上的錯誤發(fā)生在推理步驟。在推理過程中的四種錯誤類型中,推理錯誤和數(shù)學(xué)錯誤是主要的失誤所在地。
這與消融研究中的發(fā)現(xiàn)相吻合,即只需要很少的示例就能教會LLM如何進(jìn)行抽象。推理步驟仍然是后退推理能否很好地完成MMLU等需要復(fù)雜推理的任務(wù)的瓶頸。
特別是對于MMLU物理來說,更是如此,推理和數(shù)學(xué)技能是成功解決問題的關(guān)鍵。意思就是說,哪怕LLM正確地檢索了第一原理,也還是得通過典型的多步驟推理過程得出正確的最終答案,也就是還需要LLM有深入的推理和數(shù)學(xué)能力。
之后,研究人員在TimeQA的測試集上對模型進(jìn)行了評估。
如下圖所示,GPT-4和PaLM-2L的基線模型分別達(dá)到了45.6%和41.5%,凸顯了任務(wù)的難度。
在基線模型上應(yīng)用CoT或TDB零次(和一次),prompt沒有任何改進(jìn)。
相比之下,通過常規(guī)檢索增強(qiáng)(RAG)對基線模型進(jìn)行增強(qiáng)后,準(zhǔn)確率提高到了57.4%,凸顯了任務(wù)的事實(shí)密集性。
Step-Back + RAG的結(jié)果顯示了后退推理中,LLM回到高級概念這一步是很有效的,這會讓LLM的檢索環(huán)節(jié)更為可靠,我們可以看到,TimeQA的準(zhǔn)確率達(dá)到了驚人的68.7%。
接下來,研究人員又將TimeQA分成了原始數(shù)據(jù)集中提供的簡單和困難兩個難度級別。
不出意外的是,LLM在困難這個級別上的表現(xiàn)都較差。雖然RAG可以將簡單級的準(zhǔn)確率從42.6%提高到67.8%,但對困難級準(zhǔn)確率的提高幅度要小得多,數(shù)據(jù)顯示僅從40.4%增加到了46.8%。
而這也正是后退推理的prompt技術(shù)的真正優(yōu)勢所在,它能檢索到高層次概念的相關(guān)事實(shí),為最終推理奠定基礎(chǔ)。
后退推理再加RAG,就能進(jìn)一步將準(zhǔn)確率提高到62.3%,超過了GPT-4的42.6%。
當(dāng)然,在TimeQA類問題上,這項(xiàng)prompt技術(shù)還是存在一些問題的。
下圖就顯示了在這部分實(shí)驗(yàn)中LLM的準(zhǔn)確性,右側(cè)則是錯誤發(fā)生的概率。