自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LLM準(zhǔn)確率飆升27%!谷歌DeepMind提出全新「后退一步」提示技術(shù)

人工智能 新聞
谷歌DeepMind全新提示技術(shù)「Step-Back Prompting」,讓LLM性能拉滿!

前段時間,谷歌DeepMind提出了一種全新的「Step-Back Prompting」方法,直接讓prompt技術(shù)變得腦洞大開。

簡單來說,就是讓大語言模型自己把問題抽象化,得到一個更高維度的概念或者原理,再把抽象出來的知識當(dāng)作工具,推理并得出問題的答案。

論文地址:https://arxiv.org/abs/2310.06117

結(jié)果也是非常不錯的,在他們用PaLM-2L模型做了實(shí)驗(yàn),證明這種新型的Prompt技巧對某些任務(wù)和問題的處理表現(xiàn)極佳。

比方說,MMLU物理和化學(xué)方面的性能提高了7%,TimeQA提高了27%,MuSiQue則提高了7%。

其中MMLU是大規(guī)模多任務(wù)語言理解測試數(shù)據(jù)集,TimeOA是時間敏感問題測試數(shù)據(jù)集,MusiQue則是多跳問答數(shù)據(jù)集,包含25000個2至4跳的問題。

其中,多跳問題指的是,需要使用多個三元組所形成的多跳推理路徑才能夠回答的問題。

下面,讓我們來看看這項(xiàng)技術(shù)是如何實(shí)現(xiàn)的。

后退!

看完開頭的介紹,可能讀者朋友還沒太理解。什么叫讓LLM自己把問題抽象化,得到一個更高維度的概念或者原理呢。

我們拿一個具體的實(shí)例來講。

比方說,假如用戶想問的問題和物理學(xué)中的「力」相關(guān),那么LLM在回答此類問題時,就可以后退到有關(guān)力的基礎(chǔ)定義和原理的層面,作為進(jìn)一步推理出答案的根據(jù)。

基于這個思路,用戶在一開始輸入prompt的時候,大概就是這樣:

你現(xiàn)在是世界知識的專家,擅長用后退的提問策略,一步步仔細(xì)思考并回答問題。

后退提問是一種思考策略,為的是從一個更宏觀、更基礎(chǔ)的角度去理解和分析一個特定問題或情境。從而更好地回答原始問題。

當(dāng)然,上面舉的那個物理學(xué)的例子只體現(xiàn)了一種情況。有些問題下,后退策略可能會讓LLM嘗試識別問題的范圍和上下文。有的問題后退的多一點(diǎn),有的少一些。

論文

首先,研究人員指出,自然語言處理(NLP)領(lǐng)域因?yàn)橛辛嘶赥ransformer的LLM而迎來了一場突破性的變革。

模型規(guī)模的擴(kuò)大和預(yù)訓(xùn)練語料庫的增加,帶來了模型能力和采樣效率的顯著提高,同時也帶來了多步推理和指令遵循等新興能力。

上圖顯示了后退推理的強(qiáng)大性能,本篇論文中所提出的「抽象-推理」法,在科學(xué)、技術(shù)、工程與數(shù)學(xué)和多跳推理等需要復(fù)雜推理的各種高難度任務(wù)中取得了重大改進(jìn)。

有些任務(wù)非常具有挑戰(zhàn)性,一開始,PaLM-2L和GPT-4在TimeQA和MuSiQue上的準(zhǔn)確率僅為40%。而在應(yīng)用了后退推理以后,PaLM-2L的性能全線提高。在MMLU物理和化學(xué)任務(wù)中分別提高了7%和11%,在TimeQA任務(wù)中提高了27%,在MuSiQue任務(wù)中提高了7%。

不僅如此,研究人員還進(jìn)行了錯誤分析,他們發(fā)現(xiàn)大部分應(yīng)用后退推理時出現(xiàn)的錯誤,都是由于LLMs推理能力的內(nèi)在局限性造成的,與新的prompt技術(shù)無關(guān)。

而抽象能力又是LLMs比較容易學(xué)會的,所以這為后退推理的進(jìn)一步發(fā)展指明了方向。。

雖說確實(shí)取得了不小進(jìn)步,但復(fù)雜的多步驟推理還是很有挑戰(zhàn)性的。即使對最先進(jìn)的LLMs來說也是如此。

論文表明,具有逐步驗(yàn)證功能的過程監(jiān)督是提高中間推理步驟正確性的一種有效補(bǔ)救方法。

他們引入了思維鏈(Chain-of-Thought)提示等技術(shù),以產(chǎn)生一系列連貫的中間推理步驟,從而提高了遵循正確解碼路徑的成功率。

而談到這種promp技術(shù)的起源時,研究者指出,人類在面對具有挑戰(zhàn)性的任務(wù)時,往往會退一步進(jìn)行抽象,從而得出高層次的概念和原則來指導(dǎo)推理過程,受此啟發(fā),研究人員才提出了后退的prompt技術(shù),將推理建立在抽象概念的基礎(chǔ)上,從而降低在中間推理步驟中出錯的幾率。

上圖的上半部分中,以MMLU的高中物理為例,通過后退抽象,LLM得到理想氣體定律的第一條原理。

而在下半部分中,是來自TimeQA的示例,教育史這一高層次概念是依照這種策略,LLM抽象出來的結(jié)果。

從整張圖的左邊我們可以看到,PaLM-2L未能成功回答原始問題。思維鏈提示在中間推理步驟中,LLM出現(xiàn)了錯誤(紅色高亮部分)。

而右邊,應(yīng)用了后退prompt技術(shù)的PaLM-2L則成功回答了問題。

在眾多認(rèn)知技能中,抽象思考對于人類處理大量信息并推導(dǎo)出一般規(guī)則和原理的能力來說無處不在。

隨便舉幾個例子,開普勒將成千上萬的測量結(jié)果凝練成開普勒行星運(yùn)動三定律,精確地描述了行星圍繞太陽的軌道。

又或者,在關(guān)鍵決策制定中,人類也發(fā)現(xiàn)抽象是有幫助的,因?yàn)樗峁┝艘粋€更廣闊的環(huán)境視角。

而LLM是如何通過抽象和推理兩步法來處理涉及許多低級細(xì)節(jié)的復(fù)雜任務(wù),則是本篇論文的重點(diǎn)。

第一步就是教會LLMs退一步這個思路,讓它們從具體實(shí)例中推導(dǎo)出高級、抽象的概念,如某領(lǐng)域內(nèi)的基礎(chǔ)概念和第一原理。

第二步則是利用推理能力,將解決方案建立在高級概念和第一原理的基礎(chǔ)上。

研究人員在LLM上使用了少量的示例演示來執(zhí)行后退推理這一技術(shù)。他們在一系列涉及特定領(lǐng)域推理、需要事實(shí)知識的知識密集型問題解答、多跳常識推理的任務(wù)中進(jìn)行了實(shí)驗(yàn)。

結(jié)果表明,PaLM-2L的性能有了明顯提高(高達(dá)27%),這證明了后退推理在處理復(fù)雜任務(wù)方面的性能十分顯著。

在實(shí)驗(yàn)環(huán)節(jié),研究人員對以下不同種類的任務(wù)進(jìn)行了實(shí)驗(yàn):

(1)STEM

(2)知識QA

(3)多跳推理

研究人員評估了在STEM任務(wù)中的應(yīng)用,以衡量新方法在高度專業(yè)化領(lǐng)域中的推理效果。(本文中僅以此類問題進(jìn)行講解)

顯然,在MMLU基準(zhǔn)中的問題,需要LLM進(jìn)行更深層次的推理。此外,它們還要求理解和應(yīng)用公式,而這些公式往往是物理和化學(xué)原理和概念。

在這種情況下,研究人員首先要教會模型以概念和第一原理的形式進(jìn)行抽象,如牛頓第一運(yùn)動定律、多普勒效應(yīng)和吉布斯自由能等。這里隱含的退一步問題是「解決這項(xiàng)任務(wù)所涉及的物理或化學(xué)原理和概念是什么?」

團(tuán)隊(duì)提供了示范,教導(dǎo)模型從自身知識中背誦解決任務(wù)的相關(guān)原理。

上表中就是應(yīng)用了后退推理技術(shù)的模型性能,應(yīng)用了新技術(shù)的LLM在STEM任務(wù)中表現(xiàn)出色,達(dá)到了超越GPT-4的最先進(jìn)水平。

上表是針對少數(shù)幾個樣本的示例,展示了樣本數(shù)量變化時的穩(wěn)健性能。

首先,從上圖中我們可以看出,后退推理對用作示范的少量示例具有很強(qiáng)的魯棒性。

除了一個示例之外,增加更多的示例結(jié)果也還會是這樣。

這表明,檢索相關(guān)原理和概念的任務(wù)相對來說比較容易學(xué)習(xí),一個示范例子就足夠了。

當(dāng)然,在實(shí)驗(yàn)過程中,還是會出現(xiàn)一些問題。

其中除原則錯誤外,所有論文中出現(xiàn)的五類錯誤都發(fā)生在LLM的推理步驟中,而原則錯誤則表明抽象步驟的失敗。

如下圖右側(cè)所示,原則錯誤實(shí)際上只占模型錯誤的一小部分,90%以上的錯誤發(fā)生在推理步驟。在推理過程中的四種錯誤類型中,推理錯誤和數(shù)學(xué)錯誤是主要的失誤所在地。

這與消融研究中的發(fā)現(xiàn)相吻合,即只需要很少的示例就能教會LLM如何進(jìn)行抽象。推理步驟仍然是后退推理能否很好地完成MMLU等需要復(fù)雜推理的任務(wù)的瓶頸。

特別是對于MMLU物理來說,更是如此,推理和數(shù)學(xué)技能是成功解決問題的關(guān)鍵。意思就是說,哪怕LLM正確地檢索了第一原理,也還是得通過典型的多步驟推理過程得出正確的最終答案,也就是還需要LLM有深入的推理和數(shù)學(xué)能力。

之后,研究人員在TimeQA的測試集上對模型進(jìn)行了評估。

如下圖所示,GPT-4和PaLM-2L的基線模型分別達(dá)到了45.6%和41.5%,凸顯了任務(wù)的難度。

在基線模型上應(yīng)用CoT或TDB零次(和一次),prompt沒有任何改進(jìn)。

相比之下,通過常規(guī)檢索增強(qiáng)(RAG)對基線模型進(jìn)行增強(qiáng)后,準(zhǔn)確率提高到了57.4%,凸顯了任務(wù)的事實(shí)密集性。

Step-Back + RAG的結(jié)果顯示了后退推理中,LLM回到高級概念這一步是很有效的,這會讓LLM的檢索環(huán)節(jié)更為可靠,我們可以看到,TimeQA的準(zhǔn)確率達(dá)到了驚人的68.7%。

接下來,研究人員又將TimeQA分成了原始數(shù)據(jù)集中提供的簡單和困難兩個難度級別。

不出意外的是,LLM在困難這個級別上的表現(xiàn)都較差。雖然RAG可以將簡單級的準(zhǔn)確率從42.6%提高到67.8%,但對困難級準(zhǔn)確率的提高幅度要小得多,數(shù)據(jù)顯示僅從40.4%增加到了46.8%。

而這也正是后退推理的prompt技術(shù)的真正優(yōu)勢所在,它能檢索到高層次概念的相關(guān)事實(shí),為最終推理奠定基礎(chǔ)。

后退推理再加RAG,就能進(jìn)一步將準(zhǔn)確率提高到62.3%,超過了GPT-4的42.6%。

當(dāng)然,在TimeQA類問題上,這項(xiàng)prompt技術(shù)還是存在一些問題的。

下圖就顯示了在這部分實(shí)驗(yàn)中LLM的準(zhǔn)確性,右側(cè)則是錯誤發(fā)生的概率。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2017-09-28 09:40:36

圖像分類準(zhǔn)確率

2012-09-06 13:12:41

架構(gòu)師ArchSummit

2015-10-27 13:36:52

2023-08-11 14:18:52

谷歌研究

2023-09-06 06:42:13

銳龍筆記本頻率

2024-01-29 12:49:00

AI模型

2024-08-02 13:14:51

2021-10-11 17:27:50

框架計(jì)算機(jī)開發(fā)

2024-07-05 15:06:00

2018-11-14 10:01:30

谷歌開源機(jī)器學(xué)習(xí)

2023-09-10 10:43:11

AI模型

2023-11-28 13:37:43

語言模型LLM

2024-03-01 13:31:21

2025-02-10 13:30:00

語言模型谷歌

2024-11-18 09:50:00

模型訓(xùn)練

2019-01-03 09:04:04

谷歌系統(tǒng)機(jī)器

2025-03-11 08:50:00

2023-10-14 17:24:49

2023-01-28 09:17:44

數(shù)字化轉(zhuǎn)型

2019-11-20 15:01:55

開源技術(shù) 趨勢
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號