自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Take a Step Back:通過抽象激發(fā)大模型推理能力(ICLR2024) 原創(chuàng)

發(fā)布于 2024-9-4 14:29
瀏覽
0收藏

??摘要:  我們提出了一種簡單的提示技術——“退一步”提示(STEP-BACK PROMPTING),該技術能夠使大語言模型(LLMs)進行抽象,從包含特定細節(jié)的實例中推導出高層次概念和基本原理。通過使用這些概念和原理來指導推理,LLMs顯著提高了沿著正確推理路徑找到解決方案的能力。我們在 PaLM-2L、GPT-4 和 Llama2-70B 模型上進行了“退一步”提示的實驗,并在包括 STEM、知識問答(Knowledge QA)和多跳推理(Multi-Hop Reasoning)等各種具有挑戰(zhàn)性的推理密集型任務中觀察到顯著的性能提升。例如,“退一步”提示使 PaLM-2L 在 MMLU(物理和化學)上的性能分別提高了 7% 和 11%,在 TimeQA 上提高了 27%,在 MuSiQue 上提高了 7%。

1、引言

自然語言處理(NLP)領域正在經(jīng)歷一場由基于Transformer模型(Vaswani等,2017)的大語言模型(LLMs)(Devlin等,2018;Raffel等,2020;Brown等,2020;Anil等,2023)引發(fā)的革命。通過擴大模型的規(guī)模和預訓練語料庫(Hoffmann等,2022;Chowdhery等,2022),模型的能力和樣本效率得到了顯著提升,這得益于縮放定律(Kaplan等,2020;Hoffmann等,2022)的見解以及諸如多步推理(Wei等,2022b;Zhou等,2022)和指令跟隨(Mishra等,2022b;Wei等,2021)等新興能力。

盡管取得了這些進展,復雜的多步推理仍然對最先進的大語言模型構成挑戰(zhàn)。Lightman等人(2023)的研究表明,通過逐步驗證的過程監(jiān)督是一種有前景的解決方法,可以提高中間推理步驟的正確性。類似于“思維鏈”(Chain-of-Thought, CoT)(Wei等,2022b)的方法被引入,用于生成一系列連貫的中間推理步驟,從而提高沿著正確解碼路徑的成功率。受到人類在面對復雜任務時往往會退一步,通過抽象得出高層次原則來指導解決過程的啟發(fā),我們提出了“退一步”提示方法(STEP-BACK PROMPTING),通過在推理中引入抽象以減少中間步驟中的錯誤概率。

在許多認知技能中,抽象能力(Lachmy等,2022)是人類處理大量信息并推導出一般性原則的普遍能力。例如,開普勒將數(shù)千個觀測數(shù)據(jù)歸納為開普勒的三大行星運動定律,這些定律精確描述了行星圍繞太陽的軌道(Russell,1964)。在關鍵決策中,抽象有助于人類獲得更廣闊的環(huán)境視角。本文研究了大語言模型(LLMs)如何通過抽象與推理的兩步過程來處理涉及大量低層次細節(jié)的復雜任務。第一步是通過上下文學習來引導LLMs“退一步”——提示它們?yōu)樘囟ㄊ纠茖С龈邔哟蔚某橄蟾拍詈驮瓌t。第二步是利用推理能力,在這些高層次概念和原則的基礎上進行推理。我們使用少樣本示例演示來在LLMs上執(zhí)行“退一步”提示方法。

我們在涉及領域特定推理的各種任務上進行了實驗,如物理和化學、需要事實知識的知識密集型問答、多跳常識推理。我們觀察到PaLM-2L(Anil等,2023)在這些任務上的顯著性能提升(最高達27%),這證明了“退一步”提示方法在處理復雜任務時的有效性,這些任務由于需要推理的大量細節(jié)而具有挑戰(zhàn)性。圖1總結了本文中展示的所有關鍵結果。有些任務非常具有挑戰(zhàn)性:在TimeQA和MuSiQue上,PaLM-2L和GPT-4的準確率僅約為40%。鏈式思維提示在少數(shù)任務上帶來了輕微的改進,而“退一步”提示方法則在所有任務上提升了PaLM-2L的性能:在MMLU物理和化學上分別提升了7%和11%,在TimeQA上提升了27%,在MuSiQue上提升了7%。

Take a Step Back:通過抽象激發(fā)大模型推理能力(ICLR2024)-AI.x社區(qū)

圖 1:STEP-BACK PROMPTING 的強大表現(xiàn):我們提出的“抽象與推理”方案在各種具有挑戰(zhàn)性的任務中顯著提升了性能,這些任務涉及STEM、知識問答(Knowledge QA)和多跳推理(Multi-Hop Reasoning),并且通常需要復雜(往往是多跳)的推理。

我們進行了多種分析,發(fā)現(xiàn)“退一步”提示方法相比鏈式思維(CoT)提示(Wei等,2022b)和“深呼吸”(TDB)提示(Yang等,2023)顯著提升了性能(最高達36%)。我們進行了定性評估,發(fā)現(xiàn)“退一步”方法修正了基礎模型的大部分錯誤(最高約40%),同時只引入了少量新的錯誤(最高約12%)。我們還進行了錯誤分析,發(fā)現(xiàn)“退一步”提示方法的大多數(shù)錯誤源于LLMs推理能力的內(nèi)在限制,而抽象技能相對容易在LLMs中展現(xiàn),這為類似“退一步”提示方法的未來改進指明了方向。

2、退一步 PROMPTING

“退一步”提示方法的動機源于這樣一個觀察:許多任務包含大量的細節(jié),而這讓大語言模型很難提取出相關信息來解決這些任務。如圖2頂部所示,對于一個物理問題“如果溫度增加2倍,體積增加8倍,理想氣體的壓力P會發(fā)生什么變化?”,在直接對問題進行推理時,大語言模型可能會偏離理想氣體定律的基本原理。同樣,對于“埃斯特拉·萊奧波德在1954年8月至1954年11月期間就讀于哪所學校?”這樣的問題,由于時間范圍的具體限制,直接回答也非常困難。在這兩種情況下,提出一個“退一步”的問題可以幫助模型更有效地解決問題。

Take a Step Back:通過抽象激發(fā)大模型推理能力(ICLR2024)-AI.x社區(qū)

圖 2:展示了通過概念和原理指導的“退一步”提示法(STEP-BACK PROMPTING)中的抽象和推理兩個步驟。**

頂部:一個MMLU高中物理的示例(Hendrycks等,2020),通過抽象檢索到理想氣體定律的基本原理。

底部:來自TimeQA的一個示例(Chen等,2021),其中高層次的“教育背景”概念是抽象的結果。

左側(cè):PaLM-2L(Anil等,2023)未能回答原始問題。鏈式思維提示(Chain-of-Thought Prompting,Wei等,2022b;Kojima等,2022)在中間推理步驟中出現(xiàn)錯誤(紅色部分突出顯示)。

右側(cè):通過“退一步”提示法(STEP-BACK PROMPTING),PaLM-2L(Anil等,2023)成功回答了問題。

我們將“退一步”問題定義為從原始問題中提取的、更高抽象層次上的問題。例如,與其直接詢問“埃斯特拉·萊奧波德在特定時間段內(nèi)就讀于哪所學?!保蝗缣岢鲆粋€“退一步”問題(圖2底部),例如詢問她的“教育背景”,這是一個包含原始問題的高層次概念。在這種情況下,回答“埃斯特拉·萊奧波德的教育背景”這一“退一步”問題,將提供所有必要的信息來推理“她在特定時期就讀于哪所學?!?。前提是“退一步”問題通常更簡單。在這種抽象基礎上進行推理,有助于避免中間步驟中的推理錯誤,例如圖2左側(cè)思維鏈(Chain-of-Thought)中的例子。簡而言之,“退一步”提示方法包括兩個簡單的步驟:

- 抽象:與直接回答問題不同,我們首先提示大語言模型提出一個關于更高層次概念或原理的泛化的“退一步”問題,并檢索與該高層次概念或原理相關的事實?!巴艘徊健眴栴}對于每個任務都是獨特的,以便檢索最相關的事實。

- 推理:基于有關高層次概念或原理的事實,大語言模型可以推理出原始問題的解決方案。我們將這稱為“基于抽象的推理”。

在接下來的章節(jié)中,我們將對一系列具有挑戰(zhàn)性的任務進行“退一步”提示方法的實證研究,這些任務涉及復雜推理的領域,如STEM、知識問答和多跳推理。

3、實驗設置

在本節(jié)中,我們定義了實驗中使用的任務和模型。同時,我們還描述了我們的評估指標和所考慮的基線方法。

3.1 任務

我們在以下不同類型的任務上進行實驗:(a)STEM,(b)知識問答(Knowledge QA),以及(c)多跳推理(Multi-Hop Reasoning)。以下是我們所使用的數(shù)據(jù)集(詳細信息請參見附錄B)。

- STEM: 我們在STEM任務中評估MMLU和GSM8K。MMLU(Hendrycks等,2020)包含一系列跨多領域的基準測試,用于評估模型的語言理解能力。我們選擇了MMLU中的高中物理和化學部分,因為這些部分涉及深層次的推理。

(注釋:STEM任務指的是涉及科學、技術、工程和數(shù)學(Science, Technology, Engineering, and Mathematics)領域的問題。在自然語言處理和大語言模型的研究中,STEM任務通常用于測試模型在這些特定領域中的理解和推理能力。)

- 知識問答(Knowledge QA): 我們選擇了TimeQA(Chen等,2021),因為它包含需要復雜時間敏感知識的查詢。我們還實驗了SituatedQA(Zhang & Choi,2021),這是另一個需要模型在給定時間或地理背景下回答問題的挑戰(zhàn)性開放檢索問答數(shù)據(jù)集。

- 多跳推理(Multi-Hop Reasoning): 我們使用MuSiQue(Trivedi等,2022)進行實驗,這是一種通過組合單跳問題對創(chuàng)建的難度較大的多跳推理數(shù)據(jù)集,還使用了包含需要策略解決的開放域問題的StrategyQA(Geva等,2021)。

(注釋:多跳推理(Multi-Hop Reasoning)是一種需要模型進行多步推理才能到達正確答案的任務類型。在這種任務中,問題的解答不可能通過單一的事實或信息直接獲得。相反,模型必須將多個中間步驟的推理結果綜合起來,才能找到正確的答案。這通常涉及從多個信息來源或段落中收集、連接和整合相關信息,以完成一個復雜的推理過程。

問題:"愛因斯坦在1921年獲得諾貝爾獎的那一年,哪個國家是歐洲人口最多的國家?"

推理步驟:

愛因斯坦在1921年獲得諾貝爾獎。

找到1921年時歐洲人口最多的國家。

確定答案為當時的俄羅斯。

答案:"俄羅斯")

3.2 模型

我們使用了以下最先進的大語言模型:經(jīng)過指令微調(diào)的PaLM-2L(Anil等,2023)、GPT-4(OpenAI,2023)和Llama2-70B(Touvron等,2023)。

3.3 評估

傳統(tǒng)的評估指標,如準確率和F1分數(shù),在評估最先進的大語言模型的生成時有其局限性,因為這些模型通常會生成難以量化的長篇回答。因此,我們采用了PaLM-2L模型進行的評估,其中我們使用少樣本示例來提示模型識別目標答案和模型預測之間的等價性。用于此評估的少樣本示例、提示和其他詳細信息見附錄C。

3.4 基線方法

- PaLM-2L, PaLM-2L 1-shot: PaLM-2L模型直接使用問題進行查詢,或在提示中包含一個問題-答案示例的單個演示樣例。

- PaLM-2L + CoT, PaLM-2L + CoT 1-shot: 使用零樣本思維鏈(Chain-of-Thought, CoT)提示(Kojima等,2022)來查詢PaLM-2L模型:“讓我們一步一步思考”被添加到問題中。對于1-shot,提示中提供了一個問題和答案對的示例,其中答案采用CoT風格(Wei等,2022b)。

- PaLM-2L + TDB: 使用零樣本提示“深呼吸并一步一步解決這個問題?!保╕ang等,2023)添加到問題之前。

- PaLM-2L + RAG: 在第5和第6節(jié)中,我們使用檢索增強生成(RAG),其中檢索到的段落作為上下文被大語言模型使用。

- GPT-4 和 Llama2-70B: 我們在MMLU任務上對所有方法運行了GPT-4和Llama2-70B。此外,我們還在所有基線上對所有任務運行了GPT-4。

由于STEM任務的內(nèi)在推理性質(zhì),我們沒有對這些任務使用RAG。所有推斷都是使用貪婪解碼進行的。

4、STEM

我們在STEM任務上評估“退一步”提示法(STEP-BACK PROMPTING),以衡量我們的方法在高度專業(yè)領域中的推理能力。以下是我們在MMLU高中物理和化學以及GSM8K基準測試上應用“退一步”提示法的實驗設置、結果和分析。

4.1 “退一步”提示法

MMLU基準測試中的問題需要更深層次的推理。此外,它們還需要理解和應用通常為物理和化學原理和概念的公式。在這種情況下,我們首先向模型展示抽象技能,這些技能表現(xiàn)為概念和基本原理,如牛頓第一運動定律、多普勒效應和吉布斯自由能等。

在這里,隱含的“退一步”問題是“解決此任務涉及哪些物理或化學原理和概念?”我們提供了一些示例來引導模型從自身的知識中背誦解決任務所需的相關原理(參見附錄D.1了解少樣本示例)。

4.2 結果

表1展示了不同模型族的各種設置下的模型性能:PaLM-2L、GPT-4和Llama2-70B。表中報告的是5次評估運行的平均準確率,并附上標準差(括號內(nèi)的數(shù)值)。PaLM-2L的基線性能在物理和化學上的準確率分別為66.4%和70.9%。我們發(fā)現(xiàn),CoT和TDB零樣本提示并未顯著提升模型性能,這可能是由于這些任務固有的難度和深層次的推理要求。PaLM-2L的1-shot和PaLM-2L + CoT的1-shot方法也未對基線有太多提升,這突顯了向模型展示推理步驟的挑戰(zhàn)。相比之下,“退一步”提示法顯著提高了模型性能:相比于PaLM-2L,物理和化學分別提高了7%和11%。同樣,對于GPT-4和Llama2-70B模型,“退一步”提示法在我們測試的所有基線方法中表現(xiàn)非常有競爭力,這表明“退一步”提示法是模型無關的。我們在附錄A.1中展示了GSM8K的結果。

表 1:在 MMLU 任務中,"退一步"提示法(STEP-BACK PROMPTING)在三個模型系列上表現(xiàn)出色。** CoT:零樣本鏈式思維提示(Chain of Thought prompting,Kojima等,2022),TDB:“深呼吸”提示(Take a Deep Breath prompting,Yang等,2023)。

Take a Step Back:通過抽象激發(fā)大模型推理能力(ICLR2024)-AI.x社區(qū)

4.3 消融實驗和分析

少樣本消融實驗: 首先,在圖3中,我們觀察到“退一步”提示法對用作示例的少樣本(問題和原理對)的數(shù)量具有魯棒性。增加超過一個示例的演示并不會帶來進一步的改進。這表明,通過上下文學習,檢索相關原理和概念的任務對模型來說相對容易,一個示例就足夠了。因此,除非是消融實驗,否則本文中使用的少樣本提示都是單個示例。

Take a Step Back:通過抽象激發(fā)大模型推理能力(ICLR2024)-AI.x社區(qū)

錯誤分析: 比較“退一步”提示法對MMLU高中物理的預測結果和PaLM-2L基線模型的預測結果,我們發(fā)現(xiàn)“退一步”提示法修正了20.5%的基線錯誤,同時引入了11.9%的新錯誤。

為了進一步了解“退一步”提示法的錯誤來源,我們對測試集中所有的錯誤預測進行了標注,并將其分為5類(參見附錄E.1了解每類中的示例):

- 原理錯誤: 在抽象步驟中發(fā)生的錯誤,模型生成的基本原理是錯誤的或不完整的。

- 事實錯誤: 當模型背誦自身的事實知識時,至少有一個事實錯誤。

- 數(shù)學錯誤: 在涉及數(shù)學計算的中間步驟中存在至少一個數(shù)學錯誤。

- 上下文丟失: 模型響應丟失了問題的上下文,從而偏離了對原始問題的回答。

- 推理錯誤: 我們將推理錯誤定義為在到達最終答案之前的中間推理步驟中至少出現(xiàn)一個錯誤。

圖4顯示,除原理錯誤外,所有五種類型的錯誤都發(fā)生在推理步驟中,原理錯誤指向抽象步驟的失敗。推理錯誤和數(shù)學錯誤是主要的錯誤類別。這與上述消融研究中的發(fā)現(xiàn)相吻合,即僅需少量示例就可以向大語言模型展示抽象技能。推理步驟仍然是“退一步”提示法執(zhí)行需要復雜推理的任務(如MMLU)的瓶頸。具體到MMLU物理,推理和數(shù)學技能對于成功解決這些問題至關重要:即使正確地檢索了基本原理,也需要通過典型的多步推理過程進行深入推理和數(shù)學運算,以得出正確的最終答案。

Take a Step Back:通過抽象激發(fā)大模型推理能力(ICLR2024)-AI.x社區(qū)

5、知識問答(Knowledge QA)

我們在需要密集事實知識的問答基準上評估了“退一步”提示法(STEP-BACK PROMPTING)。知識問答對大語言模型(LLMs)來說是一個挑戰(zhàn)。在本節(jié)中,我們首先描述實驗設置,然后是對“退一步”提示法的結果和分析。

5.1 “退一步”提示法

我們在知識問答類別中評估了“退一步”提示法,使用了TimeQA(Chen等,2021)和SituatedQA(Zhang & Choi,2021)數(shù)據(jù)集。我們首先通過上下文中的演示向LLMs展示如何進行抽象。圖2中的“退一步”問題“埃斯特拉·萊奧波德的教育背景是什么?”就是通過少樣本演示生成的(詳細信息見附錄D.2)。鑒于這些查詢的知識密集性質(zhì),我們結合“退一步”提示法使用了檢索增強(RAG)?!巴艘徊健眴栴}用于檢索相關事實,這些事實作為額外的上下文(提示見表14)以支持最終的推理步驟。

5.2 結果

我們在TimeQA的測試集上對模型進行了評估。如表2所示,GPT-4和PaLM-2L的基線模型分別達到了45.6%和41.5%的準確率,這突顯了任務的難度。將CoT或TDB零樣本(以及單樣本)提示應用于基線模型并未顯示出改進。相反,通過常規(guī)檢索增強(RAG)增強基線模型,將準確率提升至57.4%,這突顯了任務的事實密集性質(zhì)。“退一步”+ RAG的結果顯示了回到高層次概念的有效性,這使得檢索增強更加可靠:TimeQA的準確率達到了顯著的68.7%。

Take a Step Back:通過抽象激發(fā)大模型推理能力(ICLR2024)-AI.x社區(qū)

接下來,我們將TimeQA按原始數(shù)據(jù)集中提供的難度等級分為易和難兩個級別。正如預期的那樣,所有方法在困難子集上的表現(xiàn)都較差。雖然RAG可以將易級別的準確率從42.6%提升到67.8%,但在難級別上的提升要小得多:從40.4%提升到46.8%。這正是“退一步”提示法的優(yōu)勢所在,它通過檢索高層次概念的事實來支持最終推理:“退一步”+ RAG進一步將難級別的準確率提升到62.3%,超越了GPT-4的42.6%。我們假設關于高層次概念(如教育背景)的事實比低層次細節(jié)更容易獲取。

在SituatedQA基準測試中,我們觀察到從54.3%到我們最佳方法“退一步”+ RAG(61%)的適度質(zhì)量提升,與GPT-4的63.2%有小的差距。與TimeQA類似,諸如CoT和TDB之類的提示對于SituatedQA并沒有顯著幫助。

5.3 消融實驗和分析

少樣本消融實驗: 我們在圖5(左)中觀察到,“退一步”提示法在TimeQA上的表現(xiàn)對演示中使用的示例數(shù)量具有魯棒性,這再次顯示了PaLM-2L模型在上下文中學習抽象技能的樣本效率。

錯誤分析: 圖5(右)顯示了“退一步”提示法在TimeQA上的所有剩余錯誤的分類。類似于第4.3節(jié),我們將錯誤分類為:

- StepBack: 生成的“退一步”問題對解決任務沒有幫助。

- RAG: 盡管“退一步”問題是準確的,但RAG未能檢索到相關信息。

- 評分錯誤: 評估模型的判斷錯誤。

- 推理錯誤: 檢索到的上下文是相關的,但模型仍未能通過上下文得出正確答案。

Take a Step Back:通過抽象激發(fā)大模型推理能力(ICLR2024)-AI.x社區(qū)

圖5TimeQA上“退一步”提示法的消融和錯誤分析。左圖:與少樣本示例數(shù)目相關的消融研究。右圖:錯誤類別分布,推理和RAG是主要的錯誤來源。

我們發(fā)現(xiàn)“StepBack”很少失敗。相反,我們發(fā)現(xiàn)超過一半的錯誤是由于推理錯誤。此外,45%的錯誤是由于未能檢索到正確信息,盡管抽象提供的“退一步”問題使其成為一個更容易的任務。這反映了TimeQA任務的難度。TimeQA的更多錯誤分析見附錄A。

6、多跳推理(MULTI-HOP REASONING)

我們在具有挑戰(zhàn)性的多跳推理基準數(shù)據(jù)集MuSiQue(Trivedi等,2022)和StrategyQA(Geva等,2021)上評估了“退一步”提示法(STEP-BACK PROMPTING)。我們遵循第5節(jié)中的相同協(xié)議來實施“退一步”提示法。

表3顯示了在MuSiQue和StrategyQA的開發(fā)集上的各種基線的性能。由于MuSiQue是一個難度較大的多跳推理基準數(shù)據(jù)集,PaLM-2L和GPT-4的基線性能較低(分別為35.5%和38.5%)。相比之下,StrategyQA的基線性能較強(PaLM-2L為82.8%,GPT-4為78.3%),這可能是因為它是一個二元分類任務。在MuSiQue的情況下,CoT和TDB提示略微提高了模型性能(分別約為3%和3.5%),這可能歸因于該任務固有的推理性質(zhì),而這些方法已被證明是有幫助的。在StrategyQA的情況下,由于該任務基線性能較高,這些提示方法并沒有顯著的性能提升,這限制了它們改進性能的空間。通常情況下,1-shot性能顯著低于零樣本方法,這可能是由于潛在的示例偏差(Zhao等,2021;Parmar等,2023)。RAG提升了模型性能(MuSiQue約4%,StrategyQA約2%)。憑借抽象的優(yōu)勢,“退一步”提示法產(chǎn)生了所有方法中最好的性能:MuSiQue為42.8%,StrategyQA為86.4%,在這兩個任務上顯著超過了GPT-4。我們在附錄A.3中提供了StrategyQA的詳細錯誤分析。

Take a Step Back:通過抽象激發(fā)大模型推理能力(ICLR2024)-AI.x社區(qū)

7、 討論(DISCUSSION)

抽象幫助人類通過去除無關細節(jié)并提煉高層次概念和原則來解決復雜任務。“退一步”提示法將復雜任務(如知識密集型問答、多跳推理和科學問題)分為抽象和推理兩個獨立步驟。我們通過實證實驗表明,對于諸如PaLM-2L之類的大語言模型來說,抽象是一項通過樣本高效的上下文學習容易掌握的技能。基于高層次概念和原則,大語言模型可以利用其內(nèi)在的推理能力來推導解決方案。這減少了中間步驟中推理失敗的機會,并被證明在廣泛的復雜推理任務中提高了性能。盡管取得了成功,但通過錯誤分析,我們發(fā)現(xiàn)推理仍然是大語言模型最難掌握的技能之一:即使在“退一步”提示法大幅降低了任務復雜性之后,它仍然是主要的失敗模式。

然而,抽象并非在所有情況下都是必要或可行的。例如,任務可能簡單到只需要回答“2000年美國的總統(tǒng)是誰?”這種情況下沒有必要退一步并提出一個高層次的問題,因為此類問題的答案顯而易見。諸如“光速是多少?”之類的問題本身就指向了基本原理。在這種情況下,進行抽象并不會產(chǎn)生差異。

8、相關工作(RELATED WORK)

提示(Prompting)

少樣本提示(Brown等,2020;Liu等,2023;Mishra等,2022a;Wei等,2022b)在不需要更新模型參數(shù)的情況下顯著提高了模型在各種任務上的表現(xiàn)。我們的工作“退一步”提示法(STEP-BACK PROMPTING)與鏈式思維提示法(Chain-of-Thought Prompting,Wei等,2022b)和草稿紙方法(Scratchpad,Nye等,2021)屬于同一類別,因為它們都具有簡單性和通用性。但是,我們的方法專注于抽象這一核心理念,這一靈感來源于人類在執(zhí)行復雜任務時經(jīng)常退一步的做法。我們的工作也與背誦增強語言模型(Recitation-Augmented Language Models,Sun等,2022)相關;然而,與他們的工作相比,我們明確執(zhí)行退一步和抽象,并根據(jù)任務的性質(zhì)選擇性地使用檢索增強。

分解(Decomposition)

將一個任務分解為更簡單的子任務并通過解決這些子任務來完成原始任務,一直是提高模型在復雜任務上表現(xiàn)的有效方法(Zhou等,2022;Patel等,2022;Khot等,2022;Press等,2022)。幾種提示方法在這方面取得了成功。我們的“退一步”提示法與此不同,它旨在將問題變得更抽象和高層次,而分解往往是對原始問題的低層次細分。例如,一個關于“1990年史蒂夫·喬布斯為哪個雇主工作?”的通用問題可以被改寫為“史蒂夫·喬布斯的就業(yè)歷史是什么?”。而分解會導致生成多個子問題,如“史蒂夫·喬布斯在1990年做了什么?”,“1990年史蒂夫·喬布斯是否受雇?”以及“如果史蒂夫·喬布斯受雇,他的雇主是誰?”。此外,諸如“史蒂夫·喬布斯的就業(yè)歷史是什么?”的抽象問題往往具有多對一的映射關系,因為多個問題(如“1990年史蒂夫·喬布斯為哪個雇主工作?”和“2000年史蒂夫·喬布斯為哪個雇主工作?”)可以具有相同的抽象問題。這與分解通常具有一對多映射的特性不同,因為通常需要多個分解的子問題來解決一個問題。

9、結論(CONCLUSION)

我們提出了“退一步”提示法,這是一種簡單而通用的方法,可以通過抽象在大語言模型中引發(fā)深層次的推理。我們在事實查詢、常識推理和領域特定推理基準測試上對大語言模型進行了實驗,結果表明“退一步”提示法顯著提高了模型的表現(xiàn)。我們假設,抽象幫助模型減少幻覺,并更好地進行推理,這可能反映了模型的真實能力,而這些能力通常在模型回答原始問題時隱藏起來。我們希望我們的工作能夠激發(fā)更多靈感來自人類的方式,以開發(fā)大語言模型的潛力。

?

本文轉(zhuǎn)載自公眾號AIRoobt ,作者:AIRoobt

原文鏈接:??https://mp.weixin.qq.com/s/B2qO3gAeOpL1A1wD77X4og??



?著作權歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦