大語言模型在不同自然語言處理任務(wù)中的提示工程方法綜述 精華
一、結(jié)論寫在前面?
論文標(biāo)題:A Survey of Prompt Engineering Methods in Large Language Models for Different NLP Tasks
論文鏈接:??https://arxiv.org/pdf/2407.12994??
大型語言模型(LLMs)在眾多不同的自然語言處理(NLP)任務(wù)上展現(xiàn)出卓越的性能。提示工程在增強(qiáng)LLMs已有的能力方面發(fā)揮著關(guān)鍵作用,以在各種NLP任務(wù)上實(shí)現(xiàn)顯著的性能提升。提示工程需要編寫稱為提示的自然語言指令,以結(jié)構(gòu)化的方式從LLMs中引出知識(shí)。與先前的最先進(jìn)(SoTA)模型不同,提示工程不需要對給定的NLP任務(wù)進(jìn)行廣泛的參數(shù)重新訓(xùn)練或微調(diào),因此僅依賴于LLMs嵌入的知識(shí)。
此外,LLM愛好者可以通過基本的自然語言對話交流或提示工程智能地提取LLMs的知識(shí),使得越來越多沒有深厚數(shù)學(xué)機(jī)器學(xué)習(xí)背景的人也能實(shí)驗(yàn)使用LLMs。隨著提示工程在過去兩年中日益流行,研究人員圍繞設(shè)計(jì)提示提出了多種工程技術(shù),以提高從LLMs中提取信息的準(zhǔn)確性。
論文對44篇研究論文進(jìn)行了深入調(diào)查,這些論文討論了39種提示策略,涵蓋了29個(gè)不同的NLP任務(wù)。論文通過分類圖直觀地展示了這一點(diǎn)。論文嘗試將不同數(shù)據(jù)集標(biāo)準(zhǔn)化分類為29個(gè)NLP任務(wù),并討論了近期提示技術(shù)在這些任務(wù)上的整體影響,同時(shí)列出了每個(gè)數(shù)據(jù)集的潛在SoTA提示方法。
二、論文的簡單介紹
2.1 論文的背景
隨著大型語言模型(LLMs)的引入,人工智能取得了顯著的進(jìn)步。LLMs 在包含數(shù)百萬乃至數(shù)十億個(gè)標(biāo)記的大量文本語料庫上進(jìn)行訓(xùn)練。研究表明,隨著模型參數(shù)數(shù)量的增加,機(jī)器學(xué)習(xí)模型的性能會(huì)提升,這一現(xiàn)象在 LLMs 中同樣得到了驗(yàn)證。它們在眾多 NLP 任務(wù)上取得了前所未有的性能,如 Chang 等人所示(2023),因此引起了學(xué)術(shù)界和包括醫(yī)療、法律、金融等多個(gè)行業(yè)的廣泛關(guān)注。當(dāng)前關(guān)于 LLMs 的研究重點(diǎn)是通過提示而非僅限于下一個(gè)標(biāo)記預(yù)測來探討其推理能力,這開啟了一個(gè)圍繞提示工程的新研究領(lǐng)域。
提示工程是指創(chuàng)建自然語言指令或提示,以有組織的方式從 LLMs 中提取知識(shí)的過程。與早期的傳統(tǒng)模型相比,提示工程僅依賴于 LLMs 中嵌入的知識(shí),不需要根據(jù)底層 NLP 任務(wù)進(jìn)行大量的參數(shù)重新訓(xùn)練或微調(diào)。理解模型參數(shù)中嵌入的真實(shí)世界知識(shí)超出了人類的能力范圍,因此這一新的提示工程領(lǐng)域引起了廣泛關(guān)注,因?yàn)樗试S研究人員與 LLMs 之間通過自然語言交流來實(shí)現(xiàn)底層 NLP 任務(wù)的目標(biāo)。
論文列舉了多種提示策略,并根據(jù)它們所應(yīng)用的不同自然語言處理(NLP)任務(wù)進(jìn)行分類。論文提供了一個(gè)分類圖,將針對不同NLP任務(wù)嘗試的提示技術(shù)制成表格,討論所采用的大型語言模型(LLMs),并列出每個(gè)數(shù)據(jù)集的潛在最先進(jìn)(SoTA)方法。作為本次調(diào)研的一部分,論文總共回顧和分析了44篇研究論文,其中大部分在過去兩年內(nèi)發(fā)表,涵蓋了39種提示技術(shù)應(yīng)用于29個(gè)不同的NLP任務(wù)。關(guān)于提示工程的系統(tǒng)性調(diào)研并不多見。Sahoo等人(2024年)基于應(yīng)用對29篇提示技術(shù)論文進(jìn)行了調(diào)研。這種分類非常寬泛,因?yàn)閱蝹€(gè)應(yīng)用可以包含眾多NLP任務(wù)。例如,他們討論的應(yīng)用之一是推理和邏輯,這可以包括常識(shí)推理、數(shù)學(xué)問題解決、多跳推理等多種NLP任務(wù)。這與論文的方法不同,論文基于NLP任務(wù)對提示策略進(jìn)行了更細(xì)粒度的分類。Edemacu和Wu(2024年)概述了隱私保護(hù)提示方法,因此專注于提示工程的一個(gè)相對較小的子領(lǐng)域。Chen等人(2023年)將提示策略的討論限制在9-10種方法,并且也沒有根據(jù)NLP任務(wù)進(jìn)行分類。
2.2 提示工程技術(shù)
論文簡要介紹了不同的提示方法以及它們?nèi)绾坞S著發(fā)布時(shí)間改進(jìn)現(xiàn)有性能。需要注意的是,以下大多數(shù)提示策略已在兩種不同的變體或設(shè)置中進(jìn)行了實(shí)驗(yàn),如果不是更多的話。這些變體包括零樣本和少樣本。某些提示技術(shù)可能本質(zhì)上存在于零樣本或少樣本變體中,可能不存在其他變體。在零樣本設(shè)置中,Radford等人(2019年)沒有涉及訓(xùn)練數(shù)據(jù),LLM通過提示指令執(zhí)行任務(wù),完全依賴于其在預(yù)訓(xùn)練階段學(xué)到的嵌入知識(shí)。另一方面,在少樣本變體中,Brown等人(2020年)提供了少量訓(xùn)練數(shù)據(jù)點(diǎn)以及基于任務(wù)的提示指令,以更好地理解任務(wù)。來自各種提示工程工作的結(jié)果顯示,少樣本變體有助于提高性能,但這需要精心準(zhǔn)備少樣本數(shù)據(jù)點(diǎn),因?yàn)長LM可能對精心策劃的少樣本數(shù)據(jù)點(diǎn)表現(xiàn)出無法解釋的偏見。
2.2.1 基礎(chǔ)/標(biāo)準(zhǔn)/樸素提示
基礎(chǔ)提示指的是直接向大型語言模型(LLM)提出查詢,而不對其進(jìn)行任何工程優(yōu)化以提高LLM性能的方法,這是大多數(shù)提示策略的核心目標(biāo)?;A(chǔ)提示在不同研究論文中也被稱為標(biāo)準(zhǔn)或樸素提示。
2.2.2 思維鏈(COT)
在這種提示策略中,Wei等人(2022)基于人類如何將復(fù)雜問題分解為更簡單的子問題,然后再得出復(fù)雜問題的最終解決方案的想法。類似地,作者研究了LLM通過產(chǎn)生一系列中間推理步驟,即思維鏈,來增強(qiáng)復(fù)雜推理能力的方式。結(jié)果顯示,與基礎(chǔ)提示相比,思維鏈提示有顯著改進(jìn),最大差異在數(shù)學(xué)問題解決任務(wù)中約為39%,在常識(shí)推理任務(wù)中約為26%。這項(xiàng)工作為提示工程領(lǐng)域開辟了新的研究方向。
2.2.3 自一致性
自一致性(Wang et al. 2022)提示技術(shù)基于一個(gè)直覺:復(fù)雜推理問題可以通過多種方式解決,因此可以通過不同的推理路徑達(dá)到正確答案。自一致性采用了一種新穎的解碼策略,不同于思維鏈?zhǔn)褂玫呢澙凡呗?,并包含三個(gè)重要步驟。第一步要求使用思維鏈提示LLM,第二步從LLM的解碼器中采樣多樣化的推理路徑,最后一步涉及在多個(gè)推理路徑中選擇最一致的答案。與思維鏈相比,自一致性在數(shù)學(xué)問題解決任務(wù)中平均提高了11個(gè)百分點(diǎn),在常識(shí)推理任務(wù)中提高了3個(gè)百分點(diǎn),在多跳推理任務(wù)中提高了6%。
2.2.4 集成細(xì)化(ER)
這種提示方法已在Singhal等人(2023)中討論過。它建立在CoT和自一致性(Self-Consistency)的基礎(chǔ)上。ER包含兩個(gè)階段。首先,給定一個(gè)少樣本CoT提示和一個(gè)查詢,通過調(diào)整其溫度,LLM生成多個(gè)推理鏈。每個(gè)推理鏈包含對查詢的推理和答案。接下來,LLM基于原始提示、查詢和前一階段生成的拼接推理鏈,生成更好的解釋和答案。這一第二階段會(huì)多次進(jìn)行,然后通過多數(shù)投票機(jī)制在這些第二階段生成的答案中選出最終答案,正如自一致性中的做法。ER在多個(gè)屬于無上下文問答任務(wù)的數(shù)據(jù)集上表現(xiàn)優(yōu)于CoT和自一致性。
2.2.5 自動(dòng)思維鏈(Auto-CoT)
在這項(xiàng)工作中,Zhang等人(2022)解決了少樣本CoT或手動(dòng)CoT面臨的問題,即需要精心挑選高質(zhì)量的訓(xùn)練數(shù)據(jù)點(diǎn)。Auto-CoT包含兩個(gè)主要步驟。第一步是將給定數(shù)據(jù)集的查詢分為幾個(gè)簇。第二步是從每個(gè)簇中選擇一個(gè)代表性查詢,并使用零樣本CoT生成其對應(yīng)的推理鏈。作者聲稱,Auto-CoT在數(shù)學(xué)問題解決、多跳推理和常識(shí)推理任務(wù)上的表現(xiàn)要么優(yōu)于要么與少樣本CoT相當(dāng)。這表明,對于少樣本或手動(dòng)CoT,可以省去訓(xùn)練數(shù)據(jù)點(diǎn)的挑選步驟。
2.2.6 復(fù)雜CoT
Fu等人(2022)引入了一種新的提示策略,旨在選擇復(fù)雜的數(shù)據(jù)點(diǎn)提示而非簡單的。數(shù)據(jù)點(diǎn)的復(fù)雜性在這里由涉及的推理步驟數(shù)量定義。作者假設(shè),如果使用復(fù)雜數(shù)據(jù)點(diǎn)作為上下文訓(xùn)練示例,LLM的推理性能可以提高,因?yàn)樗鼈円呀?jīng)包含了簡單的數(shù)據(jù)點(diǎn)。復(fù)雜CoT除了使用復(fù)雜數(shù)據(jù)點(diǎn)作為訓(xùn)練示例外,另一個(gè)重要方面是在解碼過程中,類似于自一致性,從N個(gè)采樣的推理鏈中,選擇最復(fù)雜的K條鏈中的多數(shù)答案作為最終答案。此外,本文還介紹了一種基線提示方法,稱為隨機(jī)CoT(Random CoT)。在隨機(jī)CoT中,數(shù)據(jù)點(diǎn)是隨機(jī)采樣的,不考慮其復(fù)雜性。復(fù)雜CoT在數(shù)學(xué)問題解決、常識(shí)推理、基于表格的數(shù)學(xué)問題解決和多跳推理等任務(wù)的多個(gè)數(shù)據(jù)集上,平均提高了5.39%的準(zhǔn)確率,最高可達(dá)18%的準(zhǔn)確率提升。
2.2.7 思維程序 (Program-of-Thoughts, POT)
Chen 等人 (2022a) 在 CoT 的基礎(chǔ)上構(gòu)建了 POT,與 CoT 使用 LLM 進(jìn)行推理和計(jì)算不同,POT 生成 Python 程序并將計(jì)算部分委托給 Python 解釋器。該工作認(rèn)為減少 LLM 的責(zé)任使其在數(shù)值推理方面更加準(zhǔn)確。POT 在數(shù)學(xué)問題解決、基于表格的數(shù)學(xué)問題解決、上下文問答和對話上下文問答任務(wù)中平均比 CoT 提高了約 12% 的性能。
2.2.8 從易到難 (Least-to-Most)
Least-to-Most Zhou 等人 (2022) 提示技術(shù)試圖解決 CoT 無法準(zhǔn)確解決比提示中示例更難的問題。它包含兩個(gè)階段。首先,LLM 被提示將給定問題分解為子問題。接下來,LLM 被提示按順序解決這些子問題。任何子問題的答案都依賴于前一個(gè)子問題的答案。作者表明,Least-to-Most 提示在常識(shí)推理、基于語言的任務(wù)完成、數(shù)學(xué)問題解決和上下文問答任務(wù)中顯著優(yōu)于 CoT 和基本提示方法。
2.2.9 符號(hào)鏈 (Chain-of-Symbol, COS)
CoS Hu 等人 (2023) 建立在 CoT 的思想上。在傳統(tǒng)的 CoT 中,推理步驟的中間鏈以自然語言表示。雖然這種方法在許多情況下取得了顯著成果,但它也可能包含不正確或冗余的信息。該工作的作者提出假設(shè),空間描述在自然語言中難以表達(dá),因此 LLM 難以理解。相反,使用符號(hào)在單詞序列中表達(dá)這些關(guān)系可能是 LLM 的更好表示形式。CoS 在空間問答任務(wù)中實(shí)現(xiàn)了高達(dá) 60.89% 的準(zhǔn)確性提升。
2.2.10 結(jié)構(gòu)化思維鏈(SCoT)
SCoT(Li et al., 2023b)的直覺在于,使用序列、分支和循環(huán)等程序結(jié)構(gòu)來組織中間推理步驟,比傳統(tǒng)CoT中使用自然語言表示中間推理步驟更能提高代碼生成的準(zhǔn)確性。作者聲稱,前者更接近人類開發(fā)者的思維過程,這一點(diǎn)已通過最終結(jié)果得到證實(shí),SCoT在代碼生成任務(wù)上的表現(xiàn)優(yōu)于CoT高達(dá)13.79%。
2.2.11 計(jì)劃與解決(PS)
Wang et al. (2023) 討論并試圖解決CoT的三個(gè)缺點(diǎn):計(jì)算錯(cuò)誤、遺漏步驟錯(cuò)誤和語義誤解錯(cuò)誤。PS包含兩個(gè)部分,第一部分需要制定一個(gè)計(jì)劃,將整個(gè)問題分解為較小的子問題,第二部分則需要根據(jù)計(jì)劃執(zhí)行這些子問題。一個(gè)改進(jìn)版的PS稱為PS+,增加了更詳細(xì)的指令,有助于提高推理步驟的質(zhì)量。PS提示方法在零樣本設(shè)置下的數(shù)學(xué)問題解決任務(wù)中,幾乎所有數(shù)據(jù)集的準(zhǔn)確率都比CoT提高了至少5%。同樣,在常識(shí)推理任務(wù)中,它在零樣本設(shè)置下始終優(yōu)于CoT至少5個(gè)百分點(diǎn),而在多跳推理任務(wù)中,其準(zhǔn)確率提高了約2%。
2.2.12 數(shù)學(xué)提示器(MathPrompter)
Imani et al. (2023) 試圖解決CoT在數(shù)學(xué)問題解決任務(wù)中的兩個(gè)關(guān)鍵問題:(1)CoT解決問題時(shí)步驟的有效性不足;(2)LLM對其預(yù)測的自信程度。MathPrompter提示策略總共包含4個(gè)步驟。(I)給定一個(gè)查詢,第一步要求為查詢生成一個(gè)代數(shù)表達(dá)式,用變量替換數(shù)值。(II)接下來,提示LLM通過推導(dǎo)代數(shù)表達(dá)式或編寫Python函數(shù)來解析地解決查詢。(III)第三步,通過為變量賦不同的值來解決步驟(I)中的查詢。(IV)如果在N次迭代中(II)中的解是正確的,則最終用原始查詢值替換變量并計(jì)算答案。如果不是,則重復(fù)步驟(II)、(III)和(IV)。MathPrompter能夠?qū)?shù)學(xué)問題解決任務(wù)所屬數(shù)據(jù)集的性能從78.7%提升到92.5%。
2.2.13 對比鏈?zhǔn)酵评?對比自一致性
Chia等人(2023)聲稱,對比鏈?zhǔn)酵评恚–ontrastive CoT)或?qū)Ρ茸砸恢滦裕–ontrastive Self Consistency)是對鏈?zhǔn)酵评恚–oT)或自一致性(Self-Consistency)的一般性增強(qiáng)。這種提示方法的靈感來源于人類如何從正面和負(fù)面示例中學(xué)習(xí)。類似地,在這種提示技術(shù)中,通過提供正面和負(fù)面示例來增強(qiáng)大語言模型(LLM)的推理能力。對比鏈?zhǔn)酵评碓跀?shù)學(xué)問題解決任務(wù)中平均能夠比傳統(tǒng)鏈?zhǔn)酵评硖嵘?0%的性能。同樣,對比自一致性在數(shù)學(xué)問題解決任務(wù)中能夠比傳統(tǒng)自一致性提升超過15%的性能。對于多跳推理任務(wù),對比鏈?zhǔn)酵评砗蛯Ρ茸砸恢滦韵噍^于其傳統(tǒng)版本都有超過10%的提升。
2.2.14 聯(lián)合相同/不同參數(shù)自一致性/鏈?zhǔn)酵评恚‵ed-SP/DP-SC/CoT)
Liu等人(2023)引入的這種提示方法基于通過使用同義眾包查詢來提高LLM推理能力的核心思想。這種方法有兩種略有不同的變體。第一種是Fed-SP-SC,其中眾包查詢是原始查詢的改寫版本,但參數(shù)相同。這里的參數(shù)可以指數(shù)學(xué)問題解決任務(wù)數(shù)據(jù)點(diǎn)中的數(shù)值。對于Fed-SP-SC,首先直接生成答案,然后在其上應(yīng)用自一致性。另一種是Fed-DP-CoT。在Fed-DP-CoT中,LLM首先生成不同查詢的答案,然后通過形成鏈?zhǔn)酵评韥砺?lián)合它們,為LLM提供提示。這些方法在數(shù)學(xué)問題解決任務(wù)中的結(jié)果顯示,它們能夠比傳統(tǒng)鏈?zhǔn)酵评碇辽偬嵘?0%,甚至高達(dá)20%。
2.2.15類比推理
Yasunaga等人(2023)的工作受到心理學(xué)中類比推理概念的啟發(fā),即人們利用相關(guān)的先前經(jīng)驗(yàn)來解決新問題。在LLM領(lǐng)域,作者首先提示它們生成與原始問題類似的示例,然后解決這些示例,最后回答原始問題。結(jié)果顯示,類比推理在數(shù)學(xué)問題解決、代碼生成、邏輯推理和常識(shí)推理任務(wù)中相較于鏈?zhǔn)酵评砟軌驅(qū)崿F(xiàn)平均4%的準(zhǔn)確性提升。
2.2.16 合成提示(Synthetic Prompting)
Shao等人(2023)提出了一種利用大型語言模型(LLMs)生成合成示例的合成提示方法,這些合成示例被增廣到現(xiàn)有的手工制作示例中,類似于傳統(tǒng)的小樣本學(xué)習(xí)設(shè)置。這種提示方法包括兩個(gè)步驟:(1)后向步驟,LLM根據(jù)自生成的推理鏈合成查詢;(2)前向步驟,LLM為合成的查詢生成推理鏈,從而使推理鏈更加準(zhǔn)確。最后,為了選擇最佳示例,該工作使用簇內(nèi)復(fù)雜度,并在推理過程中使用具有最長推理鏈的最復(fù)雜示例。實(shí)驗(yàn)結(jié)果顯示,在不同的數(shù)學(xué)問題解決、常識(shí)推理和邏輯推理任務(wù)數(shù)據(jù)集上,合成提示實(shí)現(xiàn)了高達(dá)15.69%的絕對增益。
2.2.17 思維樹(Tree-of-Thoughts, ToT)
Yao等人(2024)提出的ToT提示技術(shù)源自于任何類型的問題解決都需要通過一個(gè)組合空間進(jìn)行搜索,該空間可以表示為一棵樹,其中每個(gè)節(jié)點(diǎn)代表一個(gè)部分解,每條分支對應(yīng)一個(gè)修改該部分解的操作符?,F(xiàn)在,選擇哪條分支的決定由啟發(fā)式方法確定,這些方法有助于導(dǎo)航問題空間并引導(dǎo)問題解決者向解決方案前進(jìn)?;谶@一思想,作者提出了ToT,它主動(dòng)維護(hù)一個(gè)思維樹,其中每個(gè)思維是一個(gè)連貫的語言序列,作為解決問題的中介推理步驟。該框架允許LLMs在嘗試解決問題時(shí)評(píng)估由思維生成的進(jìn)展。ToT進(jìn)一步結(jié)合了搜索技術(shù),如廣度優(yōu)先或深度優(yōu)先搜索,以及模型生成和評(píng)估思維的能力。在數(shù)學(xué)問題解決任務(wù)上,ToT的成功率比CoT高出65%,在不同的邏輯推理任務(wù)數(shù)據(jù)集上,成功率高出約40%。在自由回答任務(wù)上,ToT的連貫性得分為7.56,而CoT平均僅為6.93。
2.2.18 邏輯思維 (LoT)
在這項(xiàng)工作中,Zhao 等人 (2023b) 研究了使用邏輯等價(jià)性來提高大型語言模型(LLM)的零樣本推理能力。除了允許 LLM 逐步推理外,LoT 還允許 LLM 根據(jù)歸謬法原則的指導(dǎo)逐步驗(yàn)證,并在必要時(shí)修正推理鏈以確保有效推理。LoT 在數(shù)學(xué)問題解決任務(wù)中最多能超過 CoT 3.7\%,常識(shí)推理任務(wù)中最多能超過 16.2\%,邏輯推理任務(wù)中最多能超過 2.5\%,因果推理任務(wù)中最多能超過 15.8\%,以及社交推理任務(wù)中最多能超過 10\% 的準(zhǔn)確率。
2.2.19 助產(chǎn)術(shù)提示 (Maieutic Prompting)
通過使用深度遞歸推理來引出各種假設(shè)的溯因解釋,Jung 等人 (2022) 鼓勵(lì) LLM 通過協(xié)作消除相互矛盾的替代方案來產(chǎn)生一致的響應(yīng)。助產(chǎn)術(shù)提示的生成過程導(dǎo)出一個(gè)生成的命題樹結(jié)構(gòu),其中一個(gè)命題為另一個(gè)命題的正確性建立了邏輯基礎(chǔ)。最后,為了推斷原始查詢的答案,測量 LLM 對每個(gè)命題的信任程度以及助產(chǎn)術(shù)樹中命題之間的邏輯聯(lián)系。在常識(shí)推理任務(wù)上,助產(chǎn)術(shù)提示的結(jié)果顯示,與基本提示、CoT、自一致性和 GKP (Liu et al., 2021) 相比,它能實(shí)現(xiàn)高達(dá) 20\% 的更好準(zhǔn)確率,同時(shí)與監(jiān)督模型競爭。
2.2.20 驗(yàn)證與編輯 (VE)
Zhao 等人 (2023a) 專注于開發(fā)一種技術(shù),該技術(shù)可以對 CoT 生成的推理鏈進(jìn)行后編輯,以產(chǎn)生更符合事實(shí)的輸出。該方法包括三個(gè)階段:(1) 決定何時(shí)編輯階段,作者使用自一致性來發(fā)現(xiàn)不確定的輸出;(2) 如何編輯理由階段,作者通過從外部知識(shí)源搜索支持事實(shí)來編輯不確定輸出的 CoT 推理鏈;(3) 推理階段,使用前一階段的編輯理由來得出最終答案。VE 在多跳推理任務(wù)中最多能超過 CoT、自一致性和基本提示 10\%,在真實(shí)性任務(wù)中最多能超過 2\%。
2.2.21 REASON + ACT (REACT)
Yao等人(2022b)提出了ReAct,它結(jié)合了推理和行動(dòng),利用LLMs解決多樣化的語言推理和決策任務(wù)。為了使模型能夠進(jìn)行動(dòng)態(tài)推理,構(gòu)建和修改高級(jí)行動(dòng)計(jì)劃(推理以行動(dòng)),ReAct促使LLMs以交錯(cuò)方式生成與任務(wù)相關(guān)的口頭推理軌跡和行動(dòng)。Yao等人(2022b)還討論了另一種類似于ReAct的提示方法Act,該方法基本上移除了ReAct軌跡中的思考或推理,但在所有討論的任務(wù)中表現(xiàn)均不如ReAct。在多跳推理和真實(shí)性任務(wù)中,ReAct的表現(xiàn)優(yōu)于基本提示,同時(shí)與CoT相競爭。當(dāng)ReAct與CoT或自一致性結(jié)合時(shí),其結(jié)果優(yōu)于CoT。在基于語言的任務(wù)完成任務(wù)中,ReAct在不同數(shù)據(jù)集上的成功率分別提高了超過10%,優(yōu)于強(qiáng)化學(xué)習(xí)方法。
2.2.22 ACTIVE-PROMPT
Diao等人(2023)提出了Active-Prompt,幫助LLMs通過識(shí)別最相關(guān)的數(shù)據(jù)點(diǎn)作為示例,在少樣本設(shè)置下適應(yīng)不同任務(wù)。Active-Prompt是一個(gè)四步技術(shù)。第一步,LLM對訓(xùn)練集中的每個(gè)查詢進(jìn)行k次提示,生成k個(gè)可能的答案及其相應(yīng)的推理鏈。第二步要求根據(jù)第一步生成的答案計(jì)算不確定性度量。第三步,選擇前n個(gè)最不確定的查詢,并由人類進(jìn)行標(biāo)注。最后一步,使用新的標(biāo)注示例對測試數(shù)據(jù)進(jìn)行少樣本提示。作者還介紹了一種名為Random CoT的Active-Prompt變體,其中在步驟3中,前n個(gè)查詢是隨機(jī)選擇的,而不是基于不確定性度量。結(jié)果顯示,Active-Prompt在數(shù)學(xué)問題解決、常識(shí)推理、多跳推理、常識(shí)推理任務(wù)等多個(gè)數(shù)據(jù)集上,均能獲得比自一致性、CoT、Auto-CoT和Random CoT更好的結(jié)果。
2.2.23 思維鏈(THOT)
Zhou等人(2023)提出了一種專注于處理長而混亂上下文的提示方法。其基于這樣一種思想:人們在處理大量信息時(shí)會(huì)保留一種連續(xù)的思維流,從而能夠選擇性地提取相關(guān)數(shù)據(jù)并摒棄無關(guān)數(shù)據(jù)。在文檔各部分之間保持這種注意力的平衡對于準(zhǔn)確解讀和回應(yīng)所提供的信息至關(guān)重要。思維鏈(THOT)包括兩個(gè)步驟。第一步要求大語言模型(LLM)分析并總結(jié)上下文的不同部分。在第二步中,LLM被提示根據(jù)第一步的輸出回答所提出的查詢。在無上下文問答任務(wù)中,思維鏈能夠通過實(shí)現(xiàn)約0.56的精確匹配分?jǐn)?shù),超越鏈?zhǔn)剿伎迹–oT)和基本提示技術(shù)。在對話系統(tǒng)任務(wù)中,思維鏈再次以3.8的平均分超越其他討論的提示技術(shù),獲得最高分。
2.2.24 隱式檢索增強(qiáng)生成(IMPLICIT RAG)
與傳統(tǒng)的RAG(Lewis et al., 2020)不同,隱式RAG(Vatsal & Singh, 2024):Vatsal等人(2024)要求LLM自身從給定上下文中檢索重要片段或部分,然后繼續(xù)回答所提出的查詢。這一技術(shù)需要調(diào)整兩個(gè)超參數(shù)。第一個(gè)是提取的節(jié)數(shù),第二個(gè)是每節(jié)中的單詞數(shù)。隱式RAG在Vatsal等人(2024)的病人病例報(bào)告數(shù)據(jù)集上的上下文問答任務(wù)中取得了最先進(jìn)(SoTA)的結(jié)果,而在Vatsal & Singh(2024)的生物醫(yī)學(xué)上下文問答任務(wù)數(shù)據(jù)集中,取得了最先進(jìn)或接近最先進(jìn)的結(jié)果。
2.2.25 系統(tǒng)2注意力(S2A)
大語言模型(LLM)在面對無關(guān)上下文時(shí)往往做出錯(cuò)誤判斷。Weston & Sukhbaatar(2023)嘗試通過兩步提示策略來解決這一問題。第一步指示LLM重新生成給定上下文,使得重新生成的版本不包含任何可能對輸出產(chǎn)生不利影響的無關(guān)部分。第二步則指示LLM使用第一步中重新生成的上下文來產(chǎn)生最終響應(yīng)。結(jié)果顯示,S2A能夠在不同真實(shí)性任務(wù)數(shù)據(jù)集上超越基本、鏈?zhǔn)剿伎家约爸笇?dǎo)性提示(Shi et al., 2023)。
2.2.26 指令提示
指令提示(Shi et al., 2023)再次圍繞與S2A相同的理念展開,旨在解決大型語言模型(LLMs)被無關(guān)上下文分散注意力的問題。它僅包括一步,即明確指示語言模型忽略問題描述中的無關(guān)信息。指令提示能夠在真實(shí)性任務(wù)中達(dá)到88.2%的歸一化微準(zhǔn)確率,并能夠超越包括思維鏈(CoT)、從少到多(Least-To-Most)、程序提示和自一致性在內(nèi)的所有同類方法。程序提示(Chowdhery et al., 2023)策略試圖通過編寫一個(gè)Python程序來解決問題。隨后,通過使用外部Python解釋器運(yùn)行Python代碼來驗(yàn)證所編寫程序的正確性,從而獲得最終答案。
2.2.27 驗(yàn)證鏈(CoVe)
大型語言模型(LLMs)容易生成事實(shí)錯(cuò)誤的信息,稱為幻覺。Dhuliawala et al. (2023)的作者試圖通過CoVe解決幻覺問題并提高性能。CoVe執(zhí)行四個(gè)核心步驟。首先,LLM為給定查詢生成一個(gè)基線響應(yīng)。其次,利用\xi結(jié)合原始查詢和第一步的基線響應(yīng),生成一組驗(yàn)證查詢,這些查詢能夠檢查基線響應(yīng)中是否存在任何錯(cuò)誤。第三,生成所有來自第三步的驗(yàn)證查詢的答案。第四,糾正第三步檢測到的基線響應(yīng)中的所有錯(cuò)誤,并生成修訂后的響應(yīng)。結(jié)果顯示,CoVe在無上下文問答、上下文問答和預(yù)響應(yīng)任務(wù)中能夠比CoT和基本提示至少高出10%。
2.2.28 知識(shí)鏈(CoK)
與CoVe類似,CoK(Li et al., 2023c)試圖解決幻覺問題以獲得更準(zhǔn)確的結(jié)果。它是一種三階段的提示技術(shù)。第一階段是推理準(zhǔn)備,給定一個(gè)查詢,CoK準(zhǔn)備多個(gè)初步理由和答案,同時(shí)識(shí)別相關(guān)的知識(shí)領(lǐng)域。第二階段是動(dòng)態(tài)知識(shí)適應(yīng),如果在答案中沒有多數(shù)共識(shí),CoK通過逐步適應(yīng)第一階段識(shí)別的領(lǐng)域知識(shí)來糾正理由。第三階段是答案整合,使用第二階段修正的理由作為最終答案整合的更好基礎(chǔ)。CoVe在無上下文問答、基于表格的問答、多跳推理和真實(shí)性任務(wù)中超越了CoT、自一致性、VE和基本提示,分別顯示出至少3%、39%、1%和1Y_O的改進(jìn)。
2.2.29 CHAIN-OF-CODE (COC)
在這項(xiàng)工作中,Li等人(2023a)提出了一種擴(kuò)展方法,以改進(jìn)LLM在代碼導(dǎo)向推理方面的能力。在此方法中,LLM不僅編寫程序代碼,還通過生成某些無法實(shí)際執(zhí)行的代碼行的預(yù)期輸出來有選擇地模擬解釋器。其主要思想是激勵(lì)LLM將程序中的語義子任務(wù)格式化為靈活的偽代碼,這些偽代碼可以在運(yùn)行時(shí)被顯式捕獲并傳遞給LLM進(jìn)行模擬,作者稱之為LMulator。實(shí)驗(yàn)表明,CoC在包括推薦系統(tǒng)、因果推理、常識(shí)推理、空間問答、情感理解、機(jī)器翻譯、邏輯推理、基于表格的數(shù)學(xué)問題求解和數(shù)學(xué)問題求解等多種任務(wù)中超越了CoT和其他基線方法。
2.2.30 PROGRAM-AIDED LANGUAGE MODELS (PAL)
Gao等人(2023)提出了一種提示策略,該策略利用LLM閱讀自然語言問題并生成交錯(cuò)的自然語言和編程語言語句作為推理步驟。最后,使用Python解釋器執(zhí)行編程語句以獲取答案。結(jié)果顯示,PAL在包括數(shù)學(xué)問題求解、基于表格的數(shù)學(xué)問題求解、常識(shí)推理和邏輯推理在內(nèi)的多個(gè)NLP任務(wù)中輕松超越了CoT和基本提示等同類方法。
2.2.31 BINDER
作者聲稱Binder(Cheng等人,2022)是一種無需訓(xùn)練的神經(jīng)符號(hào)技術(shù),它將輸入映射到一個(gè)程序,該程序(I)允許將LLM功能的單個(gè)API綁定到Python或SQL等編程語言,以擴(kuò)大其語法覆蓋范圍并處理更廣泛的查詢;(II)在執(zhí)行過程中使用LLM作為底層模型和程序解析器;(III)僅需要少量上下文樣本注釋。Binder流程分為兩個(gè)階段。首先,在解析階段,LLM根據(jù)查詢和知識(shí)源將輸入映射到一個(gè)程序。其次,在執(zhí)行階段,LLM以選定的編程語言返回值,最后使用解釋器運(yùn)行程序。與之前需要顯式訓(xùn)練或微調(diào)的方法相比,Binder在基于表格的真實(shí)性和基于表格的問答任務(wù)中能夠獲得更高的準(zhǔn)確性。
2.2.32 DATER
Ye 等人(2023)探索了利用大型語言模型(LLMs)進(jìn)行少樣本學(xué)習(xí),通過分解證據(jù)和查詢以實(shí)現(xiàn)高效的基于表格的推理。這種提示策略包括三個(gè)重要步驟。首先,根據(jù)查詢將一個(gè)龐大的表格分解為相關(guān)的小型子表格。接下來,使用 SQL 編程語言將復(fù)雜的自然語言查詢分解為邏輯和數(shù)值計(jì)算。最后,利用前兩個(gè)步驟中的子表格和子查詢,在少樣本設(shè)置中得出最終答案。結(jié)果顯示,Dater 能夠在基于表格的真實(shí)性任務(wù)中超越先前的需要顯式微調(diào)的方法,至少提升 2\%。同樣,在基于表格的問答任務(wù)中,它能夠超越這些方法至少 1 q_o。Dater 在上述兩項(xiàng)任務(wù)中也優(yōu)于 Binder。
2.2.33 CHAIN-OF-TABLE
在 Wang 等人(2024)的研究中,作者基于著名的 CoT 提示技術(shù),將其引入到表格環(huán)境中。這種多步驟的表格提示方法促進(jìn)了更準(zhǔn)確的表格理解。Chain-of-Table 是一種三步驟的提示技術(shù)。第一步指導(dǎo) LLM 通過上下文學(xué)習(xí)動(dòng)態(tài)規(guī)劃下一個(gè)表格操作,這里的操作可以是添加列或排序行等。第二步為選定的表格操作生成參數(shù)。前兩個(gè)步驟有助于轉(zhuǎn)換表格并創(chuàng)建各種中間表格表示,目的是回答原始查詢。在最后一步中,使用前兩個(gè)步驟中的最后一個(gè)表格表示來最終回答查詢。Chain-of-Table 在基于表格的問答和基于表格的真實(shí)性任務(wù)中達(dá)到了最先進(jìn)的性能。在基于表格的問答任務(wù)中,它的平均性能提升了約 39%,而在基于表格的真實(shí)性任務(wù)中,它的平均性能提升了約 1.5%,相較于之前的最先進(jìn)結(jié)果。
2.2.34 分解提示法(DECOMP)
Khot等人(2022)提出的DecomP技術(shù)將復(fù)雜問題分解為更簡單的子問題,然后將這些子問題委托給特定于子問題的LLM處理,這些LLM有自己的提示和分解器,可以進(jìn)一步分解子問題。分解器可以采用層次分解、遞歸分解或調(diào)用外部API來解決子問題。在常識(shí)推理任務(wù)中,DecomP在精確匹配方面平均優(yōu)于CoT和Least-to-Most方法25%。在多跳推理任務(wù)中,DecomP在四個(gè)不同數(shù)據(jù)集上均能輕松超越CoT。
2.2.35 三跳推理(THOR)
Fei等人(2023)提出的THOR模仿人類的情感/情緒理解推理過程。THOR包含三個(gè)步驟。首先,要求LLM識(shí)別給定查詢中提到的方面。其次,基于前一步的輸出和原始查詢,要求LLM詳細(xì)回答查詢中嵌入的基本觀點(diǎn)。最后,結(jié)合以上所有信息,要求LLM推斷與給定查詢相關(guān)的情感極性。THOR在多個(gè)情感/情緒理解任務(wù)數(shù)據(jù)集上顯著超越了先前的SoTA監(jiān)督模型和零樣本模型。
2.2.36 元認(rèn)知提示法(MP)
Wang和Zhao(2023)基于元認(rèn)知概念提出MP,元認(rèn)知源自認(rèn)知心理學(xué),涉及個(gè)體對其認(rèn)知過程的意識(shí)和自我反思。MP包含五個(gè)階段:1)理解輸入文本,2)做出初步判斷,3)批判性地評(píng)估這一初步分析,4)得出最終決策并解釋推理過程,5)評(píng)估整個(gè)過程中的信心水平。結(jié)果顯示,MP在眾多NLP任務(wù)中持續(xù)優(yōu)于CoT和PS,包括釋義、自然語言推理、上下文問答、詞義消歧、命名實(shí)體識(shí)別、關(guān)系抽取和多標(biāo)簽文本分類。
2.2.37 事件鏈 (COE)
Bao等人 (2024) 提出了用于摘要任務(wù)的CoE方法。CoE包含四個(gè)連續(xù)步驟。第一步專注于特定事件提取。接下來,對第一步提取的事件進(jìn)行分析和概括,形成更簡潔精煉的形式。第三步,對上一步概括的事件進(jìn)行篩選,僅選擇覆蓋文本大部分內(nèi)容的事件。最后一步,根據(jù)事件的時(shí)間順序重要性對第三步選擇的事件進(jìn)行整合。結(jié)果顯示,CoE在兩個(gè)摘要數(shù)據(jù)集上的rouge評(píng)分方面優(yōu)于CoT,同時(shí)更加簡潔。
2.2.38 基礎(chǔ)提示與術(shù)語定義
這是Vatsal等人 (2024) 討論的提示方法之一。在該方法中,基礎(chǔ)提示指令通過添加醫(yī)學(xué)術(shù)語定義得到增強(qiáng),基于的假設(shè)是添加這些定義有助于LLM在回答查詢時(shí)獲得更多上下文。但結(jié)果顯示,這些術(shù)語定義并未真正起到幫助作用,可能是因?yàn)樗鼈儶M窄的知識(shí)范圍與LLM更大的知識(shí)庫存在沖突。
2.2.39 基礎(chǔ) + 基于標(biāo)注指南的提示 + 基于錯(cuò)誤分析的提示
H等人 (2) 測試了LM在臨床命名實(shí)體識(shí)別任務(wù)中的能力。這種提示策略包含三個(gè)不同的組成部分?;A(chǔ)部分告知LLM關(guān)于任務(wù)的基本信息以及LLM應(yīng)以何種格式輸出結(jié)果?;跇?biāo)注指南的部分包含實(shí)體定義和從標(biāo)注指南中得出的語言規(guī)則?;阱e(cuò)誤分析的部分在利用訓(xùn)練數(shù)據(jù)對LLM輸出進(jìn)行錯(cuò)誤分析后,加入了額外的指令。作者還通過創(chuàng)建上述組件的不同組合,實(shí)驗(yàn)了該提示方法的不同版本。這種提示方法在多個(gè)屬于命名實(shí)體識(shí)別任務(wù)的數(shù)據(jù)集上,平均獲得了0.57的精確匹配F1分?jǐn)?shù)。
2.3 不同NLP任務(wù)中的提示工程
在將數(shù)據(jù)集歸類于NLP任務(wù)時(shí),不同的研究論文采用了不同的衡量標(biāo)準(zhǔn),并且這些標(biāo)準(zhǔn)在不同的研究中持續(xù)變化。論文試圖對此進(jìn)行標(biāo)準(zhǔn)化,并通過定義不同的NLP任務(wù),將不同的數(shù)據(jù)集歸入這些任務(wù),來為以往的分類方式構(gòu)建結(jié)構(gòu)。論文進(jìn)一步討論了針對這些任務(wù)所采用的各種提示方法。反映這一分類的分類圖可以在圖1中看到。需要注意的是,一個(gè)數(shù)據(jù)集很可能同時(shí)屬于不同的NLP任務(wù)。但這可能導(dǎo)致對提示技術(shù)在不同NLP任務(wù)中表現(xiàn)進(jìn)行結(jié)構(gòu)化分析時(shí)出現(xiàn)復(fù)雜的交織。
因此,在論文的研究中,論文確保一個(gè)數(shù)據(jù)集僅屬于與其最緊密關(guān)聯(lián)的一個(gè)NLP任務(wù)。以下各小節(jié)分別定義了一個(gè)不同的NLP任務(wù)、相應(yīng)的數(shù)據(jù)集以及應(yīng)用于這些數(shù)據(jù)集的各種提示策略。它們還進(jìn)一步包含了每個(gè)數(shù)據(jù)集的潛在SoTA提示技術(shù)。提示方法的性能根據(jù)所使用的LLM而變化。因此,論文還列出了在給定數(shù)據(jù)集上使用提示策略的LLM列表。對于SoTA,論文僅提及了提示方法的名稱,因?yàn)樵谠S多情況下,特定的LLM尚未與給定的提示方法進(jìn)行實(shí)驗(yàn),因此不清楚它是否可能達(dá)到SoTA性能。因此,如果列表中的任何LLM與一種提示策略已被用于實(shí)驗(yàn)給定數(shù)據(jù)集并取得了最佳性能,論文將其指定為SoTA,不論用于該技術(shù)的具體LLM是什么。
另一個(gè)值得強(qiáng)調(diào)的點(diǎn)是,在許多工作中,作者們實(shí)驗(yàn)了同一數(shù)據(jù)集的不同版本,這使得對應(yīng)用于它們的不同提示技術(shù)進(jìn)行絕對比較變得困難。基于論文的理解,論文考慮了上述所有因素,并在為每個(gè)數(shù)據(jù)集選擇SoTA時(shí)使用了論文的最佳判斷。
圖1:不同NLP任務(wù)中提示工程方法的分類圖
2.3.1 數(shù)學(xué)問題求解
此任務(wù)衡量模型在非表格設(shè)置中執(zhí)行任何類型數(shù)學(xué)計(jì)算的能力。論文在閱讀有關(guān)此任務(wù)的不同提示方法時(shí)遇到的不同數(shù)據(jù)集有GSM8K Cobbe et al. (2021)、MATH Hendrycks et al. (2021)、SVAMP Patel et al. (2021)、ASDiv Miao et al. (2021)、AQuA Ling et al. (2017)、MAWPS Koncel-Kedziorski et al. (2016)、MultiArith Koncel-Kedziorski et al. (2016)、AddSub Koncel-Kedziorski et al. (2016)、SingleEq Koncel-Kedziorski et al. (2016)、Game rmof 24 Yao et al. (2024)、Multi-Step Arithmetic Srivastava et al. (2022)、GSM-HARD Gao et al. (2023)、SingleOp Koncel-Kedziorski et al. (2016) 和 MathQA Amini et al. (2019)。表1列出了上述數(shù)據(jù)集以及在這些數(shù)據(jù)集上實(shí)驗(yàn)過的不同提示方法及其最佳表現(xiàn)提示策略。
2.3.2 邏輯推理
邏輯推理任務(wù)檢查模型遵循一組帶有輸入的命令并解決給定問題的自然語言理解能力。論文在閱讀有關(guān)此任務(wù)的不同提示策略時(shí)涵蓋的不同數(shù)據(jù)集有Word Sorting Srivastava et al. (2022)、Temporal Sequences Srivastava et al. (2022)、Formal Fallacies Srivastava et al. (2022)、Mini Crosswords Yao et al. (2024)、Object Counting Srivastava et al. (2022)、Logical Deduction Srivastava et al. (2022)、Boolean Expressions Srivastava et al. (2022)、Tracking Shuffled Objects Srivastava et al. (2022)、Web of Lies Srivastava et al. (2022)、Dyck Languages Srivastava et al. (2022)、Geometric Shapes Srivastava et al. (2022)、Repeat Copy Logic Srivastava et al. (2022)。表2包含上述數(shù)據(jù)集以及在這些數(shù)據(jù)集上實(shí)驗(yàn)過的不同提示技術(shù)及其最佳表現(xiàn)提示方法。
2.3.3 常識(shí)推理
與邏輯推理任務(wù)相反,常識(shí)推理任務(wù)衡量模型基于人類常
表3:常識(shí)推理任務(wù)的提示工程分析
2.3.4 多跳推理
多跳推理任務(wù)評(píng)估模型如何從上下文的不同部分連接證據(jù)來回答給定查詢的能力。論文在研究這項(xiàng)任務(wù)的不同提示策略時(shí)涵蓋的不同數(shù)據(jù)集包括StrategyQA Geva et al. (2021)、HotpotQA Yang et al. ( 2 0 1 8 )、Bamboogle Press et al. ( 2 0 2 2 )、CommaQA-E Khot et al. (2021)、MuSiQue Trivedi et al. (2022)、2WikiMultihopQA和Ho et al. (2020)。表 4 列出了上述數(shù)據(jù)集以及在這些數(shù)據(jù)集上實(shí)驗(yàn)過的不同提示方法,以及表現(xiàn)最佳的提示策略。
2.3.5 因果推理
因果推理任務(wù)檢驗(yàn)?zāi)P吞幚硪蚬P(guān)系的能力。在研究此任務(wù)的不同提示技術(shù)時(shí),論文遇到了兩個(gè)數(shù)據(jù)集,分別是Cause And Effect Srivastava等人(2022)和Causal Judgement Srivastava等人(2022)。表5展示了上述數(shù)據(jù)集及在這些數(shù)據(jù)集上實(shí)驗(yàn)過的不同提示技術(shù),以及表現(xiàn)最佳的提示方法。
表4:多跳推理任務(wù)的提示工程分析
表5:因果推理任務(wù)的提示工程分析
2.3.6 社會(huì)推理
此任務(wù)測試模型對人類社會(huì)互動(dòng)的推理能力。在調(diào)查此任務(wù)的不同提示技術(shù)時(shí),論文僅發(fā)現(xiàn)了一個(gè)數(shù)據(jù)集,即SocialQA Srivastava等人(2022)。表6包含了上述數(shù)據(jù)集及在這些數(shù)據(jù)集上實(shí)驗(yàn)過的不同提示方法,以及表現(xiàn)最佳的提示策略。
2.3.7 上下文問答
此任務(wù)衡量模型僅依賴給定上下文來回答查詢的能力。論文在研究此任務(wù)的不同提示方法時(shí)涉及的不同數(shù)據(jù)集包括ProcessBank Berant et al. (2014)、BioMRC Pappas et al. (2020)、MASH-QA Zhu et al. (2020)、CliCR Suster & Daelemans (2018)、MultiSpanQA Li et al. (2022)、FinQA Chen et al. (2021b)、TAT-QA Zhu et al. (2021)、Patient Case Reports Vatsal & Singh (2024)、Drop Dua et al. (2019) 和 BoolQ Clark et al. (2019)。表 7 列出了上述數(shù)據(jù)集以及在這些數(shù)據(jù)集上實(shí)驗(yàn)過的不同提示方法,以及表現(xiàn)最佳的提示技術(shù)。
表 6:社交推理任務(wù)的提示工程分析
表 7:上下文問答任務(wù)的提示工程分析
2.3.8 無上下文問答
與上下文問答任務(wù)相反,無上下文問答任務(wù)依賴于模型嵌入的知識(shí)庫或任何開源知識(shí)庫,如維基百科,來回答查詢,而不是僅使用提供的上下文。論文在調(diào)查此任務(wù)的不同提示技術(shù)時(shí)發(fā)現(xiàn)的各種數(shù)據(jù)集包括PopQA Mallen et al. (2022)、EntityQ rmS ciavolino et al. ( 2 0 2 1 )、Wikidata Dhuliawala et al. (2023)、Wiki-Catoegory List Dhuliawala et al. (2023)、MedMCQA Pal et al. (2022)、MMLU Physics Hendrycks et al. (2020)、MMLU Biology Hendrycks et al. ( 2 0 2 0 )、USMLE Sample Exam Nori et al. (2023)、USMLE Self Assessments Nori et al. (2023)、MedQA Jin et al. ( 2 0 2 1 )、PubMedQA Jin et al. ( 2 0 1 9 )、MMLU Hendrycks et al. (2020) 和 AI2 Reasoning Challenge Clark et al. (2018)。表 8 列出了上述數(shù)據(jù)集以及在這些數(shù)據(jù)集上實(shí)驗(yàn)過的不同提示策略,以及表現(xiàn)最佳的提示策略。
表8:無上下文問答任務(wù)的提示工程分析
表8 續(xù)前頁
2.3.9 空間問答
空間問答任務(wù)衡量模型處理空間推理的能力,空間推理是基于空間對象、關(guān)系和變換的認(rèn)知過程。論文在研究不同提示技術(shù)時(shí)遇到的多種數(shù)據(jù)集包括 Brick World Hu et al. (2023), NLVR-Based Manipulation Hu et al. (2023), Natural Language Navigation Hu et al. (2023), Spartun Mirzaee & Kordjamshidi (2022) 和 Navigate Srivastava et al. (2022)。表9包含了上述數(shù)據(jù)集以及在這些數(shù)據(jù)集上實(shí)驗(yàn)的不同提示方法和最佳表現(xiàn)的提示策略。
2.3.10 對話上下文問答
在此任務(wù)中,模型根據(jù)其對給定文本摘錄的理解以及如何回答一系列以對話形式呈現(xiàn)的相互關(guān)聯(lián)的查詢來評(píng)估。需要注意的是,每個(gè)查詢可能依賴于之前查詢的答案。在研究此任務(wù)的不同提示方法時(shí),論文僅涉及了一個(gè)數(shù)據(jù)集,包括ConvFinQA Chen et al. (2022b)。表10列出了上述數(shù)據(jù)集及在這些數(shù)據(jù)集上實(shí)驗(yàn)過的不同提示方法,以及表現(xiàn)最佳的提示策略。
表9:空間問答任務(wù)的提示工程分析
表10:對話上下文問答任務(wù)的提示工程分析
2.3.11 對話系統(tǒng)
對話系統(tǒng)任務(wù)檢驗(yàn)?zāi)P驮谟脩襞c機(jī)器對話場景中進(jìn)行語言生成的能力,或根據(jù)已生成的對話回答查詢。在對話上下文問答任務(wù)中,當(dāng)文本摘錄變?yōu)閷υ挄r(shí),這兩個(gè)任務(wù)可能會(huì)有很強(qiáng)的重疊,但根據(jù)論文在調(diào)研中遇到的數(shù)據(jù)集和提示技術(shù),論文決定將這兩個(gè)任務(wù)分開。在調(diào)研此任務(wù)的不同提示方法時(shí),論文僅發(fā)現(xiàn)了一個(gè)數(shù)據(jù)集,包括多輪對話響應(yīng)(MTCR)Zhou et al. (2023)。表11列出了上述數(shù)據(jù)集及在這些數(shù)據(jù)集上實(shí)驗(yàn)過的不同提示策略,以及表現(xiàn)最佳的提示技術(shù)。
2.3.12 代碼生成
此任務(wù)涉及輸入或最終輸出為編程語言代碼的所有情況。論文在研究不同提示策略時(shí)遇到的不同數(shù)據(jù)集包括 Codeforce Scraping Yasunaga et al. (2023)、HumanEval Chen et al. (2021a)、MBPP Austin et al. (2021) 和 MBCPP Athiwaratkun et al. (2022)。表 12 列出了上述數(shù)據(jù)集以及在這些數(shù)據(jù)集上實(shí)驗(yàn)過的不同提示技術(shù),以及表現(xiàn)最佳的提示策略。
表 11:對話系統(tǒng)任務(wù)的提示工程分析
表 12:代碼生成任務(wù)的提示工程分析
2.3.13自由響應(yīng)
此任務(wù)評(píng)估模型生成無約束文本響應(yīng)的能力。論文在研究不同提示方法時(shí)涉及的各種數(shù)據(jù)集包括 Creative Writing Yao et al. (2024) 和 Longform Generation of Biographies Min et al. (2023)。表 13 列出了上述數(shù)據(jù)集以及在這些數(shù)據(jù)集上實(shí)驗(yàn)過的不同提示策略,以及最佳技術(shù)。
表 13:自由響應(yīng)任務(wù)的提示工程分析
2.3.14 真實(shí)性
此任務(wù)評(píng)估模型傳達(dá)事實(shí)而不傳播任何類型錯(cuò)誤信息的能力。此任務(wù)并不代表模型理解給定上下文的能力,而是更關(guān)注它們基于理解不做出虛假陳述的能力。表 14 顯示了上述數(shù)據(jù)集以及在這些數(shù)據(jù)集上實(shí)驗(yàn)過的不同提示技術(shù),以及表現(xiàn)最佳的提示技術(shù)。
表 14:真實(shí)性任務(wù)的提示工程分析
2.3.15 基于表格的真實(shí)性
此任務(wù)是真實(shí)性任務(wù)的擴(kuò)展,衡量模型在表格環(huán)境中傳達(dá)事實(shí)且不傳播任何類型錯(cuò)誤信息的能力。在閱讀關(guān)于此任務(wù)的不同提示方法時(shí),論文遇到的唯一數(shù)據(jù)集是 TabFact Chen et al. (2019)。表 15 包含上述數(shù)據(jù)集和在這些數(shù)據(jù)集上實(shí)驗(yàn)的不同提示策略,以及表現(xiàn)最佳的提示策略。
表 15:基于表格的真實(shí)性任務(wù)提示工程分析
2.3.16基于表格的問答
此任務(wù)涉及在表格環(huán)境中的任何類型問答。它可以被視為其他類型表格任務(wù)的超集,如基于表格的真實(shí)性或基于表格的數(shù)學(xué)問題解決。但在本工作中,為了避免任何混淆,論文捕獲了所有不屬于更具體表格任務(wù)(如基于表格的真實(shí)性或基于表格的數(shù)學(xué)問題解決)的數(shù)據(jù)集。在閱讀關(guān)于此任務(wù)的不同提示策略時(shí),論文僅遇到了兩個(gè)數(shù)據(jù)集,分別是 FeTaQA Nan et al. (2020) 和 WikiTQ Pasupat & Liang (2015)。表 16 顯示了上述數(shù)據(jù)集和在這些數(shù)據(jù)集上實(shí)驗(yàn)的不同提示方法,以及表現(xiàn)最佳的提示策略。
2.3.17 基于表格的數(shù)學(xué)問題求解
這項(xiàng)任務(wù)是數(shù)學(xué)問題求解任務(wù)的擴(kuò)展,衡量模型在表格環(huán)境中執(zhí)行各種數(shù)學(xué)計(jì)算的能力。論文在研究這項(xiàng)任務(wù)的不同提示技術(shù)時(shí)涉及的不同數(shù)據(jù)集包括TabMWP Lu et al. (2022)和Penguins in a Table Srivastava et al. (2022)。表17列出了上述數(shù)據(jù)集以及在這些數(shù)據(jù)集上實(shí)驗(yàn)過的不同提示方法,以及表現(xiàn)最佳的提示策略。
2.3.18 推薦系統(tǒng)
這項(xiàng)任務(wù)衡量模型處理給定輸入并從可能項(xiàng)列表中建議最相關(guān)的一組項(xiàng)作為輸出的能力。在調(diào)查這項(xiàng)任務(wù)的不同提示技術(shù)時(shí),論文只發(fā)現(xiàn)了一個(gè)數(shù)據(jù)集,即電影推薦Srivastava et al. (2022)。表18列出了上述數(shù)據(jù)集以及在這些數(shù)據(jù)集上實(shí)驗(yàn)過的不同提示方法,以及表現(xiàn)最佳的提示技術(shù)。
2.3.19 情感/情緒理解
這項(xiàng)任務(wù)檢查模型理解人類情感或情緒的能力。論文在研究這項(xiàng)任務(wù)的不同提示方法時(shí)遇到的各種數(shù)據(jù)集包括Ruin Names Srivastava et al. (2022),SemEval14 Laptop and Restaurant Pontiki et al. (2016)和Forex Fatouros et al. (2023)。表19包含了上述數(shù)據(jù)集以及在這些數(shù)據(jù)集上實(shí)驗(yàn)過的不同提示技術(shù),以及表現(xiàn)最佳的提示策略。
表16:基于表格的問答任務(wù)的提示工程分析
表17:基于表格的數(shù)學(xué)問題求解任務(wù)的提示工程分析
表18:推薦系統(tǒng)任務(wù)的提示工程分析
2.3.20機(jī)器翻譯
在此任務(wù)中,模型被測試其在兩種語言之間翻譯的能力。論文在研究不同的提示技術(shù)時(shí)遇到的不同的數(shù)據(jù)集包括顯著翻譯錯(cuò)誤檢測Srivastava等人(2022年),F(xiàn)LORES Costa-jussa等人(2022年),WMT21 Farhad等人(2021年),多領(lǐng)域Aharoni & Goldberg(2020年)和PDC Sun等人(2020年)。表20列出了上述數(shù)據(jù)集以及在這些數(shù)據(jù)集上實(shí)驗(yàn)過的不同提示方法,以及表現(xiàn)最佳的提示策略。
表19:情感/情緒理解任務(wù)的提示工程分析
表20:機(jī)器翻譯任務(wù)的提示工程分析
2.3.21 命名實(shí)體識(shí)別
命名實(shí)體識(shí)別任務(wù)旨在識(shí)別給定輸入文本中預(yù)定義的類別或?qū)ο?。論文在調(diào)查此任務(wù)的不同提示技術(shù)時(shí)發(fā)現(xiàn)的不同數(shù)據(jù)集包括MTSamples Uzuner等人(2011年),VAERS Du等人(2021年),研究論文Tang等人(2024年)和BC5CDR-chem Li等人(2016年)。表21顯示了上述數(shù)據(jù)集以及在這些數(shù)據(jù)集上實(shí)驗(yàn)過的不同提示策略,以及表現(xiàn)最佳的提示策略。
表21:命名實(shí)體識(shí)別任務(wù)的提示工程分析
2.3.22 詞義消歧
詞義消歧任務(wù)檢驗(yàn)?zāi)P驮诓煌Z境中識(shí)別單詞不同含義的能力。在閱讀關(guān)于此任務(wù)的不同提示方法時(shí),論文僅發(fā)現(xiàn)了一個(gè)數(shù)據(jù)集,即WiC Pilehvar & Camacho-Collados (2018)。表22展示了上述數(shù)據(jù)集和在該數(shù)據(jù)集上實(shí)驗(yàn)的不同提示技術(shù),以及表現(xiàn)最佳的提示方法。
2.3.23 摘要生成
此任務(wù)測試模型將長篇輸入文本分解為較小片段,同時(shí)確保這些小片段保留重要信息的能力。在閱讀關(guān)于此任務(wù)的不同提示方法時(shí),論文僅涵蓋了一個(gè)數(shù)據(jù)集,即CCTC Bao et al. (2024)。表23包含了上述數(shù)據(jù)集和在該數(shù)據(jù)集上實(shí)驗(yàn)的不同提示技術(shù),以及表現(xiàn)最佳的提示策略。
表22:詞義消歧任務(wù)的提示工程分析
表23:摘要任務(wù)的提示工程分析
2.3.24 釋義
釋義任務(wù)旨在通過使用不同的詞匯重寫給定的輸入文本,同時(shí)保持原始輸入文本的真實(shí)語義不變。摘要任務(wù)與釋義任務(wù)的主要區(qū)別在于,摘要任務(wù)的主要目標(biāo)是縮短輸出文本的長度,使其相對于輸入文本更短,而釋義任務(wù)則專注于在其重寫過程中使用不同的詞匯。論文在2上進(jìn)行了實(shí)驗(yàn)。表24列出了上述數(shù)據(jù)集以及在這些數(shù)據(jù)集上實(shí)驗(yàn)的不同提示方法,以及表現(xiàn)最佳的提示技術(shù)。
表24:釋義任務(wù)的提示工程分析
2.3.25 立場檢測
此任務(wù)評(píng)估模型從文本中判斷作者是否支持或反對某個(gè)主題、目標(biāo)或評(píng)估對象的能力。論文在研究此任務(wù)的不同提示技術(shù)時(shí)遇到的不同數(shù)據(jù)集包括SemEval-2016 Mohammad等人(2016),VAST Allaway & McKeown (2020)和P-Stance Li等人(2021)。表25顯示了上述數(shù)據(jù)集以及在這些數(shù)據(jù)集上實(shí)驗(yàn)的不同提示方法,以及表現(xiàn)最佳的提示技術(shù)。
表25:立場檢測任務(wù)的提示工程分析
2.3.26 自然語言推理
該任務(wù)的主要目標(biāo)是確定在給定前提 p 的情況下,假設(shè)是真(蘊(yùn)涵)、假(矛盾)還是未確定(中性)。論文在研究不同提示方法時(shí)涉及的數(shù)據(jù)集包括 QNLI Rajpurkar et al. (2016) 和 MedNLI Romanov & Shivade (2018)。表26列出了上述數(shù)據(jù)集以及在這些數(shù)據(jù)集上實(shí)驗(yàn)過的不同提示策略,以及表現(xiàn)最佳的提示方法。
表26:自然語言推理任務(wù)的提示工程分析
2.3.27 關(guān)系抽取
關(guān)系抽取評(píng)估模型識(shí)別預(yù)定義類別或?qū)ο蠡蛎麑?shí)體之間語義關(guān)系的能力。論文在研究不同提示技術(shù)時(shí)只遇到一個(gè)數(shù)據(jù)集,包括 DDI Segura-Bedmar et al. (2013)。表 27 顯示了上述數(shù)據(jù)集以及在這些數(shù)據(jù)集上實(shí)驗(yàn)過的不同提示方法,以及表現(xiàn)最佳的提示策略。
表27:關(guān)系抽取任務(wù)的提示工程分析
2.3.28 基于語言的任務(wù)完成
該任務(wù)的主要目標(biāo)是檢查模型在遵循一系列基于語言的導(dǎo)航指令以做出完成任務(wù)所需行動(dòng)決策方面的表現(xiàn)。論文在調(diào)查不同提示策略時(shí)發(fā)現(xiàn)的數(shù)據(jù)集包括 ALFWorld Shridhar et al. (2020)、WebShop Yao et al. (2022a)、SayCan Ahn et al. (2022) 和 Scan Lake & Baroni (2018)。表28列出了上述數(shù)據(jù)集以及在這些數(shù)據(jù)集上實(shí)驗(yàn)過的不同提示方法,以及表現(xiàn)最佳的提示方法。
表28:基于語言的任務(wù)完成任務(wù)的提示工程分析
2.3.29 多標(biāo)簽文本分類
此任務(wù)衡量模型將每個(gè)輸入分配給一組預(yù)定義目標(biāo)標(biāo)簽的能力。此任務(wù)可以包含上述許多任務(wù),如立場檢測、命名實(shí)體識(shí)別等,但為了使這些任務(wù)定義盡可能不重疊,以便更好地調(diào)查提示方法,論文僅包括那些不能適當(dāng)?shù)貧w類于上述討論任務(wù)的數(shù)據(jù)集。在閱讀不同提示策略的相關(guān)文獻(xiàn)時(shí),論文涵蓋的不同數(shù)據(jù)集包括EUR-LEX Chalkidis et al. (2021)、UNFAIR-ToS Lippi et al. (2019) 和 LEDGAR Tuggener et al. (2020)。表29包含上述數(shù)據(jù)集以及在這些數(shù)據(jù)集上實(shí)驗(yàn)過的不同提示策略,以及表現(xiàn)最佳的提示方法。
表29:多標(biāo)簽文本分類任務(wù)的提示工程分析
本文轉(zhuǎn)載自?? AI帝國??,作者: 無影寺
