自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大型語言模型容易被無關(guān)上下文分散注意力(ICLM) 原創(chuàng)

發(fā)布于 2025-4-29 10:10
瀏覽
0收藏

摘要

大型語言模型在各種自然語言處理任務(wù)中取得了令人矚目的性能。然而,它們主要在所有輸入上下文信息都與任務(wù)相關(guān)的情況下進(jìn)行評估。在本研究中,我們探討了大型語言模型的分心問題,即模型解決問題的準(zhǔn)確性如何受到無關(guān)上下文的影響。具體而言,我們引入了帶有無關(guān)上下文的小學(xué)數(shù)學(xué)(GSM-IC),這是一個(gè)包含無關(guān)信息的算術(shù)推理數(shù)據(jù)集。我們利用這一基準(zhǔn)測試來衡量大型語言模型的最新提示技術(shù),并發(fā)現(xiàn)當(dāng)包含無關(guān)信息時(shí),模型性能顯著下降。我們還確定了幾種緩解這一缺陷的方法,例如使用自洽性解碼,以及在提示中添加指令,告知語言模型忽略無關(guān)信息。

1. 引言

提示大型語言模型在多個(gè)領(lǐng)域表現(xiàn)出色。然而,大多數(shù)評估基準(zhǔn)中,問題描述中提供的所有信息都與問題的解決相關(guān),類似于考試中的問題。這與現(xiàn)實(shí)世界的情況不同,現(xiàn)實(shí)世界中的問題通常帶有多個(gè)上下文片段,這些上下文片段可能與我們想要解決的問題相關(guān)或不相關(guān)。我們必須在解決問題時(shí)識別哪些信息是必要的。心理學(xué)研究表明,無關(guān)信息會顯著降低兒童甚至成人的問題解決準(zhǔn)確性。

在本研究中,我們探討了大型語言模型在不同提示技術(shù)下的分心問題,即無關(guān)上下文如何影響大型語言模型的提示效果,以及可以采用哪些策略來提高性能。為了衡量分心,我們構(gòu)建了GSM-IC數(shù)據(jù)集,該數(shù)據(jù)集基于GSM8K生成,并引入了兩個(gè)不同的指標(biāo)。與以往通過替換基礎(chǔ)問題的句子來生成基準(zhǔn)變體的工作不同,我們保留了基礎(chǔ)問題描述,并添加了一個(gè)無關(guān)句子,確保它不會影響問題的解決(見表1)。


大型語言模型容易被無關(guān)上下文分散注意力(ICLM)-AI.x社區(qū)

我們使用GPT3模型系列中的Codex(code-davinci-002)和GPT-3.5(text-davinci-003)來評估GSM-IC上的最新提示技術(shù),包括鏈?zhǔn)剿伎继崾荆–OT; Wei等,2022)、零樣本鏈?zhǔn)剿伎继崾荆?-COT; Kojima等,2022)、最少到最多提示(LTM; Zhou等,2022)和程序提示(PROGRAM; Chowdhery等,2022)。我們發(fā)現(xiàn)它們在GSM-IC上的表現(xiàn)遠(yuǎn)低于原始的GSM8K(不含無關(guān)上下文)。然后,我們研究了幾種緩解這一弱點(diǎn)的方法,包括自洽性(Wang等,2022c)和在提示示例中添加無關(guān)信息。除了通過示例展示如何處理無關(guān)信息外,我們還研究了任務(wù)特定指令的使用(Wei等,2021; Sanh等,2021; Ouyang等,2022; Suzgun等,2022; Chung等,2022),在示例前添加指令句“請隨意忽略問題描述中的無關(guān)信息”。我們總結(jié)了以下關(guān)鍵發(fā)現(xiàn):

1. 所有調(diào)查的提示技術(shù)都對問題描述中的無關(guān)信息敏感。特別是,在基線提示可以解決的原始問題中,當(dāng)添加少量無關(guān)信息時(shí),不超過18%的問題能夠一致解決,這表明大型語言模型容易分心,并在添加無關(guān)信息時(shí)產(chǎn)生不一致的預(yù)測。

2. 自洽性提高了所有提示技術(shù)在GSM-IC上的性能。特別是,GSM-IC的正確答案的召回率高達(dá)99.7%,即在20個(gè)樣本中至少有一個(gè)解決方案得出正確最終答案,這意味著使用多個(gè)樣本允許模型幾乎總是檢索到正確答案。

3. 在提示中添加無關(guān)信息始終能提高性能,同樣,添加忽略無關(guān)上下文的指令也是如此。這表明語言模型在一定程度上可以通過遵循示例或指令來學(xué)習(xí)忽略無關(guān)信息。

4. 我們確定了無關(guān)信息的不同因素,這些因素影響模型對無關(guān)上下文的敏感性。我們的細(xì)分分析表明,改變無關(guān)信息中的數(shù)字不會顯著改變模型性能,而與原始問題描述的詞匯重疊程度則有影響。

過濾無關(guān)信息對于處理現(xiàn)實(shí)世界任務(wù)至關(guān)重要。我們的評估表明,盡管在解決具有挑戰(zhàn)性的推理問題上表現(xiàn)出色,但最新的語言模型在上下文理解和從輸入中識別相關(guān)信息方面仍有根本性的弱點(diǎn)。我們的發(fā)現(xiàn)表明,為了更全面地理解語言模型的推理能力,未來的工作除了解決更具挑戰(zhàn)性的問題外,還應(yīng)考慮模型對無關(guān)上下文的敏感性。

2. 相關(guān)工作

少樣本提示。 少樣本提示(Brown等,2020; Chowdhery等,2022等)通過各種技術(shù)得到了顯著提升,包括生成中間步驟(Ling等,2017; Cobbe等,2021; Nye等,2021; Wei等,2022; Suzgun等,2022; Shi等,2022b等)、問題分解(Zhou等,2022; Drozdov等,2022; Dohan等,2022; Khot等,2022; Press等,2022等)、生成程序(Austin等,2021; Chowdhery等,2022; Gao等,2022; Chen等,2022等)、對共享相同結(jié)果的中間步驟進(jìn)行邊緣化(Wang等,2022c; Shi等,2022a)和集成(Wang等,2022b; Drozdov等,2022)。此外,Kojima等(2022)證明,適當(dāng)?shù)奶崾咎崾炯词箾]有示例也能取得不錯的性能。在本研究中,我們檢查了這些最新的提示技術(shù)(Wei等,2022; Zhou等,2022; Kojima等,2022; Wang等,2022c)在我們的基準(zhǔn)測試上的表現(xiàn),并證明它們對無關(guān)輸入上下文敏感。

帶有輸入擾動的自然語言基準(zhǔn)。 有關(guān)自然語言任務(wù)的輸入擾動的長期工作包括模型無關(guān)的輸入變換(Liang等,2022; Ravichander等,2022等)和針對單個(gè)模型的對抗樣本生成(Jia & Liang,2017; Shi等,2018; Morris等,2020; Wang等,2021)。特別是,先前的工作通過從干凈數(shù)據(jù)集中改寫基礎(chǔ)問題的句子來構(gòu)建算術(shù)推理基準(zhǔn)(Patel等,2021; Kumar等,2021)。與此同時(shí),Liang等(2022)在包括準(zhǔn)確性、魯棒性、公平性等方面的多個(gè)指標(biāo)下評估了各種大型語言模型。具體來說,他們魯棒性評估中的輸入變換包括注入拼寫錯誤和修改句子以改變真實(shí)類別標(biāo)簽等語義改變擾動。與上述工作不同,其中擾動可能會改變問題描述的含義,我們保留了原始問題描述中的所有句子,并引入了一個(gè)無關(guān)句子,確保它不會影響標(biāo)準(zhǔn)答案。

帶有無關(guān)輸入上下文的自然語言基準(zhǔn)。 Jia & Liang(2017)表明,神經(jīng)問答系統(tǒng)在很大程度上受到對抗性干擾句子的影響,而后續(xù)工作(Khashabi等,2017; Ni等,2019)提出了減輕這一問題的學(xué)習(xí)策略。類似的問題在事實(shí)推理(Kassner & Schütze,2020; Pandia & Ettinger,2021; Misra等,2023; Li等,2022)、代碼生成(Jones & Steinhardt,2022)和句法泛化(Chaves & Richter,2021)等任務(wù)中的一般預(yù)訓(xùn)練語言模型中也被發(fā)現(xiàn)。特別是,Li等(2022)評估了帶有少樣本提示的T5(Raffel等,2020)和PaLM(Chowdhery等,2022),并提出了知識感知微調(diào),通過在反事實(shí)和無關(guān)上下文中微調(diào)模型來增強(qiáng)模型對噪聲上下文的魯棒性。在我們的評估中,我們表明,即使沒有訓(xùn)練或微調(diào),通過在提示中添加無關(guān)上下文也能減輕底層語言模型的分心問題,并顯著提高模型在我們的GSM-IC基準(zhǔn)測試上的性能。


帶有噪聲真相的提示。 一系列工作研究了模型在帶有錯誤提示示例的情況下表現(xiàn),即示例問題是與錯誤答案配對的(Min等,2022; Kim等,2022)。此外,先前的工作研究了模型對提示其他部分的敏感性,例如帶有誤導(dǎo)性和無關(guān)指令的指令調(diào)整(Webson & Pavlick,2021)以及示例中的錯誤推理步驟(Madaan & Yazdanbakhsh,2022; Wang等,2022a)。特別是,Madaan & Yazdanbakhsh(2022)得出結(jié)論,鏈?zhǔn)剿伎继崾局袛?shù)字和方程的正確性并不在模型性能中起關(guān)鍵作用,但在推理步驟中使用錯誤實(shí)體或刪除方程或文本解釋會嚴(yán)重阻礙性能。與這條線的工作不同,我們始終在提示中包含正確答案的示例問題,并確保添加到問題描述中的無關(guān)上下文不會改變地面真相答案。我們表明,當(dāng)問題描述中出現(xiàn)無關(guān)上下文時(shí),模型性能顯著下降,而無關(guān)上下文中數(shù)字和實(shí)體的不同分布也會導(dǎo)致不同程度的性能下降。

3. GSM-IC 數(shù)據(jù)集

在本節(jié)中,我們介紹GSM-IC數(shù)據(jù)集的創(chuàng)建過程(第3.1節(jié))和評估指標(biāo)(第3.2節(jié))。

3.1. 數(shù)據(jù)集創(chuàng)建

我們從GSM8K訓(xùn)練集中隨機(jī)選擇1,000個(gè)問題作為開發(fā)集。為了構(gòu)建我們的基礎(chǔ)數(shù)據(jù)集,我們從這個(gè)開發(fā)集中選擇100個(gè)問題,這些問題至少可以通過本文提到的一種提示技術(shù)正確解決;也就是說,我們的基礎(chǔ)數(shù)據(jù)集是GSM8K的一個(gè)“簡單”子集(見表2)。每個(gè)基礎(chǔ)問題需要兩到七個(gè)推理步驟來解決。在100個(gè)基礎(chǔ)問題中,60個(gè)問題可以通過兩個(gè)推理步驟解決。完整數(shù)據(jù)集統(tǒng)計(jì)信息見附錄A。


大型語言模型容易被無關(guān)上下文分散注意力(ICLM)-AI.x社區(qū)

然后,我們通過向每個(gè)基礎(chǔ)問題添加一個(gè)包含無關(guān)信息的句子來生成新數(shù)據(jù)集的示例。我們使用基于模板的方法(見圖1)來生成這些句子,這些句子的特征可以歸納為以下三個(gè)因素:


大型語言模型容易被無關(guān)上下文分散注意力(ICLM)-AI.x社區(qū)

- 插入句子的話題。 我們?yōu)橄嚓P(guān)話題和無關(guān)話題的句子編寫了模板。相關(guān)話題的句子與原問題的話題密切相關(guān),而無關(guān)話題的句子則涉及不同的內(nèi)容。

- 角色名稱重疊。 大多數(shù)句子模板包含一些角色名稱的空白,這些空白可以填入與原問題描述中的角色名稱相同或不同的名稱。對于與原角色名稱重疊的空白,我們:(1)從原問題描述中隨機(jī)選擇一個(gè)角色名稱A,并(2)使用類似“A的父親”和“A的妹妹”的模板來創(chuàng)建空白。

- 數(shù)字范圍。 由于我們關(guān)注的是算術(shù)推理,大多數(shù)句子模板還包含一個(gè)數(shù)字空白。我們可以選擇用與原問題描述或解決方案中的數(shù)字相似或不同的數(shù)字來填充數(shù)字空白。具體來說,對于一個(gè)數(shù)字a,如果存在原問題描述或解決方案中的數(shù)字b,使得1/10≤a/b≤10,我們將其視為范圍內(nèi)的數(shù)字;否則,我們將其視為范圍外的數(shù)字。由于GSM8K問題的標(biāo)準(zhǔn)答案都是正整數(shù),我們只考慮正整數(shù)作為數(shù)字空白的填充。

我們手動驗(yàn)證了以下兩點(diǎn):(1)所有生成的句子在英語中都是可接受的,(2)添加這些句子不會影響基礎(chǔ)問題的標(biāo)準(zhǔn)解決方案。由于上述因素是正交的,我們?yōu)槊總€(gè)基礎(chǔ)示例生成了一組具有不同因素組合的派生示例。完整的GSM-IC基準(zhǔn)測試包含58,052個(gè)示例。關(guān)于數(shù)據(jù)集創(chuàng)建過程的更多細(xì)節(jié)可以在附錄A中找到。

3.2. 評估指標(biāo)

對于一個(gè)問題p,我們用s(p)表示其標(biāo)準(zhǔn)解決方案,用M(p)表示方法M的解決方案。為了評估方法M的分心程度,我們考慮以下兩個(gè)指標(biāo):

- 微精度(Micro Accuracy) Accmicro(M; P) 是方法M在所有測試問題P上的平均精度。


大型語言模型容易被無關(guān)上下文分散注意力(ICLM)-AI.x社區(qū)

這意味著微精度將所有單個(gè)測試問題同等對待。

- 宏精度(Macro Accuracy) Accmacro(M; B) 是方法M在測試問題類上的平均精度,其中每個(gè)類P(b)由基礎(chǔ)示例b ∈ B的所有測試示例組成。我們定義方法M對類P(b)的預(yù)測為正確,當(dāng)且僅當(dāng)M對類中的所有問題的預(yù)測都正確。


大型語言模型容易被無關(guān)上下文分散注意力(ICLM)-AI.x社區(qū)

這意味著宏精度是基礎(chǔ)問題中無論添加了什么無關(guān)句子都能一致解決的比率。

- 歸一化精度 衡量方法受干擾因素影響的程度,考慮其在基礎(chǔ)問題上的精度。對于方法M在微精度或宏精度上達(dá)到的精度aM,我們通過以下公式計(jì)算相應(yīng)的歸一化精度:


大型語言模型容易被無關(guān)上下文分散注意力(ICLM)-AI.x社區(qū)

其中,nM表示方法M在基礎(chǔ)問題上的精度(見表2)。

4. 調(diào)查的解決方案

在以下部分,我們回顧了調(diào)查的提示技術(shù)(第4.1節(jié)),介紹了我們的提示格式(第4.2節(jié)),并引入了指令式提示(第4.3節(jié))。

4.1. 基礎(chǔ)技術(shù)

- 鏈?zhǔn)剿伎继崾荆–OT; Wei等,2022) 是一種引導(dǎo)語言模型以逐步方式解決問題的提示技術(shù)。通過在提示中展示帶有中間推理步驟的示例,COT顯著提高了推理性能,優(yōu)于不帶中間推理步驟的直接答案預(yù)測。

- 零樣本鏈?zhǔn)剿伎继崾荆?-COT; Kojima等,2022) 是COT的一種變體,提示中不包含任何示例。相反,模型直接被呈現(xiàn)感興趣的問題,后面跟著指令“讓我們一步一步思考:”。

- 最少到最多提示(LTM; Zhou等,2022) 教授語言模型將問題分解為子問題,并使用COT依次解決這些子問題。最終答案是最后一個(gè)子問題的答案。

- 程序提示(PROGRAM; Chowdhery等,2022) 將算術(shù)推理過程表示為程序。根據(jù)先前在GSM8K問題中使用代碼的工作(Chowdhery等,2022; Gao等,2022; Chen等,2022),我們在提示中包含了解決問題的Python程序,并使用外部Python解釋器執(zhí)行生成的Python代碼以獲得最終答案。

- 自洽性(SC; Wang等,2022c; Shi等,2022a) 可以通過考慮具有相同最終結(jié)果的多個(gè)推理步驟來進(jìn)一步提高推理性能。實(shí)際上,SC可以通過(1)從大型語言模型中采樣多個(gè)解決方案并(2)取多數(shù)投票來實(shí)現(xiàn)。注意,SC與上述技術(shù)正交,可以與任何技術(shù)結(jié)合使用。

4.2. 提示設(shè)計(jì)

我們展示了實(shí)驗(yàn)中使用的一些示例提示(見圖2)。對于少樣本提示技術(shù)(即COT、LTM和PROGRAM),輸入提示在感興趣的問題之前包含示例問題及其解決方案。為了保持簡單并避免提示工程中的過擬合,我們遵循Zhou等(2022)的示例創(chuàng)建方法;也就是說,我們只使用一個(gè)簡單的示例進(jìn)行主要實(shí)驗(yàn)。這個(gè)示例要么基于[原始問題],要么基于[帶有無關(guān)上下文的問題],這使我們能夠調(diào)查提示示例中無關(guān)信息的影響。對于0-COT,我們遵循Kojima等(2022)的方法,直接呈現(xiàn)感興趣的問題,后面跟著“A: 讓我們一步一步思考:”。


大型語言模型容易被無關(guān)上下文分散注意力(ICLM)-AI.x社區(qū)

圖2.右側(cè)所列技術(shù)的提示格式,這些格式由左側(cè)的構(gòu)建模塊精心構(gòu)建(彩色顯示效果更佳)。通過在原始問題描述中添加一個(gè)無關(guān)的句子(斜體并下劃線),我們得到了[帶有無關(guān)上下文的問題],這可以作為右側(cè)提示中[原始問題]的替代選項(xiàng)。在這些提示中,用括號突出顯示的標(biāo)識符(例如,[感興趣的問題])將被相應(yīng)構(gòu)建模塊的內(nèi)容所替換。所有設(shè)置的提示格式詳見附錄C。

4.3. 指令式提示

除了在示例中呈現(xiàn)無關(guān)信息外,我們還調(diào)查了自然語言指令是否有助于語言模型忽略無關(guān)上下文,減少分心。擴(kuò)展了包括在示例之前添加一般任務(wù)描述的工作(Suzgun等,2022; Sanh等,2021; Ouyang等,2022),我們在提示中的示例之前添加了句子“解決小學(xué)數(shù)學(xué)問題。請隨意忽略問題中的無關(guān)信息?!?,這明確指示語言模型忽略問題描述中的無關(guān)信息。

5. 實(shí)驗(yàn)

考慮到實(shí)驗(yàn)成本,我們從GSM-IC數(shù)據(jù)集中均勻采樣了4,000個(gè)示例(記為GSM-IC-4K),用于整個(gè)論文的評估和分析。除非另有說明,我們主要在實(shí)驗(yàn)中使用code-davinci-002,并評估了經(jīng)過RLHF訓(xùn)練以更好地遵循指令的text-davinci-003(Ouyang等,2022)。對于沒有自洽性解碼的實(shí)驗(yàn),我們使用貪婪解碼(即溫度τ = 0);對于需要多個(gè)樣本的自洽性實(shí)驗(yàn),我們按照Wang等(2022c)的方法,使用溫度τ = 0.7采樣20個(gè)響應(yīng)。

5.1. 主要結(jié)果在GSM-IC上

我們在GSM-IC-4K上比較了不同提示技術(shù)的性能(見表3),包括微精度和宏精度及其相應(yīng)的歸一化精度??傮w而言,我們觀察到所有提示技術(shù)在兩個(gè)模型上的性能都有顯著下降。宏精度的下降尤為顯著,表明在添加干擾因素后,不到30%的基礎(chǔ)問題能夠一致解決。比較兩個(gè)模型的結(jié)果,text-davinci-003在歸一化微精度上優(yōu)于code-davinci-002,盡管其宏精度大多更差。在圖3中,我們展示了GSM-IC-4K中的一個(gè)示例,其中單個(gè)無關(guān)句子在調(diào)查的提示技術(shù)中引發(fā)了不同類型的錯誤。一個(gè)常見的錯誤類型是錯誤地使用了無關(guān)句子中的數(shù)字,如LTM預(yù)測和其他附錄B中的示例所示。即使模型沒有直接使用無關(guān)數(shù)字進(jìn)行數(shù)值計(jì)算,無關(guān)句子僅出現(xiàn)在推理步驟中也會導(dǎo)致錯誤預(yù)測,如COT預(yù)測所示。


大型語言模型容易被無關(guān)上下文分散注意力(ICLM)-AI.x社區(qū)

表 3. GSM-IC-4K 數(shù)據(jù)集上的微觀準(zhǔn)確率(Micro Accuracy)和宏觀準(zhǔn)確率(Macro Accuracy)(×100 表示百分比)。SC 表示自一致性(self-consistency)。Norm 表示通過已解決的基礎(chǔ)問題比例(表 2)歸一化的總體準(zhǔn)確率,這是衡量模型針對無關(guān)信息魯棒性的一項(xiàng)指標(biāo)。對于 text-davinci-003 模型,使用鏈?zhǔn)剿季S(COT)的基礎(chǔ)問題準(zhǔn)確率為 80.0,使用逐步解決法(LTM)的基礎(chǔ)問題準(zhǔn)確率為 81.0。在每一部分中(即使用 code-davinci-002 或 text-davinci-003,是否使用帶有無關(guān)上下文的示例,或是否應(yīng)用自一致性),每列的最佳結(jié)果以加粗字體表示。


大型語言模型容易被無關(guān)上下文分散注意力(ICLM)-AI.x社區(qū)

圖 3. 使用不同提示技術(shù)的示例問題及其對應(yīng)輸出(彩色查看效果最佳)。原始問題的 COT 答案用綠色高亮表示。新增的無關(guān)句子用紅色高亮并采用斜體顯示,這些無關(guān)信息導(dǎo)致了所有提示技術(shù)產(chǎn)生不同的錯誤,這些錯誤用黃色高亮表示。更多模型預(yù)測的示例可以在附錄 B 中找到。

在表3中,我們總結(jié)了不同提示技術(shù)在GSM-IC-4K數(shù)據(jù)集上的微精度和宏精度。LTM在所有子類別中表現(xiàn)最為穩(wěn)健。使用code-davinci-002時(shí),LTM的宏精度約為COT的兩倍。然而,使用text-davinci-003時(shí),盡管LTM在微精度上優(yōu)于COT,但其宏精度較低。具體而言,text-davinci-003對角色重疊的無關(guān)上下文高度敏感,導(dǎo)致在需要超過兩個(gè)推理步驟的問題上,宏精度降至0。表4進(jìn)一步展示了不同無關(guān)上下文因素的細(xì)分性能。


大型語言模型容易被無關(guān)上下文分散注意力(ICLM)-AI.x社區(qū)

表 4. 針對添加的無關(guān)句子因素的準(zhǔn)確率分解(×100 表示百分比)。較低的準(zhǔn)確率表明模型對相應(yīng)類型的無關(guān)上下文更脆弱。需要注意的是,此處的宏觀平均準(zhǔn)確率高于表 3 中報(bào)告的對應(yīng)值,因?yàn)槲覀儍H包含了一部分創(chuàng)建的問題(即與相關(guān)因素對應(yīng)的問題)來計(jì)算該指標(biāo)。每列的最佳結(jié)果以加粗字體表示。

5.2. 細(xì)分分析

5.2.1. 無關(guān)上下文的因素?

我們分析了COT、LTM和PROGRAM在考慮的無關(guān)句子因素(第3.1節(jié))上的性能(見表4)。對于兩個(gè)模型,我們發(fā)現(xiàn)(1)相關(guān)話題句子與(2)角色名稱重疊和(3)范圍內(nèi)的數(shù)字結(jié)合時(shí),通常更具挑戰(zhàn)性,如圖3所示。對于LTM,后兩個(gè)因素對微精度的影響不大,但對宏精度的影響顯著。值得注意的是,使用示例中的無關(guān)上下文時(shí),使用范圍內(nèi)數(shù)字的干擾因素比范圍外數(shù)字的干擾因素更具挑戰(zhàn)性。再次使用code-davinci-002時(shí),LTM在所有子類別中優(yōu)于COT和PROGRAM。

5.2.2. 按推理步驟細(xì)分的精度?

我們分析了不同推理步驟問題的細(xì)分精度(見圖4)。雖然我們在需要四個(gè)或更多推理步驟的問題上觀察到COT和PROGRAM的精度顯著下降,但LTM的性能在不同難度水平上保持一致。除了Zhou等(2022)證明的LTM在復(fù)雜問題上的優(yōu)勢外,我們的結(jié)果表明,LTM對需要更多步驟解決的復(fù)雜問題中的無關(guān)上下文也較少敏感。


大型語言模型容易被無關(guān)上下文分散注意力(ICLM)-AI.x社區(qū)

5.3. 指令式提示提高了對無關(guān)上下文的魯棒性

我們已經(jīng)證明,使用帶有干擾因素的示例可以提高對無關(guān)上下文的魯棒性。我們還在表3中比較了指令式提示和沒有指令的提示的性能。向COT、LTM和PROGRAM添加指令始終提高了它們的性能。令人驚訝的是,對于COT和LTM,使用原始示例的指令式提示達(dá)到了與使用帶有干擾因素的示例的無指令提示相當(dāng)甚至更好的性能。需要注意的是,僅添加指令“解決小學(xué)數(shù)學(xué)問題。”并不會顯著提高性能;而是指令“請隨意忽略問題中的無關(guān)信息?!逼鸬搅岁P(guān)鍵作用。類似于0-COT中使用的指令“讓我們一步一步思考?!保@表明語言模型在一定程度上能夠遵循自然語言指令,顯著改變其解決問題的行為,這表明此類指令可能對指導(dǎo)語言模型在更多任務(wù)上的行為有用。

在原始的GSM8K開發(fā)集(Cobbe等,2021; Zhou等,2022)上,我們沒有觀察到在使用帶有無關(guān)信息的示例、添加自然語言指令或兩者結(jié)合時(shí)精度下降(見表5)。這令人印象深刻,因?yàn)镚SM-IC的結(jié)果表明,提示中的示例和指令式提示都提高了魯棒性。對于PROGRAM提示,我們發(fā)現(xiàn)使用帶有干擾因素的示例甚至在SVAMP上提高了性能。


大型語言模型容易被無關(guān)上下文分散注意力(ICLM)-AI.x社區(qū)

表 5. 在 GSM8K 開發(fā)集和 SVAMP 測試集上的準(zhǔn)確率(×100 表示百分比)。IRRCTX 表示使用無關(guān)上下文,+INST. 表示使用指令提示(instructed prompting)?;鶞?zhǔn)結(jié)果(即使用最簡單的示例且無無關(guān)上下文或指令提示的情況)用下劃線標(biāo)注。

5.4. 復(fù)雜提示可能損害對無關(guān)上下文的魯棒性

我們將1-exemplarCOT提示(見圖2)與Zhou等(2022)報(bào)告的在GSM8K上表現(xiàn)最佳的4-示例提示(附錄D)進(jìn)行了比較。雖然4-exemplar提示在原始的GSM8K開發(fā)集上表現(xiàn)更好,但該提示在無關(guān)上下文提供的干擾上出乎意料地更敏感。特別是,4-exemplar提示在需要超過兩個(gè)中間步驟的問題上始終比1-exemplar提示表現(xiàn)更差。即使對于2步提示,從添加更多示例中獲得的精度提升也幾乎可以忽略不計(jì),當(dāng)使用指令時(shí)(79.0 vs 79.2)??傮w而言,這一發(fā)現(xiàn)表明,添加更多示例會使提示更不魯棒,因?yàn)樗鼘?dǎo)致了一些過擬合。

5.5. 擴(kuò)展到DROP

除了GSM-IC外,我們還將評估擴(kuò)展到DROP數(shù)據(jù)集(Dua等,2019),其中任務(wù)是根據(jù)包含無關(guān)上下文的長段落回答問題。我們展示了關(guān)于足球比賽的示例(見表8)。

我們使用Zhou等(2022)中的COT和LTM提示作為基線,并評估了在示例之前添加指令“根據(jù)以下問題回答。請隨意忽略問題中的無關(guān)信息。”的提示變體。需要注意的是,通過在示例解決方案中添加問題簡化步驟,最少到最多提示隱含地引導(dǎo)模型提出相關(guān)子問題來解決給定問題。同樣,我們觀察到指令在DROP的足球分割上始終提高了COT和LTM提示的性能(見表7)。


大型語言模型容易被無關(guān)上下文分散注意力(ICLM)-AI.x社區(qū)

6. 結(jié)論和討論

在本研究中,我們介紹了GSM-IC,這是一個(gè)支持全面研究大型語言模型在存在無關(guān)上下文時(shí)的分心問題的數(shù)據(jù)集。我們在GSM-IC上檢查了各種提示技術(shù),并證明了它們都對問題中的無關(guān)信息敏感。在研究的技術(shù)中,自洽性(Wang等,2022c)在普遍提高對無關(guān)上下文的魯棒性方面取得了實(shí)質(zhì)性進(jìn)展,展示示例中的無關(guān)上下文也始終提高了性能。同樣,我們發(fā)現(xiàn)簡單地添加忽略無關(guān)信息的指令在我們的基準(zhǔn)測試上帶來了顯著的性能提升。

盡管通過這些方法取得了改進(jìn),但一個(gè)根本問題仍然存在:一個(gè)單一的無關(guān)信息可以分散模型的注意力,并顯著降低其性能,即使在它們正確解決的清潔版本上也是如此。我們鼓勵研究人員在開發(fā)新的訓(xùn)練和提示技術(shù)時(shí),也優(yōu)先考慮改進(jìn)這一根本限制。我們將在未來的工作中進(jìn)一步調(diào)查其他任務(wù)和不同語言模型的分心問題。


本文轉(zhuǎn)載自公眾號AIRoobt ,作者:Freda Shi等

原文鏈接:??https://mp.weixin.qq.com/s/VsHVfJFx9PCnZ2WGRNxdXw???


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦