自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多種思維鏈-CoT

人工智能
思維鏈(Chain-of-Thought, CoT)是一種通過逐步推理來解決復雜問題的技術,近年來在大型語言模型(LLMs)中得到了廣泛應用。CoT通過將復雜問題分解為一系列可管理的步驟,并建立這些步驟之間的邏輯聯(lián)系,顯著提高了模型的推理能力和可解釋性。

思維鏈(Chain-of-Thought, CoT)是一種通過逐步推理來解決復雜問題的技術,近年來在大型語言模型(LLMs)中得到了廣泛應用。CoT通過將復雜問題分解為一系列可管理的步驟,并建立這些步驟之間的邏輯聯(lián)系,顯著提高了模型的推理能力和可解釋性。

初步知識

在本節(jié)中,我們提供了標準提示和思維鏈推理的初步知識。定義以下符號:問題 Q、提示T 、概率語言模型PLM  和預測A 。

少樣本標準提示

少樣本思維鏈提示

思維鏈推理的優(yōu)勢

作為一種新穎的推理范式,思維鏈推理具有多種優(yōu)勢:

  • 提升推理能力:思維鏈推理將復雜問題分解為可管理的步驟,并建立這些步驟之間的聯(lián)系,從而促進推理。
  • 提供可解釋性:思維鏈推理提供可觀察的推理軌跡,使用戶能夠理解模型的決策過程,使推理過程透明且可信。
  • 促進協(xié)作:細粒度的推理軌跡促進用戶與系統(tǒng)的交互,允許用戶改變模型的執(zhí)行軌跡,從而促進基于LLM的自主代理的發(fā)展。

通過上述初步知識,介紹了標準提示和思維鏈提示的基本概念和公式。思維鏈推理通過逐步推理的方式顯著提高了模型的推理能力,并提供了可解釋性和協(xié)作優(yōu)勢。這些初步知識為進一步探討思維鏈推理的先進方法和應用奠定了基礎。

思維鏈方法

1.Few-shot CoT

Few-shot CoT 通過提供少量的示例來激發(fā)大型語言模型(LLM)的推理能力。這種方法的核心在于,不僅僅給出問題的答案,還要展示出推導答案的思維過程,即“思維鏈”。這樣,模型可以學習到如何通過一系列邏輯步驟來解決新的問題。Few-shot CoT通常需要在提示中包含問題的推導過程,讓模型學會如何進行推理。

2. PAL(Program-Aided Language Models)

它的核心思想是利用大型語言模型(LLMs)來閱讀自然語言問題,并生成程序作為中間推理步驟,然后將求解步驟外包給運行時環(huán)境,例如Python解釋器。這樣,LLMs只需要負責將自然語言問題分解成可執(zhí)行的步驟,而具體的求解任務則由解釋器來完成。

3. PoT(Program of Thoughts)

它旨在解決復雜的數(shù)值推理任務。這種方法通過使用語言模型(主要是Codex)來表達推理過程作為程序,將計算從推理中分離出來,由外部計算機執(zhí)行生成的程序以得出答案。

4. MathPrompter

MathPrompter是一種用于提高大型語言模型(LLMs)在解決算術推理任務時性能的技術。這項技術的核心思想是利用零樣本鏈式思考(Zero-shot chain-of-thought)提示技術,生成多個代數(shù)表達式或Python函數(shù)來解決同一個數(shù)學問題,從而提高輸出結(jié)果的置信度。與傳統(tǒng)的基于提示的方法不同,MathPrompter會檢查中間步驟的有效性。

具體來說,MathPrompter的工作流程包括以下幾個步驟:

  • 生成代數(shù)模板:將問題轉(zhuǎn)化為代數(shù)形式,用變量替換數(shù)值,并建立關鍵值映射。
  • 數(shù)學提示:使用兩種不同的方法——代數(shù)方法和Python方法——來生成問題的解析解。通過給LLM提供提示,讓它生成額外的上下文。

     代數(shù)提示:要求LLM寫出數(shù)學方程,并以“Answer =”格式生成答案。

     Python提示:要求LLM寫出一個返回答案的Python函數(shù)。

  • 多驗證和交叉檢查:通過從多個角度解決問題并比較結(jié)果,來確認解決方案的有效性,并確保其合理性和準確性。

MathPrompter的一個限制是,盡管通過多次運行來提高結(jié)果的準確性,但這并不能總是保證輸出的正確性。代數(shù)和Python表達式都有可能產(chǎn)生錯誤的結(jié)果,即使提示輸出匹配。

5. Complex CoT(Complexity-CoT)

它是一種針對Chain-of-Thought(CoT)提示方法的改進,旨在通過挑選合適的示例(exemplar)來引導大型語言模型進行更有效的推理。這種方法的核心思想是,如果作為上下文“訓練示例”的推理路徑足夠復雜,那么在這些示例組成的提示下引導大模型推理的效果會更好。

6. Zero-shot CoT(Zero-shot Chain-of-Thought)

它允許模型在沒有額外訓練或示例的情況下,通過一系列邏輯推理步驟來解決復雜問題。這種方法的核心在于,通過在問題前添加特定的提示(例如“Let’s think step by step!”),激發(fā)模型的邏輯推理能力,使其能夠生成解決問題的中間步驟。

7. Plan-and-Solve(PS)

Plan-and-Solve(PS)是一種用于提升大型語言模型(LLMs)在多步推理任務中表現(xiàn)的提示策略。

  • 目的與組成: Plan-and-Solve(PS)提示策略旨在解決Zero-shot-CoT(零樣本鏈式思維)推理中存在的問題,如計算錯誤、缺失步驟錯誤和語義誤解錯誤。PS提示策略包含兩個主要部分:首先,制定一個計劃將整個任務分解為更小的子任務;其次,根據(jù)計劃執(zhí)行這些子任務。
  • PS與PS+提示

     (1)PS提示:這是一種新的Chain-of-Thought提示方法,它使LLMs能夠明確地設計解決問題的計劃,并在預測輸入問題的答案之前生成中間推理過程。

      (2)PS+提示:為了解決計算錯誤并提高生成的推理步驟的質(zhì)量,PS提示策略被擴展為PS+提示策略,其中增加了更詳細的指令,如“注意計算”、“提取相關變量及其對應的數(shù)值”以及“計算中間結(jié)果”。

Plan-and-Solve通過引導LLMs制定詳細的計劃并執(zhí)行該計劃,提高了LLMs在復雜推理任務上的性能,減少了由于計算錯誤或遺漏關鍵信息而導致的錯誤。

8. Auto-CoT

Auto-CoT(Automatic Chain of Thought Prompting in Large Language Models)是一種自動化構(gòu)建大模型演示的方法,旨在提高大型語言模型(LLMs)在復雜推理任務中的表現(xiàn)。這種方法通過采樣豐富的問題并生成相應的推理鏈來構(gòu)建演示,實驗結(jié)果表明,Auto-CoT能夠達到甚至超過手工設計的演示效果。

Auto-CoT的核心思想是利用大型語言模型的能力,通過自動化流程來構(gòu)建“讓我們一步步思考”的思維過程,從而避免手動設計思維鏈帶來的巨大工作量。它包括兩個主要階段:聚類和抽樣。首先,將給定數(shù)據(jù)集的問題劃分為幾個簇;然后,從每個簇中選擇一個代表性問題,并使用簡單的啟發(fā)式方法使用Zero-Shot-CoT生成其推理鏈。

Auto-CoT的實現(xiàn)方法主要依賴于問題向量表示、聚類算法和范例構(gòu)建。使用Sentence-BERT對問題進行編碼,然后使用K-means等聚類算法根據(jù)問題的向量表示進行聚類,最后選擇距離聚類中心近的問題,并生成推理鏈。

在實際應用中,Auto-CoT技術適用于各種需要復雜推理的任務,如數(shù)學計算、問題解答和零樣本學習。它可以顯著提高模型在解決這些問題時的透明度和準確性,對于教育、搜索引擎優(yōu)化和智能家居等領域的應用有著巨大的潛力。

9. Reprompting

Reprompting是一種自動化的鏈式思考提示推斷算法,它通過吉布斯采樣(Gibbs sampling)來自動學習給定任務的CoT配方,無需人工干預。該算法通過迭代采樣新配方,使用先前采樣的配方作為父提示來解決其他訓練問題,從而推斷出對于一組訓練樣本始終有效的CoT配方。

Reprompting的核心思想是通過迭代采樣來發(fā)現(xiàn)有效的CoT提示,這些提示可以在訓練集上優(yōu)化,并作為解決未見測試問題的有效CoT提示。這種方法使得大型語言模型(LLMs)能夠在沒有人工指導的情況下解決復雜的推理任務。Reprompting還支持模型組合,即使用不同的LLMs來初始化和采樣新的配方,這可以通過使用一個更強的LLM來生成初始CoT解決方案,然后使用一個較弱的LLM來優(yōu)化自身提示,從而顯著提高較弱模型的性能。

10. Agent-Instruct

Agent-Instruct是一個可擴展的代理框架,用于自動創(chuàng)建大量多樣化和高質(zhì)量的合成數(shù)據(jù)。這個框架專注于創(chuàng)建示范和反饋數(shù)據(jù),只需要原始文檔作為輸入。它被設計用于“生成教學”(Generative Teaching),即通過強大的模型創(chuàng)建數(shù)據(jù)來教授另一個模型新技能或行為。

主要流程

  • 種子收集(Seed Collection):收集各種初始資源,如教科書章節(jié)、網(wǎng)絡文章和代碼片段,作為創(chuàng)建新指令的基礎材料。
  • 內(nèi)容轉(zhuǎn)換(Content Transformation):專業(yè)代理處理每個種子,將其轉(zhuǎn)換為便于創(chuàng)建指令的中間形式。
  • 種子指令生成(Seed Instruction Generation):多個代理使用轉(zhuǎn)換后的種子生成廣泛的指令。
  • 指令優(yōu)化(Instruction Refinement):通過迭代過程提高生成指令的復雜性和質(zhì)量。

Agent-Instruct通過自動化流程生成高質(zhì)量的合成數(shù)據(jù),用于后訓練語言模型,以教授新技能或行為,從而提高模型在各種任務上的性能。

11. MetaCoT

MetaCoT是一種在混合任務場景中提升大型語言模型(LLMs)泛化能力的方法。它通過思維鏈(CoT)提示技術,生成中間推理鏈作為得出答案的依據(jù)。MetaCoT的核心思想是彌補CoT提示方法在使用LLMs時的性能與泛化之間的差距。MetaCoT主要包括三個階段:場景識別、示例選擇和答案推導。

  • 場景識別(Scenario Identification):這個階段通過抽樣不同的問題作為上下文學習示例,幫助自動根據(jù)輸入問題分類場景。
  • 示例選擇(Demonstration Selection):根據(jù)第一階段獲得的場景,從池中構(gòu)建多樣化的示例。
  • 答案推導(Answer Derivation):這個階段使用先前獲取的示例對輸入問題進行最終的答案推斷。

12. COSP

COSP(Consistency-based Self-Adaptive Prompting)是由Wan等人在2023年提出的一種用于改善零樣本(zero-shot)鏈式推理(chain-of-thought reasoning)的方法。這種方法的核心在于它不需要手工制作的響應或真實標簽,而是通過從大型語言模型(LLM)的零樣本輸出中選擇和構(gòu)建示例集。COSP通過結(jié)合一致性、多樣性和重復性的標準來選擇示例。

COSP使用答案熵作為選擇標準之一,其思想是利用熵的概念來衡量答案的不確定性或多樣性。在COSP中,答案熵被用作一個代理指標,用于評估不同任務中答案的正確性,其中低熵與正確性正相關。具體來說,COSP在第一階段執(zhí)行零樣本推理,并計算歸一化熵,以評估不同解碼路徑產(chǎn)生的預測的一致性。歸一化熵是通過計算預測答案的分布的熵來得到的,如果所有預測都不同,則熵達到最大值;如果預測集中,則熵值較低。通過這種方式,COSP能夠識別出那些具有高一致性(即低熵)的預測,并將它們作為構(gòu)建示例集的候選。

總結(jié)來說,COSP通過答案熵來評估LLM輸出的一致性,并基于此來選擇用于構(gòu)建示例集的答案,從而提高零樣本推理的性能。

13. LogiCoT

LogiCoT(Logical Chain-of-Thought Instruction-Tuning)是一種新的指令調(diào)整數(shù)據(jù)集,專為GPT-4設計的邏輯鏈式推理能力。它旨在通過一系列指令來提升模型的邏輯推理能力,這些指令能夠引導GPT-4生成鏈式推理的理由。LogiCoT的核心在于利用GPT-4的能力來生成高質(zhì)量的輸出,這些輸出既包含符號推理也包含多步驟的鏈式推理,為增強AI模型的邏輯推理能力提供了一個全面而細致的資源。

LogiCoT的構(gòu)建是一個多階段的過程,它使用GPT-4作為一個教學助手。首先,選擇合適的種子數(shù)據(jù),這些數(shù)據(jù)包含正確的輸出和可選的鏈式推理鏈。然后,將這些任務轉(zhuǎn)化為清晰、明確的提示,以激發(fā)GPT-4的邏輯推理能力。接著,將種子數(shù)據(jù)和相應的指令結(jié)合起來,輸入到GPT-4中以生成響應。GPT-4的輸出由正確的標簽和推理鏈引導,最終使用正確的輸出和GPT-4的響應作為指令數(shù)據(jù)。

LogiCoT通過指令調(diào)整方案對LLaMA-7b模型進行了微調(diào),結(jié)果表明,與最先進的指令調(diào)整模型相比,LogiCoT在邏輯推理基準測試和以人為中心的基準測試上都顯示出顯著的性能提升。這項工作與最近的研究表明,當小型語言模型專門針對目標鏈式推理任務時,它們可以實現(xiàn)競爭性的多步推理能力。

總的來說,LogiCoT通過結(jié)合邏輯推理和GPT-4的生成能力,為AI系統(tǒng)在邏輯推理任務上的能力提升設定了新的標準。

14.Role-Play Prompting

Role-Play Prompting(角色扮演提示)是一種提示方法,它通過給大型語言模型(LLMs)分配一個角色,如“老師”或“銷售員”,來指導響應的風格、語氣和焦點。這種方法可以增強文本的清晰度和準確性,通過與角色對齊來提高推理和解釋任務的表現(xiàn)。角色扮演提示適用于廣泛的任務,如寫作、推理和基于對話的應用,并且可以定制響應以適應特定的上下文。

在角色扮演提示中,最佳實踐包括使用非親密角色、性別中立術語,并采用兩步方法以獲得更好的結(jié)果。然而,這種方法的限制在于它可能會強化刻板印象,并且嚴重依賴于模型訓練數(shù)據(jù)中角色表示的質(zhì)量。

角色扮演提示的核心在于通過分配角色給LLM來引導其行為,從而增強輸出的風格、準確性和深度。無論是為了某種特定的語氣、提高清晰度還是引出復雜和微妙的響應,角色扮演提示都可以提供幫助。通過遵循最佳實踐并意識到潛在的陷阱,你可以充分利用角色扮演提示,使你與語言模型的互動更加有效,并滿足特定需求。

15. Synthetic Prompting

Synthetic Prompting是一種用于提升大型語言模型(LLMs)推理能力的技術。它通過利用少量手工制作的示例來提示模型自我生成更多的示例,并選擇有效的演示來激發(fā)更好的推理。這種方法在生成新示例時交替進行反向和正向過程。

  • 反向過程(Backward Process):在這個步驟中,模型根據(jù)采樣的推理鏈生成一個問題,確保這個問題是可以解決且清晰的。
  • 正向過程(Forward Process):在這一步,模型為合成的問題產(chǎn)生一個更詳細的推理鏈,提高示例的質(zhì)量。

Synthetic Prompting通過這種方式,可以顯著提高LLMs在數(shù)值推理、算法推理和符號推理等任務上的表現(xiàn),相比于現(xiàn)有的提示技術,可以達到高達15.6%的絕對增益。

此外,Synthetic Prompting還提出了一種基于簇內(nèi)復雜度的選擇方案,旨在通過聚類它們并從每個簇中選擇最復雜的一個(推理鏈最長的那一個),來最大化演示的多樣性和信息量。

16. AutoMate CoT

AutoMate CoT是一種自動化構(gòu)建大型語言模型(LLMs)推理鏈提示(Chain-of-Thought, CoT)的方法。這種方法的核心在于減少人工設計推理鏈的需要,通過自動化的方式生成和選擇推理鏈,以提高模型在復雜推理任務中的表現(xiàn)。

  • 自動化推理鏈生成:AutoMate CoT能夠自動從少量標注數(shù)據(jù)集中增強推理鏈,并修剪低質(zhì)量的鏈,構(gòu)建基于標簽的機器生成推理鏈的候選池。
  • 聚類和抽樣:AutoMate CoT包括兩個主要階段。首先是聚類階段,將給定數(shù)據(jù)集的問題劃分為幾個簇。其次是抽樣階段,從每個簇中選擇一個代表性問題,并使用簡單的啟發(fā)式方法使用Zero-Shot-CoT生成其推理鏈。
  • 質(zhì)量控制:由于Zero-Shot-CoT生成的推理鏈可能包含錯誤,AutoMate CoT提出了一些緩解策略,通過后處理質(zhì)量控制來生成可用的推理鏈。

17. Explanation-Selection

Explanation-Selection(解釋選擇)是一個在可解釋人工智能(XAI)領域中的關鍵技術,它涉及到從多個可能的解釋中選擇最合適的一個來解釋人工智能系統(tǒng)的行為或決策。以下是關于Explanation-Selection的一些關鍵點:

  • 自動化推理與解釋選擇:在XAI領域,自動化推理技術是核心,它幫助構(gòu)建對AI系統(tǒng)的信任,超越了單純的預測準確性和魯棒性。Explanation-Selection技術結(jié)合了機器學習和自動化推理,用于生成和選擇解釋,以促進科學發(fā)現(xiàn)的過程。
  • 解釋選擇問題分類:提出了一個基于社會學和認知科學見解的解釋選擇問題的分類體系,這個體系包含了現(xiàn)有的概念,并引入了新屬性。
  • 解釋的期望屬性:解釋選擇問題的研究相對較少,導致文獻中存在冗余和重疊的概念。為了解決這些問題,研究者們從社會科學中識別出一組可以用來指導解釋選擇的期望屬性,包括必要性、充分性、最小性和普遍性等。
  • 與因果關系和溯因理論的聯(lián)系:解釋選擇與依賴理論的因果關系有關,也與溯因理論緊密相關,后者是皮爾斯提出的除了演繹和歸納之外的第三種推理模式。
  • 解釋選擇的應用:在實際應用中,不同的解釋可以導致模型性能的顯著差異。未經(jīng)針對特定任務調(diào)整的解釋,如非專家編寫的現(xiàn)成解釋,可能導致平庸的性能。因此,優(yōu)化解釋注入提示成為一個黑盒問題,研究者們提出了一個兩階段框架來有效地搜索可能獲得高分的解釋組合。
  • 使用未標記數(shù)據(jù)進行解釋選擇:在鏈式思考提示中,可以使用未標記數(shù)據(jù)來優(yōu)化解釋。首先為提示中的每個示例生成候選解釋集,然后通過兩階段框架找到有效的解釋組合。首先根據(jù)兩個代理指標(對數(shù)似然和新示例上的準確性)評估每個上下文示例中的解釋,然后搜索解釋組合以找到在銀標發(fā)展集上表現(xiàn)良好的那一個。
  • 實驗結(jié)果:在四個文本推理任務中,包括問答、數(shù)學推理和自然語言推理,結(jié)果表明代理指標與真實準確性相關,并且整體方法可以有效改進提示,超過眾包注釋和簡單搜索策略。

綜上所述,Explanation-Selection是一個復雜的過程,它涉及到從多個可能的解釋中選擇最佳解釋,以提高AI系統(tǒng)的可解釋性和性能。通過自動化推理和科學的解釋選擇,可以更好地理解和信任AI系統(tǒng)。

18. BoostedPrompt

BoostedPrompt是一種用于大型語言模型(LLMs)的提示集成方法,它通過使用一個小數(shù)據(jù)集來構(gòu)建一組少量樣本提示(few-shot prompts),這些提示共同組成一個“增強提示集成”(boosted prompt ensemble)。這種方法的核心在于,每個提示的少量樣本例子都是逐步選擇的,以確保這些例子是“困難”的例子,即在前一步集成上的不確定性較高的例子。

BoostedPrompt的主要特點包括:

  • 逐步選擇困難樣本:對于每個提示,其少量樣本例子被選擇為前一步集成不確定的“困難”例子,這些例子是模型當前性能邊界之外的問題。
  • 優(yōu)于單一提示集成:在GSM8k和AQuA等數(shù)據(jù)集上,BoostedPrompt顯示出比單一提示輸出空間集成和裝袋提示空間集成更好的性能。
  • 訓練時和測試時版本:提出了BoostedPrompt的訓練時和測試時版本,這兩個版本使用不同級別的可用標注,并對該算法進行了詳細的實證研究。
  • 算法細節(jié):算法通過逐步迭代過程構(gòu)建增強的少量樣本提示集成,每一步都會添加新的提示以改善性能。
  • 在線BoostedPrompting:可以通過在線方式運行BoostedPrompting,即每當有新的多樣化提示可用時,就將其添加到提示集中。

總的來說,BoostedPrompt是一種創(chuàng)新的提示集成方法,它通過精心選擇和逐步構(gòu)建提示集來提高大型語言模型在復雜推理任務上的性能。

責任編輯:龐桂玉 來源: 簡單的機器學習
相關推薦

2024-12-19 09:48:07

2023-08-25 13:18:35

思維訓練

2025-03-12 09:48:19

2024-12-12 09:00:00

2025-03-24 13:45:56

2025-01-13 01:00:00

數(shù)據(jù)訓練AI

2025-03-17 08:15:00

AI技術模型

2025-02-07 16:07:39

2025-01-14 13:52:56

2023-09-25 10:04:37

模型AI

2018-08-30 18:30:19

區(qū)塊鏈思維中心化

2018-08-03 10:25:53

區(qū)塊鏈大數(shù)據(jù)比特幣

2024-11-11 11:05:00

大語言模型系統(tǒng)

2025-02-07 11:20:50

2024-11-12 13:40:00

2025-03-07 11:06:06

大型語言模型AICoD

2025-04-15 09:19:00

模型AI數(shù)據(jù)

2025-02-13 09:10:47

2024-09-23 08:24:06

CoT解密技術

2025-03-25 09:06:11

點贊
收藏

51CTO技術棧公眾號