自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多模型協(xié)作增強(qiáng)模型推理能力 原創(chuàng)

發(fā)布于 2024-9-3 14:40
瀏覽
0收藏

01、Corex Pushing the boundaries of complex reasoning through multi-model collaboration

Corex:通過多模型協(xié)作推動復(fù)雜推理的邊界

摘要:大型語言模型(LLMs)正以前所未有的速度發(fā)展,并在擁有世界知識的自然語言處理(NLP)領(lǐng)域展現(xiàn)了相當(dāng)?shù)哪芰?。受益于超大?guī)模的訓(xùn)練語料庫,單一的LLM能夠勝任典型的NLP任務(wù)。然而,其在執(zhí)行復(fù)雜任務(wù)時的表現(xiàn)仍受到其內(nèi)部表示的局限性約束。為進(jìn)一步突破這一邊界,我們引入了Corex,這是一套將LLM轉(zhuǎn)變?yōu)樽灾鞔淼男滦屯ㄓ貌呗裕氏冗M(jìn)行多代理協(xié)作以解決任務(wù)。受人類行為啟發(fā),Corex由包括討論、審查和檢索模式在內(nèi)的多種協(xié)作范式組成,共同致力于增強(qiáng)推理過程。這些范式促進(jìn)了任務(wù)無關(guān)的方法,使基于LLM的代理能夠“跳出框框思考”,從而克服常見錯誤并提供更好的解決方案。通過對四種不同類型推理任務(wù)的大量實(shí)驗(yàn),我們證明了協(xié)調(diào)多個代理協(xié)同工作比現(xiàn)有的強(qiáng)方法能夠產(chǎn)生更好的結(jié)果。進(jìn)一步的分析揭示了Corex的成本效益,同時探索了不同規(guī)模模型之間的協(xié)同作用,并促進(jìn)了注釋效率的提高。

多模型協(xié)作增強(qiáng)模型推理能力-AI.x社區(qū)圖片

圖1:在使用鏈?zhǔn)剿季S提示(CoT)和程序輔助語言模型(PAL)進(jìn)行推理任務(wù)時,LLMs中常見的三種錯誤。

Corex 是一種通過多模型協(xié)作來推動復(fù)雜推理能力的框架。其主要原理是將大型語言模型(LLMs)轉(zhuǎn)變?yōu)樽灾鞔恚⑼ㄟ^多模型協(xié)作來解決任務(wù)。Corex 的設(shè)計(jì)靈感來源于人類行為,尤其是多種認(rèn)知過程的交互和合作。通過引入“討論”(Discuss)、“審查”(Review)和“檢索”(Retrieve)三種主要模式,Corex 提供了一個多模型協(xié)作的通用方法,以提升推理過程的準(zhǔn)確性和可靠性。

Corex 的核心原理:

  1. 討論模式(Discuss Mode):在討論模式中,LLM 代理被隨機(jī)分為兩組,每組進(jìn)行多輪討論,以細(xì)化推理鏈和預(yù)測結(jié)果。通過這種動態(tài)交互,代理可以不斷修改他們的觀點(diǎn)并達(dá)成共識,最終由一個裁判(Judge)評估并決定最優(yōu)的答案。
  2. 審查模式(Review Mode):審查模式通過多輪審查和反饋來改進(jìn)初始推理鏈和代碼。一個主要代理生成初步的推理鏈和預(yù)測結(jié)果,其他代理逐輪審查并提供改進(jìn)意見,最終得出更為可靠的答案。
  3. 檢索模式(Retrieve Mode):檢索模式旨在從多個推理鏈和預(yù)測結(jié)果中選擇最符合事實(shí)的組合。檢索代理通過對比推理鏈與預(yù)測結(jié)果的一致性,評分并選擇最可靠的答案。

Corex 在多個推理任務(wù)中表現(xiàn)優(yōu)異,尤其是在數(shù)學(xué)推理、符號推理、常識推理和半結(jié)構(gòu)化推理任務(wù)中,展示了較強(qiáng)的性能提升。此外,Corex 還在成本效益和注釋效率方面具有顯著優(yōu)勢。

這種協(xié)作方法旨在超越單一模型推理的局限,通過多模型的相互協(xié)作,解決復(fù)雜的推理任務(wù)。

多模型協(xié)作增強(qiáng)模型推理能力-AI.x社區(qū)圖片

圖2:Corex的直觀示意圖,展示了利用基于LLM的代理協(xié)作解決問題的過程。策略包括討論、審查和檢索模式,利用推理過程和代碼生成。該框架促進(jìn)了模型之間的互動,營造出一個協(xié)作環(huán)境,以得出一個經(jīng)過充分推理的答案。

使用 Corex 框架的具體例子:

任務(wù):假設(shè)我們有一個數(shù)學(xué)推理問題:

“Vincent 買了 10 本關(guān)于動物的書,1 本關(guān)于外太空的書,3 本關(guān)于火車的書。每本書的價格是 16 美元。Vincent 總共花了多少錢?”

我們可以使用 Corex 的三個模式來處理這個問題。

  1. 討論模式(Discuss Mode)

在討論模式下,多個 LLM 代理被分為兩組,每組進(jìn)行討論以推導(dǎo)出答案。

  • 第一輪討論:
  • 代理1:Vincent 總共買了 14 本書(10 + 1 + 3),所以他花了 14 16 = 224 美元。
  • 代理2:Vincent 買了 10 + 1 + 3 = 14 本書,花費(fèi)了 224 美元。

兩個代理都同意答案是 224 美元。

  • 第二輪討論:
  • 代理3:Vincent 買了 14 本書,所以花了 14 16 = 224 美元。
  • 代理4:Vincent 買了 14 本書,花費(fèi)了 224 美元。

兩組的答案一致,討論結(jié)束,裁判代理確認(rèn)最終答案為 224 美元。

  1. 審查模式(Review Mode)

在審查模式下,一個代理生成初始答案,其他代理對其進(jìn)行審查和改進(jìn)。

  • 初始代理生成答案:
  • 代理1:計(jì)算總價為 14 16 = 224 美元。
  • 審查代理檢查答案:
  • 代理2:檢查發(fā)現(xiàn)計(jì)算是正確的,沒有錯誤。
  • 代理3:再次檢查并確認(rèn) 224 美元是正確的答案。

最終,經(jīng)過審查的答案仍然是 224 美元。

  1. 檢索模式(Retrieve Mode)

在檢索模式下,多個代理獨(dú)立生成答案,然后由檢索代理選擇最可靠的答案。

  • 代理們獨(dú)立生成答案:
  • 代理1:14 16 = 224 美元。
  • 代理2:計(jì)算錯誤,給出了 160 美元的錯誤答案。
  • 代理3:正確計(jì)算出 224 美元。
  • 代理4:再次計(jì)算出正確的 224 美元。
  • 檢索代理選擇最可靠的答案:
  • 檢索代理分析所有答案,發(fā)現(xiàn)代理1和代理3的答案一致且正確,因此選擇 224 美元作為最終答案。

通過這些模式的協(xié)同工作,Corex 框架能夠有效地減少錯誤并提升答案的可靠性。即使某個代理給出了錯誤的答案,其他代理通過討論、審查和檢索可以糾正這些錯誤,確保最終的答案是正確的。

Sun Q, Yin Z, Li X, et al. Corex: Pushing the boundaries of complex reasoning through multi-model collaboration[J]. arXiv preprint arXiv:2310.00280, 2023.

Shark-NLP, Shanghai AI Laboratory

Fudan University

National University of Singapore

East China Normal University

The University of Hong Kong

————————————————————————————————————

02、Brainstorming Brings Power to Large Language Models of Knowledge Reasoning

頭腦風(fēng)暴為大型語言模型的知識推理賦能

摘要:大型語言模型(LLMs)在語言生成、文本理解和知識推理方面展現(xiàn)了驚人的能力。雖然單一強(qiáng)大的模型已經(jīng)能夠處理多種任務(wù),但依賴單一視角可能導(dǎo)致結(jié)果的偏差和不穩(wěn)定。最近的研究通過引入多模型協(xié)作進(jìn)一步提升了模型在廣泛任務(wù)上的推理能力。然而,不同能力的模型可能會在同一問題上產(chǎn)生沖突的答案,如何合理地從多個候選模型中獲得正確答案成為一個具有挑戰(zhàn)性的問題。本文提出了一種基于提示的多模型頭腦風(fēng)暴方法。它將不同模型納入一個團(tuán)隊(duì)進(jìn)行頭腦風(fēng)暴,通過多輪推理闡述和重新推理,最終在團(tuán)隊(duì)內(nèi)達(dá)成共識答案。我們在三種不同類型的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明頭腦風(fēng)暴顯著提升了邏輯推理和事實(shí)提取的有效性。此外,我們發(fā)現(xiàn)兩個小參數(shù)模型通過頭腦風(fēng)暴可以達(dá)到接近大參數(shù)模型的準(zhǔn)確性,這為大型語言模型的分布式部署提供了一種新的解決方案。

多模型協(xié)作增強(qiáng)模型推理能力-AI.x社區(qū)圖片

原理:

  1. 多模型頭腦風(fēng)暴
  • 核心思想:方法論的核心是利用多種異構(gòu)的大型語言模型(LLMs)進(jìn)行頭腦風(fēng)暴。通過結(jié)合不同模型在不同語料庫上訓(xùn)練所展現(xiàn)的多樣化優(yōu)勢,提升推理表現(xiàn)。
  • 過程:
  • 首先,將問題呈現(xiàn)給多個模型,而不提供額外的上下文信息。
  • 如果模型給出不同的答案,將其他模型的推理過程整合到下一輪的提示中。
  • 這個迭代過程會持續(xù)進(jìn)行,模型之間共享各自的推理,最終目標(biāo)是達(dá)成共識。
  1. 頭腦風(fēng)暴中的共識
  • 達(dá)成共識:這個過程會持續(xù)進(jìn)行,直到所有模型給出相同的答案,或者達(dá)到最大頭腦風(fēng)暴輪數(shù)(由??max_brainstorming_round?? 參數(shù)定義)。
  • 最終答案:如果在最大輪數(shù)后仍未達(dá)成共識,則選擇模型中最常見的答案作為最終結(jié)果。這確保了最終答案能夠反映所有模型的集體推理。
  1. 對話截?cái)嗖呗?/li>
  • 效率管理:為了管理對話長度并確保處理效率,方法論中包括了對話截?cái)嗖呗浴H保留最新的幾輪對話用于進(jìn)一步的頭腦風(fēng)暴。
  • 影響:這一策略有助于減少輸入的詞元長度,加快頭腦風(fēng)暴過程,同時不影響推理的準(zhǔn)確性。
  1. 整體方法
  • 自動提示:與傳統(tǒng)的手動提示方法(如思維鏈CoT)不同,頭腦風(fēng)暴方法通過利用不同模型的輸出作為其他模型的提示,減少了手動標(biāo)注的需求。
  • 知識交換:該方法促進(jìn)了模型之間的知識交換,從而帶來更健壯和準(zhǔn)確的推理過程。

這種方法旨在利用多個LLM的集體智慧,提升復(fù)雜推理任務(wù)中的準(zhǔn)確性和可靠性。

多模型協(xié)作增強(qiáng)模型推理能力-AI.x社區(qū)圖片

例子:

假設(shè)我們有一個數(shù)學(xué)問題:"如果弗雷德里克有10株植物,托尼的植物比弗雷德里克多60%,而香卓拉比托尼少7株,香卓拉有多少株植物?"

  1. 第一輪頭腦風(fēng)暴
  • 模型A 經(jīng)過推理后回答:香卓拉有 9株植物。
  • 模型B 經(jīng)過推理后回答:香卓拉有 19株植物。
  • 模型C 經(jīng)過推理后回答:香卓拉有 9株植物。

在這輪中,模型A和模型C給出的答案是相同的,但與模型B不同。

  1. 第二輪頭腦風(fēng)暴
  • 現(xiàn)在,模型A、B和C相互分享了它們的推理過程。例如,模型B可能得知其他兩個模型的推理步驟,并發(fā)現(xiàn)自己的計(jì)算有誤。
  • 模型B 經(jīng)過再次推理后更新答案:香卓拉有 9株植物。
  1. 達(dá)成共識
  • 在第二輪中,所有模型都達(dá)成了一致的答案:香卓拉有 9株植物。
  1. 對話截?cái)嗖呗?/li>
  • 由于不需要保留所有輪次的對話,只保留最后一輪的推理過程,從而減少計(jì)算開銷。
  1. 最終答案
  • 經(jīng)過兩輪頭腦風(fēng)暴,最終所有模型達(dá)成共識,得出一致答案:香卓拉有9株植物。

這個例子說明了如何通過多個模型的頭腦風(fēng)暴,從一開始的不同答案,通過相互分享和修正推理,最終達(dá)成共識并得出正確答案。這種方法尤其在面對復(fù)雜的邏輯推理或需要精確知識的場景中,顯著提高了推理的準(zhǔn)確性。

Qin Z, Wang C, Qin H, et al. Brainstorming Brings Power to Large Language Models of Knowledge Reasoning[J]. arXiv preprint arXiv:2406.06561, 2024.

Beijing Nomal University

————————————————————————————————————

03、EffiQA Efficient Question-Answering with Strategic Multi-Model Collaboration on Knowledge Graphs

EffiQA:基于知識圖譜的多模型協(xié)作高效問答框架

摘要:盡管大型語言模型(LLM)在自然語言處理方面表現(xiàn)出顯著的能力,但它們在涉及知識圖譜(KG)的復(fù)雜多步推理任務(wù)中仍然表現(xiàn)不佳?,F(xiàn)有的將LLM與KG結(jié)合的方法要么未能充分利用LLM的推理能力,要么由于緊密耦合導(dǎo)致了高昂的計(jì)算成本。為了解決這些問題,我們提出了一種名為EffiQA的新型協(xié)作框架,它通過迭代的方式在性能和效率之間取得平衡。EffiQA包括三個階段:全局規(guī)劃、有效的KG探索和自我反思。具體來說,EffiQA利用LLM的常識能力,通過全局規(guī)劃來探索潛在的推理路徑。然后,它將語義剪枝任務(wù)卸載給一個小型插件模型,以實(shí)現(xiàn)高效的KG探索。最后,探索結(jié)果會被反饋給LLM進(jìn)行自我反思,從而進(jìn)一步改進(jìn)全局規(guī)劃和KG探索。多項(xiàng)KBQA基準(zhǔn)測試的實(shí)驗(yàn)證據(jù)表明,EffiQA在推理精度和計(jì)算成本之間實(shí)現(xiàn)了最佳平衡。我們希望所提出的新框架能夠通過重新定義LLM與KG的整合方式,為高效的知識密集型查詢開辟道路,并促進(jìn)未來在基于知識的問答領(lǐng)域的研究。

多模型協(xié)作增強(qiáng)模型推理能力-AI.x社區(qū)圖片

原理:

EffiQA是一種新型的協(xié)作框架,旨在通過戰(zhàn)略性的多模型協(xié)作來提高在知識圖譜上的問答效率。該框架主要包括三個階段:全局規(guī)劃、有效的知識圖譜(KG)探索和自我反思。下面是每個階段的詳細(xì)原理:

  1. 全局規(guī)劃:在這個階段,大型語言模型(LLM)利用其常識能力來對問題進(jìn)行分解,將其轉(zhuǎn)化為若干語義上連貫的路徑,并生成探索指令,以便在知識圖譜的結(jié)構(gòu)限制之外,探索潛在的推理路徑。這一階段的目的是擴(kuò)展搜索空間并識別可能的推理路徑。
  2. 有效的知識圖譜探索:在這一階段,通過一個小型插件模型來進(jìn)行語義剪枝,從而在知識圖譜搜索過程中去除不相關(guān)的節(jié)點(diǎn)和路徑。該插件模型根據(jù)全局規(guī)劃階段生成的探索指令,執(zhí)行廣度優(yōu)先搜索和語義匹配。這個過程可以理解為在一個智能代理中使用了增強(qiáng)的查詢策略,該策略能夠在語義上有效剪枝并僅擴(kuò)展最有希望的圖譜區(qū)域,從而顯著減少搜索空間。
  3. 自我反思:在完成探索之后,LLM會對探索結(jié)果進(jìn)行自我反思,從而優(yōu)化全局規(guī)劃和知識圖譜探索。這一階段的目標(biāo)是通過反復(fù)迭代的方式,進(jìn)一步改進(jìn)全局規(guī)劃和探索策略,確保最終的答案既準(zhǔn)確又有效。

通過這種迭代的方式,EffiQA能夠在提高推理準(zhǔn)確性的同時,降低計(jì)算成本。它通過將LLM的全局指導(dǎo)與知識圖譜的受限語義剪枝緊密結(jié)合,實(shí)現(xiàn)了較為平衡的整合,從而在KBQA(基于知識庫的問答)任務(wù)中重新定義了高效知識密集型查詢的標(biāo)準(zhǔn)。

實(shí)驗(yàn)結(jié)果表明,EffiQA能夠在多個基準(zhǔn)數(shù)據(jù)集上取得較好的平衡,既提高了推理精度,也降低了計(jì)算成本。這種方法不同于以往的緊密耦合或松散耦合的方法,通過結(jié)合LLM和KG的優(yōu)勢,既提升了推理性能,又改善了操作效率。

多模型協(xié)作增強(qiáng)模型推理能力-AI.x社區(qū)圖片

圖2:EffiQA的示例工作流程包括三個階段。在第一階段,LLM將問題分解,并根據(jù)問題的邏輯生成包含模擬答案和操作的指令。在第二階段,EffiQA使用插件模型來執(zhí)行這些指令,進(jìn)行高效的知識圖譜(KG)探索,并通過策略發(fā)現(xiàn)探索中的問題。在第三階段,LLM對探索過程中的問題進(jìn)行反思,執(zhí)行自我迭代的重新規(guī)劃,并在提供足夠信息后輸出答案。

一個具體的例子來說明其運(yùn)作過程:

例子:假設(shè)我們想要回答一個復(fù)雜的問題:“2023年獲得Seal商業(yè)可持續(xù)性獎的公司中,哪位CEO最年長?”

  1. 全局規(guī)劃:
  • 首先,EffiQA會使用LLM對這個問題進(jìn)行分解。例如,LLM可能會將問題分解為幾個子問題:“2023年獲得Seal商業(yè)可持續(xù)性獎的公司有哪些?”、“這些公司的CEO分別是誰?”、“這些CEO的出生年份是多少?”
  • LLM會生成一系列探索指令來指導(dǎo)后續(xù)的知識圖譜搜索,比如:“在知識圖譜中搜索與Seal獎相關(guān)的公司”,“查找這些公司的CEO信息”,“找到這些CEO的出生年份”。
  1. 知識圖譜探索:
  • 使用插件模型(一個小型的語義剪枝模型)來在知識圖譜中執(zhí)行搜索。該模型會根據(jù)LLM生成的指令,進(jìn)行廣度優(yōu)先搜索并進(jìn)行語義剪枝。
  • 插件模型可能首先找到與Seal商業(yè)可持續(xù)性獎相關(guān)的公司節(jié)點(diǎn),然后繼續(xù)搜索這些公司的CEO,并進(jìn)一步探索這些CEO的出生日期。
  • 例如,插件模型可能發(fā)現(xiàn)三個CEO分別是Bob、Alice和Charlie,他們的出生年份分別是1965年、1970年和1958年。
  1. 自我反思:
  • EffiQA會回顧探索的結(jié)果并進(jìn)行反思,以優(yōu)化回答流程。LLM將會檢查每一個推理路徑,以確保其與初始問題一致,并對結(jié)果進(jìn)行綜合分析。
  • 在這個例子中,LLM會比較發(fā)現(xiàn)的出生年份,最終得出結(jié)論:1965年出生的Bob Jordan是最年長的CEO。
  • 如果在這一過程中出現(xiàn)了路徑剪枝不當(dāng)或信息不足的問題,LLM會重新規(guī)劃和迭代探索,直到找到最優(yōu)解。

最終答案:通過上述步驟,EffiQA最終得出答案:“在2023年獲得Seal商業(yè)可持續(xù)性獎的公司中,最年長的CEO是Bob Jordan?!?/p>

這個例子展示了EffiQA如何通過全局規(guī)劃、有效的知識圖譜探索和自我反思,逐步縮小搜索空間,并最終高效地找到準(zhǔn)確答案的過程。

Dong Z, Peng B, Wang Y, et al. EffiQA: Efficient Question-Answering with Strategic Multi-Model Collaboration on Knowledge Graphs[J]. arXiv preprint arXiv:2406.01238, 2024.

National Key Laboratory of Parallel and Distributed Computing, College of Computer Science and Technology

National University of Denfense Technology

?

本文轉(zhuǎn)載自公眾號AIRoobt ,作者:AIRoobt

原文鏈接:????https://mp.weixin.qq.com/s/uxB7DOuCGMimQoQlZ_Pz8g???

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦