自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ICLR 2023 | ReAct:首次結(jié)合Thought和Action提升大模型解決問(wèn)題的能力

發(fā)布于 2024-12-17 12:15
瀏覽
0收藏

?大家好,我是HxShine。

今天分享一篇普林斯頓大學(xué)和Google Research, Brain Team合作的一篇文章,REAC T: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS[1]:在語(yǔ)言模型中協(xié)同Reasoning推理和Action行動(dòng)。

其在大語(yǔ)言模型中將Thought推理過(guò)程和Action行動(dòng)結(jié)合,一方面可以通過(guò)Action從外部獲取額外信息,另一方面可以通過(guò)Thought過(guò)程,細(xì)化任務(wù),搜索有用信息,過(guò)濾無(wú)用信息,從而來(lái)提高大模型的表現(xiàn)。

一、概述

Title:REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

論文地址:https://arxiv.org/abs/2210.03629

代碼:https://github.com/ysymyth/ReAct.git

其他:https://react-lm.github.io/

1.Motivation

大模型的的推理能力(例如思想鏈提示CoT)和Action規(guī)劃(例如Action計(jì)劃生成)主要作為單獨(dú)的領(lǐng)域來(lái)研究,沒(méi)有將他們結(jié)合起來(lái)。

2.Methods

本文提出ReAct,將想鏈提示CoT和Action計(jì)劃生成結(jié)合起來(lái),相互補(bǔ)充增強(qiáng),提升大模型解決問(wèn)題的能力。其中CoT的Reasoning推理跟蹤有助于模型誘導(dǎo)、跟蹤和更新行動(dòng)計(jì)劃以及處理異常。Action操作允許它與知識(shí)庫(kù)或環(huán)境等外部來(lái)源接口并收集其他信息。

ICLR 2023 | ReAct:首次結(jié)合Thought和Action提升大模型解決問(wèn)題的能力-AI.x社區(qū)

總結(jié):主要有Thought、Act、Obs幾個(gè)步驟,Thought引入思維過(guò)程思考下一步該干什么,Act執(zhí)行相關(guān)動(dòng)作,Obs是觀察每一步的結(jié)果。

3.Conclusion

  1. ReAct可以提高人類可解釋性和可信度,并取得了sota的成績(jī)。

更好的效果。通過(guò)對(duì)多跳問(wèn)答、事實(shí)核查和交互式?jīng)Q策任務(wù)的多樣化實(shí)驗(yàn),ReAct通過(guò)可解釋的決策軌跡帶來(lái)更好的性能

可解釋性強(qiáng)。ReAct通過(guò)與簡(jiǎn)單的維基百科API交互,生成類似人類的任務(wù)解決軌跡,比沒(méi)有推理軌跡的基線更容易解釋。

  1. 克服了CoT思想鏈推理中普遍存在的幻覺(jué)和錯(cuò)誤傳播問(wèn)題。
  2. 在AlfWorld和WebShop數(shù)據(jù)集上,ReAct比模仿和強(qiáng)化學(xué)習(xí)方法(IM-RL)的絕對(duì)成功率分別高34%和10%
  3. 其他結(jié)論:1)從更多高質(zhì)量的人工注釋中學(xué)習(xí)進(jìn)行微調(diào)可以進(jìn)一步提高性能。2)擴(kuò)大ReAct與多任務(wù)訓(xùn)練的規(guī)模,并將其與強(qiáng)化學(xué)習(xí)等互補(bǔ)范例相結(jié)合,可以產(chǎn)生更強(qiáng)的Agent。

二、詳細(xì)內(nèi)容

1.HotpotQA數(shù)據(jù)集介紹

概述:HotPotQA數(shù)據(jù)集的主要目標(biāo)是測(cè)試模型進(jìn)行多跳推理的能力,并回答需要從多個(gè)段落中匯總信息才能得出正確答案的復(fù)雜問(wèn)題。該數(shù)據(jù)集專注于提供具有挑戰(zhàn)性的問(wèn)題,要求深入理解上下文。

例子:

Context (multiple paragraphs):

Paragraph 1: The Eiffel Tower is a wrought-iron lattice tower located on the Champ de Mars in Paris, France. It was named after the engineer Gustave Eiffel, whose company designed and built the structure.
Paragraph 2: The tower is 324 meters tall, about the same height as an 81-story building. It was completed in 1889 and has become a global cultural icon of France.
Paragraph 3: Visitors can take elevators or climb the stairs to reach the tower's observation decks. The tower offers stunning panoramic views of Paris, making it one of the most popular tourist attractions in the world.

Question:

Question: When was the Eiffel Tower completed?

Answer:

Answer: The Eiffel Tower was completed in 1889.

特點(diǎn):

  • 多跳推理:?jiǎn)栴}的設(shè)計(jì)方式使得它們的答案無(wú)法從單個(gè)段落中得出。相反,它們需要從上下文中的多個(gè)段落中匯總信息。
  • 多樣的段落:每個(gè)問(wèn)題都附帶有多個(gè)文本段落,其中一些段落可能包含相關(guān)信息,而其他段落可能與回答問(wèn)題無(wú)關(guān)。
  • 支持性事實(shí):數(shù)據(jù)集還包括“支持性事實(shí)”,為模型提供有關(guān)回答問(wèn)題的相關(guān)段落的提示。
  • 解釋:除了答案之外,數(shù)據(jù)集還包括“解釋”,強(qiáng)調(diào)了對(duì)回答問(wèn)題至關(guān)重要的段落部分。這個(gè)特點(diǎn)使得該數(shù)據(jù)集在可解釋的人工智能研究中非常有用。

本文用到的例子:

ICLR 2023 | ReAct:首次結(jié)合Thought和Action提升大模型解決問(wèn)題的能力-AI.x社區(qū)

說(shuō)明:需要檢索多跳內(nèi)容才能得出最終結(jié)論。

2.本文使用的不同的方法的說(shuō)明

2.1 Act方法(沒(méi)有中間思維過(guò)程)

ICLR 2023 | ReAct:首次結(jié)合Thought和Action提升大模型解決問(wèn)題的能力-AI.x社區(qū)

2.2 CoT方法(沒(méi)有Action接入外部知識(shí))

ICLR 2023 | ReAct:首次結(jié)合Thought和Action提升大模型解決問(wèn)題的能力-AI.x社區(qū)

2.3 ReAct方法(既有中間Thought過(guò)程,又有Action接入外部知識(shí))

ICLR 2023 | ReAct:首次結(jié)合Thought和Action提升大模型解決問(wèn)題的能力-AI.x社區(qū)

3.實(shí)驗(yàn)結(jié)論

ICLR 2023 | ReAct:首次結(jié)合Thought和Action提升大模型解決問(wèn)題的能力-AI.x社區(qū)

方法說(shuō)明:

  • Standard(標(biāo)準(zhǔn)提示):刪除ReAct軌跡中的所有思想、行動(dòng)、觀察等步驟。
  • CoT(思想鏈提示):刪除行動(dòng)和觀察,保留思想,并作為僅用于推理的基線。
  • CoT-SC(self-consistency):利用自一致性[1]方法,在推理期間抽樣21個(gè)CoT軌跡,解碼溫度為0.7,并采用大多數(shù)投票得到答案。
  • Act:僅僅保留Agent提示(Act),它刪除了ReAct軌跡中的Thought思維過(guò)程,可以初步認(rèn)為其類似于WebGPT。
  • ReAct:本文的Thought + Action結(jié)合的方法。
  • ReAct → CoT-SC:當(dāng)ReAct未能在給定步驟內(nèi)返回答案時(shí),返回CoT-SC結(jié)果。
  • CoT-SC → ReAct:當(dāng)n個(gè)CoT-SC樣本中的大多數(shù)答案少于n/2次(即內(nèi)部知識(shí)可能無(wú)法自信地支持任務(wù))時(shí),返回ReAct結(jié)果。

ReAct vsCoT:這兩者是靈活性和事實(shí)性的權(quán)衡,CoT靈活性好,ReAct事實(shí)性更好。ReAct在Fever數(shù)據(jù)集優(yōu)于CoT(60.9對(duì)56.3),在HotpotQA上略微落后于CoT(27.4對(duì)29.4)。分別從ReAct和CoT(因此共200個(gè)示例)中隨機(jī)抽樣了50個(gè)正確和錯(cuò)誤答案的軌跡(由EM判斷)。一些關(guān)鍵觀察結(jié)果如下:

  • A)幻覺(jué)是CoT的一個(gè)嚴(yán)重問(wèn)題。導(dǎo)致在成功模式下的假陽(yáng)性率比ReAct(14%對(duì)6%)高得多,失敗的占比(56%)。相比之下,由于外部知識(shí)庫(kù)的訪問(wèn),ReActis的問(wèn)題解決軌跡更加可靠。
  • B)ReAct靈活性比CoT差。雖然交錯(cuò)推理、行動(dòng)和觀察步驟提高了ReAct的基礎(chǔ)性和可信度,但這種結(jié)構(gòu)性約束也降低了其制定推理步驟的靈活性。導(dǎo)致比CoT更高的推理錯(cuò)誤率。我們注意到,ReAct特有的一種頻繁錯(cuò)誤模式,即模型重復(fù)生成之前的想法和行動(dòng),我們將其歸類為“推理錯(cuò)誤”的一部分,因?yàn)槟P臀茨芡评硐乱徊讲扇∈裁葱袆?dòng)。
  • C)對(duì)于ReAct來(lái)說(shuō),通過(guò)搜索成功檢索信息知識(shí)至關(guān)重要。非信息搜索占錯(cuò)誤案例的23%,它使模型推理脫軌,并使其難以恢復(fù)和重新表述想法。這也許是事實(shí)性和靈活性之間的預(yù)期權(quán)衡,這激發(fā)了我們提出的結(jié)合兩種方法的策略。

結(jié)論:1)ReAct比Act提升大概在2個(gè)點(diǎn)左右,ReAct和CoT-SC(Self-Consistency)結(jié)合效果提升比較多,大概有8個(gè)點(diǎn)的提升。2)CoT靈活性好,ReAct事實(shí)性更好。

4.ReAct + FineTuning效果提升比較大

ICLR 2023 | ReAct:首次結(jié)合Thought和Action提升大模型解決問(wèn)題的能力-AI.x社區(qū)

說(shuō)明:1)左邊learning = prompt表示直接在In-context中引入樣本進(jìn)行學(xué)習(xí),對(duì)比standard、CoT、AcT、ReAct效果差異。2)右邊learning = finetune表示利用數(shù)據(jù)先f(wàn)ine-tuning模型,然后再對(duì)比standard、CoT、AcT、ReAct效果差異。

Fintune方法:使用ReAct生成的3000個(gè)正確答案軌跡(也適用于其他基線)來(lái)微調(diào)較小的語(yǔ)言模型(PaLM-8/62B),以根據(jù)輸入問(wèn)題/索賠為條件解碼軌跡(所有想法、行動(dòng)、觀察)詳情見(jiàn)附錄B.1。

結(jié)論1:模型參數(shù)量越小,未經(jīng)過(guò)FineTuning方法的ReAct表現(xiàn)越差,隨著模型尺寸變大,ReAct效果越來(lái)越好。說(shuō)明對(duì)于小模型,在prompt里面添加相關(guān)例子,模型可能不太能理解你的例子,這個(gè)和之前Google的文章提到的現(xiàn)象是一致的[3]。

結(jié)論2:同等模型大小下,ReAct + FineTuning效果比ReAct + prompt效果好非常多。例如同樣是62b的模型,F(xiàn)inetuning后指標(biāo)是39+,Prompt形式的是15+,提升了塊1倍,說(shuō)明利用FineTuning能極大的改善ReAct的效果。

5.其他實(shí)驗(yàn)

ICLR 2023 | ReAct:首次結(jié)合Thought和Action提升大模型解決問(wèn)題的能力-AI.x社區(qū)

數(shù)據(jù)集說(shuō)明:兩個(gè)基于語(yǔ)言的交互式?jīng)Q策任務(wù),ALFWorld和WebShop,這兩個(gè)任務(wù)都具有復(fù)雜的環(huán)境,要求算法能夠克服稀疏的獎(jiǎng)勵(lì)和長(zhǎng)期行動(dòng),要求高效的推理和行動(dòng)。

結(jié)論1:ReAct方法比其他方法都很不少,AlfWorld數(shù)據(jù)集上,ReAct vs Act = 71:45,比其他方法也好不少。如果沒(méi)有任何Thought,Act就不能正確地將目標(biāo)分解為更小的子目標(biāo),或者失去了對(duì)當(dāng)前環(huán)境狀態(tài)的跟蹤。

結(jié)論2:Webshop數(shù)據(jù)集合上,ReAct vs IL+RL = 40:28.7,ReAct更有可能通過(guò)推理來(lái)識(shí)別與指令相關(guān)的產(chǎn)品和選項(xiàng),來(lái)縮小噪聲觀察和行動(dòng)之間的差距。但是還是和人類專家的指標(biāo)差不少。

三、總結(jié)

  1. Act可以調(diào)用外部接口獲取更多信息,但是如果沒(méi)有Thought過(guò)程,一方面沒(méi)法將目標(biāo)分解為更小的目標(biāo),失去了對(duì)當(dāng)前環(huán)境的跟蹤。另一方面,ReAct可以通過(guò)推理來(lái)識(shí)別與指令相關(guān)的信息,過(guò)濾不相關(guān)的噪聲。
  2. ReAct vsCoT:這兩者是靈活性和事實(shí)性的權(quán)衡,CoT靈活性好,ReAct事實(shí)性更好。幻覺(jué)是CoT的一個(gè)嚴(yán)重問(wèn)題,因幻覺(jué)帶來(lái)的錯(cuò)誤推理占比比較高。Action和觀察步驟提高了ReAct的基礎(chǔ)性和可信度,但這種結(jié)構(gòu)性約束也降低了其制定推理步驟的靈活性。
  3. 在模型尺寸比較小的時(shí)候,在prompt中使用ReAct效果提升不大,隨著模型增大,效果越來(lái)越好這個(gè)和[3]觀察到的現(xiàn)象一致,可能只有大模型才能理解你在In-context中舉的例子。
  4. 利用推理正確的數(shù)據(jù),去構(gòu)建中間過(guò)程的數(shù)據(jù)集,這個(gè)是一個(gè)比較好的降低標(biāo)注成本方法[4],可以通過(guò)該方法低成本構(gòu)建大量的finetuning數(shù)據(jù)集。同時(shí)本文觀察的在模型大小為60B左右時(shí),F(xiàn)inetuning帶來(lái)的提升比prompt方法帶來(lái)的提升要高很多,說(shuō)明ReAct結(jié)合finetuning可能是一種比較好的方式來(lái)提高效果。

四、References

[1] Wang X, Wei J, Schuurmans D, et al. Self-consistency improves chain of thought reasoning in language models[J]. arXiv preprint arXiv:2203.11171, 2022.

[2] Yao S, Zhao J, Yu D, et al. React: Synergizing reasoning and acting in language models[J]. arXiv preprint arXiv:2210.03629, 2022.

[3] Wei J, Wei J, Tay Y, et al. Larger language models do in-context learning differently[J]. arXiv preprint arXiv:2303.03846, 2023.

[4] Zelikman E, Wu Y, Mu J, et al. Star: Bootstrapping reasoning with reasoning[J]. Advances in Neural Information Processing Systems, 2022, 35: 15476-15488.

[5] state of gpt: https://karpathy.ai/stateofgpt.pdf

本文轉(zhuǎn)載自??NLP PaperWeekly??,作者:  HxShine ?


標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦