微軟研究院MRP:大模型動(dòng)態(tài)選擇最佳解題策略的元推理提示,比CoT、ToT更有效
大型語(yǔ)言模型(LLMs)在自然語(yǔ)言理解和生成方面表現(xiàn)出色,但面對(duì)現(xiàn)實(shí)世界問(wèn)題的多樣性和復(fù)雜性,單一靜態(tài)方法的推理能力有限?,F(xiàn)有的推理技術(shù),如思維鏈(Chain-of-Thoughts)、思維樹(shù)(Tree-of-Thoughts)等,雖然在特定任務(wù)上有所提升,但未能在不同任務(wù)中持續(xù)實(shí)現(xiàn)最佳性能。
人類在認(rèn)知過(guò)程中通過(guò)元推理(meta-reasoning)動(dòng)態(tài)調(diào)整策略,以高效分配認(rèn)知資源。受此啟發(fā),提出了元推理提示(Meta-Reasoning Prompting, MRP),以賦予LLMs類似的適應(yīng)性推理能力。
元推理提示(Meta-Reasoning Prompting,簡(jiǎn)稱MRP)的示意圖,以及與標(biāo)準(zhǔn)推理和傳統(tǒng)推理方法的比較差異。
MRP如何工作?
- 評(píng)估階段:模型先看看有哪些解題方法可用,然后根據(jù)問(wèn)題的特點(diǎn),評(píng)估哪種方法可能最有效。
- 選擇階段:模型根據(jù)評(píng)估結(jié)果,選擇最合適的解題方法。
- 應(yīng)用階段:使用選定的方法來(lái)解決問(wèn)題。
通過(guò)使用多個(gè)廣泛使用的基準(zhǔn)測(cè)試評(píng)估MRP的有效性,結(jié)果表明MRP在不同任務(wù)中的表現(xiàn)達(dá)到或接近最佳狀態(tài)。MRP特別擅長(zhǎng)需要結(jié)合不同推理策略的任務(wù),在更大的模型如GPT-4中表現(xiàn)尤為出色。
使用GPT4進(jìn)行的實(shí)驗(yàn):使用元推理提示(Meta-Reasoning Prompting)與其他獨(dú)立方法在基準(zhǔn)測(cè)試上的性能比較。加粗表示最佳性能,下劃線表示次佳性能。
(a) 不同基準(zhǔn)測(cè)試上的方法比較顯示,引導(dǎo)大型語(yǔ)言模型(LLM)動(dòng)態(tài)選擇適當(dāng)?shù)耐评矸椒?,使元推理提示(MRP)在所有任務(wù)中持續(xù)實(shí)現(xiàn)更好的性能。(b) 將特定推理方法應(yīng)用于所有基準(zhǔn)測(cè)試的算術(shù)平均和調(diào)和平均性能表明,MRP在總體評(píng)估中始終表現(xiàn)卓越。
在GSM8K基準(zhǔn)測(cè)試上的方法性能
Meta Reasoning for Large Language Models
https://arxiv.org/pdf/2406.11698
本文轉(zhuǎn)載自??PaperAgent??
