從openAI最新模型GPT-o1再談思維鏈(Cot)技術(shù),大模型該怎么提升其邏輯推理能力? 原創(chuàng)
“ 推理能力是大模型邁向AGI的必經(jīng)之路 ”
最近openAI發(fā)布了號(hào)稱(chēng)史上最強(qiáng)模型——o1,其具有強(qiáng)大的邏輯推理能力,號(hào)稱(chēng)能達(dá)到人類(lèi)的博士生水平。
而從o1模型的評(píng)測(cè)來(lái)看,o1模型在數(shù)學(xué)競(jìng)賽,編碼,科學(xué)問(wèn)答等方面表現(xiàn)良好,甚至高出了GPT4o一大截。
而且,o1在物理,化學(xué),生物,邏輯學(xué)等其它領(lǐng)域,相比GPT4o都得到了巨大的提升。
而據(jù)介紹o1模型之所以具有如此強(qiáng)大的邏輯推理能力,就是因?yàn)槭褂昧怂季S鏈技術(shù);當(dāng)然,目前官方并沒(méi)有公布o(jì)1的核心技術(shù)理論,因此也不排除o1模型使用了其它更加強(qiáng)大的邏輯推理技術(shù)。
大模型之思維鏈技術(shù)
在前面的文章中也簡(jiǎn)單介紹過(guò)大模型的思維鏈技術(shù)——大模型推理引擎之思維鏈技術(shù),里面介紹了思維鏈的基本邏輯以及其實(shí)現(xiàn)原理。
簡(jiǎn)單來(lái)說(shuō),思維鏈技術(shù)就是模擬人類(lèi)的思維方式,在面對(duì)復(fù)雜問(wèn)題時(shí),讓大模型像人類(lèi)一樣思考,把復(fù)雜問(wèn)題拆分成簡(jiǎn)單的步驟,然后通過(guò)調(diào)用工具一步一步地去完成。
而大模型還有哪些能夠提升其邏輯推理能力的技術(shù)或方法?今天就來(lái)盤(pán)點(diǎn)一下提升大模型邏輯推理的黑科技。
初級(jí)推理技術(shù)
大模型初級(jí)推理技術(shù)的核心是,把大型復(fù)雜的任務(wù),分解成一個(gè)一個(gè)的簡(jiǎn)單的小任務(wù)。
主要包括,思維鏈(CoT),自洽性思維鏈(CoT-SC),思維樹(shù)(TOT-tree of thought)等技術(shù)。
思維鏈
思維鏈全稱(chēng)Chain of Thought,就是把任務(wù)進(jìn)行拆解,適用于各種推理任務(wù),比如數(shù)學(xué),邏輯判斷等,思維鏈的優(yōu)點(diǎn)就是不用對(duì)模型進(jìn)行訓(xùn)練和微調(diào)。
在思維鏈技術(shù)中,可能還會(huì)使用到零樣本(zero-shot prompt)提示和少樣本提示(few-shot prompt)等技術(shù)。
自洽性思維鏈
所謂的自洽性思維鏈,是指對(duì)同一個(gè)問(wèn)題,生成多個(gè)不同的思維鏈技術(shù),并讓模型從中挑出最合適的方案。
思維鏈技術(shù)并不穩(wěn)定,其效果取決于大模型的能力,而如果讓大模型進(jìn)行發(fā)散性思維,通過(guò)多種不同的方式解決問(wèn)題,然后從中找到最優(yōu)解,這就是自洽性思維鏈。
思維樹(shù)
思維樹(shù)(TOT)是對(duì)思維鏈(CoT)的進(jìn)一步擴(kuò)展,在思維鏈的每一步,推理出多個(gè)分支,拓?fù)湔归_(kāi)成一棵思維樹(shù)。使用啟發(fā)式的方法評(píng)估每個(gè)推理分支對(duì)問(wèn)題解決的貢獻(xiàn)。
使用搜索算法,如廣度搜索或深度搜索算法等來(lái)探索思維樹(shù),并進(jìn)行前瞻和回溯。
中級(jí)推理技術(shù)
初級(jí)推理技術(shù)的優(yōu)點(diǎn)是簡(jiǎn)單,缺點(diǎn)是結(jié)果不可控,推理過(guò)程與結(jié)果完全由大模型本身自由發(fā)揮,即使出錯(cuò)也沒(méi)有糾錯(cuò)機(jī)制。
因此,以ReAct,Plan & Execute和Self Discover為代表的中級(jí)推理技術(shù)就出現(xiàn)了。
其會(huì)約束大模型的推理方向,并根據(jù)環(huán)境反饋進(jìn)行糾錯(cuò)。
ReAct
ReAct全稱(chēng)Reasoning and Acting,意思就是推理與行動(dòng),來(lái)解決多樣化的語(yǔ)言推理與決策任務(wù)。
其典型的流程是Thought-思考——Action-行動(dòng)和Observation-觀察;思考與行動(dòng)都比較容易理解,觀察其實(shí)就是一個(gè)反饋的過(guò)程,把任務(wù)執(zhí)行的步驟記錄下來(lái)進(jìn)行觀察,根據(jù)觀察結(jié)果進(jìn)行調(diào)整。
這樣經(jīng)過(guò)思考——行動(dòng)——觀察——再思考——再行動(dòng)——再觀察的過(guò)程,經(jīng)過(guò)多次循環(huán),最終達(dá)到目的。
Plan & Execute
Plan & Execute 方法的本質(zhì)是先計(jì)劃再執(zhí)行,從名稱(chēng)就可以看出,計(jì)劃 & 執(zhí)行,通過(guò)把問(wèn)題拆分成一個(gè)一個(gè)的子任務(wù),根據(jù)情況調(diào)整執(zhí)行計(jì)劃。
Self-Discover
Self-Discover主要包含兩個(gè)階段:
階段一:自發(fā)現(xiàn)特定任務(wù)的推理結(jié)構(gòu)
階段二:應(yīng)用推理結(jié)構(gòu)
高級(jí)推理技術(shù)——Reflexion 和 LATS
初級(jí)推理和高級(jí)推理雖然能解決一些簡(jiǎn)單的任務(wù),但對(duì)一些更復(fù)雜,思維鏈路更長(zhǎng)的任務(wù)就束手無(wú)策了。
因此,高級(jí)推理技術(shù)就出現(xiàn)了,Reflexion和LATS的核心思想就是通過(guò)強(qiáng)化學(xué)習(xí)的方式來(lái)解決更復(fù)雜的任務(wù)場(chǎng)景。
Reflexion
Reflexion 的本質(zhì)是強(qiáng)化學(xué)習(xí),它主要由三部分組成,參與者——Actor,評(píng)估者——Evaluator和自我反思——Self-Reflection。
Reflexion 旨在通過(guò)反思過(guò)去的錯(cuò)誤,并把這些知識(shí)納入未來(lái)的決策,用以幫助Agent提升表現(xiàn)能力。因此,Reflexion非常適合那種通過(guò)反復(fù)實(shí)驗(yàn)得到結(jié)果的任務(wù),比如決策,推理,編程等。
LATS——Language Agent Tree Search
LATS技術(shù)全稱(chēng)是——Language Agent Tree Search,簡(jiǎn)單來(lái)說(shuō)就是Tree search + ReAct + Plan&Execute+ Reflexion,因此可以說(shuō)LATS技術(shù)是目前最強(qiáng)的推理技術(shù),集百家之長(zhǎng)。
這里的ReAct,Plan & Execute 和Reflexion在前面的內(nèi)容中都簡(jiǎn)單介紹過(guò),這里要再介紹一下Tree Search。
Tree Search是一種樹(shù)搜索算法,LATS使用蒙特卡羅算法(MCTS),通過(guò)平衡搜索找到最優(yōu)決策路徑。
總之,大模型的推理能力是邁向AGI的基礎(chǔ),也是Agent未來(lái)應(yīng)用的基石。
本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代 作者:DFires
