GPT-4推理更像人了!中國科學(xué)院提出「思維傳播」,類比思考完勝CoT,即插即用
如今,GPT-4、PaLM等巨型神經(jīng)網(wǎng)絡(luò)模型橫空出世,已經(jīng)展現(xiàn)出驚人的少樣本學(xué)習(xí)能力。
只需給出簡單提示,它們就能進(jìn)行文本推理、編寫故事、回答問題、編程......
對(duì)此,中國科學(xué)院和耶魯大學(xué)的研究人員提出了一種「思維傳播」(Thought Propagation)新框架,能夠通過「類比思維」增強(qiáng)LLM的推理。
論文地址:https://arxiv.org/abs/2310.03965
「思維傳播」靈感來自人類認(rèn)知,即當(dāng)遇到一個(gè)新問題時(shí),我們經(jīng)常將其與我們已經(jīng)解決的類似問題進(jìn)行比較,以推導(dǎo)出策略。
因此,這一方法的核心便是,讓LLM在解決輸入的問題之前,探索與輸入相關(guān)的「類似」問題。
最后,它們的解決方案可以拿來即用,或提取有用計(jì)劃的見解。
可以預(yù)見的是,「思維傳播」在為LLM邏輯能力的固有限制提出的全新思路,讓大模型像人類一樣用「類比」方法解決難題。
LLM多步推理,敗給人類
顯而易見,LLM擅長根據(jù)提示進(jìn)行基本推理,但在處理復(fù)雜的多步驟問題時(shí)仍有困難,比如優(yōu)化、規(guī)劃。
反觀人類,他們會(huì)汲取類似經(jīng)驗(yàn)中的直覺來解決新問題。
大模型無法做到這點(diǎn),是由其固有的局限性決定的。
因?yàn)長LM的知識(shí)完全來自于訓(xùn)練數(shù)據(jù)中的模式,無法真正理解語言或概念。因此,作為統(tǒng)計(jì)模型,它們很難進(jìn)行復(fù)雜的組合泛化。
最最重要的是,LLM缺乏系統(tǒng)推理能力,無法像人類那樣逐步推理,從而解決具有挑戰(zhàn)性的問題。
再加上,大模型的推理是局部的、「短視的」,因此LLM很難找到最佳解決方案,也很難在長時(shí)間范圍內(nèi)保持推理的一致性。
總之,大模型在數(shù)學(xué)證明、戰(zhàn)略規(guī)劃和邏輯推理方面的缺陷,主要源于2個(gè)核心問題:
- 無法重用先前經(jīng)驗(yàn)中的見解。
人類從實(shí)踐中積累了可重復(fù)使用的知識(shí)和直覺,有助于解決新問題。相比之下,LLM在處理每個(gè)問題時(shí)都是 「從0開始」,不會(huì)借鑒先前的解決方案。
- 多步驟推理中的復(fù)合錯(cuò)誤。
人類會(huì)監(jiān)控自己的推理鏈,并在必要時(shí)修改最初的步驟。但是LLM在推理的早期階段所犯的錯(cuò)誤會(huì)被放大,因?yàn)樗鼈儠?huì)把后面的推理引向錯(cuò)誤的道路。
以上這些弱點(diǎn),嚴(yán)重阻礙了LLM應(yīng)對(duì)需要全局最優(yōu)或長期規(guī)劃的復(fù)雜挑戰(zhàn)中的應(yīng)用。
對(duì)此,研究人員提出了一種全新的解決方法——思維傳播。
TP框架
通過類比思維,讓LLM更像人類一樣進(jìn)行推理。
在研究者看來,從0開始推理無法重復(fù)使用解決類似問題的見解,而且會(huì)在中間推理階段出現(xiàn)錯(cuò)誤累積。
而「思維傳播」可以探索與輸入問題相關(guān)的類似問題,并從類似問題的解決方案中獲得啟發(fā)。
下圖是「思維傳播」(TP)與其他代表性技術(shù)的比較,對(duì)于輸入問題 p,IO、CoT和ToT會(huì)從頭開始推理,才得出解決方案s。
具體來說,TP包括了三個(gè)階段:
1. 提出類似問題:LLM通過提示生成一組與輸入問題有相似之處的類似問題。這將引導(dǎo)模型檢索潛在的相關(guān)先前經(jīng)驗(yàn)。
2. 解決類似問題:通過現(xiàn)有的提示技術(shù),如CoT,讓LLM解決每個(gè)類似的問題。
3. 匯總解決方案:有2種不同的途徑——根據(jù)類比解決方案,直接推斷出輸入問題的新解決方案;通過比較輸入問題的類比解決方案,推導(dǎo)出高級(jí)計(jì)劃或策略。
這樣一來,大模型就可以重用先前的經(jīng)驗(yàn)和啟發(fā)式方法,還可以將其初始推理與類比解決方案進(jìn)行交叉檢查,以完善這些解決方案。
值得一提的是,「思維傳播」與模型無關(guān),可以在任何提示方法的基礎(chǔ)上進(jìn)行單個(gè)問題解決步驟。
這一方法關(guān)鍵的新穎之處在于,激發(fā)LLM類比思維,以引導(dǎo)復(fù)雜的推理過程。
「思維傳播」究竟能讓LLM多像人類,還得實(shí)操結(jié)果來說話。
中國科學(xué)院和耶魯?shù)难芯咳藛T在3個(gè)任務(wù)中進(jìn)行了評(píng)估:
- 最短路徑推理:需要在圖中找到節(jié)點(diǎn)之間的最佳路徑需要全局規(guī)劃和搜索。即使在簡單的圖上,標(biāo)準(zhǔn)技術(shù)也會(huì)失敗。
- 創(chuàng)意寫作:生成連貫、有創(chuàng)意的故事是一個(gè)開放式的挑戰(zhàn)。當(dāng)給出高層次的大綱提示時(shí),LLM通常會(huì)失去一致性或邏輯性。
- LLM智能體規(guī)劃:與文本環(huán)境交互的LLM智能體與長期戰(zhàn)略方面舉步維艱。它們的計(jì)劃經(jīng)常會(huì)出現(xiàn)「漂移」或陷入循環(huán)。
最短路徑推理
最短路徑推理任務(wù)中,現(xiàn)有的方法推理遇到的問題無法解決。
雖然(a)中的圖非常簡單,但由于推理從0開始,這些方法只能讓LLM找到次優(yōu)解(b,c),甚至重復(fù)訪問中間節(jié)點(diǎn)(d)。
如下是結(jié)合了TP和ToT使用的例子。
由于中間推理步驟的錯(cuò)誤累積,ToT (b) 無法解決 (a) 中的問題?;陬愃茊栴}的解決方案,TP (c) 完善了最初的次優(yōu)解決方案,并最終找到了最優(yōu)解決方案。
通過與基線比較,TP在處理最短路徑任務(wù)中的性能顯著提升了12%, 生成了最優(yōu)和有效的最短路徑。
此外,由于OLR最低,與基線相比,TP生成的有效路徑最接近最優(yōu)路徑。
同時(shí),研究人員還進(jìn)一步研究了TP層數(shù)對(duì)最短路徑任務(wù)復(fù)雜性和性能的影響。
在不同設(shè)置下,1層TP的token成本與ToT類似。但是,1層TP在尋找最優(yōu)最短路徑方面,已經(jīng)取得了非常有競(jìng)爭(zhēng)力的性能。
此外,與0層TP(IO)相比,1層TP的性能增益也非常顯著。圖5 (a) 顯示了2層TP的token成本增加。
創(chuàng)意寫作
下表2顯示了TP和基線在GPT-3.5和GPT-4中的表現(xiàn)。在一致性上,TP都超過了基線。另外,在用戶研究中,TP在創(chuàng)意寫作中人類偏好提高了13%。
LLM智能體規(guī)劃
在第三個(gè)任務(wù)評(píng)估中,研究人員使用ALFWorld游戲套件,在134個(gè)環(huán)境中實(shí)例化LLM智能體規(guī)劃任務(wù)。
TP在LLM智能體規(guī)劃中任務(wù)完成率提高15%。這表明,在完成類似任務(wù)時(shí),對(duì)成功規(guī)劃的反思TP具有優(yōu)越性。
通過以上的實(shí)驗(yàn)結(jié)果表明,「思維傳播」可以推廣到各種不同的推理任務(wù)中,并在所有這些任務(wù)中表現(xiàn)出色。
增強(qiáng)LLM推理的關(guān)鍵
「思維傳播」模型為復(fù)雜的LLM推理提供了一種全新的技術(shù)。
類比思維是人類解決問題能力的標(biāo)志,它可以帶來一系列系統(tǒng)性的優(yōu)勢(shì),比如更高效的搜索和錯(cuò)誤糾正。
類似的,LLM也能通過提示類比思維,更好地克服自身弱點(diǎn),如缺乏可重用的知識(shí)和級(jí)聯(lián)的局部錯(cuò)誤等。
然而,這些研究結(jié)果存在一些限制。
高效地生成有用的類比問題并不容易,而且鏈?zhǔn)礁L的類比推理路徑可能會(huì)變得臃腫不堪。同時(shí),控制和協(xié)調(diào)多步推理鏈也依舊十分困難。
不過,「思維傳播」還是通過創(chuàng)造性地解決LLM的推理缺陷,為我們提供了一個(gè)有趣的方法。
隨著進(jìn)一步的發(fā)展,類比思維可能會(huì)使LLM的推理變得更加強(qiáng)大。而這也為在大語言模型中實(shí)現(xiàn)更像人類的推理指明了道路。
作者介紹
Ran He(赫然)
赫然是中國科學(xué)院自動(dòng)化研究所模式識(shí)別國家實(shí)重點(diǎn)驗(yàn)室和中國科學(xué)院大學(xué)的教授, IAPR Fellow和IEEE高級(jí)會(huì)員。
此前,他在大連理工大學(xué)獲得學(xué)士和碩士學(xué)位,并于2009年于中國科學(xué)院自動(dòng)化研究所獲得博士學(xué)位。
他的研究方向是生物識(shí)別算法(人臉識(shí)別與合成、虹膜識(shí)別、人物再識(shí)別)、表征學(xué)習(xí)(使用弱/自監(jiān)督或遷移學(xué)習(xí)預(yù)訓(xùn)練網(wǎng)絡(luò))、生成學(xué)習(xí)(生成模型、圖像生成、圖像翻譯)。
他在國際期刊和會(huì)議上發(fā)表了200多篇論文,其中包括IEEE TPAMI、IEEE TIP、IEEE TIFS、IEEE TNN、IEEE TCSVT等著名國際期刊,以及CVPR、ICCV、ECCV、NeurIPS等頂級(jí)國際會(huì)議。
他是IEEE TIP、IEEE TBIOM和Pattern Recognition編委會(huì)成員,并曾擔(dān)任CVPR、ECCV、NeurIPS、ICML、ICPR和IJCAI等國際會(huì)議的區(qū)域主席。
Junchi Yu(俞俊馳)
俞俊馳是中國科學(xué)院自動(dòng)化研究所的四年級(jí)博士生,導(dǎo)師是赫然教授。
此前,他曾在騰訊人工智能實(shí)驗(yàn)室實(shí)習(xí),并與Tingyang Xu博士、Yu Rong博士、Yatao Bian博士和Junzhou Huang教授共事。目前,他是耶魯大學(xué)計(jì)算機(jī)科學(xué)系的交流生,師從Rex Ying教授。
他的目標(biāo)是開發(fā)具有良好可解釋性和可移植性的可信圖學(xué)習(xí)(TwGL)方法,并探索其在生物化學(xué)方面的應(yīng)用。