激發(fā)大語言模型空間推理能力:思維可視化提示 原創(chuàng)
大語言模型(LLMs)在語言理解和各種推理任務(wù)中展現(xiàn)出令人印象深刻的性能。然而,它們?cè)谌祟愓J(rèn)知的關(guān)鍵一面——空間推理上,仍然未被充分研究。人類具有通過一種被稱為 心靈之眼 的過程創(chuàng)造看不見的物體和行為的心智圖像的能力,從而使得對(duì)未見世界的想象成為可能。受到這種認(rèn)知能力的啟發(fā),研究人員提出了 “思維可視化”(Visualization of Thought,VoT)。VoT旨在通過可視化其推理跡象來引導(dǎo)LLMs的空間推理,從而引導(dǎo)后續(xù)的推理步驟。研究人員將VoT應(yīng)用于多跳空間推理任務(wù),包括自然語言導(dǎo)航、視覺導(dǎo)航以及二維網(wǎng)格世界中的視覺鋪設(shè)。實(shí)驗(yàn)結(jié)果表明,VoT顯著增強(qiáng)了LLMs的空間推理能力。值得注意的是,VoT在這些任務(wù)中表現(xiàn)優(yōu)于現(xiàn)有的多模態(tài)大型語言模型(MLLMs)。
引言
最近,大語言模型(LLMs)在各種與語言相關(guān)的任務(wù)上取得了顯著的表現(xiàn)。然而,盡管它們?cè)跀?shù)學(xué)推理、常識(shí)推理以及其他推理任務(wù),如符號(hào)推理或邏輯推理等方面取得了成功,但它們?cè)诳臻g推理方面的能力仍然未被充分探索。
空間推理是人類認(rèn)知的基本功能,使我們能夠與環(huán)境互動(dòng)。它促進(jìn)了需要理解和推理物體及其運(yùn)動(dòng)之間空間關(guān)系的任務(wù)。語言模型的空間推理在很大程度上依賴于語言來推理空間信息,而人類的認(rèn)知能力遠(yuǎn)遠(yuǎn)超出了語言推理。人類不僅可以從視覺感知中創(chuàng)建與任務(wù)相關(guān)的抽象表示,還可以通過心靈之眼想象看不見的場景。這在神經(jīng)科學(xué)、心靈哲學(xué)和認(rèn)知科學(xué)領(lǐng)域被稱為心智圖像的研究課題。建立在這一認(rèn)知功能之上,人類通過心智圖像的操作來促進(jìn)空間推理,比如導(dǎo)航、心理旋轉(zhuǎn)、心理紙張折疊和心理模擬。圖1說明了在導(dǎo)航任務(wù)中涉及的人類過程。人類通過創(chuàng)建路徑的心智圖像來增強(qiáng)其空間意識(shí)并指導(dǎo)其決策,利用各種感官輸入,如導(dǎo)航指令或地圖圖像。隨后,他們通過心靈之眼模擬路徑規(guī)劃。
圖1:人類可以通過在空間推理過程中創(chuàng)建心智圖像來增強(qiáng)他們的空間意識(shí)并指導(dǎo)決策。同樣地,大語言模型(LLMs)可以創(chuàng)建內(nèi)部心智圖像。研究人員提出了VoT,通過可視化它們?cè)诿總€(gè)中間步驟的思維,來引發(fā)LLMs的“心靈之眼”,從而促進(jìn)空間推理。
受到這一認(rèn)知機(jī)制的啟發(fā),研究人員推測LLMs具有在心靈之眼中創(chuàng)建和操作心智圖像的能力來進(jìn)行空間推理。正如圖1所示,LLMs可能潛在地處理和理解各種格式的空間信息。它們可能能夠可視化內(nèi)部狀態(tài),并通過心靈之眼操作這些心智圖像,從而引導(dǎo)后續(xù)推理步驟以增強(qiáng)空間推理。因此,研究人員提出了 “思維可視化”(VoT) 提示來引發(fā)這種能力。該方法通過為LLMs增加一個(gè)視覺空間素描板來可視化其推理步驟并指導(dǎo)后續(xù)步驟。VoT采用零示范提示,而不是依賴于少量示范或使用CLIP進(jìn)行文本到圖像的可視化。這個(gè)選擇源自LLMs從基于文本的視覺藝術(shù)中獲得各種心智圖像的能力。
為了評(píng)估VoT在空間推理中的有效性,研究人員選擇了三個(gè)需要LLMs空間意識(shí)的任務(wù),包括自然語言導(dǎo)航、視覺導(dǎo)航和視覺鋪設(shè)。這些任務(wù)需要理解空間、方向和幾何形狀推理。為了模擬人類般的多感官感知,研究人員設(shè)計(jì)了使用特殊字符作為LLMs視覺導(dǎo)航和視覺鋪設(shè)任務(wù)中豐富輸入格式的2D網(wǎng)格世界。在這三個(gè)任務(wù)中比較了不同的模型(GPT-4、GPT-4V)和提示技術(shù)。研究結(jié)果顯示,VoT提示始終促使LLMs可視化其推理步驟并指導(dǎo)后續(xù)步驟。因此,這種方法在相應(yīng)任務(wù)上取得了顯著的性能提升。
圖2:不同設(shè)置下的導(dǎo)航地圖示例,房子的表情符號(hào)表示起點(diǎn),辦公室的表情符號(hào)表示目的地。
空間推理
空間推理指的是理解和推理物體之間的空間關(guān)系、它們的移動(dòng)和互動(dòng)的能力。這種技能對(duì)于廣泛的現(xiàn)實(shí)世界應(yīng)用非常重要,如導(dǎo)航、機(jī)器人技術(shù)和自動(dòng)駕駛。這些領(lǐng)域需要基于視覺感知和對(duì)空間維度的具體理解進(jìn)行行動(dòng)規(guī)劃。盡管已經(jīng)開發(fā)了幾項(xiàng)任務(wù)和數(shù)據(jù)集來探究嵌入在文本中的空間語義,研究工作通常集中在空間術(shù)語如何在語言上結(jié)構(gòu)化上。最近,通過將空間術(shù)語轉(zhuǎn)換為邏輯形式并采用邏輯編程,在這些基準(zhǔn)測試中取得了顯著的成就和令人印象深刻的結(jié)果。這意味著在這些任務(wù)中取得優(yōu)異成績并不一定意味著大型語言模型(LLMs)真正理解了空間信息,也不提供它們空間意識(shí)的準(zhǔn)確衡量標(biāo)準(zhǔn)。空間意識(shí)涉及理解空間關(guān)系、方向、距離和幾何形狀,這些都對(duì)于在物理世界中進(jìn)行行動(dòng)規(guī)劃至關(guān)重要。為了評(píng)估LLMs的空間意識(shí)和空間推理能力,研究人員選擇了一些測試導(dǎo)航和幾何推理技能的任務(wù),包括自然語言導(dǎo)航、視覺導(dǎo)航和視覺鋪設(shè)。
自然語言導(dǎo)航
自然語言導(dǎo)航涉及通過隨機(jī)漫步瀏覽底層空間結(jié)構(gòu),旨在識(shí)別先前訪問過的位置。這個(gè)概念受到先前關(guān)于人類認(rèn)知的研究的啟發(fā),其采用了類似于沿著圖結(jié)構(gòu)進(jìn)行隨機(jī)漫步的方法。這個(gè)過程需要理解循環(huán)閉合,這對(duì)于空間導(dǎo)航至關(guān)重要。
視覺導(dǎo)航
視覺導(dǎo)航任務(wù)向LLMs展示了一個(gè)合成的二維網(wǎng)格世界,挑戰(zhàn)其利用視覺線索進(jìn)行導(dǎo)航。模型必須生成導(dǎo)航指令,以四個(gè)方向(左、右、上、下)移動(dòng),從起點(diǎn)到達(dá)目的地,同時(shí)避開障礙物。這涉及到兩個(gè)子任務(wù):路線規(guī)劃和下一步預(yù)測,需要進(jìn)行多跳空間推理,其中前者更為復(fù)雜。
視覺鋪設(shè)
視覺鋪設(shè)是一個(gè)經(jīng)典的空間推理挑戰(zhàn)。將這個(gè)概念擴(kuò)展到測試LLMs在有限區(qū)域內(nèi)理解、組織和推理形狀的能力,從而增強(qiáng)了空間推理技能的評(píng)估。任務(wù)涉及一個(gè)帶有未填充單元格和各種多米諾塊的矩形,比如由四個(gè)對(duì)齊的方塊組成的I-多米諾塊。模型必須選擇適當(dāng)?shù)亩嗝字Z塊變體,例如選擇I-多米諾塊的方向,以解決問答謎題。
圖3:帶有掩碼多米諾塊的視覺鋪設(shè)示例。該圖未顯示多米諾塊的旋轉(zhuǎn)和鏡像變體。
思維可視化提示
考慮到人類在導(dǎo)航等任務(wù)中處理空間信息的方式,常常會(huì)創(chuàng)建心智圖像,如地圖,以增強(qiáng)空間意識(shí)或模擬移動(dòng)以指導(dǎo)決策。研究目標(biāo)是喚起LLMs的空間意識(shí),并通過可視化它們的中間推理步驟來基于實(shí)際情況進(jìn)行推理。
研究人員引入了“思維可視化”(VoT)提示: "在每個(gè)推理步驟之后可視化狀態(tài)"。這種新的空間推理范式旨在以交錯(cuò)的方式生成推理跡象和可視化結(jié)果。
圖4:三個(gè)任務(wù)中VoT提示的示例,LLM以交錯(cuò)方式生成推理跡象和可視化來跟蹤隨時(shí)間變化的狀態(tài)。
論文:https://arxiv.org/pdf/2404.03622.pdf
本文轉(zhuǎn)載自公眾號(hào)AIGC最前線
