激發(fā)大語言模型空間推理能力:思維可視化提示
大語言模型(LLMs)在語言理解和各種推理任務(wù)中展現(xiàn)出令人印象深刻的性能。然而,它們在人類認(rèn)知的關(guān)鍵一面——空間推理上,仍然未被充分研究。人類具有通過一種被稱為 心靈之眼 的過程創(chuàng)造看不見的物體和行為的心智圖像的能力,從而使得對未見世界的想象成為可能。受到這種認(rèn)知能力的啟發(fā),研究人員提出了 “思維可視化”(Visualization of Thought,VoT)。VoT旨在通過可視化其推理跡象來引導(dǎo)LLMs的空間推理,從而引導(dǎo)后續(xù)的推理步驟。研究人員將VoT應(yīng)用于多跳空間推理任務(wù),包括自然語言導(dǎo)航、視覺導(dǎo)航以及二維網(wǎng)格世界中的視覺鋪設(shè)。實驗結(jié)果表明,VoT顯著增強了LLMs的空間推理能力。值得注意的是,VoT在這些任務(wù)中表現(xiàn)優(yōu)于現(xiàn)有的多模態(tài)大型語言模型(MLLMs)。
引言
最近,大語言模型(LLMs)在各種與語言相關(guān)的任務(wù)上取得了顯著的表現(xiàn)。然而,盡管它們在數(shù)學(xué)推理、常識推理以及其他推理任務(wù),如符號推理或邏輯推理等方面取得了成功,但它們在空間推理方面的能力仍然未被充分探索。
空間推理是人類認(rèn)知的基本功能,使我們能夠與環(huán)境互動。它促進了需要理解和推理物體及其運動之間空間關(guān)系的任務(wù)。語言模型的空間推理在很大程度上依賴于語言來推理空間信息,而人類的認(rèn)知能力遠(yuǎn)遠(yuǎn)超出了語言推理。人類不僅可以從視覺感知中創(chuàng)建與任務(wù)相關(guān)的抽象表示,還可以通過心靈之眼想象看不見的場景。這在神經(jīng)科學(xué)、心靈哲學(xué)和認(rèn)知科學(xué)領(lǐng)域被稱為心智圖像的研究課題。建立在這一認(rèn)知功能之上,人類通過心智圖像的操作來促進空間推理,比如導(dǎo)航、心理旋轉(zhuǎn)、心理紙張折疊和心理模擬。圖1說明了在導(dǎo)航任務(wù)中涉及的人類過程。人類通過創(chuàng)建路徑的心智圖像來增強其空間意識并指導(dǎo)其決策,利用各種感官輸入,如導(dǎo)航指令或地圖圖像。隨后,他們通過心靈之眼模擬路徑規(guī)劃。
圖1:人類可以通過在空間推理過程中創(chuàng)建心智圖像來增強他們的空間意識并指導(dǎo)決策。同樣地,大語言模型(LLMs)可以創(chuàng)建內(nèi)部心智圖像。研究人員提出了VoT,通過可視化它們在每個中間步驟的思維,來引發(fā)LLMs的“心靈之眼”,從而促進空間推理。
受到這一認(rèn)知機制的啟發(fā),研究人員推測LLMs具有在心靈之眼中創(chuàng)建和操作心智圖像的能力來進行空間推理。正如圖1所示,LLMs可能潛在地處理和理解各種格式的空間信息。它們可能能夠可視化內(nèi)部狀態(tài),并通過心靈之眼操作這些心智圖像,從而引導(dǎo)后續(xù)推理步驟以增強空間推理。因此,研究人員提出了 “思維可視化”(VoT) 提示來引發(fā)這種能力。該方法通過為LLMs增加一個視覺空間素描板來可視化其推理步驟并指導(dǎo)后續(xù)步驟。VoT采用零示范提示,而不是依賴于少量示范或使用CLIP進行文本到圖像的可視化。這個選擇源自LLMs從基于文本的視覺藝術(shù)中獲得各種心智圖像的能力。
為了評估VoT在空間推理中的有效性,研究人員選擇了三個需要LLMs空間意識的任務(wù),包括自然語言導(dǎo)航、視覺導(dǎo)航和視覺鋪設(shè)。這些任務(wù)需要理解空間、方向和幾何形狀推理。為了模擬人類般的多感官感知,研究人員設(shè)計了使用特殊字符作為LLMs視覺導(dǎo)航和視覺鋪設(shè)任務(wù)中豐富輸入格式的2D網(wǎng)格世界。在這三個任務(wù)中比較了不同的模型(GPT-4、GPT-4V)和提示技術(shù)。研究結(jié)果顯示,VoT提示始終促使LLMs可視化其推理步驟并指導(dǎo)后續(xù)步驟。因此,這種方法在相應(yīng)任務(wù)上取得了顯著的性能提升。
圖2:不同設(shè)置下的導(dǎo)航地圖示例,房子的表情符號表示起點,辦公室的表情符號表示目的地。
空間推理
空間推理指的是理解和推理物體之間的空間關(guān)系、它們的移動和互動的能力。這種技能對于廣泛的現(xiàn)實世界應(yīng)用非常重要,如導(dǎo)航、機器人技術(shù)和自動駕駛。這些領(lǐng)域需要基于視覺感知和對空間維度的具體理解進行行動規(guī)劃。盡管已經(jīng)開發(fā)了幾項任務(wù)和數(shù)據(jù)集來探究嵌入在文本中的空間語義,研究工作通常集中在空間術(shù)語如何在語言上結(jié)構(gòu)化上。最近,通過將空間術(shù)語轉(zhuǎn)換為邏輯形式并采用邏輯編程,在這些基準(zhǔn)測試中取得了顯著的成就和令人印象深刻的結(jié)果。這意味著在這些任務(wù)中取得優(yōu)異成績并不一定意味著大型語言模型(LLMs)真正理解了空間信息,也不提供它們空間意識的準(zhǔn)確衡量標(biāo)準(zhǔn)??臻g意識涉及理解空間關(guān)系、方向、距離和幾何形狀,這些都對于在物理世界中進行行動規(guī)劃至關(guān)重要。為了評估LLMs的空間意識和空間推理能力,研究人員選擇了一些測試導(dǎo)航和幾何推理技能的任務(wù),包括自然語言導(dǎo)航、視覺導(dǎo)航和視覺鋪設(shè)。
自然語言導(dǎo)航
自然語言導(dǎo)航涉及通過隨機漫步瀏覽底層空間結(jié)構(gòu),旨在識別先前訪問過的位置。這個概念受到先前關(guān)于人類認(rèn)知的研究的啟發(fā),其采用了類似于沿著圖結(jié)構(gòu)進行隨機漫步的方法。這個過程需要理解循環(huán)閉合,這對于空間導(dǎo)航至關(guān)重要。
視覺導(dǎo)航
視覺導(dǎo)航任務(wù)向LLMs展示了一個合成的二維網(wǎng)格世界,挑戰(zhàn)其利用視覺線索進行導(dǎo)航。模型必須生成導(dǎo)航指令,以四個方向(左、右、上、下)移動,從起點到達(dá)目的地,同時避開障礙物。這涉及到兩個子任務(wù):路線規(guī)劃和下一步預(yù)測,需要進行多跳空間推理,其中前者更為復(fù)雜。
視覺鋪設(shè)
視覺鋪設(shè)是一個經(jīng)典的空間推理挑戰(zhàn)。將這個概念擴展到測試LLMs在有限區(qū)域內(nèi)理解、組織和推理形狀的能力,從而增強了空間推理技能的評估。任務(wù)涉及一個帶有未填充單元格和各種多米諾塊的矩形,比如由四個對齊的方塊組成的I-多米諾塊。模型必須選擇適當(dāng)?shù)亩嗝字Z塊變體,例如選擇I-多米諾塊的方向,以解決問答謎題。
圖3:帶有掩碼多米諾塊的視覺鋪設(shè)示例。該圖未顯示多米諾塊的旋轉(zhuǎn)和鏡像變體。
思維可視化提示
考慮到人類在導(dǎo)航等任務(wù)中處理空間信息的方式,常常會創(chuàng)建心智圖像,如地圖,以增強空間意識或模擬移動以指導(dǎo)決策。研究目標(biāo)是喚起LLMs的空間意識,并通過可視化它們的中間推理步驟來基于實際情況進行推理。
研究人員引入了“思維可視化”(VoT)提示: "在每個推理步驟之后可視化狀態(tài)"。這種新的空間推理范式旨在以交錯的方式生成推理跡象和可視化結(jié)果。
圖4:三個任務(wù)中VoT提示的示例,LLM以交錯方式生成推理跡象和可視化來跟蹤隨時間變化的狀態(tài)。
論文:https://arxiv.org/pdf/2404.03622.pdf