自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sup id="7gymf"><rt id="7gymf"></rt></sup>

<sub id="7gymf"><p id="7gymf"><li id="7gymf"></li></p></sub>

<thead id="7gymf"><rt id="7gymf"></rt></thead>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

激發(fā)大語言模型空間推理能力：思維可視化提示原創(chuàng)

發(fā)布于 2024-4-11 11:31

瀏覽

0收藏

大語言模型（LLMs）在語言理解和各種推理任務(wù)中展現(xiàn)出令人印象深刻的性能。然而，它們?cè)谌祟愓J(rèn)知的關(guān)鍵一面——空間推理上，仍然未被充分研究。人類具有通過一種被稱為 心靈之眼 的過程創(chuàng)造看不見的物體和行為的心智圖像的能力，從而使得對(duì)未見世界的想象成為可能。受到這種認(rèn)知能力的啟發(fā)，研究人員提出了 “思維可視化”（Visualization of Thought，VoT）。VoT旨在通過可視化其推理跡象來引導(dǎo)LLMs的空間推理，從而引導(dǎo)后續(xù)的推理步驟。研究人員將VoT應(yīng)用于多跳空間推理任務(wù)，包括自然語言導(dǎo)航、視覺導(dǎo)航以及二維網(wǎng)格世界中的視覺鋪設(shè)。實(shí)驗(yàn)結(jié)果表明，VoT顯著增強(qiáng)了LLMs的空間推理能力。值得注意的是，VoT在這些任務(wù)中表現(xiàn)優(yōu)于現(xiàn)有的多模態(tài)大型語言模型（MLLMs）。

引言

最近，大語言模型（LLMs）在各種與語言相關(guān)的任務(wù)上取得了顯著的表現(xiàn)。然而，盡管它們?cè)跀?shù)學(xué)推理、常識(shí)推理以及其他推理任務(wù)，如符號(hào)推理或邏輯推理等方面取得了成功，但它們?cè)诳臻g推理方面的能力仍然未被充分探索。

空間推理是人類認(rèn)知的基本功能，使我們能夠與環(huán)境互動(dòng)。它促進(jìn)了需要理解和推理物體及其運(yùn)動(dòng)之間空間關(guān)系的任務(wù)。語言模型的空間推理在很大程度上依賴于語言來推理空間信息，而人類的認(rèn)知能力遠(yuǎn)遠(yuǎn)超出了語言推理。人類不僅可以從視覺感知中創(chuàng)建與任務(wù)相關(guān)的抽象表示，還可以通過心靈之眼想象看不見的場景。這在神經(jīng)科學(xué)、心靈哲學(xué)和認(rèn)知科學(xué)領(lǐng)域被稱為心智圖像的研究課題。建立在這一認(rèn)知功能之上，人類通過心智圖像的操作來促進(jìn)空間推理，比如導(dǎo)航、心理旋轉(zhuǎn)、心理紙張折疊和心理模擬。圖1說明了在導(dǎo)航任務(wù)中涉及的人類過程。人類通過創(chuàng)建路徑的心智圖像來增強(qiáng)其空間意識(shí)并指導(dǎo)其決策，利用各種感官輸入，如導(dǎo)航指令或地圖圖像。隨后，他們通過心靈之眼模擬路徑規(guī)劃。

激發(fā)大語言模型空間推理能力：思維可視化提示-AI.x社區(qū)

圖1：人類可以通過在空間推理過程中創(chuàng)建心智圖像來增強(qiáng)他們的空間意識(shí)并指導(dǎo)決策。同樣地，大語言模型（LLMs）可以創(chuàng)建內(nèi)部心智圖像。研究人員提出了VoT，通過可視化它們?cè)诿總€(gè)中間步驟的思維，來引發(fā)LLMs的“心靈之眼”，從而促進(jìn)空間推理。

受到這一認(rèn)知機(jī)制的啟發(fā)，研究人員推測LLMs具有在心靈之眼中創(chuàng)建和操作心智圖像的能力來進(jìn)行空間推理。正如圖1所示，LLMs可能潛在地處理和理解各種格式的空間信息。它們可能能夠可視化內(nèi)部狀態(tài)，并通過心靈之眼操作這些心智圖像，從而引導(dǎo)后續(xù)推理步驟以增強(qiáng)空間推理。因此，研究人員提出了 “思維可視化”（VoT） 提示來引發(fā)這種能力。該方法通過為LLMs增加一個(gè)視覺空間素描板來可視化其推理步驟并指導(dǎo)后續(xù)步驟。VoT采用零示范提示，而不是依賴于少量示范或使用CLIP進(jìn)行文本到圖像的可視化。這個(gè)選擇源自LLMs從基于文本的視覺藝術(shù)中獲得各種心智圖像的能力。

為了評(píng)估VoT在空間推理中的有效性，研究人員選擇了三個(gè)需要LLMs空間意識(shí)的任務(wù)，包括自然語言導(dǎo)航、視覺導(dǎo)航和視覺鋪設(shè)。這些任務(wù)需要理解空間、方向和幾何形狀推理。為了模擬人類般的多感官感知，研究人員設(shè)計(jì)了使用特殊字符作為LLMs視覺導(dǎo)航和視覺鋪設(shè)任務(wù)中豐富輸入格式的2D網(wǎng)格世界。在這三個(gè)任務(wù)中比較了不同的模型（GPT-4、GPT-4V）和提示技術(shù)。研究結(jié)果顯示，VoT提示始終促使LLMs可視化其推理步驟并指導(dǎo)后續(xù)步驟。因此，這種方法在相應(yīng)任務(wù)上取得了顯著的性能提升。

激發(fā)大語言模型空間推理能力：思維可視化提示-AI.x社區(qū)

圖2：不同設(shè)置下的導(dǎo)航地圖示例，房子的表情符號(hào)表示起點(diǎn)，辦公室的表情符號(hào)表示目的地。

空間推理

空間推理指的是理解和推理物體之間的空間關(guān)系、它們的移動(dòng)和互動(dòng)的能力。這種技能對(duì)于廣泛的現(xiàn)實(shí)世界應(yīng)用非常重要，如導(dǎo)航、機(jī)器人技術(shù)和自動(dòng)駕駛。這些領(lǐng)域需要基于視覺感知和對(duì)空間維度的具體理解進(jìn)行行動(dòng)規(guī)劃。盡管已經(jīng)開發(fā)了幾項(xiàng)任務(wù)和數(shù)據(jù)集來探究嵌入在文本中的空間語義，研究工作通常集中在空間術(shù)語如何在語言上結(jié)構(gòu)化上。最近，通過將空間術(shù)語轉(zhuǎn)換為邏輯形式并采用邏輯編程，在這些基準(zhǔn)測試中取得了顯著的成就和令人印象深刻的結(jié)果。這意味著在這些任務(wù)中取得優(yōu)異成績并不一定意味著大型語言模型(LLMs)真正理解了空間信息，也不提供它們空間意識(shí)的準(zhǔn)確衡量標(biāo)準(zhǔn)。空間意識(shí)涉及理解空間關(guān)系、方向、距離和幾何形狀，這些都對(duì)于在物理世界中進(jìn)行行動(dòng)規(guī)劃至關(guān)重要。為了評(píng)估LLMs的空間意識(shí)和空間推理能力，研究人員選擇了一些測試導(dǎo)航和幾何推理技能的任務(wù)，包括自然語言導(dǎo)航、視覺導(dǎo)航和視覺鋪設(shè)。

自然語言導(dǎo)航

自然語言導(dǎo)航涉及通過隨機(jī)漫步瀏覽底層空間結(jié)構(gòu)，旨在識(shí)別先前訪問過的位置。這個(gè)概念受到先前關(guān)于人類認(rèn)知的研究的啟發(fā)，其采用了類似于沿著圖結(jié)構(gòu)進(jìn)行隨機(jī)漫步的方法。這個(gè)過程需要理解循環(huán)閉合，這對(duì)于空間導(dǎo)航至關(guān)重要。

激發(fā)大語言模型空間推理能力：思維可視化提示-AI.x社區(qū)

視覺導(dǎo)航

視覺導(dǎo)航任務(wù)向LLMs展示了一個(gè)合成的二維網(wǎng)格世界，挑戰(zhàn)其利用視覺線索進(jìn)行導(dǎo)航。模型必須生成導(dǎo)航指令，以四個(gè)方向（左、右、上、下）移動(dòng)，從起點(diǎn)到達(dá)目的地，同時(shí)避開障礙物。這涉及到兩個(gè)子任務(wù)：路線規(guī)劃和下一步預(yù)測，需要進(jìn)行多跳空間推理，其中前者更為復(fù)雜。

激發(fā)大語言模型空間推理能力：思維可視化提示-AI.x社區(qū)

視覺鋪設(shè)

視覺鋪設(shè)是一個(gè)經(jīng)典的空間推理挑戰(zhàn)。將這個(gè)概念擴(kuò)展到測試LLMs在有限區(qū)域內(nèi)理解、組織和推理形狀的能力，從而增強(qiáng)了空間推理技能的評(píng)估。任務(wù)涉及一個(gè)帶有未填充單元格和各種多米諾塊的矩形，比如由四個(gè)對(duì)齊的方塊組成的I-多米諾塊。模型必須選擇適當(dāng)?shù)亩嗝字Z塊變體，例如選擇I-多米諾塊的方向，以解決問答謎題。

激發(fā)大語言模型空間推理能力：思維可視化提示-AI.x社區(qū)

激發(fā)大語言模型空間推理能力：思維可視化提示-AI.x社區(qū)

圖3：帶有掩碼多米諾塊的視覺鋪設(shè)示例。該圖未顯示多米諾塊的旋轉(zhuǎn)和鏡像變體。

思維可視化提示

考慮到人類在導(dǎo)航等任務(wù)中處理空間信息的方式，常常會(huì)創(chuàng)建心智圖像，如地圖，以增強(qiáng)空間意識(shí)或模擬移動(dòng)以指導(dǎo)決策。研究目標(biāo)是喚起LLMs的空間意識(shí)，并通過可視化它們的中間推理步驟來基于實(shí)際情況進(jìn)行推理。

研究人員引入了“思維可視化”（VoT）提示： "在每個(gè)推理步驟之后可視化狀態(tài)"。這種新的空間推理范式旨在以交錯(cuò)的方式生成推理跡象和可視化結(jié)果。

激發(fā)大語言模型空間推理能力：思維可視化提示-AI.x社區(qū)

激發(fā)大語言模型空間推理能力：思維可視化提示-AI.x社區(qū)

圖4：三個(gè)任務(wù)中VoT提示的示例，LLM以交錯(cuò)方式生成推理跡象和可視化來跟蹤隨時(shí)間變化的狀態(tài)。

激發(fā)大語言模型空間推理能力：思維可視化提示-AI.x社區(qū)

論文：https://arxiv.org/pdf/2404.03622.pdf

本文轉(zhuǎn)載自公眾號(hào)AIGC最前線

原文鏈接：??https://mp.weixin.qq.com/s/d38VknDQtM-UEFsf--fxQQ??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

大語言模型

已于2024-4-16 10:15:48修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

探究代碼思維鏈對(duì)大模型推理能力的作用

mb5f8eba9bdb0af ? 3909瀏覽 ? 0回復(fù)
AI研發(fā)革命：API可視化測試新體驗(yàn)

ermulong ? 2291瀏覽 ? 0回復(fù)
自我一致性提升大模型中的思維鏈推理能力

AIRoobt ? 4851瀏覽 ? 0回復(fù)
大語言模型自動(dòng)思維鏈提示

AIRoobt ? 2646瀏覽 ? 0回復(fù)
多模態(tài)思維鏈推理在語言模型中的應(yīng)用

AIRoobt ? 4124瀏覽 ? 0回復(fù)
SHAP 模型可視化 + 參數(shù)搜索策略在軸承故障診斷中的應(yīng)用

Tang_Lan ? 2873瀏覽 ? 0回復(fù)
「模型量化技術(shù)」可視化指南：A Visual Guide to Quantization

Baihai_IDP ? 3110瀏覽 ? 0回復(fù)
Take a Step Back：通過抽象激發(fā)大模型推理能力（ICLR2024）

AIRoobt ? 2735瀏覽 ? 0回復(fù)
增加大模型推理能力的幾個(gè)提示方法

AIRoobt ? 3581瀏覽 ? 0回復(fù)
OpenAI o1引發(fā)的思維鏈思考：思維鏈提示啟發(fā)大模型推理

angel ? 3255瀏覽 ? 0回復(fù)
數(shù)據(jù)分析自動(dòng)化：LIDA智能可視化的魔法！

Halo咯咯 ? 2087瀏覽 ? 0回復(fù)
聊聊基于 LSTM 的多特征序列預(yù)測-SHAP可視化！

Tang_Lan ? 5733瀏覽 ? 0回復(fù)
「混合專家模型」可視化指南：A Visual Guide to MoE

Baihai_IDP ? 3059瀏覽 ? 0回復(fù)
DeepSeek-R1：通過強(qiáng)化學(xué)習(xí)激發(fā)大語言模型的推理潛能

柏企閱文 ? 3885瀏覽 ? 0回復(fù)
我們一起聊聊軸承故障特征—SHAP 模型 3D 可視化

Tang_Lan ? 1672瀏覽 ? 0回復(fù)
那就在本地部署更好用 Mac和PC都能可視化

數(shù)字化助推器 ? 2649瀏覽 ? 0回復(fù)
Dify 搭建私有數(shù)據(jù)可視化智能體，效果直逼 ChatGPT

九歌AI大模型 ? 2777瀏覽 ? 0回復(fù)
深入探索Transformer語言模型的可視化工具BertViz

智駐未來 ? 774瀏覽 ? 0回復(fù)
綜述：基于LLM的數(shù)據(jù)查詢與可視化

AIGC前沿技術(shù)追蹤 ? 246瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

預(yù)測未來模型能力！微調(diào)揭示LLM涌現(xiàn)能力的關(guān)鍵 2024-12-09 09:10:30發(fā)布
預(yù)測未來模型能力！微調(diào)揭示LLM涌現(xiàn)能力的關(guān)鍵 2024-12-03 15:46:55發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：斯坦福學(xué)者推出專為Android移動(dòng)設(shè)備打造的大模型，開源！

下一篇： Google開源大模型新成員CodeGemma、RecurrentGemma，繼Transformer后新架構(gòu)Griffin誕生

社區(qū)精華內(nèi)容

目錄

<s id="3vkqq"><li id="3vkqq"></li></s>

<legend id="3vkqq"><track id="3vkqq"><dfn id="3vkqq"></dfn></track></legend>