自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Agent Planning大揭秘:輕松拿捏多計劃選擇!

發(fā)布于 2024-8-5 01:20
瀏覽
0收藏

在人工智能的世界里,我們經(jīng)常面臨一個挑戰(zhàn):如何讓機器像人類一樣,面對復(fù)雜任務(wù)時,能夠生成多種可能的解決方案,并從中選擇最優(yōu)的計劃呢?這正是“多計劃選擇”(Multi-Plan Selection)要解決的問題。今天,咱們就來聊聊這個有趣的話題。

首先,想象一下,如果我們的智能Agent面對一個復(fù)雜的問題,它可能會生成多個計劃。但是,這些計劃可能各不相同,甚至有些可能根本不可行。這時候,多計劃選擇就派上用場了。它包括兩個主要步驟:多計劃生成和最優(yōu)計劃選擇。

在多計劃生成階段,LLMs會嘗試生成一系列可能的計劃。這就像是在頭腦風(fēng)暴,盡可能多地提出解決方案。主流的方法會利用生成模型在解碼過程中的不確定性,比如通過溫度采樣或top-k采樣來獲得多個不同的推理路徑。在Tree-of-thought的研究中, 提到了2種生成planing的策略:sample、propose, sample策略與 Self-consistency策略一致,在解碼過程中,LLM會采樣多個plan。propose則是通過在提示中使用少量示例明確指導(dǎo)LLM生成各種plan。

Agent Planning大揭秘:輕松拿捏多計劃選擇!-AI.x社區(qū)

接下來是最優(yōu)計劃選擇階段,這里Agent需要從多個候選計劃中選擇一個最好的。這個過程就像是在一堆方案中挑選出最閃亮的那一個。不同的策略會采用不同的啟發(fā)式搜索算法,比如簡單的多數(shù)投票策略,或者利用樹結(jié)構(gòu)來輔助多計劃搜索。在Self-consistency中使用了一個簡單的直覺,即復(fù)雜問題的解決方案很少且是唯一的。Self-consistency 應(yīng)用了一種樸素的多數(shù)投票策略,將得票最多的計劃視為最優(yōu)選擇。在Tree-of-Thought中利用樹狀結(jié)構(gòu)支持樹搜索算法,如傳統(tǒng)的bfs和dfs。在選擇要擴展的節(jié)點時,使用LLM評估多個動作并選擇最優(yōu)的一個。

但是,多計劃選擇雖然在理論上看起來很美,實際上卻面臨著一些挑戰(zhàn)。首先,它會增加計算需求,尤其是對于大模型來說,計算成本可能會非常高。其次,依賴于LLM來評估計劃的性能,這本身還存在不確定性,需要進一步的驗證和調(diào)整。

不過,別擔(dān)心,盡管存在這些挑戰(zhàn),多計劃選擇的優(yōu)勢也是顯而易見的。它能夠提供更廣泛的潛在解決方案探索,幫助Agent在廣闊的搜索空間中找到最佳路徑。而且,隨著技術(shù)的發(fā)展,我們有理由相信,這些問題都將得到解決。

本文轉(zhuǎn)載自 ??探索AGI??,作者: 獼猴桃

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦