基于語(yǔ)言代理樹搜索(LATS)和GPT-4o攻克復(fù)雜的LLM決策問(wèn)題 原創(chuàng)
本文將通過(guò)一個(gè)完整的財(cái)務(wù)決策方面的案例來(lái)展示如何將語(yǔ)言代理樹搜索與GPT-4o模型相結(jié)合以增強(qiáng)LLM決策能力。
簡(jiǎn)介
大型語(yǔ)言模型(LLMs)在執(zhí)行涉及復(fù)雜推理的自然語(yǔ)言任務(wù)方面表現(xiàn)出了非凡的能力。因此,這些模型已經(jīng)發(fā)展成為能夠規(guī)劃、制定戰(zhàn)略和解決復(fù)雜問(wèn)題的代理。然而,當(dāng)涉及到在不確定性下做出決策時(shí),挑戰(zhàn)依然存在,因?yàn)榻Y(jié)果不是確定性的,或者在不斷變化的環(huán)境中需要自適應(yīng)決策,特別是在每一步都影響下一步的多步驟場(chǎng)景中。因此,我們需要更先進(jìn)的能力……
這就是GPT-4的高級(jí)推理能力和語(yǔ)言代理樹搜索(LATS,Language Agent Tree Search)結(jié)合起來(lái)解決這些挑戰(zhàn)的地方。LATS采用了一種動(dòng)態(tài)的、基于樹的搜索方法,增強(qiáng)了GPT-4o的推理能力。通過(guò)將蒙特卡洛樹搜索(MCTS)與LLM集成,LATS統(tǒng)一了推理、行動(dòng)和規(guī)劃,創(chuàng)建了一個(gè)更深思熟慮和自適應(yīng)的問(wèn)題解決框架。這種強(qiáng)大的組合可以改進(jìn)決策,更穩(wěn)健地處理復(fù)雜任務(wù),為將語(yǔ)言模型部署為自主代理確立了新的標(biāo)準(zhǔn)。
“搜索”是GenAI問(wèn)題解決中缺失的部分嗎?
計(jì)算問(wèn)題求解可以廣義地定義為“在組合問(wèn)題空間中搜索”,通常用樹結(jié)構(gòu)來(lái)描述。深度優(yōu)先搜索(DFS)和廣度優(yōu)先搜索(BFS)是探索此類解空間的基本方法。深度搜索力量的一個(gè)顯著例子是AlphaGo的“第37手”(https://en.wikipedia.org/wiki/AlphaGo_versus_Lee_Sedol),它展示了如何通過(guò)廣泛的探索產(chǎn)生創(chuàng)新的、超越人類的解決方案。
與遵循預(yù)定義路徑的傳統(tǒng)方法不同,LLM可以通過(guò)基于上下文預(yù)測(cè)潛在結(jié)果、策略或操作,在解決方案空間內(nèi)動(dòng)態(tài)生成新的分支。這種能力使LLM不僅可以導(dǎo)航,還可以擴(kuò)展問(wèn)題空間,使其在問(wèn)題結(jié)構(gòu)不完全清楚、不斷演變或高度復(fù)雜的情況下非常強(qiáng)大。
基于元生成算法的推理時(shí)間推理(MGA)
在訓(xùn)練過(guò)程中,縮放計(jì)算因其提高模型性能的能力而得到廣泛認(rèn)可。然而,在推理過(guò)程中,縮放計(jì)算的好處仍未得到充分探索。MGA(元生成算法,Meta Generation Algorithms)通過(guò)在推理過(guò)程中放大計(jì)算資源提供了一種新方法……
與傳統(tǒng)的令牌級(jí)生成方法不同,元生成算法采用高階控制結(jié)構(gòu),如規(guī)劃、具有多個(gè)模型調(diào)用的循環(huán)、自反射、任務(wù)分解和動(dòng)態(tài)調(diào)節(jié)。這些機(jī)制使模型能夠端到端地執(zhí)行任務(wù),從而模仿通常被稱為“系統(tǒng)二”思維模式的高級(jí)認(rèn)知過(guò)程。
【推理時(shí)間推理(MGA)算法摘要】
令牌級(jí)生成算法
- 解碼算法:貪婪解碼、波束搜索、推測(cè)解碼等。
- 令牌級(jí)搜索空間:logits、下一個(gè)令牌分布、概率分?jǐn)?shù)
元生成算法
- 控制循環(huán)多個(gè)模型調(diào)用CoT
- 搜索算法ToT、GoT、MCTS
- 細(xì)化算法:自我反思、自我修正
因此,單向元生成算法可以通過(guò)將搜索集成到生成過(guò)程中來(lái)增強(qiáng)LLM推理。在推理過(guò)程中,MGA動(dòng)態(tài)探索更廣闊的解決方案空間,使模型能夠推理潛在結(jié)果并實(shí)時(shí)調(diào)整策略。通過(guò)生成多條路徑并評(píng)估其可行性,元生成算法使LLM能夠模擬類似于傳統(tǒng)搜索方法的更深入、更復(fù)雜的推理。這種方法不僅擴(kuò)展了模型生成新見解的能力,而且改善了信息不完整或不斷變化的情況下的決策。
通常,思想樹(ToT)和思維圖(GoT)等技術(shù)被用來(lái)有效地導(dǎo)航組合解空間。
- ToT(2*)通過(guò)將潛在結(jié)果結(jié)構(gòu)化為樹枝,促進(jìn)對(duì)多條路徑的探索,從而實(shí)現(xiàn)分層決策。
- GoT(6*)映射了想法之間的復(fù)雜關(guān)系,使模型能夠動(dòng)態(tài)調(diào)整和優(yōu)化其推理路徑。
- CoT(5*)提供了一步一步的推理,將連續(xù)的思想聯(lián)系起來(lái),提高了生成的連貫性和深度。
為什么MCTS算法更好些?
在思想樹(ToT:Tree of Thoughts)方法中,深度優(yōu)先搜索(DFS)或廣度優(yōu)先搜索(BFS)等傳統(tǒng)方法可以對(duì)這棵樹進(jìn)行導(dǎo)航,但它們的計(jì)算成本很高,因?yàn)樗鼈兪窍到y(tǒng)地、詳盡地探索每一條可能的路徑。
蒙特卡洛樹搜索(MCTS)是對(duì)這一點(diǎn)的改進(jìn),它模擬了不同的動(dòng)作結(jié)果,并根據(jù)這些模擬更新了樹。具體地說(shuō),MCTS算法使用一個(gè)“選擇”過(guò)程,在這個(gè)過(guò)程中,它使用一種平衡探索(嘗試新路徑)和利用(選擇已知的好路徑)的策略來(lái)選擇決策節(jié)點(diǎn)。這是由一個(gè)稱為上置信區(qū)間(UCB)的公式指導(dǎo)的。
UCB公式包括兩個(gè)關(guān)鍵部分:
- 探索項(xiàng):這表示選擇節(jié)點(diǎn)的潛在回報(bào),并通過(guò)模擬計(jì)算得出。
- 利用項(xiàng):這會(huì)減少你進(jìn)入某條路徑的深度,這意味著如果一條路徑被過(guò)度探索,算法可能會(huì)轉(zhuǎn)向一條探索較少的路徑,即使它最初看起來(lái)不太有希望。
通過(guò)使用UCB選擇節(jié)點(diǎn),用LLM模擬結(jié)果(獎(jiǎng)勵(lì)),并在樹上反向傳播獎(jiǎng)勵(lì),MCTS算法將有效地平衡探索新策略和利用已知成功策略之間的關(guān)系。
UCB公式的第二部分是“利用項(xiàng)”,隨著你深入探索特定路徑,該項(xiàng)會(huì)減少。這種減少可能會(huì)導(dǎo)致選擇算法切換到?jīng)Q策樹中的另一條路徑,即使該路徑的即時(shí)獎(jiǎng)勵(lì)較低,因?yàn)楫?dāng)該路徑的探索較少時(shí),利用項(xiàng)仍然較高。
使用UCB公式進(jìn)行節(jié)點(diǎn)選擇、使用LLM模擬進(jìn)行獎(jiǎng)勵(lì)計(jì)算和反向傳播是MCTS算法的本質(zhì)。
實(shí)戰(zhàn)案例:財(cái)務(wù)決策實(shí)施方案
LATS操作(1*):https://arxiv.org/pdf/2310.04406
為了說(shuō)明問(wèn)題,我們將使用語(yǔ)言代理樹搜索(LATS)算法來(lái)解決在當(dāng)今宏觀經(jīng)濟(jì)環(huán)境下提出最優(yōu)投資策略的挑戰(zhàn)性問(wèn)題。我們將以《國(guó)際貨幣基金組織世界經(jīng)濟(jì)展望報(bào)告》為背景,簡(jiǎn)要總結(jié)該文件,為大型語(yǔ)言模型提供宏觀經(jīng)濟(jì)狀況信息。注意,在這個(gè)案例實(shí)現(xiàn)技術(shù)中,我們沒有使用時(shí)下流行的RAG技術(shù)。下面,我們來(lái)分析一個(gè)使用LATS算法搜索解決方案空間的示例。
第一次迭代:
1.選擇
我們從根節(jié)點(diǎn)開始,由于這是第一次LATS迭代,我們將選擇LLM生成的所有初始決策節(jié)點(diǎn)(A、B和C節(jié)點(diǎn)),并模擬它們的結(jié)果。
2.模擬和反向傳播
下一個(gè)LLM根據(jù)其上下文“模擬”每種策略,并為每個(gè)“節(jié)點(diǎn)”分配以下“獎(jiǎng)勵(lì)”——投資回報(bào)。
- 策略A:5000美元
- 策略B:7000美元
- 策略C:4000美元
3.擴(kuò)展
根據(jù)選擇,策略B具有最高的UCB1值(因?yàn)樗泄?jié)點(diǎn)都在相同的深度)。因此,我們通過(guò)模擬其子節(jié)點(diǎn)僅擴(kuò)展策略B。
B節(jié)點(diǎn)擴(kuò)展,因?yàn)樗哂懈叩哪M獎(jiǎng)勵(lì)值
第二次迭代:
1.選擇
由于B1和B2策略沒有模擬,因此它們的UCB分?jǐn)?shù)是并列的,兩個(gè)節(jié)點(diǎn)都將被模擬。
2.模擬兩個(gè)節(jié)點(diǎn)
- 模擬B1:LLM預(yù)測(cè)B1的回報(bào)為8500美元。
- 模擬B2:LLM預(yù)測(cè)B2的回報(bào)為7500美元。
3.反向傳播
每次模擬后,模擬結(jié)果都會(huì)在樹上反向傳播,更新父節(jié)點(diǎn)的值。這一步可確保新信息的影響在整個(gè)樹中得到反映。
更新策略B的值:策略B現(xiàn)在需要反映B1和B2的結(jié)果。一種常見的方法是對(duì)B1和B2的獎(jiǎng)勵(lì)進(jìn)行平均,以更新策略B的值?,F(xiàn)在,基于其子節(jié)點(diǎn)的結(jié)果,策略B的更新值為8000美元。
反向傳播后,策略B的獎(jiǎng)勵(lì)值會(huì)更新
4.重新計(jì)算UCB分?jǐn)?shù)
反向傳播后,重新計(jì)算樹中所有節(jié)點(diǎn)的UCB得分。這次重新計(jì)算使用更新后的值(平均獎(jiǎng)勵(lì))和訪問(wèn)次數(shù),確保每個(gè)節(jié)點(diǎn)的UCB1分?jǐn)?shù)準(zhǔn)確反映其潛在獎(jiǎng)勵(lì)和探索量。
UCB=(探索/獎(jiǎng)勵(lì)項(xiàng))+(利用項(xiàng))
需要再次強(qiáng)調(diào)的是,在不斷深入探索的路徑上,所有節(jié)點(diǎn)的利用項(xiàng)都會(huì)減少。
5.下一步選擇和模擬
選擇B1以進(jìn)一步擴(kuò)展(因?yàn)樗哂懈叩莫?jiǎng)勵(lì))到子節(jié)點(diǎn):
- B1a:“投資人工智能公司”
- B1b:“投資綠色科技”
B1節(jié)點(diǎn)因獎(jiǎng)勵(lì)更高而進(jìn)一步擴(kuò)展
6.反向傳播
子節(jié)點(diǎn)獎(jiǎng)勵(lì)向上反向傳播
B1獎(jiǎng)勵(lì)更新為(9200+6800)/2=8000
B獎(jiǎng)勵(lì)更新為(8000+7500)/2=7750
7.UCB計(jì)算
反向傳播后,重新計(jì)算所有節(jié)點(diǎn)的UCB值。假設(shè)由于探索因子的衰減,B2現(xiàn)在的UCB得分高于B1a和B1b。如果B1被進(jìn)行了廣泛探索(從而減少對(duì)其子節(jié)點(diǎn)的探索項(xiàng)),這種情況可能會(huì)發(fā)生。該算法不再繼續(xù)擴(kuò)展B1的子代,而是轉(zhuǎn)向探索B2,由于其未探索的潛力,即更高的利用價(jià)值,B2變得更具吸引力。
當(dāng)探索通過(guò)節(jié)點(diǎn)的路徑時(shí),節(jié)點(diǎn)的利用價(jià)值會(huì)降低,這可能會(huì)觸發(fā)分支切換——通過(guò)新決策節(jié)點(diǎn)的新路徑需要進(jìn)一步探索。
這個(gè)例子展示了MCTS如何根據(jù)新信息動(dòng)態(tài)調(diào)整其搜索路徑,確保算法在進(jìn)展過(guò)程中保持高效并專注于最有前景的策略。
基于Azure平臺(tái)的OpenAI GPT-4o模型實(shí)現(xiàn)
接下來(lái),我們將使用GPT-4o模型構(gòu)建一個(gè)“財(cái)務(wù)顧問(wèn)”,實(shí)戰(zhàn)性地實(shí)現(xiàn)一下LATS算法。(有關(guān)完整的代碼,請(qǐng)參考??Github倉(cāng)庫(kù)??)
提示:為了進(jìn)行準(zhǔn)確的分析,我使用7月24日的國(guó)際貨幣基金組織《世界經(jīng)濟(jì)展望》報(bào)告作為我的LLM背景進(jìn)行模擬,即生成子節(jié)點(diǎn)和為決策節(jié)點(diǎn)分配獎(jiǎng)勵(lì)……
以下??視頻??給出項(xiàng)目代碼的運(yùn)行方式展示:
LATS在決策樹上迭代MCTS,創(chuàng)建新節(jié)點(diǎn)并進(jìn)行樹搜索
該代碼中利用開源的graphviz庫(kù)來(lái)直觀地描述在執(zhí)行投資策略模擬期間生成的決策樹。但是,因?yàn)闆Q策樹太寬,無(wú)法放入一張圖片中;所以,我添加了一點(diǎn)代碼片斷,方便展示樹的樣子。當(dāng)然,你可以在??Github倉(cāng)庫(kù)??中找到一棵完整的示例決策樹……
運(yùn)行MCTS示例代碼,以便在當(dāng)前宏觀經(jīng)濟(jì)環(huán)境中找到最佳投資策略
從生成的決策樹中截取的屏幕截圖
以下是LATS推斷出的最佳策略……
Optimal Strategy Summary: The optimal investment strategy is structured around several key steps influenced by the IMF report. Here's a concise summary of each step and its significance:
1. **Diversification Across Geographies and Sectors:**
- **Geographic Diversification:** This involves spreading investments across regions to mitigate risk and tap into different growth potentials. Advanced economies like the U.S. remain essential due to their robust consumer spending and resilient labor market, but the portfolio should include cautious weighting to manage risks. Simultaneously, emerging markets in Asia, such as India and Vietnam, are highlighted for their higher growth potential, providing opportunities for higher returns.
- **Sector Diversification:** Incorporating investments in sectors like green energy and sustainability reflects the growing global emphasis on renewable energy and environmentally friendly technologies. This also aligns with regulatory changes and consumer preferences, creating future growth opportunities.
2. **Green Energy and Sustainability:**
- Investing in green energy demonstrates foresight into the global shift toward reducing carbon footprints and reliance on fossil fuels. This is significant due to increased governmental supports, such as subsidies and policy incentives, which are likely to propel growth within this sector.
3. **Fintech and E-Commerce:**
- Allocating capital towards fintech and e-commerce companies capitalizes on the digital transformation accelerated by the global shift towards digital platforms. This sector is expected to grow due to increased adoption of online services and digital payment systems, thus presenting promising investment opportunities.
上述內(nèi)容對(duì)應(yīng)的中文意思是:
最優(yōu)策略概述:最優(yōu)投資策略圍繞受國(guó)際貨幣基金組織報(bào)告影響的幾個(gè)關(guān)鍵步驟構(gòu)建。以下是對(duì)每個(gè)步驟及其意義的簡(jiǎn)要總結(jié)。
1.跨地域和部門的多樣化
- 地域多元化:這涉及將投資分散到各個(gè)地區(qū),以降低風(fēng)險(xiǎn)并挖掘不同的增長(zhǎng)潛力。由于美國(guó)等發(fā)達(dá)經(jīng)濟(jì)體強(qiáng)勁的消費(fèi)支出和有彈性的勞動(dòng)力市場(chǎng),它們?nèi)匀恢陵P(guān)重要,但投資組合應(yīng)包括謹(jǐn)慎的權(quán)重來(lái)管理風(fēng)險(xiǎn)。與此同時(shí),印度和越南等亞洲新興市場(chǎng)因其更高的增長(zhǎng)潛力而受到關(guān)注,為更高的回報(bào)提供了機(jī)會(huì)。
- 行業(yè)多元化:將投資納入綠色能源和可持續(xù)發(fā)展等行業(yè)反映了全球?qū)稍偕茉春铜h(huán)保技術(shù)的日益重視。這也與監(jiān)管變化和消費(fèi)者偏好相一致,創(chuàng)造了未來(lái)的增長(zhǎng)機(jī)會(huì)。
2.綠色能源和可持續(xù)性
- 投資綠色能源表明了對(duì)全球減少碳排放和依賴化石燃料的轉(zhuǎn)變的遠(yuǎn)見。由于政府支持的增加,如補(bǔ)貼和政策激勵(lì),這可能會(huì)推動(dòng)該行業(yè)的增長(zhǎng)。
3.金融科技和電子商務(wù)
- 利用全球向數(shù)字平臺(tái)轉(zhuǎn)變加速的數(shù)字化轉(zhuǎn)型,向金融科技和電子商務(wù)公司分配資本。由于在線服務(wù)和數(shù)字支付系統(tǒng)的日益普及,該行業(yè)有望增長(zhǎng),從而帶來(lái)有前景的投資機(jī)會(huì)。
結(jié)論
通過(guò)集成語(yǔ)言代理樹搜索(LATS)技術(shù),我們可以實(shí)現(xiàn)利用大型語(yǔ)言模型的推理能力來(lái)動(dòng)態(tài)模擬和評(píng)估潛在策略。這種技術(shù)組合允許構(gòu)建決策樹,其不僅可以描述決策的邏輯進(jìn)程,而且適應(yīng)大型語(yǔ)言模型通過(guò)模擬和反思提供的不斷變化的背景和見解信息。
注意:除非另有說(shuō)明,本文中所有圖片均由作者本人提供。
參考文獻(xiàn)
【1】《Language Agent Tree Search: Unifying Reasoning, Acting, and Planning in Language Models》(語(yǔ)言代理樹搜索:統(tǒng)一語(yǔ)言模型中的推理、行為和規(guī)劃);作者:Zhou等。
【2】《Tree of Thoughts: Deliberate Problem Solving with Large Language Models》(思維樹:使用大型語(yǔ)言模型進(jìn)行深思熟慮的問(wèn)題解決);作者:Yao等。
【3】《The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey》(用于推理、規(guī)劃和工具調(diào)用的新興人工智能代理架構(gòu)的前景綜述);作者:Tula Masterman,Mason Sawtell,Sandi Besen和Alex Chao。
【4】《From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models》(從解碼到元生成:大型語(yǔ)言模型的推理時(shí)間算法);作者:Sean Welleck,Amanda Bertsch,Matthew Finlayson,Hailey Schoelkopf,Alex Xie,Graham Neubig,Ilia Kulikov和Zaid Harchaoui。
【5】《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》(思維鏈促進(jìn)大型語(yǔ)言模型中的啟發(fā)式推理);作者:Jason Wei,Xuezhi Wang,Dale Schuurmans,Maarten Bosma,Brian Ichter,F(xiàn)ei Xia,Ed H. Chi,Quoc V. Le和Denny Zhou。
【6】《Graph of Thoughts: Solving Elaborate Problems with Large Language Models》(思維圖:用大型語(yǔ)言模型解決復(fù)雜問(wèn)題);作者:Maciej Besta,Nils Blach,Ales Kubicek,Robert Gerstenberger,Micha? Podstawski,Lukas Gianinazzi,Joanna Gajda,Tomasz Lehmann,Hubert Niewiadomski,Piotr Nyczyk和Torsten Hoefler。
譯者介紹
朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計(jì)算機(jī)教師,自由編程界老兵一枚。
原文標(biāo)題:??Tackle Complex LLM Decision-Making with Language Agent Tree Search (LATS) & GPT-4o??,作者:Ozgur Guler
