譯者 | 朱先忠
審校 | 重樓
簡介
大型語言模型(LLMs)在執(zhí)行涉及復雜推理的自然語言任務(wù)方面表現(xiàn)出了非凡的能力。因此,這些模型已經(jīng)發(fā)展成為能夠規(guī)劃、制定戰(zhàn)略和解決復雜問題的代理。然而,當涉及到在不確定性下做出決策時,挑戰(zhàn)依然存在,因為結(jié)果不是確定性的,或者在不斷變化的環(huán)境中需要自適應(yīng)決策,特別是在每一步都影響下一步的多步驟場景中。因此,我們需要更先進的能力……
這就是GPT-4的高級推理能力和語言代理樹搜索(LATS,Language Agent Tree Search)結(jié)合起來解決這些挑戰(zhàn)的地方。LATS采用了一種動態(tài)的、基于樹的搜索方法,增強了GPT-4o的推理能力。通過將蒙特卡洛樹搜索(MCTS)與LLM集成,LATS統(tǒng)一了推理、行動和規(guī)劃,創(chuàng)建了一個更深思熟慮和自適應(yīng)的問題解決框架。這種強大的組合可以改進決策,更穩(wěn)健地處理復雜任務(wù),為將語言模型部署為自主代理確立了新的標準。
“搜索”是GenAI問題解決中缺失的部分嗎?
計算問題求解可以廣義地定義為“在組合問題空間中搜索”,通常用樹結(jié)構(gòu)來描述。深度優(yōu)先搜索(DFS)和廣度優(yōu)先搜索(BFS)是探索此類解空間的基本方法。深度搜索力量的一個顯著例子是AlphaGo的“第37手”(https://en.wikipedia.org/wiki/AlphaGo_versus_Lee_Sedol),它展示了如何通過廣泛的探索產(chǎn)生創(chuàng)新的、超越人類的解決方案。
與遵循預(yù)定義路徑的傳統(tǒng)方法不同,LLM可以通過基于上下文預(yù)測潛在結(jié)果、策略或操作,在解決方案空間內(nèi)動態(tài)生成新的分支。這種能力使LLM不僅可以導航,還可以擴展問題空間,使其在問題結(jié)構(gòu)不完全清楚、不斷演變或高度復雜的情況下非常強大。
基于元生成算法的推理時間推理(MGA)
在訓練過程中,縮放計算因其提高模型性能的能力而得到廣泛認可。然而,在推理過程中,縮放計算的好處仍未得到充分探索。MGA(元生成算法,Meta Generation Algorithms)通過在推理過程中放大計算資源提供了一種新方法……
與傳統(tǒng)的令牌級生成方法不同,元生成算法采用高階控制結(jié)構(gòu),如規(guī)劃、具有多個模型調(diào)用的循環(huán)、自反射、任務(wù)分解和動態(tài)調(diào)節(jié)。這些機制使模型能夠端到端地執(zhí)行任務(wù),從而模仿通常被稱為“系統(tǒng)二”思維模式的高級認知過程。
【推理時間推理(MGA)算法摘要】
令牌級生成算法
- 解碼算法:貪婪解碼、波束搜索、推測解碼等。
- 令牌級搜索空間:logits、下一個令牌分布、概率分數(shù)
元生成算法
- 控制循環(huán)多個模型調(diào)用CoT
- 搜索算法ToT、GoT、MCTS
- 細化算法:自我反思、自我修正
因此,單向元生成算法可以通過將搜索集成到生成過程中來增強LLM推理。在推理過程中,MGA動態(tài)探索更廣闊的解決方案空間,使模型能夠推理潛在結(jié)果并實時調(diào)整策略。通過生成多條路徑并評估其可行性,元生成算法使LLM能夠模擬類似于傳統(tǒng)搜索方法的更深入、更復雜的推理。這種方法不僅擴展了模型生成新見解的能力,而且改善了信息不完整或不斷變化的情況下的決策。
通常,思想樹(ToT)和思維圖(GoT)等技術(shù)被用來有效地導航組合解空間。
- ToT(2*)通過將潛在結(jié)果結(jié)構(gòu)化為樹枝,促進對多條路徑的探索,從而實現(xiàn)分層決策。
- GoT(6*)映射了想法之間的復雜關(guān)系,使模型能夠動態(tài)調(diào)整和優(yōu)化其推理路徑。
- CoT(5*)提供了一步一步的推理,將連續(xù)的思想聯(lián)系起來,提高了生成的連貫性和深度。
為什么MCTS算法更好些?
在思想樹(ToT:Tree of Thoughts)方法中,深度優(yōu)先搜索(DFS)或廣度優(yōu)先搜索(BFS)等傳統(tǒng)方法可以對這棵樹進行導航,但它們的計算成本很高,因為它們是系統(tǒng)地、詳盡地探索每一條可能的路徑。
蒙特卡洛樹搜索(MCTS)是對這一點的改進,它模擬了不同的動作結(jié)果,并根據(jù)這些模擬更新了樹。具體地說,MCTS算法使用一個“選擇”過程,在這個過程中,它使用一種平衡探索(嘗試新路徑)和利用(選擇已知的好路徑)的策略來選擇決策節(jié)點。這是由一個稱為上置信區(qū)間(UCB)的公式指導的。
UCB公式包括兩個關(guān)鍵部分:
- 探索項:這表示選擇節(jié)點的潛在回報,并通過模擬計算得出。
- 利用項:這會減少你進入某條路徑的深度,這意味著如果一條路徑被過度探索,算法可能會轉(zhuǎn)向一條探索較少的路徑,即使它最初看起來不太有希望。
通過使用UCB選擇節(jié)點,用LLM模擬結(jié)果(獎勵),并在樹上反向傳播獎勵,MCTS算法將有效地平衡探索新策略和利用已知成功策略之間的關(guān)系。
UCB公式的第二部分是“利用項”,隨著你深入探索特定路徑,該項會減少。這種減少可能會導致選擇算法切換到?jīng)Q策樹中的另一條路徑,即使該路徑的即時獎勵較低,因為當該路徑的探索較少時,利用項仍然較高。
使用UCB公式進行節(jié)點選擇、使用LLM模擬進行獎勵計算和反向傳播是MCTS算法的本質(zhì)。
實戰(zhàn)案例:財務(wù)決策實施方案
LATS操作(1*):https://arxiv.org/pdf/2310.04406
為了說明問題,我們將使用語言代理樹搜索(LATS)算法來解決在當今宏觀經(jīng)濟環(huán)境下提出最優(yōu)投資策略的挑戰(zhàn)性問題。我們將以《國際貨幣基金組織世界經(jīng)濟展望報告》為背景,簡要總結(jié)該文件,為大型語言模型提供宏觀經(jīng)濟狀況信息。注意,在這個案例實現(xiàn)技術(shù)中,我們沒有使用時下流行的RAG技術(shù)。下面,我們來分析一個使用LATS算法搜索解決方案空間的示例。
第一次迭代:
1.選擇
我們從根節(jié)點開始,由于這是第一次LATS迭代,我們將選擇LLM生成的所有初始決策節(jié)點(A、B和C節(jié)點),并模擬它們的結(jié)果。
2.模擬和反向傳播
下一個LLM根據(jù)其上下文“模擬”每種策略,并為每個“節(jié)點”分配以下“獎勵”——投資回報。
- 策略A:5000美元
- 策略B:7000美元
- 策略C:4000美元
3.擴展
根據(jù)選擇,策略B具有最高的UCB1值(因為所有節(jié)點都在相同的深度)。因此,我們通過模擬其子節(jié)點僅擴展策略B。
B節(jié)點擴展,因為它具有更高的模擬獎勵值
第二次迭代:
1.選擇
由于B1和B2策略沒有模擬,因此它們的UCB分數(shù)是并列的,兩個節(jié)點都將被模擬。
2.模擬兩個節(jié)點
- 模擬B1:LLM預(yù)測B1的回報為8500美元。
- 模擬B2:LLM預(yù)測B2的回報為7500美元。
3.反向傳播
每次模擬后,模擬結(jié)果都會在樹上反向傳播,更新父節(jié)點的值。這一步可確保新信息的影響在整個樹中得到反映。
更新策略B的值:策略B現(xiàn)在需要反映B1和B2的結(jié)果。一種常見的方法是對B1和B2的獎勵進行平均,以更新策略B的值。現(xiàn)在,基于其子節(jié)點的結(jié)果,策略B的更新值為8000美元。
反向傳播后,策略B的獎勵值會更新
4.重新計算UCB分數(shù)
反向傳播后,重新計算樹中所有節(jié)點的UCB得分。這次重新計算使用更新后的值(平均獎勵)和訪問次數(shù),確保每個節(jié)點的UCB1分數(shù)準確反映其潛在獎勵和探索量。
UCB=(探索/獎勵項)+(利用項)
需要再次強調(diào)的是,在不斷深入探索的路徑上,所有節(jié)點的利用項都會減少。
5.下一步選擇和模擬
選擇B1以進一步擴展(因為它具有更高的獎勵)到子節(jié)點:
- B1a:“投資人工智能公司”
- B1b:“投資綠色科技”
B1節(jié)點因獎勵更高而進一步擴展
6.反向傳播
子節(jié)點獎勵向上反向傳播
B1獎勵更新為(9200+6800)/2=8000
B獎勵更新為(8000+7500)/2=7750
7.UCB計算
反向傳播后,重新計算所有節(jié)點的UCB值。假設(shè)由于探索因子的衰減,B2現(xiàn)在的UCB得分高于B1a和B1b。如果B1被進行了廣泛探索(從而減少對其子節(jié)點的探索項),這種情況可能會發(fā)生。該算法不再繼續(xù)擴展B1的子代,而是轉(zhuǎn)向探索B2,由于其未探索的潛力,即更高的利用價值,B2變得更具吸引力。
當探索通過節(jié)點的路徑時,節(jié)點的利用價值會降低,這可能會觸發(fā)分支切換——通過新決策節(jié)點的新路徑需要進一步探索。
這個例子展示了MCTS如何根據(jù)新信息動態(tài)調(diào)整其搜索路徑,確保算法在進展過程中保持高效并專注于最有前景的策略。
基于Azure平臺的OpenAI GPT-4o模型實現(xiàn)
接下來,我們將使用GPT-4o模型構(gòu)建一個“財務(wù)顧問”,實戰(zhàn)性地實現(xiàn)一下LATS算法。(有關(guān)完整的代碼,請參考Github倉庫)
提示:為了進行準確的分析,我使用7月24日的國際貨幣基金組織《世界經(jīng)濟展望》報告作為我的LLM背景進行模擬,即生成子節(jié)點和為決策節(jié)點分配獎勵……
以下視頻給出項目代碼的運行方式展示:
LATS在決策樹上迭代MCTS,創(chuàng)建新節(jié)點并進行樹搜索
該代碼中利用開源的graphviz庫來直觀地描述在執(zhí)行投資策略模擬期間生成的決策樹。但是,因為決策樹太寬,無法放入一張圖片中;所以,我添加了一點代碼片斷,方便展示樹的樣子。當然,你可以在Github倉庫中找到一棵完整的示例決策樹……
運行MCTS示例代碼,以便在當前宏觀經(jīng)濟環(huán)境中找到最佳投資策略
從生成的決策樹中截取的屏幕截圖
以下是LATS推斷出的最佳策略……
Optimal Strategy Summary: The optimal investment strategy is structured around several key steps influenced by the IMF report. Here's a concise summary of each step and its significance:
1. **Diversification Across Geographies and Sectors:**
- **Geographic Diversification:** This involves spreading investments across regions to mitigate risk and tap into different growth potentials. Advanced economies like the U.S. remain essential due to their robust consumer spending and resilient labor market, but the portfolio should include cautious weighting to manage risks. Simultaneously, emerging markets in Asia, such as India and Vietnam, are highlighted for their higher growth potential, providing opportunities for higher returns.
- **Sector Diversification:** Incorporating investments in sectors like green energy and sustainability reflects the growing global emphasis on renewable energy and environmentally friendly technologies. This also aligns with regulatory changes and consumer preferences, creating future growth opportunities.
2. **Green Energy and Sustainability:**
- Investing in green energy demonstrates foresight into the global shift toward reducing carbon footprints and reliance on fossil fuels. This is significant due to increased governmental supports, such as subsidies and policy incentives, which are likely to propel growth within this sector.
3. **Fintech and E-Commerce:**
- Allocating capital towards fintech and e-commerce companies capitalizes on the digital transformation accelerated by the global shift towards digital platforms. This sector is expected to grow due to increased adoption of online services and digital payment systems, thus presenting promising investment opportunities.
上述內(nèi)容對應(yīng)的中文意思是:
最優(yōu)策略概述:最優(yōu)投資策略圍繞受國際貨幣基金組織報告影響的幾個關(guān)鍵步驟構(gòu)建。以下是對每個步驟及其意義的簡要總結(jié)。
1.跨地域和部門的多樣化
- 地域多元化:這涉及將投資分散到各個地區(qū),以降低風險并挖掘不同的增長潛力。由于美國等發(fā)達經(jīng)濟體強勁的消費支出和有彈性的勞動力市場,它們?nèi)匀恢陵P(guān)重要,但投資組合應(yīng)包括謹慎的權(quán)重來管理風險。與此同時,印度和越南等亞洲新興市場因其更高的增長潛力而受到關(guān)注,為更高的回報提供了機會。
- 行業(yè)多元化:將投資納入綠色能源和可持續(xù)發(fā)展等行業(yè)反映了全球?qū)稍偕茉春铜h(huán)保技術(shù)的日益重視。這也與監(jiān)管變化和消費者偏好相一致,創(chuàng)造了未來的增長機會。
2.綠色能源和可持續(xù)性
- 投資綠色能源表明了對全球減少碳排放和依賴化石燃料的轉(zhuǎn)變的遠見。由于政府支持的增加,如補貼和政策激勵,這可能會推動該行業(yè)的增長。
3.金融科技和電子商務(wù)
- 利用全球向數(shù)字平臺轉(zhuǎn)變加速的數(shù)字化轉(zhuǎn)型,向金融科技和電子商務(wù)公司分配資本。由于在線服務(wù)和數(shù)字支付系統(tǒng)的日益普及,該行業(yè)有望增長,從而帶來有前景的投資機會。
結(jié)論
通過集成語言代理樹搜索(LATS)技術(shù),我們可以實現(xiàn)利用大型語言模型的推理能力來動態(tài)模擬和評估潛在策略。這種技術(shù)組合允許構(gòu)建決策樹,其不僅可以描述決策的邏輯進程,而且適應(yīng)大型語言模型通過模擬和反思提供的不斷變化的背景和見解信息。
注意:除非另有說明,本文中所有圖片均由作者本人提供。
參考文獻
【1】《Language Agent Tree Search: Unifying Reasoning, Acting, and Planning in Language Models》(語言代理樹搜索:統(tǒng)一語言模型中的推理、行為和規(guī)劃);作者:Zhou等。
【2】《Tree of Thoughts: Deliberate Problem Solving with Large Language Models》(思維樹:使用大型語言模型進行深思熟慮的問題解決);作者:Yao等。
【3】《The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey》(用于推理、規(guī)劃和工具調(diào)用的新興人工智能代理架構(gòu)的前景綜述);作者:Tula Masterman,Mason Sawtell,Sandi Besen和Alex Chao。
【4】《From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models》(從解碼到元生成:大型語言模型的推理時間算法);作者:Sean Welleck,Amanda Bertsch,Matthew Finlayson,Hailey Schoelkopf,Alex Xie,Graham Neubig,Ilia Kulikov和Zaid Harchaoui。
【5】《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》(思維鏈促進大型語言模型中的啟發(fā)式推理);作者:Jason Wei,Xuezhi Wang,Dale Schuurmans,Maarten Bosma,Brian Ichter,F(xiàn)ei Xia,Ed H. Chi,Quoc V. Le和Denny Zhou。
【6】《Graph of Thoughts: Solving Elaborate Problems with Large Language Models》(思維圖:用大型語言模型解決復雜問題);作者:Maciej Besta,Nils Blach,Ales Kubicek,Robert Gerstenberger,Micha? Podstawski,Lukas Gianinazzi,Joanna Gajda,Tomasz Lehmann,Hubert Niewiadomski,Piotr Nyczyk和Torsten Hoefler。
譯者介紹
朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。
原文標題:Tackle Complex LLM Decision-Making with Language Agent Tree Search (LATS) & GPT-4o,作者:Ozgur Guler