自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<nav id="dz6fd"><rp id="dz6fd"></rp></nav>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

下一代語言模型范式LAM崛起！AutoGPT模式席卷LLM，三大組件全面綜述：規(guī)劃、記憶和工具

作者：新智元 2023-07-11 13:05:43

以AutoGPT, GPT-Engineer和BabyAGI等項目為代表的大型動作模型（Large-Action Models，LAM）則將語言模型作為智能體的核心大腦，可以將復(fù)雜任務(wù)分解，并在每個子步驟實現(xiàn)自主決策，無需用戶參與即可解決問題。

由ChatGPT掀起的這波AI浪潮已經(jīng)將我們帶入了人工智能時代，語言模型已經(jīng)成為日常生活中不可或缺的工具。

但目前的語言模型只能響應(yīng)用戶的查詢指令，實現(xiàn)一些生成任務(wù)，比如寫故事、生成代碼等。

而以AutoGPT, GPT-Engineer和BabyAGI等項目為代表的大型動作模型（Large-Action Models，LAM）則將語言模型作為智能體的核心大腦，可以將復(fù)雜任務(wù)分解，并在每個子步驟實現(xiàn)自主決策，無需用戶參與即可解決問題。

圖片

LAM的崛起，也標(biāo)志著語言模型的研發(fā)正在走向新階段，本文將對LAM開發(fā)中涉及到的技術(shù)進(jìn)行綜述，具體包括三個關(guān)鍵組件，即規(guī)劃、記憶和工具。

Planning 規(guī)劃

一項復(fù)雜的任務(wù)通常包括多個子步驟，智能體需要提前將任務(wù)分解，并進(jìn)行規(guī)劃。

任務(wù)分解

思維鏈（Chain of Thought, CoT）已然成為「誘導(dǎo)模型推理」的標(biāo)準(zhǔn)提示技術(shù)，可以增強(qiáng)解決復(fù)雜任務(wù)時的模型性能。

圖片

論文鏈接：https://arxiv.org/pdf/2201.11903.pdf

通過「Think step by step」，模型可以利用更多測試時計算（test-time computation）將任務(wù)分解為更小、更簡單的子步驟，并能夠解釋模型的思維過程。

思想之樹（Tree of Thoughts）在每個子步驟中探索多種推理可能性來擴(kuò)展CoT。

圖片

論文鏈接：https://arxiv.org/abs/2305.10601

首先將問題分解為多個思維步，并在每個步驟內(nèi)生成多個思路，從而創(chuàng)建出一個樹結(jié)構(gòu)解決方案；搜索過程可以是BFS（廣度優(yōu)先搜索）或DFS（深度優(yōu)先搜索），其中每個狀態(tài)由分類器（經(jīng)由提示）或多數(shù)投票來評估。

任務(wù)分解可以通過簡單的提示，如「Steps for XYZ.\n1.」，「What are the subgoals for achieving XYZ」；或是使用任務(wù)相關(guān)的指令，如「Write a story outline」可以用于寫小說；也可以由人輸入。

自我反思 Self Reflection

自我反思可以讓自主智能體改進(jìn)過去的行動決策、糾正之前的錯誤來迭代改進(jìn)，在可以試錯的現(xiàn)實任務(wù)中非常有用。

ReAct通過將動作空間擴(kuò)展為任務(wù)相關(guān)的離散動作和語言空間的組合，在LLM中集成了推理和動作，其中動作使得LLM能夠與環(huán)境交互（例如使用維基百科搜索API），而語言空間可以讓LLM以自然語言的方式生成推理軌跡。

圖片

論文鏈接：https://arxiv.org/pdf/2210.03629.pdf

ReAct提示模板包含了LLM思考的明確步驟，大致格式為：

圖片

在知識密集型任務(wù)和決策任務(wù)的實驗中，ReAct 比只用Act（移除Thought）的基線模型效果更好。

圖片

Memory 記憶

記憶類型

記憶可以被定義為用于獲取、存儲、保留和后續(xù)檢索信息的過程，人類大腦中主要有三種類型的記憶。

圖片

1. 感官記憶（Sensory memory）

這種記憶處于記憶的最早階段，提供了在原始刺激結(jié)束后保留感官信息（視覺，聽覺等）印象的能力，通常只持續(xù)幾秒鐘。

感官記憶的子類別包括圖標(biāo)記憶（視覺）、回聲記憶（聽覺）和觸覺記憶（觸覺）。

2. 短時記憶（STM）或工作記憶（Working Memory）

存儲了當(dāng)下能意識到的所有信息，以及執(zhí)行復(fù)雜的認(rèn)知任務(wù)（如學(xué)習(xí)和推理）所需的信息，大概可以存儲7件事，持續(xù)20-30秒。

3. 長期記憶（LTM）

顧名思義，LTM可以將信息存儲相當(dāng)長的時間，范圍從幾天到幾十年不等，具有基本上無限的存儲容量。

LTM有兩種亞型：

1）顯式/陳述性記憶，即對事實和事件的記憶，指那些可以有意識地回憶起來的記憶，包括情景記憶（事件和經(jīng)驗）和語義記憶（事實和概念）。

2）隱式/程序性記憶，這種類型的記憶是無意識的，包括自動執(zhí)行的技能和例程，比如騎自行車或在鍵盤上打字。

對應(yīng)到語言模型的概念上：

1. 作為原始輸入（包括文本、圖像或其他形式）的學(xué)習(xí)嵌入表征的感官記憶;

2. 短期記憶就是上下文學(xué)習(xí)（in-context learning），非常短且影響范圍有限，受到Transformer的上下文窗口長度的限制。

3. 長期記憶作為智能體在查詢時可用的外部向量存儲，可通過快速檢索訪問。

最大內(nèi)積搜索Maximum Inner Product Search (MIPS)

外部記憶可以緩解有限注意力span的限制，常用的操作是將信息嵌入表征保存到支持快速最大內(nèi)積搜索（MIPS）的向量存儲數(shù)據(jù)庫中。

為了優(yōu)化檢索速度，一般都會選擇近似最近鄰（ANN，approximate nearest neighbors）算法返回前k個最近鄰節(jié)點，犧牲一點準(zhǔn)確性以換取巨大的速度提升。

圖片

常用的ANN算法包括LSH（Locality-Sensitive Hashing），ANNOY, HNSW， FAISS, ScaNN

Tool Use工具使用

能使用復(fù)雜工具是人類高智力的體現(xiàn)，我們可以創(chuàng)造、修改和利用外部物體來完成超出身體和認(rèn)知極限的事情，同樣，為LLM配備外部工具也可以顯著擴(kuò)展模型功能。

一只海獺漂浮在水中時，用巖石劈開貝殼的圖片。雖然其他一些動物可以使用工具，但其復(fù)雜性無法與人類相比。

MRKL（模塊化推理、知識和語言），是一個神經(jīng)符號架構(gòu)的自主智能體，包含一組「專家」模塊和一個用作路由器（router）的通用語言模型，以路由查詢到最合適的專家模塊。

圖片

論文鏈接：https://arxiv.org/pdf/2205.00445.pdf

每個模塊可以神經(jīng)網(wǎng)絡(luò)，也可以是符號模型，例如數(shù)學(xué)計算器、貨幣轉(zhuǎn)換器、天氣API

研究人員做了一個微調(diào)語言模型以調(diào)用計算器的實驗，使用算術(shù)作為測試用例，結(jié)果表明，解決verbal數(shù)學(xué)問題比解決明確陳述的數(shù)學(xué)問題更難，因為LLM（7B Jurassic 1-large 模型）不能可靠地為基本算術(shù)提取正確的參數(shù)，也凸顯了符號工具的重要性，以及了解何時利用何種工具的重要性。

TALM（工具增強(qiáng)語言模型）和Toolformer都是微調(diào)語言模型以學(xué)習(xí)使用外部工具API

圖片

論文鏈接：https://arxiv.org/pdf/2302.04761.pdf

ChatGPT插件和OpenAI API函數(shù)調(diào)用也是增強(qiáng)語言模型使用工具能力的例子，其中工具API的集合可以由其他開發(fā)人員提供（如插件）或自定義（如函數(shù)調(diào)用）。

API-Bank是用于評估工具增強(qiáng)型LLM性能的基準(zhǔn)，包含53個常用的API工具，一個完整的工具增強(qiáng)的LLM工作流，以及264個標(biāo)注對話，用到568次API調(diào)用。

圖片

論文鏈接：https://arxiv.org/pdf/2304.08244.pdf

API的選擇非常多樣化，包括搜索引擎、計算器、日歷查詢、智能家居控制、日程管理、健康數(shù)據(jù)管理、賬戶認(rèn)證工作流等。

由于API數(shù)量眾多，LLM首先可以訪問API搜索引擎，找到合適的API調(diào)用，然后使用相應(yīng)的文檔進(jìn)行調(diào)用。

圖片

在API-Bank工作流程中，LLM需要做出三次決策，每一步都可以評估決策的準(zhǔn)確性：

1. 是否需要API調(diào)用；

2. 確定要調(diào)用的正確API：如果不夠好，則LLM需要迭代地修改API輸入（例如決定搜索引擎API的搜索關(guān)鍵字）；

3. 基于API結(jié)果的響應(yīng)：如果結(jié)果不滿意，則模型可以選擇改善并再次調(diào)用。

該基準(zhǔn)可以在三個層次上評估智能體的工具使用能力。

層次1：評估調(diào)用API的能力

給定API的描述，模型需要確定是否調(diào)用給定的API，正確調(diào)用并正確響應(yīng)API返回；

層次2：檢查檢索API的能力

模型需要搜索可能解決用戶需求的API，并通過閱讀文檔學(xué)習(xí)如何使用。

層次3：評估規(guī)劃API的能力，而非檢索和調(diào)用

如果用戶請求不明確（例如安排小組會議、預(yù)訂旅行的航班/酒店/餐廳），模型可能不得不進(jìn)行多次API調(diào)用來解決。

LAM的應(yīng)用

科學(xué)發(fā)現(xiàn)

ChemCrow系統(tǒng)內(nèi)的語言模型通過13個專家設(shè)計的工具進(jìn)行能力增強(qiáng)，可以完成跨有機(jī)合成、藥物發(fā)現(xiàn)和材料設(shè)計的任務(wù)。

圖片

論文鏈接：https://arxiv.org/abs/2304.05376

在LangChain中實現(xiàn)的工作流程包括了在ReAct和MRKL中描述的機(jī)制，并將CoT推理與任務(wù)相關(guān)的工具相結(jié)合：

語言模型先提供一個工具名稱列表、用途描述以及有關(guān)預(yù)期輸入/輸出的詳細(xì)信息；然后指示模型在必要時使用提供的工具回答用戶給定的提示，指令要求模型遵循ReAct格式，即Thought, Action, Action Input, Observation

實驗結(jié)果來看，用語言模型評估的話，GPT-4和ChemCrow的性能幾乎相當(dāng)；但當(dāng)人類專家評估時，在特定解決方案的完成和化學(xué)正確性進(jìn)行的實驗結(jié)果顯示，ChemCrow的性能遠(yuǎn)遠(yuǎn)超過GPT-4

實驗結(jié)果表明，使用LLM來評估需要深入專業(yè)知識領(lǐng)域的性能存在問題，可能會導(dǎo)致LLM不知道內(nèi)在缺陷，無法很好地判斷任務(wù)結(jié)果正確性。

另一篇論文研究了語言模型處理復(fù)雜科學(xué)實驗的自主設(shè)計、規(guī)劃和性能，可以使用工具瀏覽互聯(lián)網(wǎng)、閱讀文檔、執(zhí)行代碼、調(diào)用機(jī)器人實驗API以及利用其他語言模型。

圖片

論文鏈接：https://arxiv.org/abs/2304.05332

當(dāng)用戶請求「develop a novel anticancer drug」時，模型會返回了以下推理步驟：

1. 詢問抗癌藥物發(fā)現(xiàn)的當(dāng)前趨勢；

2. 選擇目標(biāo)；

3. 要求一種靶向這些化合物的scaffold；

4. 一旦找出化合物，模型再嘗試合成。

文中還討論了風(fēng)險，特別是非法藥物和生物武器，研究人員開發(fā)了一套包含已知化學(xué)武器制劑清單的測試集，并要求合成，11項請求中有4項（36%）被接受；在這7個被拒絕的樣本中，5例發(fā)生在網(wǎng)絡(luò)搜索之后，2例僅基于提示詞就拒絕。

下一步工作

雖然語言模型可以作為復(fù)雜的系統(tǒng)的大腦，并做出相應(yīng)行為，但目前也存在一些限制和不足：

1. 有限上下文長度

上下文容量限制了歷史信息、詳細(xì)指令、API調(diào)用上下文和回復(fù)，下游系統(tǒng)的設(shè)計不得不受限于有限的通信帶寬，而像自我反思這樣從過去錯誤中學(xué)習(xí)的機(jī)制可以從更長的上下文窗口中受益。

雖然向量存儲和檢索可以提供對更大知識庫的訪問，但其表征能力不如完全注意力機(jī)制那么強(qiáng)。

2. 長期規(guī)劃和任務(wù)分解方面的挑戰(zhàn)

在較長的對話歷史中進(jìn)行規(guī)劃，并有效地探索解決方案空間仍然具有挑戰(zhàn)性；語言模型在面對意外錯誤時很難調(diào)整計劃，與從試驗和錯誤中學(xué)習(xí)的人類相比，穩(wěn)健性較差。

3. 自然語言接口的可靠性

目前的智能體系統(tǒng)依賴于自然語言作為語言模型和外部組件（如記憶和工具）之間的接口，不過模型輸出并不一定可靠，因為語言模型可能會產(chǎn)生格式錯誤，偶爾會表現(xiàn)出錯誤、拒絕遵循指示等問題，所以大部分智能體演示代碼目前都主要關(guān)注模型輸出上。

參考資料：

https://blog.salesforceairesearch.com/large-action-models/

https://lilianweng.github.io/posts/2023-06-23-agent/

責(zé)任編輯：武曉燕來源：新智元

LAM 語言模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<tt id="1ider"><option id="1ider"></option></tt>