自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI應(yīng)用落地關(guān)鍵技術(shù):AI Agent 原創(chuàng)

發(fā)布于 2024-10-8 14:47
瀏覽
0收藏

一、什么是 AI Agent?

1、用快思考與慢思考類比大模型的能力

根據(jù)丹尼爾·卡尼曼的著作《思考,快與慢》,人類的思維可以分為兩大系統(tǒng):系統(tǒng)1和系統(tǒng)2。系統(tǒng)1負(fù)責(zé)直覺式的快速思考,這種思考往往是無意識的;而系統(tǒng)2則擅長進(jìn)行有意識的邏輯推理和主動控制。

在探討大型模型的思維能力時,我們首先可以觀察到,這些大模型可能具備了類似人類的分析問題能力,它們能夠理解、分析和解決復(fù)雜問題。進(jìn)一步地,人類與動物的一個重要區(qū)別在于人類擅長創(chuàng)造和使用工具。隨著大模型認(rèn)知能力的不斷提升,當(dāng)它們遇到自身不擅長的領(lǐng)域時,這些大模型可能會展現(xiàn)出一種類似于人腦使用工具的能力——即尋找并利用適當(dāng)?shù)墓ぞ邅斫鉀Q問題,而不是直接依靠自身能力去解決。

AI應(yīng)用落地關(guān)鍵技術(shù):AI Agent-AI.x社區(qū)

2、OpenAI 對 AI Agent 的定義

在2023年6月,Open AI 的應(yīng)用研究主管 Lilian Weng發(fā) 表了《LLM Powered Autonomous Agents》一文,其中她提出了一個公式:“智能體=大模型(LLMs)+規(guī)劃(Planning)+記憶(Memory)+工具使用(Tools)”。

AI應(yīng)用落地關(guān)鍵技術(shù):AI Agent-AI.x社區(qū)

1)智能體的推理與執(zhí)行能力,指的是利用大模型(LLMs)來理解、執(zhí)行并回顧任務(wù)。這包括將復(fù)雜任務(wù)分解為更小、更易管理的子任務(wù)以提高效率,并且通過吸取歷史經(jīng)驗和錯誤教訓(xùn)來優(yōu)化行動的質(zhì)量。

2)智能體具備短期與長期記憶功能:短期記憶通過利用提示(Prompt)中的信息和上下文數(shù)據(jù)進(jìn)行學(xué)習(xí),而長期記憶則通過外部向量存儲和快速檢索技術(shù)來實現(xiàn),這使得智能體能夠在更廣泛的時間跨度內(nèi)存儲和回憶(理論上無限)信息。

3)智能體具有調(diào)用外部 API 來使用“工具”的能力,這包括瀏覽網(wǎng)頁、啟動應(yīng)用程序、讀寫文件、進(jìn)行支付甚至操控用戶設(shè)備等。與傳統(tǒng)的自動化工具不同,AI智能體能夠在未知和不可預(yù)測的新環(huán)境中有效工作。

4)在Open AI 的定義基礎(chǔ)上,還應(yīng)補(bǔ)充智能體的反饋接受能力。正如人類在處理復(fù)雜任務(wù)時需要與環(huán)境互動,我們的行為會改變環(huán)境,環(huán)境也會給予我們反饋,我們根據(jù)這些反饋進(jìn)行決策。因此,智能體應(yīng)該能夠根據(jù)采取的行動接收正面或試錯性的反饋、階段性成果或獎勵,并據(jù)此進(jìn)行下一輪的規(guī)劃和行動。

 3、AI Agent 更廣泛的定義

在 AI Agent 的整體架構(gòu)設(shè)計中,一般可以將框架劃分為五個主要模塊:感知、定義、記憶、規(guī)劃和行動。

AI應(yīng)用落地關(guān)鍵技術(shù):AI Agent-AI.x社區(qū)


  • 感知模塊:這一部分主要負(fù)責(zé)處理各種輸入信息,確保智能體能夠與環(huán)境進(jìn)行有效的交互。
  • 定義模塊:該模塊包含了智能體的特性、目標(biāo)和其他相關(guān)屬性信息。
  • 記憶模塊:涵蓋了短期和長期記憶,它為智能體在處理復(fù)雜任務(wù)時提供歷史數(shù)據(jù)和策略支持。
  • 規(guī)劃模塊:涉及任務(wù)分解、反思、推理、策略制定等,是智能體的決策中心,類似于大腦的功能。
  • 行動模塊:負(fù)責(zé)以文本、實體動作、工具指令等多種方式輸出智能體的決策結(jié)果。

二、AI Agent 的關(guān)鍵能力要素

1、記憶能力

目前的研究普遍將記憶分為短期記憶和長期記憶兩大類。

  • -短期記憶主要依賴于上下文學(xué)習(xí),但受到 Transformer 模型上下文窗口大小的限制。
  • 長期記憶則更加廣泛地應(yīng)用于任務(wù)中,它涉及對世界的宏觀和抽象理解。這包括存儲生產(chǎn)系統(tǒng)的過程記憶、關(guān)于世界事實的語義記憶,以及代理過去行為序列的情節(jié)記憶。長期記憶通過參數(shù)知識存儲(模型訓(xùn)練)和非參數(shù)知識存儲(外部搜索)來實現(xiàn)。
  • 對于超出常規(guī)上下文范圍的長期記憶,學(xué)術(shù)界探索了兩條路徑:一條是擴(kuò)展上下文,即將上下文支持?jǐn)U展到100K甚至無限大;另一條是利用 RAG 和信息壓縮技術(shù),即對輸入信息進(jìn)行總結(jié)和壓縮存儲,僅在需要時提取相關(guān)記憶。
  • 擴(kuò)展上下文的方案相對簡單,依賴于算力的提升和成本的降低,但目前的成本仍然較高。
  • RAG 技術(shù)則是搜索相關(guān)信息片段,并將搜索結(jié)果融入大模型的上下文中,以便大模型基于這些結(jié)果回答問題。
  • 信息壓縮則是對信息進(jìn)行總結(jié),最基本的方法是文本總結(jié),更高級的方法是使用指令訪問外部存儲,或者在模型層面使用 Embedding 技術(shù)進(jìn)行總結(jié)。

2、規(guī)劃能力

規(guī)劃是 AI Agent 解決復(fù)雜問題的關(guān)鍵能力,主要包括子目標(biāo)分解、反思和提煉等。

  • 子目標(biāo)分解:通過思維鏈(CoT)技術(shù),將大任務(wù)分解為多個更易管理的子任務(wù),并為大模型的思維過程提供解釋線索。思維樹技術(shù)則通過在每一步探索多種推理可能性來擴(kuò)展 CoT,創(chuàng)建一個樹狀結(jié)構(gòu)的思考過程。
  • 反思提煉:ReAct 技術(shù)通過將動作空間擴(kuò)展為特定任務(wù)的離散動作和語言空間的組合,將推理和動作整合到 LLM中。Reflexion 框架則為智能體提供了動態(tài)記憶和自我反思的能力,以提高推理技能。
  • ReAct 方法能夠發(fā)揮 LLM 的推理能力,通過交錯生成推理軌跡和任務(wù)特定的操作,實現(xiàn)推理與操作的協(xié)同。盡管存在一些局限性,如解決復(fù)雜問題的能力有限、成本不可控等,但它仍然是提升AI智能體能力的重要途徑。

3、行動能力

智能體的行動能力主要體現(xiàn)在文本輸出、工具使用和具身動作等方面。

  • 在工具使用方面,智能體主要通過微調(diào)或預(yù)設(shè)模型描述框架來調(diào)用外部API,實現(xiàn)對現(xiàn)有功能的使用或特定信息的訪問。未來,隨著模型能力的提升,智能體可能能夠創(chuàng)造新工具。
  • 如何讓大模型學(xué)會按需使用工具?有兩種觀點:一種認(rèn)為工具使用是過程記憶,需要通過 Fine-tuning 方法教授模型工具使用的樣例;另一種認(rèn)為工具使用是代碼生成能力,可以通過 RAG 方法匹配工具并使用。

4、減少幻覺

減少幻覺主要依賴于基礎(chǔ)模型的進(jìn)步和 Scaling Law,同時也有工程方法可以減少現(xiàn)有模型的幻覺。

  • 事實性校驗:首先使用大模型生成回答,然后通過 RAG 方法找到與回答內(nèi)容匹配的原始語料,最后讓大模型判斷回答的準(zhǔn)確性。
  • 多次生成:論文 SelfCheckGPT 提出的多次生成方法,通過多次生成同一問題的回答并讓大模型挑選最一致的回答,以減少偶發(fā)的幻覺問題,但無法解決系統(tǒng)性偏差。

三、AI Agent 發(fā)展的三個階段

1、AI Agent 能力的三個發(fā)展階段

AI應(yīng)用落地關(guān)鍵技術(shù):AI Agent-AI.x社區(qū)

1) Embedding 嵌入式模式:這一階段主要依賴于人類問答,提供信息和建議,這是目前最普遍的大模型(LLM)應(yīng)用方式。

2) Copilot 輔助駕駛模式:在這一階段,Agent 基于人類設(shè)定的目標(biāo),完成單一或簡單任務(wù)。

3) Agent 智能體模式:智能體在這一階段能夠基于人類的目標(biāo),執(zhí)行多任務(wù)、復(fù)雜任務(wù)或任務(wù)組合。

2、ChatGPT 代表了第一階段的大模型能力。

它并不完全符合 Agent 的典型定義,主要向用戶提供廣泛的世界知識。

3、目前,單一任務(wù)場景下已有一些 AI 應(yīng)用實例

在辦公場景中,我們有 Microsoft 365 Copilot(及其新推出的個人版 Copilot Pro)、Google Duet AI、專注于輕文檔辦公的 Notion AI、輔助代碼開發(fā)的 Copilot X 以及數(shù)據(jù)分析處理的 Deepnote AI 等。這些應(yīng)用常見的功能包括起草文檔、內(nèi)容匯總、提供公式建議等,它們通常以側(cè)邊欄或?qū)υ捒虻男问匠霈F(xiàn),幫助用戶自動調(diào)用工作空間中的文件和信息,并進(jìn)行處理生成。

4、展望未來,AI  Agent 將不僅僅局限于解決問題的執(zhí)行層面,而是將進(jìn)一步深入到如何解決問題的規(guī)劃層面。

在工作場景中,我們對 AI Agent 的期待包括:

1) 連續(xù)執(zhí)行:Agent 能夠?qū)τ脩舻娜蝿?wù)指令進(jìn)行拆解,分解為多個步驟,對這些步驟進(jìn)行規(guī)劃排序并連續(xù)執(zhí)行。

2) 完成復(fù)雜任務(wù):目前 Agent 只能解決單個或少數(shù)簡單任務(wù),未來期望能夠處理多個復(fù)雜任務(wù)。

3) 多步驟規(guī)劃:Agent 在執(zhí)行后續(xù)步驟的同時,能夠保持對任務(wù)目標(biāo)和前序任務(wù)的記憶,具備強(qiáng)大的步驟規(guī)劃執(zhí)行能力。


本文轉(zhuǎn)載自公眾號玄姐聊AGI  作者:玄姐

原文鏈接:??https://mp.weixin.qq.com/s/L-_JdrKLTjKLR2rCR-63rw???

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦