2024年AI代理的突破:CoAgents如何引領(lǐng)人機協(xié)同新潮流? 原創(chuàng)
01 概述
現(xiàn)代大型語言模型(LLMs)的規(guī)模和能力,讓我們僅僅將它們用于文本摘要、文本補全、代碼補全等普通任務(wù),似乎有些局限。它們的真正潛力在于圍繞這些模型構(gòu)建系統(tǒng),讓它們能夠:
- 訪問、檢索和過濾相關(guān)來源的數(shù)據(jù),
- 分析和處理這些數(shù)據(jù)以做出實時決策等。
RAG(Retrieval-Augmented Generation)是構(gòu)建此類復(fù)合AI系統(tǒng)的一個重要步驟:
但RAG遵循程序化流程(作為程序員,您定義步驟、要搜索的數(shù)據(jù)庫、要檢索的上下文等),它并未完全釋放出這些復(fù)合AI系統(tǒng)所期望的自主性。
因此,2024年的主要焦點是構(gòu)建AI代理——能夠推理、思考、規(guī)劃、確定相關(guān)來源并在需要時從中提取信息、采取行動,甚至在出現(xiàn)問題時自我修正的自主系統(tǒng)。
雖然這聽起來很有前景,但目前的問題是:
- 我們離構(gòu)建完全自主的AI代理還有很長的路要走。
- 更具體地說,當代理需要執(zhí)行一個包含多個步驟的復(fù)雜任務(wù)時,過程中的一個小錯誤就會使整個操作脫軌。
為了避免這種情況,它們需要反饋機制,例如人機協(xié)同(HITL),以指導(dǎo)它們完成步驟(IBM在這篇博客中對此進行了廣泛討論)。
顧名思義,人機協(xié)同工作流程結(jié)合了AI代理和人類的力量。
CoAgents是由CopilotKit開發(fā)的全開源解決方案,提供了構(gòu)建此類工作流程所需的所有基礎(chǔ)設(shè)施。
02 CoAgents
CoAgents的核心驅(qū)動力是LangGraph,這是一個使用圖結(jié)構(gòu)定義、協(xié)調(diào)和執(zhí)行LLM代理的框架。
CoAgents更進一步,提供了將LangGraph與HITL工作流程連接起來構(gòu)建更可靠AI代理的所有功能。
以下是一些關(guān)鍵特性:
1) 流式中間代理狀態(tài)
使用CoAgents,可以在代理執(zhí)行提示時,將其中間狀態(tài)流式傳輸?shù)綉?yīng)用程序UI。
這樣,用戶就可以看到代理在后端正在做什么,并驗證它是否正在采取正確的步驟,而不僅僅是盯著一個加載旋轉(zhuǎn)器。
2) 代理與應(yīng)用程序之間的共享狀態(tài)
流式傳輸AI代理的中間狀態(tài)并不完全有幫助,對吧?我的意思是,溝通正在發(fā)生的事情當然是有益的,但如果需要,人類應(yīng)該被允許與這些狀態(tài)互動。
因此,狀態(tài)必須在應(yīng)用程序狀態(tài)(對人類可見)和代理狀態(tài)(代理的內(nèi)部狀態(tài))之間雙向同步,以允許代理和人類協(xié)作完成任務(wù)。
3) 代理問答
任何由人機協(xié)同驅(qū)動的代理的一個明顯期望是,如果它對某事不確定或需要用戶提供一些額外的細節(jié)以達成最終狀態(tài),它應(yīng)該能夠向用戶提出問題。
使用此功能,任何AI代理都可以輕松地以兩種方式提出這樣的問題:
4)代理引導(dǎo)(即將推出)
一旦代理產(chǎn)生了其狀態(tài),可能需要我們回到中間狀態(tài),糾正一些事情,并從那個特定的檢查點重新運行。
這個功能即將發(fā)布(加入搶先體驗以保持更新),將讓我們能夠做到這一點:
03 結(jié)語
憑借今天的技術(shù)和技巧,任何現(xiàn)有的GPT或LLaMAs或Mistrals都可以(幾乎)可靠地:
- 使用LoRA/QLoRA等進行微調(diào)以適應(yīng)額外信息。
- 使用基于RAG的技術(shù)增加額外信息。
此外,通過Tree-of-thoughts、Reflexion等技術(shù),我們能夠向模型引入“規(guī)劃/推理技巧”,以利用更多的代理行為。
參考:
- ??https://blog.dailydoseofds.com/p/copilotkit-coagents-build-human-in??
- ??https://github.com/login?return_to=%2FCopilotKit%2FCopilotKit??
?
本文轉(zhuǎn)載自公眾號Halo咯咯 作者:基咯咯
原文鏈接:??https://mp.weixin.qq.com/s/CuWqU3AYdYsDlXBvAlGeHg??????
