自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

#AIGC創(chuàng)新先鋒者征文大賽#AI Agent要如何修煉,才能真正落地? 原創(chuàng)

發(fā)布于 2024-9-27 17:24
瀏覽
0收藏

【本文正在參與 AI.x社區(qū)AIGC創(chuàng)新先鋒者征文大賽】(http://www.scjtxx.cn/aigc/2223.html)

在AI技術(shù)日新月異的當(dāng)下,智能體(Agent)技術(shù)正迅速崛起,成為AI領(lǐng)域的一大熱點。Agent技術(shù)在各行業(yè)應(yīng)用場景中表現(xiàn)出巨大潛力,然而伴隨著機遇的同時,Agent技術(shù)的發(fā)展以及應(yīng)用落地也面臨著諸多挑戰(zhàn)。

在近期落幕的WOT全球技術(shù)創(chuàng)新大會上,九章云極DataCanvas的資深算法工程師薛磊,聚焦于Agent的構(gòu)建與落地,從理論框架到實踐案例,分享了他在Agent領(lǐng)域的洞見和經(jīng)驗,探討了Agent技術(shù)在當(dāng)今人工智能生態(tài)中的定位與價值。

1.概述:AI Agent是如何興起的

首先就AI Agent是什么,薛磊做了簡要概述。

就定義來說,Agent一詞起源于拉丁語中的"Agere",意思是“to do”。在現(xiàn)代人工智能領(lǐng)域,Agent被定義為能夠自主理解、規(guī)劃決策、執(zhí)行復(fù)雜任務(wù)的智能體。就組成來說,Agent通常由大型語言模型(LLM)加上規(guī)劃、記憶、工具調(diào)用和執(zhí)行能力組成。某種程度上,兩者可以類比為人類的大腦和雙手。

在大模型時代,Agent技術(shù)得到了顯著的發(fā)展和應(yīng)用。一方面,大模型相當(dāng)于Agent的“大腦”,提供了處理復(fù)雜任務(wù)所需的智能和知識。另一方面,大模型的興起降低了使用AI Agent的門檻,使得更多的人和應(yīng)用能夠利用這些技術(shù)。

那么,Agent是如何工作的呢?簡單來說,Agent的整體框架由三個關(guān)鍵部分組成:大腦、感知、行動。

  • 大腦:由大型語言模型組成,負責(zé)存儲知識、記憶,并進行信息處理和決策。
  • 感知:感知模塊擴展了Agent的感知空間,使其能夠處理文本、聽覺和視覺等多種模態(tài)的輸入。
  • 行動:行動模塊接收大腦模塊發(fā)送的行動序列,并執(zhí)行與環(huán)境交互的行動。

這些組成部分使Agent能夠像人類一樣進行思考、感知和行動。在薛磊看來,雖然通用大模型在許多領(lǐng)域都表現(xiàn)出色,但Agent可以針對特定的垂直領(lǐng)域進行優(yōu)化和擴展。作為一個模塊,Agent可以作為輔助工具,被集成到更大的系統(tǒng)中,輔助不同行業(yè)、職業(yè)以及個人,其設(shè)計和功能使其能夠在不同的應(yīng)用場景中發(fā)揮關(guān)鍵作用,同時保持靈活性和可擴展性。

2.組成:量身定制一個框架

隨后,薛磊重點介紹了Agent框架。

在計算領(lǐng)域,Agent框架指導(dǎo)智能體如何感知環(huán)境、如何做出決策、如何采取行動。換句話說,它提供了一種組織智能體行為、決策及交互的方法,使它們能夠適應(yīng)環(huán)境變化并高效達成目標。

當(dāng)前有許多主流的Agent流程框架中,而ReAct是應(yīng)用比較廣的。ReAct為什么受歡迎呢?

究其原因:一是提升交互質(zhì)量。ReAct允許模型在執(zhí)行任務(wù)的過程中生成推理軌跡,這意味著模型可以邊思考邊行動,同時記錄下自己的思考過程;二是適應(yīng)復(fù)雜任務(wù)。ReAct框架下的模型可以在執(zhí)行過程中動態(tài)調(diào)整策略,這使得它們能夠處理那些多步驟、具有不確定性和動態(tài)變化的任務(wù);三是通過將推理和行動相結(jié)合,ReAct增強了模型的決策能力。模型不僅依賴于靜態(tài)的預(yù)先訓(xùn)練知識,還可以根據(jù)新信息進行實時學(xué)習(xí)和調(diào)整,這在處理復(fù)雜多變的場景時尤為重要。

薛磊提到,九章云極自研Agent框架有五個核心部分,分別是Session、Agent、Action、Tool、Planner。

#AIGC創(chuàng)新先鋒者征文大賽#AI Agent要如何修煉,才能真正落地?-AI.x社區(qū)
Session:代表用戶與Agent的交互會話,作為思維的主線,記錄用戶與Agent交互的整個生命周期。

  • Agent:作為交互的核心,負責(zé)理解和響應(yīng)用戶的需求,觸發(fā)相應(yīng)的計劃和行動。
  • Planner:負責(zé)制定計劃和策略,根據(jù)用戶的需求和上下文信息,規(guī)劃Agent的行動步驟。
  • Action:涉及到Agent執(zhí)行具體動作的能力,包括調(diào)用內(nèi)部或外部的工具來完成任務(wù)。
  • Tool:工具或資源,供Agent在執(zhí)行任務(wù)時調(diào)用,如搜索引擎、數(shù)據(jù)庫或其他應(yīng)用程序。
  • 關(guān)于自研框架的交互過程,薛磊做了進一步說明。

當(dāng)用戶通過對話或其他方式向Agent提出需求或問題時,Agent通過Prompt工程中的意圖識別技術(shù),理解用戶的意圖。Planner再根據(jù)用戶的意圖和上下文信息,制定行動計劃。之后Agent根據(jù)計劃,通過Action調(diào)用相應(yīng)的Tool執(zhí)行任務(wù)。執(zhí)行完畢后,Agent將結(jié)果反饋給用戶,如果需要,還可能進行多輪對話以優(yōu)化結(jié)果。

而在整個交互過程中,Alaya-Session會充當(dāng)這個過程的記錄者。它記錄用戶與Agent的每一次會話,包括用戶的請求、Agent的響應(yīng)以及交互過程中的所有細節(jié)。一來它記錄用戶的交互歷史,這種記憶功能使得Agent能夠在后續(xù)的交互中利用歷史數(shù)據(jù),提供更加個性化和連貫的服務(wù);二來通過結(jié)合歷史上下文和當(dāng)前會話的信息,Alaya-Session可以幫助Agent更準確地把握用戶意圖。

#AIGC創(chuàng)新先鋒者征文大賽#AI Agent要如何修煉,才能真正落地?-AI.x社區(qū)

3.構(gòu)建:打造出色的Agent系統(tǒng)

不過,薛磊也提到,在開發(fā)Agent框架的過程中,團隊使用了多種開源工具來輔助構(gòu)建和測試他們的系統(tǒng)。其中ChatGPT4作為優(yōu)秀的工具,在過程中發(fā)揮了重要作用,但隨著開發(fā)和測試的深入,使用ChatGPT4等工具的費用、調(diào)用次數(shù)或其他限制條件開始成為問題。

當(dāng)無法繼續(xù)依賴這些工具時,記錄會話過程中的所有信息就變得尤為重要。記錄的數(shù)據(jù)將用于對模型進行后期微調(diào),以改進其性能和適應(yīng)性。這可能涉及到調(diào)整模型以更好地適應(yīng)特定的任務(wù)或優(yōu)化其在特定場景下的表現(xiàn)。同時,通過分析記錄的數(shù)據(jù),開發(fā)者可以對框架進行初步選擇或調(diào)整,以確定哪些組件或策略最有效,哪些需要改進。

薛磊表示,在構(gòu)建和優(yōu)化Agent框架的過程中,團隊從以下幾個關(guān)鍵方面進行了處理,以確保系統(tǒng)的高效性和智能性。

其一,基座大模型。 基座大模型相當(dāng)于Agent的“大腦”,決定著任務(wù)的起因、結(jié)果和成功率。它在處理垂直領(lǐng)域的專有名詞時尤為重要。例如,在電信行業(yè)中,套餐的名稱和價格是特定領(lǐng)域的術(shù)語,這些在通用大模型中可能不被理解。因此,需要對基座大模型進行特定領(lǐng)域的訓(xùn)練和優(yōu)化。

其二,知識庫。 知識庫是Agent的“記憶”,包括永久記憶和瞬間記憶。它通過向量檢索、系數(shù)檢索、混合檢索和狀態(tài)記憶等技術(shù),存儲和檢索歷史會話和事件信息,為Agent提供決策支持。

其三,Prompt工程。 Prompt工程是Agent交互的核心。它不僅僅是為大模型設(shè)定角色和任務(wù),更是一種新式的編程方式。通過精心設(shè)計的提示詞,可以引導(dǎo)大模型理解和執(zhí)行復(fù)雜的任務(wù)。比如,任務(wù)拆解是Planner的基礎(chǔ)能力,而這些都需要提示詞的方向的擴展。

其四,Action/工具。 Action主要涉及到調(diào)用工具和接口,執(zhí)行具體的任務(wù)。通過統(tǒng)一的形式和方法調(diào)用,簡化了Action的執(zhí)行過程,使其更加高效。

#AIGC創(chuàng)新先鋒者征文大賽#AI Agent要如何修煉,才能真正落地?-AI.x社區(qū)
通過這些方面的綜合處理和協(xié)同工作,九章云極自研的Agent框架能夠?qū)崿F(xiàn)高效、準確的交互和任務(wù)執(zhí)行,同時保持靈活性和擴展性。這些組件共同構(gòu)成了一個完整的AI Agent系統(tǒng),使其能夠在各種復(fù)雜應(yīng)用場景中提供服務(wù)。

4.落地:三大應(yīng)用挑戰(zhàn)與解決方案

雖然擁有出色的Agent框架是一個很好的開始,但要實現(xiàn)Agent應(yīng)用的真正落地,還需要面對一系列的挑戰(zhàn)。最初,人們普遍對Agent的能力抱有很高的期望。但在開發(fā)實踐中,常常會發(fā)現(xiàn),Agent在運行看似正常的情況下,卻未能如預(yù)期那樣執(zhí)行任務(wù)。

針對這種情況,薛磊總結(jié)了九章云極在推進Agent應(yīng)用落地過程中所面臨的三大挑戰(zhàn),并分享了相應(yīng)的解決方案。

挑戰(zhàn)一:基座大模型的不可控性

未經(jīng)專業(yè)訓(xùn)練和微調(diào)的大型基礎(chǔ)模型在執(zhí)行復(fù)雜操作指令時表現(xiàn)出較弱的理解和規(guī)劃能力。另外,不可忽視的是成本高和部署難的問題。

解決方案

  • 垂直大模型:訓(xùn)練專注于特定領(lǐng)域的大型模型,以提高對特定任務(wù)的理解和執(zhí)行能力。
  • 大模型+小模型:結(jié)合使用大型基礎(chǔ)模型與小型專業(yè)模型,利用小型模型處理特定任務(wù),而大型模型負責(zé)分發(fā)和協(xié)調(diào)。

挑戰(zhàn)二:不可避免的大模型幻覺現(xiàn)象

大模型在執(zhí)行任務(wù)時可能會出現(xiàn)幻覺問題,特別是在缺乏先驗知識和訓(xùn)練數(shù)據(jù)的情況下,常常會導(dǎo)致任務(wù)拆解和計劃制定過程中出錯。

解決方案

  • 模型微調(diào):通過對模型進行特定領(lǐng)域的訓(xùn)練,使其專注于某個專業(yè)領(lǐng)域,這樣它能在該領(lǐng)域內(nèi)達到較高的準確度。
  • Prompt工程:通過精心設(shè)計的提示來引導(dǎo)模型的輸出,確保其按照預(yù)期的方式回答問題
  • DingDb多模數(shù)據(jù)庫:這是九章云極自研的多模向量庫,它能夠同時處理結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),實現(xiàn)數(shù)據(jù)的統(tǒng)一管理和查詢。使用多模態(tài)數(shù)據(jù)庫來提供輔助的記憶功能,幫助模型更好地理解和執(zhí)行任務(wù)。

挑戰(zhàn)三:效率低下,交互緩慢

大模型推理速度不快,Agent通常需要多次調(diào)用大模型來完成任務(wù),導(dǎo)致整體體驗緩慢,用戶等待時間長。還有,任務(wù)識別調(diào)用出現(xiàn)問題時,可能會導(dǎo)致多次問答的循環(huán)發(fā)生,導(dǎo)致交互的遲滯和用戶的困惑。

解決方案

  • 模型加速:即通過優(yōu)化方法減少不必要的輸入,從而降低模型的計算負擔(dān)。
  • 容錯自查:即利用較小規(guī)模的模型對大型模型的結(jié)果進行復(fù)查驗證,以提高準確性和效率。

5.案例:“輔助辦公AI PPT”是如何運作的

隨后,薛磊簡單分享了三個Agent應(yīng)用。

第一,會議預(yù)定。會議預(yù)定Agent遵循標準化的工作流程。用戶與Agent對話時,Agent會提取關(guān)鍵詞,并檢查是否包含會議參與者、時間及地點等必要信息。如果信息完整,Agent會調(diào)用預(yù)定接口完成會議安排;若信息不全,則繼續(xù)詢問直到獲取所有必需信息。

#AIGC創(chuàng)新先鋒者征文大賽#AI Agent要如何修煉,才能真正落地?-AI.x社區(qū)
第二,智能信息收集。智能信息收集Agent主要負責(zé)從對話中提取關(guān)鍵信息(如姓名、地點等),并通過設(shè)置提示信息、信息驗證和反饋機制來確保數(shù)據(jù)的準確性。例如,在保險報案場景中,Agent會引導(dǎo)用戶提供詳細的報案信息,并對提供的信息進行驗證,以確保信息的有效性和完整性。

#AIGC創(chuàng)新先鋒者征文大賽#AI Agent要如何修煉,才能真正落地?-AI.x社區(qū)
第三,輔助辦公 AI PPT。此應(yīng)用幫助用戶通過對話生成PPT演示文稿。它結(jié)合了大模型的Planner功能,能夠根據(jù)用戶的需求生成PPT大綱和內(nèi)容。用戶通過對話啟動PPT生成流程,Agent根據(jù)用戶的意圖和提供的信息(如主題、內(nèi)容等)生成PPT大綱。用戶可以上傳文檔或提供主題,系統(tǒng)會根據(jù)這些信息生成PPT內(nèi)容。

#AIGC創(chuàng)新先鋒者征文大賽#AI Agent要如何修煉,才能真正落地?-AI.x社區(qū)
薛磊介紹,AI PPT應(yīng)用流程基于大模型的Planner,Planner分為兩大類:有狀態(tài)的Planner和無狀態(tài)的Planner。與大多數(shù)在線AI PPT創(chuàng)建工具相似,九章云極目前嘗試的是有狀態(tài)的Planner,它們都有預(yù)設(shè)的流程。不過,九章云極的Planner采用了有狀態(tài)的設(shè)計,這意味著它能夠根據(jù)用戶的對話歷史做出響應(yīng)。

用戶可以通過自然語言與系統(tǒng)交流,而且這種對話是靈活的。這意味著用戶不僅可以按照既定的流程進行,還可以隨時跳出流程,進行閑聊或其他操作。這種靈活性得益于前端路由機制,它可以根據(jù)用戶的指令來決定是否繼續(xù)當(dāng)前的流程。

#AIGC創(chuàng)新先鋒者征文大賽#AI Agent要如何修煉,才能真正落地?-AI.x社區(qū)
通過這種方式,輔助辦公AI PPT應(yīng)用能夠更加靈活地響應(yīng)用戶需求,并有效生成高質(zhì)量的PPT文檔。

6.結(jié)語:面向未來的思考

最后,薛磊提到了他對于未來Agent發(fā)展趨勢的幾點思考。在他看來,以下三個方向值得關(guān)注:

其一,Multi- Agents的集成爆發(fā)。 多智能體系統(tǒng)中,這些智能體可以是不同的軟件程序、機器人、傳感器等,它們各自具備一定的智能和自主性。MAS的核心思想是通過多個智能體的協(xié)作與協(xié)調(diào),共同完成一個復(fù)雜任務(wù),從而實現(xiàn)單個智能體無法完成的目標。

其二,跨平臺部署。 隨著開源生態(tài)的蓬勃發(fā)展,以及模型能力的持續(xù)提升,未來PC端和移動端將廣泛部署更加智能、個性化且功能豐富的系統(tǒng)級Agent,為用戶提供無縫、高效的跨平臺服務(wù)體驗。

其三,多模態(tài)能力的擴展。 目前這一領(lǐng)域正處于快速發(fā)展階段。GPT-4o的出現(xiàn)也令人振奮。未來Agent將超越傳統(tǒng)的文本對話,通過整合動作識別、語言理解、情感分析等多模態(tài)交互能力,并與硬件設(shè)備深度融合,實現(xiàn)更加自然、直觀且智能的交互體驗,真正成為人們?nèi)粘I钪胁豢苫蛉钡闹悄芑锇椤?/p>

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦