自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI Agent要如何修煉,才能真正落地?

原創(chuàng) 精選
人工智能
在AI技術(shù)日新月異的當(dāng)下,智能體(Agent)技術(shù)正迅速崛起,成為AI領(lǐng)域的一大熱點(diǎn)。Agent技術(shù)在各行業(yè)應(yīng)用場(chǎng)景中表現(xiàn)出巨大潛力,然而伴隨著機(jī)遇的同時(shí),Agent技術(shù)的發(fā)展以及應(yīng)用落地也面臨著諸多挑戰(zhàn)。

嘉賓丨薛磊

撰稿丨諾亞

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

本文整理自九章云極DataCanvas資深算法工程師薛磊在WOT2024大會(huì)上的主題分享。

在AI技術(shù)日新月異的當(dāng)下,智能體(Agent)技術(shù)正迅速崛起,成為AI領(lǐng)域的一大熱點(diǎn)。Agent技術(shù)在各行業(yè)應(yīng)用場(chǎng)景中表現(xiàn)出巨大潛力,然而伴隨著機(jī)遇的同時(shí),Agent技術(shù)的發(fā)展以及應(yīng)用落地也面臨著諸多挑戰(zhàn)。

在近期落幕的WOT全球技術(shù)創(chuàng)新大會(huì)上,九章云極DataCanvas的資深算法工程師薛磊,聚焦于Agent的構(gòu)建與落地,從理論框架到實(shí)踐案例,分享了他在Agent領(lǐng)域的洞見(jiàn)和經(jīng)驗(yàn),探討了Agent技術(shù)在當(dāng)今人工智能生態(tài)中的定位與價(jià)值。

1.概述:AI Agent是如何興起的

首先就AI Agent是什么,薛磊做了簡(jiǎn)要概述。

就定義來(lái)說(shuō),Agent一詞起源于拉丁語(yǔ)中的"Agere",意思是“to do”。在現(xiàn)代人工智能領(lǐng)域,Agent被定義為能夠自主理解、規(guī)劃決策、執(zhí)行復(fù)雜任務(wù)的智能體。就組成來(lái)說(shuō),Agent通常由大型語(yǔ)言模型(LLM)加上規(guī)劃、記憶、工具調(diào)用和執(zhí)行能力組成。某種程度上,兩者可以類比為人類的大腦和雙手。

在大模型時(shí)代,Agent技術(shù)得到了顯著的發(fā)展和應(yīng)用。一方面,大模型相當(dāng)于Agent的“大腦”,提供了處理復(fù)雜任務(wù)所需的智能和知識(shí)。另一方面,大模型的興起降低了使用AI Agent的門檻,使得更多的人和應(yīng)用能夠利用這些技術(shù)。

那么,Agent是如何工作的呢?簡(jiǎn)單來(lái)說(shuō),Agent的整體框架由三個(gè)關(guān)鍵部分組成:大腦、感知、行動(dòng)。

  • 大腦:由大型語(yǔ)言模型組成,負(fù)責(zé)存儲(chǔ)知識(shí)、記憶,并進(jìn)行信息處理和決策。
  • 感知:感知模塊擴(kuò)展了Agent的感知空間,使其能夠處理文本、聽(tīng)覺(jué)和視覺(jué)等多種模態(tài)的輸入。
  • 行動(dòng):行動(dòng)模塊接收大腦模塊發(fā)送的行動(dòng)序列,并執(zhí)行與環(huán)境交互的行動(dòng)。

這些組成部分使Agent能夠像人類一樣進(jìn)行思考、感知和行動(dòng)。在薛磊看來(lái),雖然通用大模型在許多領(lǐng)域都表現(xiàn)出色,但Agent可以針對(duì)特定的垂直領(lǐng)域進(jìn)行優(yōu)化和擴(kuò)展。作為一個(gè)模塊,Agent可以作為輔助工具,被集成到更大的系統(tǒng)中,輔助不同行業(yè)、職業(yè)以及個(gè)人,其設(shè)計(jì)和功能使其能夠在不同的應(yīng)用場(chǎng)景中發(fā)揮關(guān)鍵作用,同時(shí)保持靈活性和可擴(kuò)展性。

2.組成:量身定制一個(gè)框架

隨后,薛磊重點(diǎn)介紹了Agent框架。

在計(jì)算領(lǐng)域,Agent框架指導(dǎo)智能體如何感知環(huán)境、如何做出決策、如何采取行動(dòng)。換句話說(shuō),它提供了一種組織智能體行為、決策及交互的方法,使它們能夠適應(yīng)環(huán)境變化并高效達(dá)成目標(biāo)。

當(dāng)前有許多主流的Agent流程框架中,而ReAct是應(yīng)用比較廣的。ReAct為什么受歡迎呢?

究其原因:一是提升交互質(zhì)量。ReAct允許模型在執(zhí)行任務(wù)的過(guò)程中生成推理軌跡,這意味著模型可以邊思考邊行動(dòng),同時(shí)記錄下自己的思考過(guò)程;二是適應(yīng)復(fù)雜任務(wù)。ReAct框架下的模型可以在執(zhí)行過(guò)程中動(dòng)態(tài)調(diào)整策略,這使得它們能夠處理那些多步驟、具有不確定性和動(dòng)態(tài)變化的任務(wù);三是通過(guò)將推理和行動(dòng)相結(jié)合,ReAct增強(qiáng)了模型的決策能力。模型不僅依賴于靜態(tài)的預(yù)先訓(xùn)練知識(shí),還可以根據(jù)新信息進(jìn)行實(shí)時(shí)學(xué)習(xí)和調(diào)整,這在處理復(fù)雜多變的場(chǎng)景時(shí)尤為重要。

薛磊提到,九章云極自研Agent框架有五個(gè)核心部分,分別是Session、Agent、Action、Tool、Planner。

圖片圖片

  • Session:代表用戶與Agent的交互會(huì)話,作為思維的主線,記錄用戶與Agent交互的整個(gè)生命周期。
  • Agent:作為交互的核心,負(fù)責(zé)理解和響應(yīng)用戶的需求,觸發(fā)相應(yīng)的計(jì)劃和行動(dòng)。
  • Planner:負(fù)責(zé)制定計(jì)劃和策略,根據(jù)用戶的需求和上下文信息,規(guī)劃Agent的行動(dòng)步驟。
  • Action:涉及到Agent執(zhí)行具體動(dòng)作的能力,包括調(diào)用內(nèi)部或外部的工具來(lái)完成任務(wù)。
  • Tool:工具或資源,供Agent在執(zhí)行任務(wù)時(shí)調(diào)用,如搜索引擎、數(shù)據(jù)庫(kù)或其他應(yīng)用程序。

關(guān)于自研框架的交互過(guò)程,薛磊做了進(jìn)一步說(shuō)明。

當(dāng)用戶通過(guò)對(duì)話或其他方式向Agent提出需求或問(wèn)題時(shí),Agent通過(guò)Prompt工程中的意圖識(shí)別技術(shù),理解用戶的意圖。Planner再根據(jù)用戶的意圖和上下文信息,制定行動(dòng)計(jì)劃。之后Agent根據(jù)計(jì)劃,通過(guò)Action調(diào)用相應(yīng)的Tool執(zhí)行任務(wù)。執(zhí)行完畢后,Agent將結(jié)果反饋給用戶,如果需要,還可能進(jìn)行多輪對(duì)話以優(yōu)化結(jié)果。

而在整個(gè)交互過(guò)程中,Alaya-Session會(huì)充當(dāng)這個(gè)過(guò)程的記錄者。它記錄用戶與Agent的每一次會(huì)話,包括用戶的請(qǐng)求、Agent的響應(yīng)以及交互過(guò)程中的所有細(xì)節(jié)。一來(lái)它記錄用戶的交互歷史,這種記憶功能使得Agent能夠在后續(xù)的交互中利用歷史數(shù)據(jù),提供更加個(gè)性化和連貫的服務(wù);二來(lái)通過(guò)結(jié)合歷史上下文和當(dāng)前會(huì)話的信息,Alaya-Session可以幫助Agent更準(zhǔn)確地把握用戶意圖。

圖片圖片

3.構(gòu)建:打造出色的Agent系統(tǒng)

不過(guò),薛磊也提到,在開(kāi)發(fā)Agent框架的過(guò)程中,團(tuán)隊(duì)使用了多種開(kāi)源工具來(lái)輔助構(gòu)建和測(cè)試他們的系統(tǒng)。其中ChatGPT4作為優(yōu)秀的工具,在過(guò)程中發(fā)揮了重要作用,但隨著開(kāi)發(fā)和測(cè)試的深入,使用ChatGPT4等工具的費(fèi)用、調(diào)用次數(shù)或其他限制條件開(kāi)始成為問(wèn)題。

當(dāng)無(wú)法繼續(xù)依賴這些工具時(shí),記錄會(huì)話過(guò)程中的所有信息就變得尤為重要。記錄的數(shù)據(jù)將用于對(duì)模型進(jìn)行后期微調(diào),以改進(jìn)其性能和適應(yīng)性。這可能涉及到調(diào)整模型以更好地適應(yīng)特定的任務(wù)或優(yōu)化其在特定場(chǎng)景下的表現(xiàn)。同時(shí),通過(guò)分析記錄的數(shù)據(jù),開(kāi)發(fā)者可以對(duì)框架進(jìn)行初步選擇或調(diào)整,以確定哪些組件或策略最有效,哪些需要改進(jìn)。   

薛磊表示,在構(gòu)建和優(yōu)化Agent框架的過(guò)程中,團(tuán)隊(duì)從以下幾個(gè)關(guān)鍵方面進(jìn)行了處理,以確保系統(tǒng)的高效性和智能性。

其一,基座大模型。基座大模型相當(dāng)于Agent的“大腦”,決定著任務(wù)的起因、結(jié)果和成功率。它在處理垂直領(lǐng)域的專有名詞時(shí)尤為重要。例如,在電信行業(yè)中,套餐的名稱和價(jià)格是特定領(lǐng)域的術(shù)語(yǔ),這些在通用大模型中可能不被理解。因此,需要對(duì)基座大模型進(jìn)行特定領(lǐng)域的訓(xùn)練和優(yōu)化。

其二,知識(shí)庫(kù)。知識(shí)庫(kù)是Agent的“記憶”,包括永久記憶和瞬間記憶。它通過(guò)向量檢索、系數(shù)檢索、混合檢索和狀態(tài)記憶等技術(shù),存儲(chǔ)和檢索歷史會(huì)話和事件信息,為Agent提供決策支持。

其三,Prompt工程。Prompt工程是Agent交互的核心。它不僅僅是為大模型設(shè)定角色和任務(wù),更是一種新式的編程方式。通過(guò)精心設(shè)計(jì)的提示詞,可以引導(dǎo)大模型理解和執(zhí)行復(fù)雜的任務(wù)。比如,任務(wù)拆解是Planner的基礎(chǔ)能力,而這些都需要提示詞的方向的擴(kuò)展。

其四,Action/工具。Action主要涉及到調(diào)用工具和接口,執(zhí)行具體的任務(wù)。通過(guò)統(tǒng)一的形式和方法調(diào)用,簡(jiǎn)化了Action的執(zhí)行過(guò)程,使其更加高效。

圖片圖片

通過(guò)這些方面的綜合處理和協(xié)同工作,九章云極自研的Agent框架能夠?qū)崿F(xiàn)高效、準(zhǔn)確的交互和任務(wù)執(zhí)行,同時(shí)保持靈活性和擴(kuò)展性。這些組件共同構(gòu)成了一個(gè)完整的AI Agent系統(tǒng),使其能夠在各種復(fù)雜應(yīng)用場(chǎng)景中提供服務(wù)。

4.落地:三大應(yīng)用挑戰(zhàn)與解決方案

雖然擁有出色的Agent框架是一個(gè)很好的開(kāi)始,但要實(shí)現(xiàn)Agent應(yīng)用的真正落地,還需要面對(duì)一系列的挑戰(zhàn)。最初,人們普遍對(duì)Agent的能力抱有很高的期望。但在開(kāi)發(fā)實(shí)踐中,常常會(huì)發(fā)現(xiàn),Agent在運(yùn)行看似正常的情況下,卻未能如預(yù)期那樣執(zhí)行任務(wù)。

針對(duì)這種情況,薛磊總結(jié)了九章云極在推進(jìn)Agent應(yīng)用落地過(guò)程中所面臨的三大挑戰(zhàn),并分享了相應(yīng)的解決方案。

挑戰(zhàn)一:基座大模型的不可控性

未經(jīng)專業(yè)訓(xùn)練和微調(diào)的大型基礎(chǔ)模型在執(zhí)行復(fù)雜操作指令時(shí)表現(xiàn)出較弱的理解和規(guī)劃能力。另外,不可忽視的是成本高和部署難的問(wèn)題。

解決方案

  • 垂直大模型:訓(xùn)練專注于特定領(lǐng)域的大型模型,以提高對(duì)特定任務(wù)的理解和執(zhí)行能力。
  • 大模型+小模型:結(jié)合使用大型基礎(chǔ)模型與小型專業(yè)模型,利用小型模型處理特定任務(wù),而大型模型負(fù)責(zé)分發(fā)和協(xié)調(diào)。

挑戰(zhàn)二:不可避免的大模型幻覺(jué)現(xiàn)象

大模型在執(zhí)行任務(wù)時(shí)可能會(huì)出現(xiàn)幻覺(jué)問(wèn)題,特別是在缺乏先驗(yàn)知識(shí)和訓(xùn)練數(shù)據(jù)的情況下,常常會(huì)導(dǎo)致任務(wù)拆解和計(jì)劃制定過(guò)程中出錯(cuò)。

解決方案

  • 模型微調(diào):通過(guò)對(duì)模型進(jìn)行特定領(lǐng)域的訓(xùn)練,使其專注于某個(gè)專業(yè)領(lǐng)域,這樣它能在該領(lǐng)域內(nèi)達(dá)到較高的準(zhǔn)確度。
  • Prompt工程:通過(guò)精心設(shè)計(jì)的提示來(lái)引導(dǎo)模型的輸出,確保其按照預(yù)期的方式回答問(wèn)題
  • DingDb多模數(shù)據(jù)庫(kù):這是九章云極自研的多模向量庫(kù),它能夠同時(shí)處理結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一管理和查詢。使用多模態(tài)數(shù)據(jù)庫(kù)來(lái)提供輔助的記憶功能,幫助模型更好地理解和執(zhí)行任務(wù)。

挑戰(zhàn)三:效率低下,交互緩慢

大模型推理速度不快,Agent通常需要多次調(diào)用大模型來(lái)完成任務(wù),導(dǎo)致整體體驗(yàn)緩慢,用戶等待時(shí)間長(zhǎng)。還有,任務(wù)識(shí)別調(diào)用出現(xiàn)問(wèn)題時(shí),可能會(huì)導(dǎo)致多次問(wèn)答的循環(huán)發(fā)生,導(dǎo)致交互的遲滯和用戶的困惑。

解決方案

  • 模型加速:即通過(guò)優(yōu)化方法減少不必要的輸入,從而降低模型的計(jì)算負(fù)擔(dān)。
  • 容錯(cuò)自查:即利用較小規(guī)模的模型對(duì)大型模型的結(jié)果進(jìn)行復(fù)查驗(yàn)證,以提高準(zhǔn)確性和效率。

5.案例:“輔助辦公AI PPT”是如何運(yùn)作的

隨后,薛磊簡(jiǎn)單分享了三個(gè)Agent應(yīng)用。

第一,會(huì)議預(yù)定。會(huì)議預(yù)定Agent遵循標(biāo)準(zhǔn)化的工作流程。用戶與Agent對(duì)話時(shí),Agent會(huì)提取關(guān)鍵詞,并檢查是否包含會(huì)議參與者、時(shí)間及地點(diǎn)等必要信息。如果信息完整,Agent會(huì)調(diào)用預(yù)定接口完成會(huì)議安排;若信息不全,則繼續(xù)詢問(wèn)直到獲取所有必需信息。

圖片圖片

第二,智能信息收集。智能信息收集Agent主要負(fù)責(zé)從對(duì)話中提取關(guān)鍵信息(如姓名、地點(diǎn)等),并通過(guò)設(shè)置提示信息、信息驗(yàn)證和反饋機(jī)制來(lái)確保數(shù)據(jù)的準(zhǔn)確性。例如,在保險(xiǎn)報(bào)案場(chǎng)景中,Agent會(huì)引導(dǎo)用戶提供詳細(xì)的報(bào)案信息,并對(duì)提供的信息進(jìn)行驗(yàn)證,以確保信息的有效性和完整性。 

圖片圖片

第三,輔助辦公 AI PPT。此應(yīng)用幫助用戶通過(guò)對(duì)話生成PPT演示文稿。它結(jié)合了大模型的Planner功能,能夠根據(jù)用戶的需求生成PPT大綱和內(nèi)容。用戶通過(guò)對(duì)話啟動(dòng)PPT生成流程,Agent根據(jù)用戶的意圖和提供的信息(如主題、內(nèi)容等)生成PPT大綱。用戶可以上傳文檔或提供主題,系統(tǒng)會(huì)根據(jù)這些信息生成PPT內(nèi)容。

圖片圖片

薛磊介紹,AI PPT應(yīng)用流程基于大模型的Planner,Planner分為兩大類:有狀態(tài)的Planner和無(wú)狀態(tài)的Planner。與大多數(shù)在線AI PPT創(chuàng)建工具相似,九章云極目前嘗試的是有狀態(tài)的Planner,它們都有預(yù)設(shè)的流程。不過(guò),九章云極的Planner采用了有狀態(tài)的設(shè)計(jì),這意味著它能夠根據(jù)用戶的對(duì)話歷史做出響應(yīng)。

用戶可以通過(guò)自然語(yǔ)言與系統(tǒng)交流,而且這種對(duì)話是靈活的。這意味著用戶不僅可以按照既定的流程進(jìn)行,還可以隨時(shí)跳出流程,進(jìn)行閑聊或其他操作。這種靈活性得益于前端路由機(jī)制,它可以根據(jù)用戶的指令來(lái)決定是否繼續(xù)當(dāng)前的流程。

圖片圖片

通過(guò)這種方式,輔助辦公AI PPT應(yīng)用能夠更加靈活地響應(yīng)用戶需求,并有效生成高質(zhì)量的PPT文檔。

6.結(jié)語(yǔ):面向未來(lái)的思考

最后,薛磊提到了他對(duì)于未來(lái)Agent發(fā)展趨勢(shì)的幾點(diǎn)思考。在他看來(lái),以下三個(gè)方向值得關(guān)注:

其一,Multi- Agents的集成爆發(fā)。多智能體系統(tǒng)中,這些智能體可以是不同的軟件程序、機(jī)器人、傳感器等,它們各自具備一定的智能和自主性。MAS的核心思想是通過(guò)多個(gè)智能體的協(xié)作與協(xié)調(diào),共同完成一個(gè)復(fù)雜任務(wù),從而實(shí)現(xiàn)單個(gè)智能體無(wú)法完成的目標(biāo)。

其二,跨平臺(tái)部署。隨著開(kāi)源生態(tài)的蓬勃發(fā)展,以及模型能力的持續(xù)提升,未來(lái)PC端和移動(dòng)端將廣泛部署更加智能、個(gè)性化且功能豐富的系統(tǒng)級(jí)Agent,為用戶提供無(wú)縫、高效的跨平臺(tái)服務(wù)體驗(yàn)。

其三,多模態(tài)能力的擴(kuò)展。目前這一領(lǐng)域正處于快速發(fā)展階段。GPT-4o的出現(xiàn)也令人振奮。未來(lái)Agent將超越傳統(tǒng)的文本對(duì)話,通過(guò)整合動(dòng)作識(shí)別、語(yǔ)言理解、情感分析等多模態(tài)交互能力,并與硬件設(shè)備深度融合,實(shí)現(xiàn)更加自然、直觀且智能的交互體驗(yàn),真正成為人們?nèi)粘I钪胁豢苫蛉钡闹悄芑锇椤?/span>

想了解更多AIGC的內(nèi)容,請(qǐng)?jiān)L問(wèn):

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責(zé)任編輯:武曉燕 來(lái)源: 51CTO技術(shù)棧
相關(guān)推薦

2025-04-25 00:00:00

2018-01-16 20:14:37

OpenPOWERAIIBM

2024-05-30 19:01:53

AI技術(shù)大會(huì)

2019-12-13 10:52:27

區(qū)塊鏈應(yīng)用區(qū)塊鏈比特幣

2024-07-02 11:16:21

2015-04-15 14:58:20

大數(shù)據(jù)安防與大數(shù)據(jù)

2024-11-05 16:47:27

2016-12-14 14:09:56

華為軟件DevOps

2014-08-18 10:09:05

初志科技

2022-08-20 18:22:57

自動(dòng)駕駛技術(shù)

2020-12-17 15:11:51

數(shù)據(jù)科學(xué)家開(kāi)發(fā)Python

2024-07-24 13:31:13

2010-03-12 15:49:46

Python字串查找

2025-04-14 00:00:00

DataAgentAgentAI

2017-06-13 10:15:50

人工智能深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2009-04-01 10:44:00

無(wú)線802.11n

2012-04-19 13:33:29

Qcon錢安川敏捷

2021-03-24 11:35:03

人工智能

2018-11-07 09:51:48

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)