工作流代理新突破:FlowAgent的合規(guī)性與靈活性解析
在對(duì)話系統(tǒng)研究領(lǐng)域,工作流代理的設(shè)計(jì)與實(shí)現(xiàn)始終充滿了挑戰(zhàn)與機(jī)遇。傳統(tǒng)的任務(wù)導(dǎo)向?qū)υ捪到y(tǒng)(TOD)通常采用模塊化流水線架構(gòu),將自然語(yǔ)言理解(NLU)、對(duì)話狀態(tài)跟蹤(DST)以及自然語(yǔ)言生成(NLG)功能分離開來。但是這種方法由于誤差傳播問題,效率往往不高。隨著大型語(yǔ)言模型(LLMs)的興起,基于LLMs的端到端對(duì)話系統(tǒng)逐漸成為主流,通過工作流引導(dǎo)的互動(dòng)進(jìn)行整體對(duì)話管理,顯著提高了任務(wù)成功率。
對(duì)話系統(tǒng)從模塊化流水線到端到端LLM范式的演變過程中,傳統(tǒng)系統(tǒng)因NLU、DST和NLG模塊間的誤差傳播問題,效率受限。而現(xiàn)代LLM方法通過工作流引導(dǎo)的互動(dòng),提升了整體對(duì)話管理能力。這一轉(zhuǎn)變不僅需要新的評(píng)估指標(biāo)來衡量任務(wù)成功率,還激發(fā)了對(duì)系統(tǒng)合規(guī)性和靈活性的雙重關(guān)注。
在實(shí)際應(yīng)用中,LLMs展現(xiàn)出廣闊前景,但對(duì)話系統(tǒng)在執(zhí)行任務(wù)時(shí)需遵循特定規(guī)則和程序。傳統(tǒng)的基于規(guī)則的方法盡管提供了較高的合規(guī)性,但往往以犧牲靈活性為代價(jià)。相對(duì)地,基于提示的方法雖能提升靈活性,但在合規(guī)性上存在不足。為了解決這一矛盾,來自騰訊優(yōu)圖實(shí)驗(yàn)室和復(fù)旦大學(xué)的聯(lián)合研究團(tuán)隊(duì)提出了新的框架——FLOWAGENT,通過引入程序描述語(yǔ)言(PDL),在提升靈活性的同時(shí),確保對(duì)話系統(tǒng)的合規(guī)性。
他們的論文《FLOWAGENT: Achieving Compliance and Flexibility for Workflow Agents》提供了對(duì)現(xiàn)有LLM基于工作流代理系統(tǒng)的系統(tǒng)分析,重點(diǎn)關(guān)注合規(guī)性和靈活性。基于此分析,研究團(tuán)隊(duì)提出了PDL語(yǔ)法,將自然語(yǔ)言和代碼結(jié)合,靈活描述節(jié)點(diǎn)關(guān)系和工作流程序。研究團(tuán)隊(duì)引入了FLOWAGENT框架,通過創(chuàng)建PDL驅(qū)動(dòng)的控制器,實(shí)現(xiàn)動(dòng)態(tài)平衡合規(guī)性和靈活性。在三個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)表明,F(xiàn)LOWAGENT在預(yù)定義工作流內(nèi)外均能平衡合規(guī)性和靈活性。研究團(tuán)隊(duì)還構(gòu)建了一個(gè)綜合評(píng)估基準(zhǔn),增加現(xiàn)有數(shù)據(jù)集以評(píng)估工作流代理在超出工作流(OOW)場(chǎng)景中的性能。研發(fā)團(tuán)隊(duì)開源了其代碼,該代碼地址:https://github/Lightblues/FlowAgent。
研究團(tuán)隊(duì)成員來自兩個(gè)機(jī)構(gòu):騰訊優(yōu)圖實(shí)驗(yàn)室(Tencent YouTu Lab)和復(fù)旦大學(xué)(Fudan University)。來自騰訊優(yōu)圖實(shí)驗(yàn)室的成員包括Yuchen Shi、Siqi Cai、Zihan Xu、Yulei Qin、Gang Li、Hang Shao、Ke Li和Xing Sun;復(fù)旦大學(xué)的成員有Jiawei Chen和Deqing Yang。這些成員共同合作,致力于通過FLOWAGENT框架實(shí)現(xiàn)工作流代理的合規(guī)性和靈活性。
相關(guān)工作
隨著大型語(yǔ)言模型(LLM)的發(fā)展,對(duì)話系統(tǒng)在理解和生成自然語(yǔ)言方面的能力得到了顯著提升。任務(wù)導(dǎo)向?qū)υ捪到y(tǒng)(TOD)經(jīng)歷了從模塊化流水線到端到端LLM范式的演變。傳統(tǒng)系統(tǒng)在處理用戶請(qǐng)求時(shí),將自然語(yǔ)言理解(NLU)、對(duì)話狀態(tài)跟蹤(DST)和自然語(yǔ)言生成(NLG)分為不同的模塊,這些模塊之間的誤差傳播往往會(huì)影響系統(tǒng)的整體性能。然而現(xiàn)代的LLM方法通過在單一框架中處理所有這些任務(wù),避免了模塊間的誤差傳播問題。
任務(wù)導(dǎo)向?qū)υ捪到y(tǒng)的早期方法主要依賴于模塊化流水線架構(gòu),將對(duì)話過程拆分為多個(gè)獨(dú)立的組件:自然語(yǔ)言理解(NLU)負(fù)責(zé)解析用戶輸入,對(duì)話狀態(tài)跟蹤(DST)負(fù)責(zé)記錄對(duì)話上下文,自然語(yǔ)言生成(NLG)負(fù)責(zé)生成系統(tǒng)響應(yīng)。雖然這種方法具有一定的靈活性,但由于每個(gè)模塊獨(dú)立工作,誤差容易在模塊之間傳播,導(dǎo)致系統(tǒng)性能不穩(wěn)定。
近年來,隨著LLMs的崛起,任務(wù)導(dǎo)向?qū)υ捪到y(tǒng)逐漸向端到端范式轉(zhuǎn)變。在這種新范式下,LLMs能夠在一個(gè)統(tǒng)一的框架內(nèi)完成所有任務(wù),從而避免了模塊間誤差傳播的問題。現(xiàn)代方法通過工作流引導(dǎo)的互動(dòng)實(shí)現(xiàn)整體對(duì)話管理,提高了任務(wù)的成功率和系統(tǒng)的魯棒性。
傳統(tǒng)的任務(wù)導(dǎo)向?qū)υ捪到y(tǒng)雖然在一定程度上提高了系統(tǒng)的靈活性,但其模塊化結(jié)構(gòu)導(dǎo)致了誤差在各個(gè)模塊之間傳播,影響了系統(tǒng)的整體性能。此外,這種方法在處理復(fù)雜任務(wù)時(shí),往往需要大量的手動(dòng)規(guī)則和預(yù)定義的模板,難以適應(yīng)多變的用戶需求和場(chǎng)景。
圖1:不同工作流格式的比較
相比之下,現(xiàn)代的LLM方法通過在單一框架中處理所有任務(wù),顯著提高了系統(tǒng)的性能和靈活性。LLMs利用其龐大的預(yù)訓(xùn)練參數(shù),能夠更靈活地與用戶互動(dòng),滿足多樣化的需求。同時(shí),LLM驅(qū)動(dòng)的對(duì)話系統(tǒng)通過工作流引導(dǎo)的互動(dòng)實(shí)現(xiàn)整體對(duì)話管理,提高了任務(wù)的成功率和系統(tǒng)的魯棒性。
隨著LLMs的發(fā)展,基于LLM的代理在各個(gè)領(lǐng)域得到了廣泛應(yīng)用。LLM驅(qū)動(dòng)的代理通過工具使用和動(dòng)態(tài)規(guī)劃增強(qiáng)任務(wù)執(zhí)行能力,提高了系統(tǒng)的整體性能。代理工作流架構(gòu)的研究主要集中在兩大范式:工作流生成和工作流執(zhí)行。
工作流生成方法通過LLM的推理能力創(chuàng)建流程,這種方法靈活性較高,但在合規(guī)性上存在一定挑戰(zhàn)。而工作流執(zhí)行方法則在預(yù)定義結(jié)構(gòu)內(nèi)操作,通過明確的節(jié)點(diǎn)和狀態(tài)轉(zhuǎn)換規(guī)則控制工作流的進(jìn)展,確保系統(tǒng)的合規(guī)性。研究團(tuán)隊(duì)主要關(guān)注工作流執(zhí)行范式,將工作流視為預(yù)定義的知識(shí),通過PDL語(yǔ)法靈活描述節(jié)點(diǎn)關(guān)系和工作流程序,以實(shí)現(xiàn)系統(tǒng)的高效管理和控制。
盡管現(xiàn)有的LLM驅(qū)動(dòng)代理在一定程度上提高了任務(wù)執(zhí)行能力,但在處理復(fù)雜的用戶需求和場(chǎng)景時(shí)仍然存在挑戰(zhàn)?;谝?guī)則的方法雖然提供了較高的合規(guī)性,但往往以犧牲靈活性為代價(jià)。而基于提示的方法雖然能夠提高靈活性,但在合規(guī)性上存在不足。因此,如何在提高系統(tǒng)靈活性的同時(shí),確保其合規(guī)性,成為了一個(gè)亟待解決的問題。
研究團(tuán)隊(duì)通過引入FLOWAGENT框架和程序描述語(yǔ)言(PDL),旨在解決這一矛盾。PDL結(jié)合了自然語(yǔ)言的適應(yīng)性和代碼的精確性,靈活描述工作流節(jié)點(diǎn)關(guān)系和程序邏輯。FLOWAGENT框架通過PDL驅(qū)動(dòng)的控制器,實(shí)現(xiàn)了系統(tǒng)合規(guī)性和靈活性的動(dòng)態(tài)平衡。實(shí)驗(yàn)結(jié)果表明,F(xiàn)LOWAGENT在處理超出工作流(OOW)場(chǎng)景時(shí),表現(xiàn)出強(qiáng)大的合規(guī)性和靈活性,解決了現(xiàn)有方法在復(fù)雜場(chǎng)景下的不足。
方法論
在這一部分中,研究團(tuán)隊(duì)詳細(xì)介紹FLOWAGENT的核心組成部分,包括程序描述語(yǔ)言(PDL)語(yǔ)法以及FLOWAGENT架構(gòu)。
程序描述語(yǔ)言(PDL)語(yǔ)法
PDL是一種用于表示工作流的語(yǔ)言,旨在結(jié)合自然語(yǔ)言的靈活性和代碼的精確性,以便更好地描述復(fù)雜的任務(wù)流程。PDL主要由以下三個(gè)部分組成:
元信息:包含工作流的基本信息,如名稱和描述。這部分信息用于標(biāo)識(shí)工作流,并為其提供簡(jiǎn)要介紹,幫助用戶快速理解工作流的目的和作用。
節(jié)點(diǎn)定義:描述代理可以訪問的資源,這些資源包括API節(jié)點(diǎn)(用于外部工具調(diào)用)和ANSWER節(jié)點(diǎn)(用于用戶交互)。API節(jié)點(diǎn)用于執(zhí)行特定的操作,如調(diào)用外部工具或服務(wù);ANSWER節(jié)點(diǎn)則用于與用戶進(jìn)行交互,獲取必要的信息。
程序描述:定義任務(wù)的程序邏輯,以自然語(yǔ)言和偽代碼的混合形式表達(dá)。程序描述部分詳細(xì)說明了工作流的執(zhí)行步驟和邏輯關(guān)系,確保任務(wù)能夠按照預(yù)定的流程順利完成。
圖2:醫(yī)院預(yù)約工作流中FLOWAAGENT的兩個(gè)示例會(huì)話
PDL的關(guān)鍵特性在于其靈活性和準(zhǔn)確性。首先,PDL通過先決條件屬性,定義了節(jié)點(diǎn)之間的依賴關(guān)系。例如,在醫(yī)院預(yù)約工作流中,科室查詢節(jié)點(diǎn)需要先完成醫(yī)院選擇節(jié)點(diǎn),以確保流程的順序性和邏輯性。其次,PDL結(jié)合自然語(yǔ)言和代碼,在保證清晰易懂的同時(shí),確保了工作流的精確性和可操作性。
圖3:PDL中的節(jié)點(diǎn)定義示例
FLOWAGENT架構(gòu)
FLOWAGENT是一個(gè)增強(qiáng)工作流代理行為控制的執(zhí)行框架,通過引入PDL,實(shí)現(xiàn)了工作流代理的高效管理和控制。FLOWAGENT的設(shè)計(jì)包含多個(gè)模塊和控制器,以確保系統(tǒng)的合規(guī)性和靈活性。
首先,決策前控制器和決策后控制器在FLOWAGENT架構(gòu)中起到了關(guān)鍵作用。決策前控制器在代理做出決策前,通過評(píng)估當(dāng)前狀態(tài)并向LLM提供反饋,主動(dòng)指導(dǎo)代理的行為。例如,根據(jù)依賴圖識(shí)別不可達(dá)節(jié)點(diǎn),防止代理執(zhí)行無效操作。決策后控制器則在代理做出決策后,通過評(píng)估擬議的代理行動(dòng)的有效性,提供硬約束,確保代理的行為符合預(yù)定的工作流邏輯。
圖4:PDL中的過程描述示例
算法流程描述了FLOWAGENT的整體執(zhí)行過程。每輪開始時(shí),系統(tǒng)會(huì)接收用戶查詢并更新會(huì)話歷史。然后系統(tǒng)遍歷所有決策前控制器,分析當(dāng)前狀態(tài)并提供反饋。接下來,代理生成響應(yīng)或工具調(diào)用,再遍歷所有決策后控制器,驗(yàn)證代理的決策。如果決策通過驗(yàn)證,系統(tǒng)將更新會(huì)話歷史并生成面向用戶的響應(yīng);否則,系統(tǒng)會(huì)根據(jù)控制器的反饋調(diào)整代理的行為,直到生成符合預(yù)期的響應(yīng)。
評(píng)估和數(shù)據(jù)
合規(guī)性評(píng)估
為了驗(yàn)證FLOWAGENT的有效性,研究團(tuán)隊(duì)進(jìn)行了嚴(yán)格的合規(guī)性評(píng)估。合規(guī)性評(píng)估方法包括輪次級(jí)和會(huì)話級(jí)兩種。在輪次級(jí)評(píng)估中,系統(tǒng)對(duì)每一個(gè)參考會(huì)話中的輪次進(jìn)行評(píng)估,將該輪次的前綴提供給機(jī)器人,并預(yù)測(cè)當(dāng)前的響應(yīng),然后將預(yù)測(cè)的響應(yīng)與實(shí)際的響應(yīng)進(jìn)行比較,計(jì)算出通過率。對(duì)于涉及工具調(diào)用的輪次,還評(píng)估了代理在工具選擇和參數(shù)填充方面的性能,使用精確度、召回率和F1評(píng)分來衡量其表現(xiàn)。
在會(huì)話級(jí)評(píng)估中,研究團(tuán)隊(duì)使用LLM模擬用戶與機(jī)器人的交互,從而盡可能降低人工評(píng)估成本。為了確保這些模擬會(huì)話準(zhǔn)確反映現(xiàn)實(shí)世界的復(fù)雜性,定義了詳細(xì)的用戶資料,包括人口信息、對(duì)話風(fēng)格和與工作流相關(guān)的用戶需求。在生成的每個(gè)會(huì)話中,進(jìn)行二元評(píng)估以驗(yàn)證用戶的主要工作流目標(biāo)是否實(shí)現(xiàn),得出成功率。此外,通過跟蹤啟動(dòng)和完成的子任務(wù)數(shù)量,得出任務(wù)進(jìn)度指標(biāo)。會(huì)話的端到端評(píng)估使用了與Xiao等(2024)推薦一致的提示,同時(shí)在精確度、召回率和F1評(píng)分方面評(píng)估LLM代理在工具調(diào)用方面的性能。
實(shí)驗(yàn)結(jié)果及其分析
在輪次級(jí)評(píng)估和會(huì)話級(jí)評(píng)估中,F(xiàn)LOWAGENT在任務(wù)完成、任務(wù)進(jìn)度和工具使用性能等方面均優(yōu)于其他基線方法。表3和表4中的結(jié)果表明,F(xiàn)LOWAGENT在處理超出工作流(OOW)場(chǎng)景時(shí),表現(xiàn)出更高的靈活性和魯棒性。通過詳細(xì)分析這些實(shí)驗(yàn)結(jié)果,可以看出,F(xiàn)LOWAGENT在確保系統(tǒng)合規(guī)性的同時(shí),提高了代理在復(fù)雜場(chǎng)景中的適應(yīng)能力。
靈活性評(píng)估
為了評(píng)估FLOWAGENT在實(shí)際應(yīng)用中的靈活性,研究團(tuán)隊(duì)針對(duì)OOW場(chǎng)景進(jìn)行了分類和評(píng)估。OOW場(chǎng)景主要包括意圖切換、程序跳躍和無關(guān)回答三種類型。在意圖切換場(chǎng)景中,用戶可能突然改變?cè)家鈭D請(qǐng)求或需求,包括修改API槽/參數(shù)和取消需求。在程序跳躍場(chǎng)景中,用戶不按照既定工作流程順序提供信息和表達(dá)確認(rèn),包括跳過步驟或回跳。在無關(guān)回答場(chǎng)景中,用戶故意避免直接回復(fù)代理提出的問題,例如用話題轉(zhuǎn)換和反問答復(fù)。
基于這些分類,通過在輪次級(jí)和會(huì)話級(jí)評(píng)估中插入OOW用戶干預(yù),評(píng)估代理在這些特定交互中的即時(shí)適應(yīng)響應(yīng)和整體性能。實(shí)驗(yàn)結(jié)果顯示,F(xiàn)LOWAGENT在處理OOW場(chǎng)景時(shí)表現(xiàn)出強(qiáng)大的靈活性和適應(yīng)能力。特別是在會(huì)話級(jí)評(píng)估中,F(xiàn)LOWAGENT在任務(wù)成功率、任務(wù)進(jìn)度和工具使用性能等方面均優(yōu)于其他基線方法,展示了其在復(fù)雜場(chǎng)景中的出色表現(xiàn)。
數(shù)據(jù)集構(gòu)建
為了評(píng)估FLOWAGENT框架的性能,研究團(tuán)隊(duì)基于現(xiàn)有數(shù)據(jù)集和業(yè)務(wù)相關(guān)數(shù)據(jù)構(gòu)建了三個(gè)測(cè)試數(shù)據(jù)集:SGD、STAR和In-house。這些數(shù)據(jù)集來源于公開數(shù)據(jù)集和內(nèi)部數(shù)據(jù),通過詳細(xì)的構(gòu)建過程,確保數(shù)據(jù)集的代表性和多樣性。
表1顯示了這些數(shù)據(jù)集的統(tǒng)計(jì)信息,包括工作流數(shù)量、會(huì)話數(shù)量、輪次數(shù)量、用戶資料數(shù)量、用戶意圖數(shù)量和OOW查詢數(shù)量等。通過詳細(xì)分析這些數(shù)據(jù)集,可以看出它們涵蓋了廣泛的任務(wù)場(chǎng)景和用戶需求,能夠有效評(píng)估FLOWAGENT在不同場(chǎng)景下的表現(xiàn)。
實(shí)驗(yàn)
在這一部分,研究團(tuán)隊(duì)將詳細(xì)解析FLOWAGENT的實(shí)驗(yàn)設(shè)置和結(jié)果分析,深入了解其性能和效果。
實(shí)驗(yàn)設(shè)置
基線方法的選擇 為了評(píng)估FLOWAGENT的性能,研究團(tuán)隊(duì)選擇了ReAct作為基線方法進(jìn)行對(duì)比。ReAct是一種利用思維和行動(dòng)結(jié)合來做出決策的方法,將環(huán)境的反饋視為觀察,這屬于基于提示的方法類別。為了表示工作流,研究團(tuán)隊(duì)選擇了三種格式:自然語(yǔ)言(NL)、代碼和流程圖,分別表示為ReActNL、ReActcode和ReActFC。為了確保公平比較,實(shí)驗(yàn)中重用了FlowBench推薦的提示。
實(shí)現(xiàn)細(xì)節(jié) 在會(huì)話級(jí)評(píng)估中,研究團(tuán)隊(duì)使用GPT-4o-mini進(jìn)行用戶模擬。對(duì)于機(jī)器人,初步測(cè)試了兩個(gè)代表性模型系列:GPT系列和Qwen系列。研究表明,小模型不適合復(fù)雜工作流任務(wù),因此選擇了GPT-4o和Qwen2-72B進(jìn)行演示。在評(píng)估過程中,使用GPT-4-Turbo進(jìn)行判斷,以確保評(píng)估的準(zhǔn)確性和公正性。更多實(shí)現(xiàn)細(xì)節(jié)見附錄C.1。
圖5:不同模型指標(biāo)比較的可視化
實(shí)驗(yàn)結(jié)果
會(huì)話級(jí)實(shí)驗(yàn)結(jié)果分析 實(shí)驗(yàn)結(jié)果表明,F(xiàn)LOWAGENT在任務(wù)合規(guī)性方面優(yōu)于其他三個(gè)基線方法。在會(huì)話級(jí)評(píng)估中,F(xiàn)LOWAGENT在任務(wù)完成、任務(wù)進(jìn)度和工具使用性能等方面均表現(xiàn)出色,顯著優(yōu)于ReActNL、ReActcode和ReActFC。尤其是在處理超出工作流(OOW)場(chǎng)景時(shí),F(xiàn)LOWAGENT表現(xiàn)出了更高的靈活性和魯棒性。在圖5(a)中,可以清晰地看到FLOWAGENT在不同設(shè)置下的任務(wù)進(jìn)度指標(biāo),突出了其在OOW場(chǎng)景中的優(yōu)勢(shì)。
輪次級(jí)實(shí)驗(yàn)結(jié)果分析 在輪次級(jí)評(píng)估中,F(xiàn)LOWAGENT同樣表現(xiàn)出卓越的合規(guī)性和靈活性。Qwen2-72B的輪次級(jí)實(shí)驗(yàn)結(jié)果顯示,F(xiàn)LOWAGENT框架在任務(wù)成功率、任務(wù)進(jìn)度和工具使用性能等方面均取得了最佳成績(jī)。不僅在預(yù)定義工作流內(nèi)表現(xiàn)出色,在處理OOW場(chǎng)景時(shí)也展示了強(qiáng)大的適應(yīng)能力和靈活性。圖5(b)中,成功率指標(biāo)的對(duì)比結(jié)果進(jìn)一步驗(yàn)證了FLOWAGENT的卓越性能。
消融實(shí)驗(yàn)分析 為了驗(yàn)證控制器在FLOWAGENT框架中的重要性,研究團(tuán)隊(duì)進(jìn)行了消融實(shí)驗(yàn)。在OOW設(shè)置中,實(shí)驗(yàn)結(jié)果表明,移除決策后控制器Cpost或決策前控制器Cpre均會(huì)對(duì)模型性能產(chǎn)生負(fù)面影響,驗(yàn)證了控制器在確保工作流合規(guī)性方面的關(guān)鍵作用。表5中的實(shí)驗(yàn)結(jié)果顯示,控制器的存在顯著增強(qiáng)了模型的合規(guī)性和穩(wěn)定性,確保代理在復(fù)雜場(chǎng)景中的穩(wěn)步進(jìn)展。
結(jié)論
研究團(tuán)隊(duì)詳細(xì)探討基于大型語(yǔ)言模型(LLM)的工作流代理系統(tǒng)FLOWAGENT,通過引入程序描述語(yǔ)言(PDL)和一套控制器,F(xiàn)LOWAGENT在確保合規(guī)性的同時(shí)提高了系統(tǒng)的靈活性。PDL結(jié)合了自然語(yǔ)言的適應(yīng)性和代碼的精確性,使得工作流的表示更加靈活和精確。FLOWAGENT框架通過PDL驅(qū)動(dòng)的控制器,有效地管理工作流代理的行為,確保了系統(tǒng)的合規(guī)性和靈活性。
實(shí)驗(yàn)結(jié)果表明,F(xiàn)LOWAGENT在多個(gè)數(shù)據(jù)集上均表現(xiàn)出色,顯著優(yōu)于其他基線方法。在會(huì)話級(jí)和輪次級(jí)評(píng)估中,F(xiàn)LOWAGENT在任務(wù)成功率、任務(wù)進(jìn)度和工具使用性能等方面均取得了最佳成績(jī)。特別是在處理超出工作流(OOW)場(chǎng)景時(shí),F(xiàn)LOWAGENT展示了強(qiáng)大的適應(yīng)能力和靈活性。
此外,消融實(shí)驗(yàn)驗(yàn)證了控制器在確保工作流合規(guī)性方面的關(guān)鍵作用。無論是決策前控制器還是決策后控制器,其存在都顯著增強(qiáng)了模型的合規(guī)性和穩(wěn)定性,確保代理在復(fù)雜場(chǎng)景中的穩(wěn)步進(jìn)展。
盡管FLOWAGENT在合規(guī)性和靈活性方面取得了顯著進(jìn)展,但仍存在一些局限性。首先,目前的研究主要集中在手動(dòng)構(gòu)建的工作流上,評(píng)估也僅限于這些人工定義的設(shè)置。未來的研究應(yīng)探索動(dòng)態(tài)工作流合成,以適應(yīng)多變和復(fù)雜的用戶需求,而無需人工干預(yù)。
其次,盡管本研究使用模擬用戶交互評(píng)估了代理在OOW場(chǎng)景下的性能,但其現(xiàn)實(shí)世界的適用性仍需在更廣泛的真實(shí)用戶需求譜系中進(jìn)行測(cè)試。未來的研究應(yīng)進(jìn)一步豐富對(duì)話多樣性,并在真實(shí)用戶環(huán)境中驗(yàn)證FLOWAGENT的性能和適應(yīng)能力。(END)
參考資料:https://arxiv.org/pdf/2502.14345
本文轉(zhuǎn)載自??獨(dú)角噬元獸??,作者: FlerkenS
