自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

盤古智能體(Pangu-Agent)的五個創(chuàng)新點(diǎn)

人工智能
隨著大規(guī)模語言模型(Large Language Model,LLM)的發(fā)展和應(yīng)用,人工智能領(lǐng)域出現(xiàn)了一種新的研究方向,即基于LLM的自主智能體(LLM-based Autonomous Agent)。

隨著大規(guī)模語言模型(Large Language Model,LLM)的發(fā)展和應(yīng)用,人工智能領(lǐng)域出現(xiàn)了一種新的研究方向,即基于LLM的自主智能體(LLM-based Autonomous Agent)。這種智能體利用LLM的強(qiáng)大的表示能力和生成能力,可以在多種任務(wù)和環(huán)境中表現(xiàn)出智能的行為,如對話、游戲、推理、規(guī)劃、工具使用等。基于LLM的智能體面臨著一些挑戰(zhàn)和問題,如何有效地微調(diào)LLM以適應(yīng)不同的任務(wù)和環(huán)境,如何設(shè)計和實(shí)現(xiàn)多種內(nèi)在函數(shù)以實(shí)現(xiàn)復(fù)雜的智能體行為,如何評估和提升智能體的結(jié)構(gòu)化推理能力等。為了解決這些問題,一些研究者提出了一些創(chuàng)新的方法和模型,如SwiftSage、ReAct、Least-to-Most、AgentTuning、FireAct等。

近日,來自華為諾亞方舟實(shí)驗(yàn)室、倫敦大學(xué)學(xué)院(UCL)、牛津大學(xué)等機(jī)構(gòu)的研究者提出了盤古智能體框架(Pangu-Agent),這是一種通用的、可微調(diào)的、具有結(jié)構(gòu)化推理能力的智能體模型,盤古智能體框架(Pangu-Agent)的論文題為《Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning》。該模型在多個單智能體和多智能體的任務(wù)上,使用不同的通用語言模型和提示方法,對盤古智能體進(jìn)行了廣泛的評估,展示了其在結(jié)構(gòu)化推理和微調(diào)方面的優(yōu)勢。本文的主要目的是從技術(shù)和應(yīng)用的角度,對盤古智能體的五個創(chuàng)新點(diǎn)進(jìn)行分析:

  • 提出一個通用的強(qiáng)化學(xué)習(xí)目標(biāo),用于優(yōu)化智能體的內(nèi)在函數(shù)和外在函數(shù),使得智能體能夠在多種任務(wù)和環(huán)境中表現(xiàn)出靈活的推理和決策能力。
  • 設(shè)計多種內(nèi)在函數(shù),如思考、規(guī)劃、反思、交流和使用工具等,使得智能體能夠根據(jù)自己的記憶狀態(tài)和上下文信息,進(jìn)行內(nèi)部的變換和操作,以及與外部的工具和其他智能體進(jìn)行交互。
  • 實(shí)現(xiàn)多種復(fù)合方法,如SwiftSage、ReAct和Least-to-Most等,使得智能體能夠在每個環(huán)境時間步驟中使用多個內(nèi)在函數(shù)步驟來決定最終的動作,實(shí)現(xiàn)更復(fù)雜和更靈活的智能體行為。
  • 探索多種微調(diào)方法,如監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)微調(diào),使得智能體能夠根據(jù)專家數(shù)據(jù)和環(huán)境反饋,調(diào)整通用語言模型的權(quán)重,以提高智能體的性能和適應(yīng)能力。
  • 在多個單智能體和多智能體的任務(wù)上,使用不同的通用語言模型和提示方法,對盤古智能體進(jìn)行了廣泛的評估,展示了其在結(jié)構(gòu)化推理和微調(diào)方面的優(yōu)勢。

(圖1)(圖1)

圖1:帶有RL的盤古特工管道的圖片描述。從系統(tǒng)提示開始?10 Creative 2023|機(jī)密|10creative.co.uk和初始狀態(tài),我們的代理人在環(huán)境中執(zhí)行行動,并觀察下一個狀態(tài)和獎勵。生成的軌跡可以用于微調(diào)LLM。

1.盤古智能體的通用強(qiáng)化學(xué)習(xí)目標(biāo)

強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)是一種讓智能體在與環(huán)境交互的過程中,通過學(xué)習(xí)和優(yōu)化自身的行為策略,以達(dá)到最大化累積獎勵的目標(biāo)的機(jī)器學(xué)習(xí)方法。強(qiáng)化學(xué)習(xí)的核心要素包括智能體、環(huán)境、動作、狀態(tài)和獎勵,其中獎勵是指智能體在每個時間步驟中,根據(jù)其狀態(tài)和動作,從環(huán)境中獲得的反饋信號,用于評估和指導(dǎo)智能體的行為。

強(qiáng)化學(xué)習(xí)的獎勵可以分為兩種類型,即外在獎勵(Extrinsic Reward)和內(nèi)在獎勵(Intrinsic Reward)。外在獎勵是指由環(huán)境直接提供的獎勵,通常與智能體的任務(wù)目標(biāo)相關(guān),如游戲得分、對話成功率等。內(nèi)在獎勵是指由智能體自身生成的獎勵,通常與智能體的內(nèi)部狀態(tài)或動機(jī)相關(guān),如好奇心、探索性、新穎性等。外在獎勵和內(nèi)在獎勵的區(qū)別在于,外在獎勵是由環(huán)境決定的,而內(nèi)在獎勵是由智能體決定的。

外在獎勵和內(nèi)在獎勵各有優(yōu)缺點(diǎn)。外在獎勵的優(yōu)點(diǎn)是可以直接反映智能體的任務(wù)性能,可以讓智能體快速地適應(yīng)特定的任務(wù)和環(huán)境。外在獎勵的缺點(diǎn)是可能導(dǎo)致智能體過度依賴于環(huán)境的反饋,缺乏自主性和靈活性,也可能導(dǎo)致智能體陷入局部最優(yōu),忽略了更好的解決方案。內(nèi)在獎勵的優(yōu)點(diǎn)是可以增強(qiáng)智能體的自主性和靈活性,可以讓智能體在稀疏或延遲的外在獎勵下,仍然能夠進(jìn)行有效的學(xué)習(xí)和探索。內(nèi)在獎勵的缺點(diǎn)是可能與外在獎勵不一致,甚至相互沖突,也可能導(dǎo)致智能體過度追求內(nèi)在獎勵,忽略了任務(wù)目標(biāo)。

(圖2)(圖2)

圖2:三個內(nèi)在函數(shù)的可視化顯示了我們的公式在提高代理的模塊性和靈活性方面的重要性。用戶可以重新定義和配置固有功能,例如μ1(·)將LLM作為輸入來產(chǎn)生想法,或者μ2(·)使用工具來幫助改進(jìn)推理。我們還支持嵌套這些內(nèi)在函數(shù),為復(fù)雜且具有挑戰(zhàn)性的決策任務(wù)構(gòu)建更通用的模塊。

盤古智能體的通用強(qiáng)化學(xué)習(xí)目標(biāo)的創(chuàng)新點(diǎn)在于,它不僅考慮了智能體的任務(wù)目標(biāo),也考慮了智能體的內(nèi)部動機(jī),使得智能體能夠在多種任務(wù)和環(huán)境中表現(xiàn)出靈活的推理和決策能力。該目標(biāo)的優(yōu)勢在于,它可以適應(yīng)不同的任務(wù)和環(huán)境,可以通過調(diào)整外在獎勵和內(nèi)在獎勵的權(quán)重系數(shù),來平衡智能體的任務(wù)性能和探索性能,也可以通過設(shè)計和實(shí)現(xiàn)多種內(nèi)在函數(shù),來生成多樣的內(nèi)在獎勵,從而提高智能體的自主性和靈活性。

2.盤古智能體的多種內(nèi)在函數(shù)

內(nèi)在函數(shù)(Intrinsic Function)是指智能體自身生成的一種函數(shù),用于對智能體的狀態(tài)和動作進(jìn)行內(nèi)部的變換和操作,以實(shí)現(xiàn)復(fù)雜的智能體行為。內(nèi)在函數(shù)的作用是增強(qiáng)智能體的自主性和靈活性,使得智能體能夠根據(jù)自己的記憶狀態(tài)和上下文信息,進(jìn)行內(nèi)部的推理和決策,以及與外部的工具和其他智能體進(jìn)行交互。內(nèi)在函數(shù)的類型和數(shù)量可以根據(jù)不同的任務(wù)和環(huán)境進(jìn)行設(shè)計和實(shí)現(xiàn),常見的內(nèi)在函數(shù)有思考、規(guī)劃、反思、交流和使用工具等。

思考(Think):智能體根據(jù)自己的記憶狀態(tài)和上下文信息,生成一個與當(dāng)前狀態(tài)或動作相關(guān)的文本,用于表達(dá)或理解智能體的意圖或目標(biāo)。思考的作用是提高智能體的表達(dá)能力和理解能力,使得智能體能夠更好地與環(huán)境和其他智能體進(jìn)行交流和協(xié)作。思考的實(shí)現(xiàn)方法是使用通用語言模型,根據(jù)給定的前綴或后綴,生成一個合適的文本。例如,智能體在玩一個迷宮游戲時,可以使用思考函數(shù),生成一個與當(dāng)前位置或方向相關(guān)的文本,如“我在左上角的房間里,我要往右走”。

規(guī)劃(Plan):智能體根據(jù)自己的記憶狀態(tài)和上下文信息,生成一個與當(dāng)前狀態(tài)或動作相關(guān)的序列,用于描述或執(zhí)行智能體的策略或過程。規(guī)劃的作用是提高智能體的決策能力和執(zhí)行能力,使得智能體能夠更好地完成復(fù)雜的任務(wù)和目標(biāo)。規(guī)劃的實(shí)現(xiàn)方法是使用通用語言模型,根據(jù)給定的前綴或后綴,生成一個合適的序列。例如,智能體在玩一個拼圖游戲時,可以使用規(guī)劃函數(shù),生成一個與當(dāng)前拼圖或目標(biāo)拼圖相關(guān)的序列,如“先把左上角的四塊拼好,再把右下角的四塊拼好,最后把中間的四塊拼好”。

反思(Reflect):智能體根據(jù)自己的記憶狀態(tài)和上下文信息,生成一個與當(dāng)前狀態(tài)或動作相關(guān)的評價,用于評估或改進(jìn)智能體的性能或效果。反思的作用是提高智能體的評估能力和改進(jìn)能力,使得智能體能夠更好地學(xué)習(xí)和優(yōu)化自己的行為。反思的實(shí)現(xiàn)方法是使用通用語言模型,根據(jù)給定的前綴或后綴,生成一個合適的評價。例如,智能體在玩一個數(shù)獨(dú)游戲時,可以使用反思函數(shù),生成一個與當(dāng)前數(shù)獨(dú)或解法相關(guān)的評價,如“這個數(shù)獨(dú)很難,我用了很長時間才解出來,我應(yīng)該多練習(xí)一些簡單的數(shù)獨(dú)”。

交流(Communicate):智能體根據(jù)自己的記憶狀態(tài)和上下文信息,生成一個與當(dāng)前狀態(tài)或動作相關(guān)的消息,用于與其他智能體進(jìn)行信息的交換或協(xié)調(diào)。交流的作用是提高智能體的交流能力和協(xié)作能力,使得智能體能夠更好地與其他智能體進(jìn)行合作和競爭。交流的實(shí)現(xiàn)方法是使用通用語言模型,根據(jù)給定的前綴或后綴,生成一個合適的消息。例如,智能體在玩一個團(tuán)隊(duì)對抗游戲時,可以使用交流函數(shù),生成一個與當(dāng)前狀態(tài)或動作相關(guān)的消息,如“我在敵方的基地附近,我需要支援”。

使用工具(Use Tool):智能體根據(jù)自己的記憶狀態(tài)和上下文信息,生成一個與當(dāng)前狀態(tài)或動作相關(guān)的命令,用于與外部的工具進(jìn)行交互或操作。使用工具的作用是提高智能體的交互能力和操作能力,使得智能體能夠更好地利用外部的資源和工具。使用工具的實(shí)現(xiàn)方法是使用通用語言模型,根據(jù)給定的前綴或后綴,生成一個合適的命令。例如,智能體在玩一個編程游戲時,可以使用使用工具函數(shù),生成一個與當(dāng)前狀態(tài)或動作相關(guān)的命令,如“用Python寫一個函數(shù),實(shí)現(xiàn)兩個數(shù)的加法”。

盤古智能體的多種內(nèi)在函數(shù)不僅設(shè)計了多種內(nèi)在函數(shù),也實(shí)現(xiàn)了多種內(nèi)在函數(shù),使得智能體能夠根據(jù)自己的記憶狀態(tài)和上下文信息,進(jìn)行內(nèi)部的變換和操作,以及與外部的工具和其他智能體進(jìn)行交互。該創(chuàng)新點(diǎn)的優(yōu)勢在于,它可以提高智能體的自主性和靈活性,使得智能體能夠在多種任務(wù)和環(huán)境中表現(xiàn)出復(fù)雜的智能體行為,也可以通過組合和嵌套多種內(nèi)在函數(shù),實(shí)現(xiàn)更高層次的智能體行為。

3.盤古智能體的多種復(fù)合方法

復(fù)合方法(Composite Method)是智能體在每個環(huán)境時間步驟中,使用多個內(nèi)在函數(shù)步驟來決定最終的動作的一種方法。復(fù)合方法的作用是提高智能體的復(fù)雜性和靈活性,使得智能體能夠根據(jù)不同的任務(wù)和環(huán)境,選擇和組合不同的內(nèi)在函數(shù),實(shí)現(xiàn)更復(fù)雜和更靈活的智能體行為。復(fù)合方法的類型和數(shù)量可以根據(jù)不同的任務(wù)和環(huán)境進(jìn)行設(shè)計和實(shí)現(xiàn),常見的復(fù)合方法有SwiftSage、ReAct和Least-to-Most等。

SwiftSage(Swiftly Switching between Sage and Agent):智能體在每個環(huán)境時間步驟中,根據(jù)自己的記憶狀態(tài)和上下文信息,以及環(huán)境的反饋,動態(tài)地選擇是使用內(nèi)在函數(shù)(Sage模式),還是直接使用通用語言模型生成動作(Agent模式)。SwiftSage的作用是提高智能體的適應(yīng)能力和效率,使得智能體能夠在不同的任務(wù)和環(huán)境中,靈活地切換不同的模式,實(shí)現(xiàn)最優(yōu)的智能體行為。SwiftSage的實(shí)現(xiàn)方法是使用一個二元分類器,根據(jù)給定的記憶狀態(tài)和上下文信息,以及環(huán)境的反饋,預(yù)測是使用Sage模式,還是使用Agent模式。例如,智能體在玩一個猜謎游戲時,可以使用SwiftSage,根據(jù)自己的記憶狀態(tài)和上下文信息,以及環(huán)境的反饋,動態(tài)地選擇是使用思考函數(shù),還是直接使用通用語言模型生成猜測。

ReAct(Recurrent Action Composition):智能體在每個環(huán)境時間步驟中,使用一個循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),根據(jù)自己的記憶狀態(tài)和上下文信息,以及環(huán)境的反饋,生成一個由多個內(nèi)在函數(shù)步驟組成的動作序列。ReAct的作用是提高智能體的復(fù)雜性和靈活性,使得智能體能夠在不同的任務(wù)和環(huán)境中,生成和執(zhí)行多個內(nèi)在函數(shù)步驟,實(shí)現(xiàn)更復(fù)雜和更靈活的智能體行為。ReAct的實(shí)現(xiàn)方法是使用一個RNN,根據(jù)給定的記憶狀態(tài)和上下文信息,以及環(huán)境的反饋,生成一個由多個內(nèi)在函數(shù)步驟組成的動作序列。例如,智能體在玩一個數(shù)學(xué)游戲時,可以使用ReAct,根據(jù)自己的記憶狀態(tài)和上下文信息,以及環(huán)境的反饋,生成一個由多個內(nèi)在函數(shù)步驟組成的動作序列,如“使用工具函數(shù),打開計算器;使用規(guī)劃函數(shù),生成一個數(shù)學(xué)公式;使用思考函數(shù),解釋公式的含義;使用使用工具函數(shù),輸入公式并計算結(jié)果”。

Least-to-Most(Least-to-Most Action Composition):智能體在每個環(huán)境時間步驟中,使用一個排序網(wǎng)絡(luò)(Ranking Network),根據(jù)自己的記憶狀態(tài)和上下文信息,以及環(huán)境的反饋,對所有可能的內(nèi)在函數(shù)步驟進(jìn)行排序,從而生成一個由多個內(nèi)在函數(shù)步驟組成的動作序列。Least-to-Most的作用是提高智能體的穩(wěn)定性和可解釋性,使得智能體能夠在不同的任務(wù)和環(huán)境中,生成和執(zhí)行最合適的內(nèi)在函數(shù)步驟,實(shí)現(xiàn)最優(yōu)的智能體行為。Least-to-Most的實(shí)現(xiàn)方法是使用一個排序網(wǎng)絡(luò),根據(jù)給定的記憶狀態(tài)和上下文信息,以及環(huán)境的反饋,對所有可能的內(nèi)在函數(shù)步驟進(jìn)行排序,從而生成一個由多個內(nèi)在函數(shù)步驟組成的動作序列。例如,智能體在玩一個寫作游戲時,可以使用Least-to-Most,根據(jù)自己的記憶狀態(tài)和上下文信息,以及環(huán)境的反饋,對所有可能的內(nèi)在函數(shù)步驟進(jìn)行排序,從而生成一個由多個內(nèi)在函數(shù)步驟組成的動作序列,如“使用規(guī)劃函數(shù),生成一個寫作大綱;使用思考函數(shù),生成一個寫作主題;使用反思函數(shù),生成一個寫作評價;使用交流函數(shù),與其他智能體分享寫作結(jié)果”。

智能體可以用多個內(nèi)在函數(shù)步驟來決定自己的動作,也可以用多種復(fù)合方法來生成和執(zhí)行這些步驟。這樣,智能體就可以根據(jù)不同的環(huán)境,靈活地選擇和組合內(nèi)在函數(shù),表現(xiàn)出更復(fù)雜的行為。這個創(chuàng)新點(diǎn)的好處是,智能體可以變得更復(fù)雜和更靈活,可以適應(yīng)不同的任務(wù)和環(huán)境,也可以用不同的復(fù)合方法,展示出不同的行為模式,比如動態(tài)切換、循環(huán)生成、排序選擇等。

4.盤古智能體的多種微調(diào)方法

微調(diào)(Fine-Tuning)是智能體根據(jù)專家數(shù)據(jù)或環(huán)境反饋,調(diào)整通用語言模型的權(quán)重,以提高智能體的性能和適應(yīng)能力的一種方法。微調(diào)的作用是提高智能體的學(xué)習(xí)能力和泛化能力,使得智能體能夠在不同的任務(wù)和環(huán)境中,利用通用語言模型的強(qiáng)大的表示能力和生成能力,實(shí)現(xiàn)最優(yōu)的智能體行為。微調(diào)的類型和數(shù)量可以根據(jù)不同的任務(wù)和環(huán)境進(jìn)行設(shè)計和實(shí)現(xiàn),常見的微調(diào)方法有監(jiān)督微調(diào)(Supervised Fine-Tuning)和強(qiáng)化學(xué)習(xí)微調(diào)(Reinforcement Learning Fine-Tuning)等。

監(jiān)督微調(diào)(Supervised Fine-Tuning):智能體根據(jù)專家數(shù)據(jù),調(diào)整通用語言模型的權(quán)重,以提高智能體的性能和適應(yīng)能力的一種方法。專家數(shù)據(jù)是指由人類或其他智能體提供的一種數(shù)據(jù),用于指導(dǎo)或教導(dǎo)智能體的行為。監(jiān)督微調(diào)的作用是提高智能體的準(zhǔn)確性和效率,使得智能體能夠在不同的任務(wù)和環(huán)境中,快速地學(xué)習(xí)和模仿專家的行為。監(jiān)督微調(diào)的實(shí)現(xiàn)方法是使用一個監(jiān)督學(xué)習(xí)的損失函數(shù),根據(jù)給定的專家數(shù)據(jù),計算智能體的行為和專家的行為之間的差異,從而調(diào)整通用語言模型的權(quán)重。例如,智能體在玩一個象棋游戲時,可以使用監(jiān)督微調(diào),根據(jù)給定的專家數(shù)據(jù),調(diào)整通用語言模型的權(quán)重,以提高智能體的象棋水平。

強(qiáng)化學(xué)習(xí)微調(diào)(Reinforcement Learning Fine-Tuning):智能體根據(jù)環(huán)境反饋,調(diào)整通用語言模型的權(quán)重,以提高智能體的性能和適應(yīng)能力的一種方法。環(huán)境反饋是指由環(huán)境直接提供的一種反饋信號,用于評估或指導(dǎo)智能體的行為。強(qiáng)化學(xué)習(xí)微調(diào)的作用是提高智能體的探索性和適應(yīng)性,使得智能體能夠在不同的任務(wù)和環(huán)境中,自主地學(xué)習(xí)和優(yōu)化自己的行為。強(qiáng)化學(xué)習(xí)微調(diào)的實(shí)現(xiàn)方法是使用一個強(qiáng)化學(xué)習(xí)的損失函數(shù),根據(jù)給定的環(huán)境反饋,計算智能體的行為和環(huán)境的獎勵之間的關(guān)系,從而調(diào)整通用語言模型的權(quán)重。例如,智能體在玩一個賽車游戲時,可以使用強(qiáng)化學(xué)習(xí)微調(diào),根據(jù)給定的環(huán)境反饋,調(diào)整通用語言模型的權(quán)重,以提高智能體的賽車技巧。

盤古智能體的微調(diào)方法很有創(chuàng)意,它們不但用了通用語言模型的強(qiáng)大功能,還用了專家的數(shù)據(jù)和環(huán)境的反饋,讓智能體可以根據(jù)不同的情況,調(diào)節(jié)通用語言模型的效果,讓智能體的表現(xiàn)更好。這個創(chuàng)新點(diǎn)的好處是,智能體可以學(xué)得更好,適應(yīng)更多的情況,做出最好的行為,還可以用不同的微調(diào)方法,學(xué)習(xí)不同的方式,比如監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等。

5.盤古智能體的廣泛評估

智能體在多個單智能體和多智能體的任務(wù)上,使用不同的通用語言模型和提示方法,對自己的性能和效果進(jìn)行評估和比較的一種方法。廣泛評估的作用是提高智能體的可信度和可靠性,使得智能體能夠在不同的任務(wù)和環(huán)境中,展示出自己的優(yōu)勢和不足,以及與其他智能體的差異和相似性。廣泛評估的類型和數(shù)量可以根據(jù)不同的任務(wù)和環(huán)境進(jìn)行設(shè)計和實(shí)現(xiàn),常見的評估指標(biāo)有準(zhǔn)確率、效率、穩(wěn)定性、靈活性、可解釋性等。

在單智能體的任務(wù)上,盤古智能體使用了不同的通用語言模型和提示方法,對自己的性能和效果進(jìn)行了評估和比較。單智能體的任務(wù)是指智能體只需要與環(huán)境交互,不需要與其他智能體交互的一種任務(wù),如對話、推理、規(guī)劃、工具使用等。通用語言模型是指能夠在大規(guī)模的文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,具有強(qiáng)大的表示能力和生成能力的一種語言模型,如GPT-3、Pangu、Megatron等。提示方法是指能夠根據(jù)不同的任務(wù)和環(huán)境,為通用語言模型提供合適的輸入和輸出格式的一種方法,如前綴、后綴、模板等。盤古智能體的評估結(jié)果表明,盤古智能體在單智能體的任務(wù)上,具有較高的準(zhǔn)確率、效率、穩(wěn)定性、靈活性和可解釋性,且能夠根據(jù)不同的通用語言模型和提示方法,進(jìn)行有效的微調(diào)和適應(yīng),以提高自己的性能和效果。

在多智能體的任務(wù)上,盤古智能體使用了不同的通用語言模型和提示方法,對自己的性能和效果進(jìn)行了評估和比較。多智能體的任務(wù)是指智能體需要與環(huán)境和其他智能體交互,需要進(jìn)行信息的交換或協(xié)調(diào)的一種任務(wù),如游戲、協(xié)作、競爭等。通用語言模型和提示方法的定義與單智能體的任務(wù)相同。盤古智能體的評估結(jié)果表明,盤古智能體在多智能體的任務(wù)上,具有較高的準(zhǔn)確率、效率、穩(wěn)定性、靈活性和可解釋性,且能夠根據(jù)不同的通用語言模型和提示方法,進(jìn)行有效的微調(diào)和適應(yīng),以提高自己的性能和效果。此外,盤古智能體還能夠與其他基于LLM的智能體進(jìn)行有效的交流和協(xié)作,展示出自己的結(jié)構(gòu)化推理能力。

盤古智能體的評估很全面,它在很多任務(wù)上,用了不同的語言模型和提示方法,展示了自己的表現(xiàn)。這樣智能體就可以在不同的情況下,看到自己的優(yōu)點(diǎn)和缺點(diǎn),以及和其他智能體的不同和相同。這個創(chuàng)新點(diǎn)的好處是,智能體可以變得更可信和更可靠,可以在不同的情況下,做出最好的行為,還可以用不同的語言模型和提示方法,展示出不同的行為模式,比如對話、推理、規(guī)劃、工具使用、游戲、協(xié)作、競爭等。

參考資料:https://arxiv.org/abs/2312.14878

責(zé)任編輯:華軒 來源: 大噬元獸
相關(guān)推薦

2023-12-26 12:12:01

模型訓(xùn)練

2024-10-18 15:20:00

2024-07-08 09:49:54

2025-04-01 08:05:00

智能體人工智能MCP

2025-04-25 01:10:00

智能體AI人工智能

2024-05-29 12:13:50

2024-05-11 08:27:41

Agent智能體GPT

2023-08-01 10:35:46

2023-08-22 15:43:04

2024-05-28 09:24:32

2025-01-03 11:02:38

OpenAIAgent大模型

2025-02-24 13:46:40

2024-12-19 09:23:12

2025-01-26 10:25:53

2023-08-16 15:15:59

人工智能醫(yī)療保健
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號