AI智能體的炒作與現(xiàn)實(shí):GPT-4都撐不起,現(xiàn)實(shí)任務(wù)成功率不到15%
隨著大語言模型的不斷進(jìn)化與自我革新,性能、準(zhǔn)確度、穩(wěn)定性都有了大幅的提升,這已經(jīng)被各個基準(zhǔn)問題集驗(yàn)證過了。
但是,對于現(xiàn)有版本的 LLM 來說,它們的綜合能力似乎并不能完全支撐得起 AI 智能體。
多模態(tài)、多任務(wù)、多領(lǐng)域儼然已成為 AI 智能體在公共傳媒空間內(nèi)的必須要求,但是在具體的功能實(shí)踐中所展現(xiàn)的真實(shí)效果卻差強(qiáng)人意,這似乎也再次提醒各個 AI 智能體初創(chuàng)公司以及大型科技巨頭認(rèn)清現(xiàn)實(shí):腳踏實(shí)地一點(diǎn),先別把攤子鋪得太大,從 AI 增強(qiáng)功能開始做起。
近日,一篇就 AI 智能體在宣傳和真實(shí)表現(xiàn)上的差距而撰寫的博客中,強(qiáng)調(diào)了一個觀點(diǎn):「AI 智能體在宣傳上是個巨人,而現(xiàn)實(shí)卻很不妙?!?/span>
不可否認(rèn)的是,自主 AI 智能體能夠執(zhí)行復(fù)雜任務(wù)的前景已經(jīng)引起極大的興奮。通過與外部工具和功能的交互,LLMs 可以在沒有人為干預(yù)的情況下完成多步驟的工作流程。
但現(xiàn)實(shí)證明,這比預(yù)期的要更具挑戰(zhàn)性。
WebArena 排行榜(一個真實(shí)可復(fù)現(xiàn)的網(wǎng)絡(luò)環(huán)境,用于評估實(shí)用智能體的性能)對 LLM 智能體在現(xiàn)實(shí)任務(wù)中的表現(xiàn)進(jìn)行了基準(zhǔn)測試,結(jié)果顯示即使是表現(xiàn)最好的模型,成功率也只有 35.8%。
WebArena 排行榜對 LLM 智能體在現(xiàn)實(shí)任務(wù)中的表現(xiàn)進(jìn)行的基準(zhǔn)測試結(jié)果:SteP 模型在成功率指標(biāo)上表現(xiàn)最為良好,達(dá)到了 35.8%,而知名的 GPT-4 的成功率僅達(dá)到了 14.9%。
什么是 AI 智能體?
「AI 智能體」這個術(shù)語并沒有真正被定義,對智能體究竟是什么也存在很多的爭議。
AI 智能體可以定義為「一個被賦予行動能力的 LLM(通常在 RAG 環(huán)境中進(jìn)行函數(shù)調(diào)用),以便在環(huán)境中對如何執(zhí)行任務(wù)做出高層次的決策?!?/span>
當(dāng)前,構(gòu)建 AI 智能體主要有以下兩種架構(gòu)方法:
- 單一智能體:一個大型模型處理整個任務(wù),并基于其全面的上下文理解做出所有決策和行動。這種方法利用了大型模型的涌現(xiàn)能力,避免了將任務(wù)分解所帶來的信息丟失。
- 多智能體系統(tǒng):將任務(wù)分解為子任務(wù),每個子任務(wù)由一個更小、更專業(yè)的智能體處理。與嘗試使用一個難以控制和測試的大型通用智能體相比,人們可以使用許多更小的智能體來為特定子任務(wù)選擇正確的策略。由于上下文窗口長度的限制或不同技能組合的需要等實(shí)際約束,這種方法有時(shí)是必要的。
理論上,具有無限上下文長度和完美注意力的單一智能體是理想的。由于上下文較短,在特定問題上,多智能體系統(tǒng)總是比單一系統(tǒng)效果差。
實(shí)踐中的挑戰(zhàn)
在見證了許多 AI 智能體的嘗試之后,作者認(rèn)為它們目前仍為時(shí)過早、成本過高、速度過慢且不夠可靠。許多 AI 智能體初創(chuàng)公司似乎在等待一個模型突破,以開啟智能體產(chǎn)品化的競賽。
AI 智能體在實(shí)際運(yùn)用中的表現(xiàn)并不夠成熟,這體現(xiàn)在輸出不精確、性能差強(qiáng)人意、成本較高、賠償風(fēng)險(xiǎn)、無法獲得用戶信任等問題:
- 可靠性:眾所周知,LLMs 容易產(chǎn)生幻覺和不一致性。將多個 AI 步驟連接起來會加劇這些問題,尤其是對于需要精確輸出的任務(wù)。
- 性能和成本:GPT-4、Gemini-1.5 和 Claude Opus 在使用工具 / 函數(shù)調(diào)用方面表現(xiàn)不錯,但它們?nèi)匀惠^慢且成本高,特別是如果需要進(jìn)行循環(huán)和自動重試時(shí)。
- 法律問題:公司可能需要對其智能體的錯誤負(fù)責(zé)。最近的一個例子是,加拿大航空被命令向一位被航空公司聊天機(jī)器人誤導(dǎo)的客戶賠償。
- 用戶信任:AI 智能體的「黑箱」性質(zhì)以及類似示例使得用戶難以理解和信任其輸出。在涉及支付或個人信息的敏感任務(wù)中(如支付賬單、購物等),贏得用戶信任將會很困難。
現(xiàn)實(shí)世界中的嘗試
目前,以下幾家初創(chuàng)公司正在涉足 AI 智能體領(lǐng)域,但大多數(shù)仍處于實(shí)驗(yàn)階段或僅限邀請使用:
- adept.ai - 融資 3.5 億美元,但訪問權(quán)限仍然非常有限。
- MultiOn - 融資情況未知,他們的 API 優(yōu)先方法看起來很有前景。
- HypeWrite - 融資 280 萬美元,起初是一個 AI 寫作助手,后來擴(kuò)展到智能體領(lǐng)域。
- minion.ai - 最初引起了一些關(guān)注,但現(xiàn)在已經(jīng)沉寂,僅有等候名單。
它們中似乎只有 MultiOn 在追求「給出指令并觀察其執(zhí)行」的方法,這與 AI 智能體的承諾更為一致。
其他所有公司都在走記錄和重放的 RPA(record-and-replay)路線,這在現(xiàn)階段可能是為保證可靠性所必需的。
同時(shí),一些大公司也在將 AI 功能帶到桌面和瀏覽器,并且看起來將會在系統(tǒng)層面上獲得本地的 AI 集成。
OpenAI 宣布了他們的 Mac 桌面應(yīng)用程序,可以與操作系統(tǒng)屏幕互動。
在 Google I/O 大會上,Google 演示了 Gemini 自動處理購物退貨。
微軟宣布了 Copilot Studio,它將允許開發(fā)人員構(gòu)建 AI 智能體機(jī)器人。
這些技術(shù)演示令人印象深刻,人們可以拭目以待這些智能體功能在公開發(fā)布并在真實(shí)場景中測試時(shí)的表現(xiàn),而不是僅限于精心挑選的演示案例。
AI 智能體將走向哪條路?
作者強(qiáng)調(diào):「AI 智能體被過度炒作了,大多數(shù)還沒有準(zhǔn)備好用于關(guān)鍵任務(wù)?!?/span>
然而,隨著基礎(chǔ)模型和架構(gòu)迅速進(jìn)步,他表示人們?nèi)钥梢云诖吹礁喑晒Φ膶?shí)際應(yīng)用。
AI 智能體最有前途的前進(jìn)道路可能是這樣的:
- 近期的重點(diǎn)應(yīng)放在利用 AI 增強(qiáng)現(xiàn)有工具,而不是提供廣泛的全自主獨(dú)立服務(wù)。
- 人機(jī)協(xié)同的方法,讓人類參與監(jiān)督和處理邊緣案例。
- 根據(jù)當(dāng)前的能力和局限,設(shè)定不脫離現(xiàn)實(shí)的期望。
通過結(jié)合嚴(yán)格約束的 LLMs、良好的評估數(shù)據(jù)、人機(jī)協(xié)同監(jiān)督和傳統(tǒng)工程方法,就可以在自動化等復(fù)雜任務(wù)方面實(shí)現(xiàn)可靠且良好的結(jié)果。
對于 AI 智能體是否會自動化乏味重復(fù)的工作,例如網(wǎng)絡(luò)抓取、填表和數(shù)據(jù)錄入?
作者:「是的,絕對會?!?/span>
那 AI 智能體是否會在沒有人們干預(yù)的情況下自動預(yù)訂假期?
作者:「至少在近期內(nèi)不太可能?!?/span>






