自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

頂級AI智能體不會社交,創(chuàng)業(yè)遠不如人類!CMU等:最多完成24%任務

人工智能 新聞
智能體究竟能否應對現(xiàn)實世界的復雜性?The Agent Company近日提出了一項評估基準,讓多個智能體嘗試自主運營一個軟件公司。結(jié)果表明,即使是當前最先進的智能體,也無法自主完成大多數(shù)任務。

如今,基于大模型的智能體,已經(jīng)能完成許多在幾年前還無法想象的任務,進步的速度是如此之快,以至于有些人甚至聲稱,在接下來的幾年內(nèi),大多數(shù)人類勞動可能都可以實現(xiàn)自動化。

然而近日CMU、杜克大學等機構(gòu)發(fā)表的一項研究卻給這一期待潑了一盆涼水。

智能體運營公司還不可行

圖片

論文鏈接:https://arxiv.org/abs/2412.14161

該研究開發(fā)了一個全部由大模型驅(qū)動的智能體組成的虛擬軟件開發(fā)公司The Agent Company,與人類員工類似,智能體需要執(zhí)行軟件開發(fā)、項目管理、財務分析等典型的商業(yè)環(huán)境中的任務。

圖片

智能體與環(huán)境互動,以及智能體間的協(xié)作以完成真實世界任務

智能體所用的環(huán)境完全基于開源軟件及主流的大模型接口,并可自行托管以實現(xiàn)可復現(xiàn)性。為了完成這些任務,智能體需要瀏覽網(wǎng)頁、編寫代碼,并與其他智能體同事互動。

智能體之間的交互模式也和真實世界的軟件公司十分類似,比如使用RocketChat向公司的其它成員發(fā)送消息,并獲取原始任務描述中可能未提及的信息。各智能體在交流中還被賦予了諸如姓名、職位、職責和項目隸屬關系等身份信息。

這項研究評估了當前幾種主流的大模型,包括Claude Sonnet 3.5、GPT-4o、Google的Gemini、Amazon的Nova,以及知名開源模型,包括Meta的Llama和Qwen2.5。

除了創(chuàng)建175個多樣化、真實、專業(yè),且與真實公司運營模式一致的任務,這項研究還創(chuàng)建了不同任務對應的評估器,在每個任務中的多個階段設置檢查點。智能體每完成一步任務,都會獲得相應的積分(類似于現(xiàn)實員工的KPI);而當智能體只是部分正確地給出回答時,也會給予其部分過程分。

圖片

結(jié)果顯示,表現(xiàn)最好的是基于Claude Sonnet 3.5的智能體,然而它只能應對真實世界中24%的任務,在過程分上取得34.4%的得分。

排名第二的模型的任務完成比例更是只有11.4%,這與人們對大模型取代人類員工的預期還相距甚遠。

圖片

這個成績單中值得關注的是,開源模型Llama3.1和閉源的GPT-4o排名相近,這表明了開源模型在性能上已經(jīng)十分逼近商用的閉源模型。

運營公司,AI比人類差在哪里

這項研究中有趣的一點是,可以讓我們看到智能體在無法完成任務時犯下的錯誤,而這些錯誤在人類身上是幾乎不會發(fā)生的。如果能得到解決,將有助于提升智能體在真實世界中的應用落地。

問題1:缺乏常識

某些任務失敗是因為,智能體缺乏進行隱含假設推理所需的常識和領域背景知識。

例如,一個任務要求智能體「將響應寫入/workspace/answer.docx」,但沒有明確指出這是一個Word文件。人類可以從文件擴展名推斷出這一要求,而智能體卻將其視為純文本文件,直接內(nèi)容以文本形式寫入,導致任務失敗。

問題2:缺乏社交技巧

一項任務需要智能體向其它智能體尋求幫助,智能體首先成功提出了正確的問題:「你能告訴我,應該接下來向團隊中的誰請教這個問題嗎?」然后模擬同事Alex回答:「你應該向Bob請教。他在前端團隊,是一個很好的聯(lián)系人!」

之后若是人類,99.9%的人都會選擇去咨詢Bob相關問題,但智能體卻認為任務已經(jīng)結(jié)束,不去向Bob請教。

問題3:瀏覽網(wǎng)頁容易出錯

很多時候,任務中的最大障礙在于需要瀏覽網(wǎng)頁的部分。這方面的障礙是預料之中的,因為對于智能體來說,由于當前網(wǎng)頁用戶界面的復雜性和網(wǎng)頁上的眾多干擾,瀏覽網(wǎng)頁仍然很困難。

例如,許多網(wǎng)頁都會不時彈出可關閉的廣告窗口,要求用戶下載手機應用程序以獲得更好的體驗。人類可以簡單地點擊「×」來關閉彈窗,而智能體則陷入了困境。

同樣,當智能體嘗試從網(wǎng)絡中下載文件時,需要點擊多個彈出窗口才能進行實際下載,但由于用戶界面復雜,每個步驟都容易出錯。

問題4:自欺欺人

對于某些任務,當智能體不清楚下一步應該做什么時,它有時會試圖聰明一點,創(chuàng)建一些省略任務困難部分的「捷徑」。

例如,如果智能體在RocketChat上找不到合適的人提問,它就會決定給另一個用戶改名為目標用戶來當做解決方案。

未來的智能體還有希望嗎

該研究的另一價值在于提供了一套框架,用來評估智能體在真實環(huán)境中的表現(xiàn)。

隨著向大模型灌輸網(wǎng)頁相關的信息,并教會大模型如何瀏覽網(wǎng)頁獲取信息,下載文件并不是難事,其他的辦公、工作交流等相關常識也是如此。相信未來大模型將有潛力取代人類的人力、財務、程序員等職業(yè),至少是將這些崗位的大部分任務進行自動化處理。

與此相應的是,未來對大模型的評價也會有更多的維度。不止是完成該文列出的常規(guī)任務,還應該對創(chuàng)造能力進行考核。

此外,考核還應該包含那些定義模糊的任務,以及更高層次、更長遠的任務,如構(gòu)思新產(chǎn)品并將其付諸實施。智能體只有能夠完成這些任務,才能算是真正地取代人類員工運營公司。

責任編輯:張燕妮 來源: 新智元
相關推薦

2021-12-29 21:46:20

iOS蘋果系統(tǒng)

2020-09-27 14:28:21

AI 數(shù)據(jù)人工智能

2023-05-10 15:10:00

人工智能工作

2024-01-02 09:16:31

GPT-4推理

2018-03-02 10:58:17

人工智能AI律師

2022-03-04 19:14:06

AI深度學習DeepMind

2024-01-02 09:26:05

AI預測

2023-02-28 11:21:38

CISOCIO

2024-03-14 11:55:21

2025-03-12 12:21:27

2023-08-04 13:46:37

2024-10-10 13:40:00

2025-01-21 13:15:37

2024-11-26 00:14:08

2025-01-20 15:32:41

2021-02-07 10:01:31

AI 數(shù)據(jù)人工智能

2023-12-08 14:16:00

AI數(shù)據(jù)

2023-09-12 17:54:14

AI模型

2018-10-31 08:30:50

點贊
收藏

51CTO技術棧公眾號