早半年發(fā)arXiv,卻被質(zhì)疑抄襲:活在微軟AutoGen陰影里的CAMEL
如果你對 AI 智能體感興趣,那你一定知道微軟的 AutoGen。它是一個用于構(gòu)建 AI 智能體的開源編程框架,允許多個智能體通過聊天來解決任務(wù)。其間,LLM 智能體可以扮演多種角色,如程序員、設(shè)計師,或者各種角色的組合。
在 GitHub 上,這個項目已經(jīng)收獲了 28k 的 star 量,論文還在 ICLR 2024 LLM Agent Workshop 上獲得了最佳論文獎。
不過,這篇論文的背后其實是存在爭議的。
2023 年 11 月,一位 AI 研究者(阿卜杜拉國王科技大學(xué)博士,開源項目 Camel-AI.org、DeepGCNs.org 的發(fā)起人李國豪)發(fā)帖稱,由于 AutoGen 與他們的論文 CAMEL 高度相似,他們每次出席活動的時候都會被問,二者有什么區(qū)別?
對此,李國豪表示非常無奈,因為他們的論文發(fā)布在 arXiv 上的時間要明顯早于 AutoGen,如今卻被當(dāng)成了 AutoGen 的模仿者(CAMEL 發(fā)布于 2023 年 3 月;AutoGen 發(fā)布于 2023 年 8 月)。
論文鏈接:https://arxiv.org/abs/2303.17760
論文鏈接:https://arxiv.org/pdf/2308.08155
根據(jù)李國豪的說法,二者在方法論上存在以下相似之處:
甚至用到的例子也有點相似:
作為后來者,AutoGen 確實在論文中提到過 CAMEL,并指出了 CAMEL 與 AutoGen 之間的一些差異。但這些內(nèi)容出現(xiàn)的位置令人費解 —— 它們統(tǒng)統(tǒng)出現(xiàn)在附錄中。這可能也是導(dǎo)致其他研究者只知 AutoGen,不知 CAMEL 的一大原因。畢竟,有幾個人會去仔細看附錄呢?
AutoGen 論文中提及 CAMEL 的段落:「CAMEL(Li et al., 2023b)是一個通信智能體框架,它展示了如何使用角色扮演來讓聊天智能體相互交流以完成任務(wù)。CAMEL 還能記錄智能體對話以進行行為分析和能力理解。CAMEL 使用了一種「inception-prompting」技術(shù)實現(xiàn)智能體之間的自主合作。與 AutoGen 不同的是,CAMEL 本身不支持工具使用(如代碼執(zhí)行)。盡管 CAMEL 被提議作為多智能體對話的基礎(chǔ)設(shè)施,但它只支持靜態(tài)對話模式,而 AutoGen 還支持動態(tài)對話模式?!?/p>
表 1 為 AutoGen 與其他相關(guān)多智能體之間的差異總結(jié),從四個指標(biāo)著手判斷:一是基礎(chǔ)結(jié)構(gòu),即系統(tǒng)是否設(shè)計為構(gòu)建 LLM 應(yīng)用程序的通用基礎(chǔ)結(jié)構(gòu);二是對話模式,即系統(tǒng)支持的模式類型。在「靜態(tài)」模式下,無論輸入如何,智能體拓撲結(jié)構(gòu)都保持不變。AutoGen 允許靈活的對話模式,包括可以根據(jù)不同應(yīng)用程序需求定制的靜態(tài)和動態(tài)模式。三是可執(zhí)行,即系統(tǒng)是否可以執(zhí)行 LLM 生成的代碼;四是人工參與,系統(tǒng)是否(以及如何)允許人工參與執(zhí)行過程。AutoGen 允許人工靈活地參與多智能體對話,并允許人工選擇跳過提供輸入。
AutoGen 論文中提及 CAMEL 的段落:「AutoGen 可以幫助開發(fā)能力超強的智能體,充分利用 LLM、工具和人類的優(yōu)勢。創(chuàng)建這樣的智能體對于確保多智能體工作流能夠有效地排除故障并在任務(wù)中取得進展至關(guān)重要。例如,我們觀察到,另一個多智能體 LLM 系統(tǒng) CAMEL 在大多數(shù)情況下無法有效解決問題,主要是因為它缺乏執(zhí)行工具或代碼的能力。這一失敗表明,僅有簡單角色扮演的 LLM 和多智能體對話是不夠的,還必須有具備各種技能的高級能力智能體。我們認為,開展更系統(tǒng)的工作,制定針對特定應(yīng)用的智能體指南,創(chuàng)建大型 OSS 知識庫,并創(chuàng)建能夠發(fā)現(xiàn)和提升自身技能的智能體是必要的。
在 AutoGen 提交給 ICLR 主會議審稿期間,CAMEL 一作李國豪在公共評論區(qū)指出了這一問題,并強調(diào)這是「值得注意的遺漏」。
在針對 AutoGen 的審稿意見中,ICLR 的審稿人和領(lǐng)域主席也指出了這種做法的不妥之處。
其中,領(lǐng)域主席寫道,「作者確實在附錄中討論了這一工作,但這種做法是不可取的,因為補充材料的審核級別與論文的審核級別不同。簡而言之,這似乎允許作者說他們引用和討論了論文,但實際上并沒有在 99% 的人可能閱讀的論文部分進行引用和討論。我認為這種做法令人擔(dān)憂?!?/span>
那 AutoGen 的作者為什么這么做呢?他們回復(fù)說:在他們將論文提交給 ICLR 2024 時,CAMEL 等論文尚未在同行評審會議 / 期刊上發(fā)表。根據(jù) ICLR 2024 審稿人指南,他們沒有義務(wù)引用這篇論文或與之比較(CAMEL 于 2023 年 9 月被 NeurIPS 2023 錄用;ICLR 2024 審稿人指南規(guī)定,在 2023 年 5 月 28 日之后發(fā)表的論文不需要引用)。
同時,他們列出了論文中涉及 CAMEL 的部分:
鑒于 ICLR 規(guī)定在先,領(lǐng)域主席也不好多說什么。他寫道,「雖然我理解這項政策背后的基本原理,但在當(dāng)前的出版氛圍下,它可能會導(dǎo)致奇怪的結(jié)果。由于 ICLR 的政策,我不會將其納入我的決定中,但這會降低我的信心?!?/span>
關(guān)于李國豪提及的相似性,AutoGen 作者也給出了反駁意見:
針對審稿人提出的問題,他們回復(fù)如下:
最終,和 CAMEL 之間的相似性以及引用問題并未作為論文的主要問題被領(lǐng)域主席考慮在內(nèi)。不過,AutoGen 論文最終還是因為其他原因被拒(所以后來作者轉(zhuǎn)投了 ICLR 2024 LLM Agent Workshop)。
根據(jù)李國豪的說法,兩篇論文的作者其實在線下見過面,但發(fā)生了一些不愉快:
李國豪希望能夠通過發(fā)帖引起學(xué)術(shù)界的重視。
對此,你怎么看呢?