AAAI前主席Subbarao Kambhampati:LLM-Modulo框架助力大模型完成規(guī)劃任務(wù)! 原創(chuàng)
研究人員對大型語言模型(LLMs)在規(guī)劃和推理任務(wù)中的作用存在相當大的困惑。一方面存在過于樂觀的說法,即LLMs只需適當?shù)奶崾净蜃晕因炞C策略就能夠完成這些任務(wù)。另一方面,可能存在過于悲觀的說法,即LLMs在規(guī)劃/推理任務(wù)中的唯一作用就是將問題規(guī)范從一種語法格式轉(zhuǎn)換為另一種,并將問題轉(zhuǎn)移到外部符號求解器。
Subbarao Kambhampati教授認為這兩種極端觀點都是錯誤的。自回歸LLMs本身不能完成規(guī)劃或自我驗證(畢竟后者是一種推理形式),并對文獻中存在誤解的原因進行了一些解釋。Subbarao Kambhampati教授還將主張將LLMs視為具有更有意義角色的通用近似知識源,超越簡單的前端/后端格式轉(zhuǎn)換器,在規(guī)劃/推理任務(wù)中發(fā)揮更多作用。Subbarao Kambhampati教授提出了一個LLM-Modulo框架的愿景,將LLMs的優(yōu)勢與外部基于模型的驗證器結(jié)合在一個更緊密的雙向交互體制中。Subbarao Kambhampati教授展示如何使用LLMs的幫助來獲取驅(qū)動外部驗證器的模型本身,與僅僅將LLMs和符號組件串聯(lián)起來不同,這種LLM-Modulo框架提供了更好的神經(jīng)符號方法,提供了LLMs和符號組件之間更緊密的集成,并允許將基于模型的規(guī)劃/推理體制擴展到更靈活的知識、問題和偏好規(guī)范。
簡介
大型語言模型(LLMs)實質(zhì)上是在大規(guī)模語言語料庫上訓(xùn)練的N元模型,可以說是被訓(xùn)練在網(wǎng)絡(luò)規(guī)模的語言語料庫上(或者說是我們的集體意識),這些模型展現(xiàn)出了讓人意想不到的語言行為,超乎了人們對文本補全系統(tǒng)的預(yù)期。它們看似多才多藝的特性引起了許多研究人員的興趣,讓他們想知道這些模型是否也能在通常與第二系統(tǒng)能力相關(guān)的規(guī)劃和推理任務(wù)中表現(xiàn)出色。表面上看,這似乎不太可能,因為從訓(xùn)練和操作來看,LLMs最好被視為一個巨大的偽第一系統(tǒng)。即使從純工程的角度來看,一個需要恒定時間產(chǎn)生下一個標記的系統(tǒng)也不可能自行進行有原則的推理。毫不奇怪,基于LLMs在推理任務(wù)上的軼事表現(xiàn)引起的最初的興奮情緒在最近一系列質(zhì)疑這種行為魯棒性的研究(如規(guī)劃)。盡管如此,文獻中仍然不斷有關(guān)于LLMs規(guī)劃和推理能力的聲稱。與對LLMs規(guī)劃和推理能力的不合理樂觀態(tài)度形成鮮明對比的是,關(guān)于LLMs在規(guī)劃/推理任務(wù)中可以發(fā)揮的作用的不合理悲觀態(tài)度也在存在。一些努力主張僅將LLMs用作華麗的翻譯工具——將嵌入文本格式的推理問題轉(zhuǎn)換為符號表示,然后將其交給外部經(jīng)典符號求解器(帶有所有相關(guān)的表達能力和搜索復(fù)雜性挑戰(zhàn)。
事實上,LLMs遠不止是機器翻譯工具。它們是一種近似知識源,是在我們的集體意識上訓(xùn)練的。雖然它們不太可能擁有第二系統(tǒng)的能力,但它們?nèi)匀豢梢猿蔀榻鉀Q第二系統(tǒng)任務(wù)的寶貴資源。換句話說,往昔的煉金術(shù)問題不在于化學(xué)是無用的,而是人們想要欺騙自己,認為化學(xué)——本身就是一門相當了不起的學(xué)科——只要適當引導(dǎo)就可以成為核物理學(xué)。關(guān)于LLMs能力的困惑,或者說LLMs煉金術(shù),似乎并沒有那么大的不同——在忽視它們擅長的方面和賦予它們沒有的能力之間搖擺不定。
LLM-Modulo魯棒規(guī)劃框架
Subbarao Kambhampati教授提出了一個通用的“LLM-Modulo”框架。
上圖給出了設(shè)想的LLM-Modulo框架的示意圖。可以很容易地看出,底層架構(gòu)是一個生成-測試-評價循環(huán),LLM生成候選計劃,一組評論家對候選進行評論。循環(huán)以LLM獲取問題規(guī)范并生成其第一個計劃候選開始。請注意,在這種架構(gòu)中,LLM幫助生成的計劃具有由外部可靠評論家提供的合理性保證。這意味著通過這種架構(gòu)產(chǎn)生的計劃將構(gòu)成更好的合成數(shù)據(jù)語料庫,用于任何旨在改進/定制LLM生成能力的微調(diào)階段。
首先,注意到LLM-Modulo架構(gòu)是一種涉及LLMs與外部評論家而不是求解器進行交互的“生成-測試”架構(gòu)。這是一個有意識的決定——因為這樣可以讓LLM猜測/生成候選方案以滿足評論家,而不是處理求解器的表達能力和搜索復(fù)雜性問題。其次,該框架明確承認LLMs不僅可以生成關(guān)于計劃候選人的近似想法,還可以生成關(guān)于領(lǐng)域模型、問題簡化策略和問題規(guī)范的修正。該框架還承認LLMs擅長格式/語法變化。因此,該框架利用了LLMs的所有這些能力,讓它們在規(guī)劃中扮演多種角色。最后,該架構(gòu)精心限制了人類的角色——領(lǐng)域?qū)<遗cLLM進行交互,以揭示(部分)評論家使用的模型,而最終用戶與LLM協(xié)作完善任何不完整的問題規(guī)范。一個值得注意的、有意為之的缺失是人類參與規(guī)劃的內(nèi)循環(huán)——例如,通過迭代提示。除了給復(fù)雜規(guī)劃問題的人類帶來不可行的負擔(dān)外,這種迭代提示策略還以其“聰明的漢斯”效應(yīng)而臭名昭著。
論文:https://arxiv.org/pdf/2402.01817
誰是Subbarao Kambhampati?
Subbarao Kambhampati(簡稱Rao)教授是亞利桑那州立大學(xué)計算機科學(xué)教授,曾任人工智能促進協(xié)會(AAAI)主席。他的研究重點是自動化規(guī)劃和決策制定,特別是在人類感知的人工智能系統(tǒng)背景下。他是一位備受贊譽的教師,花費大量時間思考人們對人工智能的公眾認知和社會影響。他曾是美國國家科學(xué)基金會的年輕研究員,并且是AAAI的會士。他在多個角色中為人工智能社區(qū)提供服務(wù),包括擔(dān)任IJCAI 2016的程序主席和AAAI 2005的程序聯(lián)合主席。Rao畢業(yè)于印度理工學(xué)院馬德拉斯分校獲得學(xué)士學(xué)位,后在馬里蘭大學(xué)學(xué)院公園分校獲得博士學(xué)位。
本文轉(zhuǎn)載自公眾號AIGC最前線
