耗資1.3萬,ASU團(tuán)隊(duì)揭秘o1推理王者!碾壓所有LLM成本超高,關(guān)鍵還會PUA
LLM依然不會規(guī)劃,LRM可以嗎?
OpenAI聲稱,草莓o1已經(jīng)突破了自回歸LLM常規(guī)限制,成為一種新型的「大推理模型」(LRM)。
它能夠基于強(qiáng)化學(xué)習(xí),通過CoT多步推理。并且,這種推理過程的代價(jià),是高昂的。
來自ASU研究人員以此為契機(jī),全面評估了當(dāng)前LLM和新型LRM,在測試基準(zhǔn)PlanBench上表現(xiàn)。
論文地址:https://arxiv.org/pdf/2409.13373
PlanBench是他們在22年提出,評估大模型規(guī)劃能力的測試基準(zhǔn)。
在最新測試中,研究人員發(fā)現(xiàn),o1-preview表現(xiàn)出色,大幅領(lǐng)先其他模型,但也未完全通過PlanBench基準(zhǔn)測試。
其他LLM,在Mystery Blocksworld上的性能都不過5%。在基準(zhǔn)上的結(jié)果曲線,和X軸幾乎融合。
足見,這些大模型的規(guī)劃能力,非常地弱。
不過,作者指出,規(guī)劃推理越長,o1-preview的準(zhǔn)確率便會低于25%。
另外一個(gè)值得注意的點(diǎn)是,即便o1-preview超越了多數(shù)近似檢索的普通LLM,成為一種近似「推理器」。
但是,這種推理成本高達(dá)42美元/100個(gè)實(shí)例。
總而言之,o1在推理規(guī)劃方面開辟了新天地,但仍舊不是終極AI大腦。
最先進(jìn)LLM,依然無法規(guī)劃
作者認(rèn)為,o1模型以往LLM很大不同在于,前者被訓(xùn)練成為近似「推理器」,而后者粗略視為「檢索器」。
由此,o1發(fā)布之后,研究人員對其與普通的LLM進(jìn)行了區(qū)分,并將o1稱為「大推理模型」。
而要評估新模型的能力,以及局限性,還需要新的工具和評估方法。
PlanBench是在2022年GPT-3發(fā)布不久之后,亮相arXiv。此后,作者也在一個(gè)特定子集上(包含600個(gè)3-5 block問題的靜態(tài)數(shù)據(jù)集),重新測試模型。
盡管相繼出現(xiàn)的LLM參數(shù)規(guī)模越來越大,算力成本越來越高,但它們在簡單的規(guī)劃問題上,依舊無法實(shí)現(xiàn)飽和。
而且,多項(xiàng)研究中的改進(jìn)并不穩(wěn)健,可推廣力沒有那么高。
因此,PlanBench可以作為LLM和LRM在推理規(guī)劃任務(wù)上,是否取得進(jìn)步的一個(gè)衡量標(biāo)準(zhǔn)。
不過需要注意的是,這種測試只能作為性能的上限,尤其局限于靜態(tài)測試集。
如下表1中,展示了當(dāng)前大模型在600個(gè)3-5 Blocksworld靜態(tài)問題測試集,以及600個(gè)語義相同但語法混淆的實(shí)例Mystery Blocksworld中的結(jié)果。
在這些模型中,Llama 3.1 405B在常規(guī)Blocksworld上,取得了最佳性能62.6%。
然而,盡管本質(zhì)問題相同,許多模型在Mystery Blocksworld上,性能大打折扣幾乎潰敗。
沒有一個(gè)模型,在PlanBench測試集中,達(dá)到5%的性能。
這是因?yàn)?,LLM非常擅長提供等效表征之間的轉(zhuǎn)換。
因此,大模型在Blocksworld未混淆語義語法的問題上,性能更高。這也預(yù)示著,如果LLM能夠組合推理操作,明確提供從Mystery Blocksworld到Blocksworld表征翻譯,或許LLM在此的性能差距應(yīng)該會大幅縮小。
通過重寫提示,研究人員發(fā)現(xiàn),性能僅是提高了很小一部分—— GPT-4達(dá)到了10%。
作者還發(fā)現(xiàn),與之前結(jié)果相反,單樣本提示(one-shot)相較于零樣本,并沒有顯著改善模型性能。
事實(shí)上,在許多模型中,one-shot效果似乎要差得多!
這一點(diǎn),在對Llama系列模型的測試中,最為明顯。
順便提一句,在起初基準(zhǔn)迭代中,研究人員并沒有考慮效率問題,因?yàn)槠胀↙LM生成某些輸出,所需時(shí)間只取決于輸出長度,與實(shí)例的語義內(nèi)容、難度無關(guān)。
然而,LRM會根據(jù)輸入內(nèi)容,自適應(yīng)改變每個(gè)實(shí)例所需的時(shí)間和成本,因此衡量計(jì)算效率變得尤為重要。
對此,ASU團(tuán)隊(duì)計(jì)算了不同模型的提示成本,如下表4所示。
看得出,100個(gè)實(shí)例,o1-preview推理的代價(jià)最高,為42.12美金。
接下來,就到了評估o1在PlanBench基準(zhǔn)上的能力了。
從近似檢索到近似推理
很多研究者都曾認(rèn)為,通過近似檢索來生成輸出的「標(biāo)準(zhǔn)」自回歸LLM,盡管能夠在一系列系統(tǒng)1(快速、直覺性思考)任務(wù)中有著優(yōu)異的表現(xiàn),但不太可能具備更類似于系統(tǒng)2(慢速、分析性思考)的近似推理能力,而這種能力對于規(guī)劃任務(wù)來說至關(guān)重要。
如今,OpenAI試圖在o1上以不同的方式為底層LLM增添類似系統(tǒng)2的能力。
根據(jù)研究人員的推測,o1將底層LLM(很可能是經(jīng)過修改的GPT-4o)與一個(gè)經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的系統(tǒng)相結(jié)合,該系統(tǒng)引導(dǎo)思維鏈推理軌跡的創(chuàng)建、整理和最終選擇。
由此可知,o1與其他LLM存在兩個(gè)主要區(qū)別:
第一,新增了一個(gè)額外的強(qiáng)化學(xué)習(xí)預(yù)訓(xùn)練階段(可能是從大量合成數(shù)據(jù)中學(xué)習(xí)不同思維鏈的q值);
第二,采用了一個(gè)新的自適應(yīng)擴(kuò)展推理程序(可能是通過類似rollout的方式進(jìn)一步細(xì)化學(xué)習(xí)到的q值,然后再選擇特定的思維鏈)。
不管怎樣,從已知的細(xì)節(jié)來看,這個(gè)模型在本質(zhì)上與之前的LLM有根本的差異。
在原始測試集上評估LRM
在需要2到16步計(jì)劃來解決的原始Blocksworld測試上,o1實(shí)現(xiàn)了高達(dá)97.8%的正確率。在Mystery Blocksworld上,也有著52.8%的正確率。
更進(jìn)一步,研究人員通過完全隨機(jī)的字符串生成了新的混淆,并以此得到了難度更高的Randomized Mystery Blocksworld。
在這個(gè)測試中,o1仍能答對37.3%的問題——與那些一題都答不上來的LLM形成了鮮明對比。
擴(kuò)大問題規(guī)模
LLM的思維鏈提示是非常脆弱的,很難隨著問題規(guī)模的增大而穩(wěn)健地?cái)U(kuò)展,而且不能誘導(dǎo)出通用的算法程序跟隨。
為此,研究人員構(gòu)建了一組有著110個(gè)實(shí)例的Blocksworld測試。其中,block的數(shù)量從6到20個(gè)不等,需要20到40步計(jì)劃才能完成。
在不做任何混淆處理的情況下,o1-preview僅僅達(dá)到了23.63%的準(zhǔn)確率,而且大部分都是來自于那些需要少于28步的問題。
可見,模型的性能還遠(yuǎn)未達(dá)到穩(wěn)健的程度。
不可解的實(shí)例
一直以來,LLM都難以判斷一個(gè)問題是否有解,而OpenAI則聲稱o1已經(jīng)能夠進(jìn)行準(zhǔn)確地識別了。
為了系統(tǒng)地測試這一點(diǎn),研究人員修改了原始測試集中的100個(gè)實(shí)例——通過在每個(gè)實(shí)例的目標(biāo)狀態(tài)中添加一個(gè)on(x,y)類型的連接詞,使目標(biāo)變得不可滿足。
結(jié)果顯示,在Blocksworld中,o1只正確且明確地識別出了27%的實(shí)例是不可解的。
在19%的情況下,模型會返回一個(gè)點(diǎn)或某種「[empty plan]」標(biāo)記,但沒有對可解性做出任何解釋或說明。這是不正確的,因?yàn)椤竐mpty plan」只有在目標(biāo)已經(jīng)滿足的情況下才是正確答案。
在剩余的54%的情況下,模型生成了一個(gè)「完整」的計(jì)劃。顯然,這是不可能也是不正確的。
在Randomized Mystery Blocksworld中,結(jié)果更糟:
- 16%的情況正確識別出了問題不可解
- 5%的情況返回了「empty plan」
- 79%的情況給出了一個(gè)不可能或不滿足目標(biāo)的計(jì)劃
可見,不可解實(shí)例仍然是LRM的一個(gè)問題。
不僅如此,這種識別能力也是有代價(jià)的——o1有時(shí)會錯(cuò)誤地聲稱可解的問題是不可解的(假陰性)。
在Randomized Mystery Blocksworld中,模型的假陰性率達(dá)到了11.5%。
準(zhǔn)確性和成本的權(quán)衡與保證
隨著LRM在規(guī)劃任務(wù)上取得更好的性能,評估也必須明確考慮,選擇通用模型而非成熟專門系統(tǒng)來帶的利弊。
雖然o1-preview準(zhǔn)確性超越LLM,但缺乏的是正確性保證。
而且,目前尚不清楚它是否具備成本效益。
與之前模型不同的是,o1 API每次調(diào)用價(jià)格還包括基于使用「推理token」數(shù)量附加費(fèi)用,并按照最高輸出token計(jì)費(fèi)。(這些token是在推理過程中生成,并沒有直觀展示出來)
這也就意味著,o1 API費(fèi)用用戶是無法控制的。
作者表示,o1推出不到一周,他們在PlanBench基準(zhǔn)上測試模型,竟花費(fèi)了1897.55大洋(約13300元)!
而且,能夠訪問的o1-preview似乎在每個(gè)問題上,使用的推理token數(shù)量受到限制。
這一點(diǎn)也可以從圖2的平穩(wěn)變化中,可以看出。(包括如下散點(diǎn)圖)
這就存在一種認(rèn)為降低總成本,最高性能的因素。
如果完整版o1取消這一限制后,可能會提高整體準(zhǔn)確性,但隨之帶來的高昂推理成本更加難以預(yù)測(只會更加離譜)。
o1-mini雖然更具性價(jià)比,但總體性能還是較差。
由此,o1模型在成本、推理時(shí)間、保證、性能權(quán)衡上,僅是一種粗粒度的評估選擇。
經(jīng)典的規(guī)劃器Fast Downward在數(shù)據(jù)集上,能夠以更少時(shí)間、計(jì)算、成本,實(shí)現(xiàn)了100%準(zhǔn)確率,同時(shí)能夠保證答案準(zhǔn)確度。
而在PC上運(yùn)行Fast Downward基本上不需要花什么錢,平均每個(gè)實(shí)例耗時(shí)0.265秒。這要比如上表2中,o1平均時(shí)間快了幾個(gè)數(shù)量級。
它通常也是可預(yù)測的,而且能直接擴(kuò)展到更難的實(shí)例。
普通LLM非常擅長在不同格式之間轉(zhuǎn)換問題,并可以結(jié)合Fast Downward一起使用,成本還僅是LRM一小部分。
對于沒有簡單PDDL域和實(shí)例規(guī)范的問題,LLM-Modulo系統(tǒng)可能是一種更安全、更便宜的方法。
即將一個(gè)較小、較快的LLM與一個(gè)可靠的驗(yàn)證器循環(huán)運(yùn)行,使得組合系統(tǒng)只輸出保證正確的解決方案。
后面這兩種方法提供正確性保證,卻在o1這樣的LRM中嚴(yán)重缺失。
如果一個(gè)通過那個(gè)推理AI非常自信地制定錯(cuò)誤計(jì)劃,就不能部署在安全關(guān)鍵和非遍歷領(lǐng)域。
當(dāng)前,o1還是一個(gè)完全黑盒系統(tǒng),要比之前模型更甚。OpenAI不僅保密其架構(gòu)和推理過程,還警告禁止想要了解內(nèi)部機(jī)制的用戶。
這也就讓o1的可解釋性變?yōu)椴豢赡?,也降低了整個(gè)系統(tǒng)信任度。
o1的創(chuàng)造性解釋
值得一提的是,當(dāng)模型給出錯(cuò)誤答案時(shí),它有時(shí)還會為其決定提供一個(gè)富有創(chuàng)意但毫無意義的解釋。
換句話說就是,o1從產(chǎn)生幻覺變成了PUA……
在一個(gè)案例中,它認(rèn)為一個(gè)無法解決的問題是可以解決的,因?yàn)橐粋€(gè)目標(biāo)條件雖然在最終狀態(tài)中不存在,但在執(zhí)行過程中的某個(gè)時(shí)點(diǎn)是真的,因此應(yīng)該繼續(xù)計(jì)算。
在另一個(gè)案例中,它宣稱on(a,c)是真的,因?yàn)檎纭竜n(a,c)」的字面意思,a在b上,而b在c上,因此a在c的「上方」。
結(jié)論
總結(jié)而言,LLM在原始Blocksworld測試集上的表現(xiàn),會隨著時(shí)間的推移有所提升。
其中,表現(xiàn)最佳的是Llama 3.1 405B——準(zhǔn)確率高達(dá)62.5%。
然而,這些模型在同一領(lǐng)域的混淆版本上的糟糕表現(xiàn),暴露了它們「近似檢索」的本質(zhì)。
相比之下,新的LRM,也就是o1,不僅幾乎接近完美解決了原始Blockworld測試集,而且在混淆版本上首次取得了進(jìn)展。
受此鼓舞,研究人員又評估了o1在更長問題和無解問題上的表現(xiàn)。
但結(jié)果顯示,之前這些準(zhǔn)確率的提升既不具有泛化性,也不具有穩(wěn)健性。
最后,團(tuán)隊(duì)希望這份研究報(bào)告能夠很好地展示LLM和LRM的規(guī)劃能力,并為如何切實(shí)評估它們提供有用的建議。