GPT-3.5逆襲GPT-4!谷歌DeepMind華人天團(tuán),讓LLM像人類一樣制作工具,完勝CoT
ChatGPT等大語(yǔ)言模型誕生以來(lái),憑著強(qiáng)大的語(yǔ)言理解能力、生成能力、邏輯推理能力等,已經(jīng)被人類玩出了花。
而OpenAI公開(kāi)GPT-4后,最大的驚喜之一,莫過(guò)于插件模式的引入了。
插件使得GPT-4可以執(zhí)行代碼、搜索引擎、集成各種APP的功能。這無(wú)疑是對(duì)于LLM后續(xù)應(yīng)用模式的一大突破。
顯然,通過(guò)工具的使用,我們可以顯著地提升LLM的生產(chǎn)力,
但是,如果沒(méi)有合適的工具怎么辦?
——那就讓LLM自己造!
最近,來(lái)自Google DeepMind,普林斯頓和斯坦福的華人團(tuán)隊(duì)提出了一種閉環(huán)框架,讓LLM可以通過(guò)程序的形式,制作并使用全新的工具(能重復(fù)使用的那種)。
簡(jiǎn)單來(lái)說(shuō),就是讓一個(gè)LLM作為工具制造者制作新工具,另一個(gè)LLM作為工具使用者,使用工具來(lái)解決新問(wèn)題。
論文地址:https://arxiv.org/abs/2305.17126
項(xiàng)目地址:https://github.com/ctlllll/LLM-ToolMaker
基于這個(gè)框架,LLM就變得像人類的祖先一樣,能夠自我開(kāi)發(fā),并且學(xué)會(huì)使用工具。
同時(shí),這種工具制造者和使用者之間的分工,在不降低生成工具和解決方案質(zhì)量的情況下,就能實(shí)現(xiàn)成本效益。
結(jié)果顯示,當(dāng)使用GPT-4作為工具制造者,GPT-3.5 Turbo作為工具使用者時(shí),可以在成本低、速度快的GPT-3.5 Turbo上實(shí)現(xiàn)與GPT-4相當(dāng)?shù)男阅堋?/p>
讓LLM自己造工具
雖然LLM很好用,但如果問(wèn)題太多的話,直接丟給GPT-4這種性能很強(qiáng)的模型,成本會(huì)非常高。
另一方面,輕量級(jí)模型在成本效益上很高,但通常在處理復(fù)雜任務(wù)時(shí)遇到困難。
LATM通過(guò)利用強(qiáng)大的模型作為工具制造者,為請(qǐng)求中觀察到的任務(wù)生成可重復(fù)使用的工具(以Python函數(shù)實(shí)現(xiàn)),并將工具傳遞給一個(gè)成本效益高的工具使用者模型,用于解決后續(xù)請(qǐng)求中的類似實(shí)例。
這種方法使得輕量級(jí)模型在保持更高的成本效率的同時(shí),能夠達(dá)到與強(qiáng)大模型相當(dāng)?shù)男阅堋?/p>
LATM的閉環(huán)框架
LATM可以分為兩個(gè)階段:
1. 制造工具:一個(gè)強(qiáng)大但更昂貴的模型作為工具制造者,從一些示例中生成通用且可重復(fù)使用的工具;
2. 使用工具:一個(gè)輕量且更便宜的模型作為工具使用者,使用工具來(lái)解決任務(wù)的各種實(shí)例。
制造工具階段可以進(jìn)一步劃分為三個(gè)子階段:
(1)工具提議:工具制造者試圖從一些訓(xùn)練示例中生成工具(Python函數(shù)),如果工具無(wú)法執(zhí)行,報(bào)告錯(cuò)誤并生成新的(修復(fù)函數(shù)中的問(wèn)題);
(2)工具驗(yàn)證:工具制造者在驗(yàn)證樣本上運(yùn)行單元測(cè)試,如果工具沒(méi)有通過(guò)測(cè)試,報(bào)告錯(cuò)誤并生成新的測(cè)試(修復(fù)單元測(cè)試中函數(shù)調(diào)用的問(wèn)題);
(3)工具封裝:封裝函數(shù)代碼和如何從單元測(cè)試中將問(wèn)題轉(zhuǎn)換為函數(shù)調(diào)用的示例,為工具使用者準(zhǔn)備可用的工具。
LATM的流程
在現(xiàn)實(shí)世界的場(chǎng)景中,任務(wù)實(shí)例通常都是按順序來(lái)的。為了適應(yīng)這種數(shù)據(jù)流,團(tuán)隊(duì)引入了第三個(gè)LLM——分派器。
具體來(lái)說(shuō),當(dāng)收到一個(gè)新的任務(wù)實(shí)例時(shí),分派器首先確定是否有適合當(dāng)前任務(wù)的工具。
· 如果存在合適的工具,分派器將實(shí)例及其相應(yīng)的工具傳遞給工具使用者進(jìn)行任務(wù)解決。
· 如果沒(méi)有找到合適的工具,分派器將該實(shí)例識(shí)別為新任務(wù),并使用強(qiáng)大的模型甚至調(diào)用人類標(biāo)注者來(lái)解決該實(shí)例。
鑒于分派任務(wù)的簡(jiǎn)單性,分派器可以是一個(gè)配備了適當(dāng)提示的輕量級(jí)模型,這只會(huì)為整個(gè)流程增加很小的成本。
結(jié)果顯示,分派器可以有效地識(shí)別現(xiàn)有的工具,而且對(duì)于沒(méi)有見(jiàn)過(guò)的任務(wù)也不會(huì)有顯著的性能下降。
分派器的工作流程
在下面這個(gè)任務(wù)示例中,需要根據(jù)給定的幾個(gè)條件確定五個(gè)對(duì)象的順序。
在工具提議階段,工具制造者(如GPT-4)會(huì)寫一個(gè)通用的Python函數(shù),能夠解決任務(wù)中提供的k個(gè)示例(實(shí)驗(yàn)中k=3)。
然后,工具制造者會(huì)生成一個(gè)搜索算法,枚舉所有可能的排序,并根據(jù)給定的條件進(jìn)行驗(yàn)證
在工具使用階段,工具使用者將每個(gè)自然語(yǔ)言問(wèn)題轉(zhuǎn)化為一系列條件,生成函數(shù)調(diào)用,利用工具解決每個(gè)任務(wù)實(shí)例。
工具提議和工具使用階段(邏輯推理任務(wù))
結(jié)果顯示,不管是由人類編寫還是由GPT-4生成,CoT在任務(wù)完成的準(zhǔn)確率上,都會(huì)被LATM吊打。
使用GPT-4生成的CoT的準(zhǔn)確性
如表1所示,當(dāng)被用作工具制造者時(shí),GPT-4會(huì)搜索所有排列組合,并選出滿足給定約束條件的,最終成功解決任務(wù)。
而且,工具制造者即便是接收到了錯(cuò)誤的信息,也依然有能力進(jìn)行糾正。
工具制造者為解決任務(wù)而生成的函數(shù)
在表2中,團(tuán)隊(duì)將思維鏈提示方法和LATM的性能進(jìn)行了比較。
結(jié)果顯示,有了工具的幫助,像GPT-3.5 Turbo這樣的輕量級(jí)模型可以實(shí)現(xiàn)與GPT-4相當(dāng)?shù)男阅?,并顯著優(yōu)于CoT提示。
而且,能夠利用工具的GPT-3.5 Turbo在平均成本上,也比直接用GPT-4低得多。
有趣的是,對(duì)于Dyck語(yǔ)言任務(wù),作為工具使用者的GPT-3.5 Turbo,甚至甚至超過(guò)了同樣作為使用者的GPT-4。
在研究錯(cuò)誤的案例時(shí),團(tuán)隊(duì)發(fā)現(xiàn),在將問(wèn)題轉(zhuǎn)化為函數(shù)調(diào)用時(shí),GPT-4有時(shí)會(huì)自發(fā)地去「解決」問(wèn)題。然而,這是完全不必要的,而且還會(huì)導(dǎo)致函數(shù)輸出錯(cuò)誤。
LATM和思維鏈(CoT)的性能比較
此外,在所有的模型中,GPT-3.5 Turbo也有著最佳的性價(jià)比。
各種工具使用者模型的性能比較
不過(guò),雖然GPT-3.5 Turbo在作為使用者時(shí)表現(xiàn)出色,但它并不能很好地扮演工具制造者的角色。
結(jié)果顯示,對(duì)于像邏輯推理這樣比較困難的任務(wù),GPT-3.5 Turbo一次都沒(méi)成功。
也就是說(shuō),使用一個(gè)強(qiáng)大的模型作為工具的制造者,是很有必要的。
GPT-4和GPT-3.5 Turbo在生成新工具時(shí)的成功率
LATM Prompt
工具制造
工具驗(yàn)證
工具封裝
分派器
封裝工具
邏輯推理
查找隨機(jī)對(duì)象
Dyck語(yǔ)言
單詞排序
余數(shù)定理
安排會(huì)議
作者介紹
論文一作Tianle Cai(蔡天樂(lè)),是普林斯頓大學(xué)的一年級(jí)博士生。
在此之前,他就讀于北京大學(xué),主修應(yīng)用數(shù)學(xué),同時(shí)兼修計(jì)算機(jī)科學(xué)。
他的興趣非常廣泛,橫跨機(jī)器學(xué)習(xí)的很堵領(lǐng)域。比如,優(yōu)化,表征學(xué)習(xí),架構(gòu)設(shè)計(jì)(Transformer,圖神經(jīng)網(wǎng)絡(luò)等)。宗旨就是,讓機(jī)器學(xué)習(xí)更通用,更高效,更可靠。
Xuezhi Wang是谷歌大腦的研究科學(xué)家。
在此之前,她于2016年在卡耐基梅隆大學(xué)計(jì)算機(jī)科學(xué)系獲得博士學(xué)位,于2011年在清華大學(xué)取得計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。
她的主要興趣是NLP模型的魯棒性和公平性,以及在語(yǔ)言模型中實(shí)現(xiàn)系統(tǒng)化的泛化。
Tengyu Ma(馬騰宇)是斯坦福大學(xué)計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)的助理教授。
他的研究興趣廣泛,包括機(jī)器學(xué)習(xí)、算法及其理論方面的課題,如深度學(xué)習(xí)、(深度)強(qiáng)化學(xué)習(xí)、預(yù)訓(xùn)練/基礎(chǔ)模型、魯棒性、非凸優(yōu)化、分布式優(yōu)化和高維統(tǒng)計(jì)。
Xinyun Chen(陳昕昀)是谷歌大腦的高級(jí)研究科學(xué)家。
在此之前,她于2022年在加州大學(xué)伯克利分校獲得計(jì)算機(jī)科學(xué)博士學(xué)位,并在上海交通大學(xué)ACM班獲得計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。
她的研究興趣是神經(jīng)程序合成和對(duì)抗性機(jī)器學(xué)習(xí)。
Denny Zhou是谷歌大腦和DeepMind推理團(tuán)隊(duì)的創(chuàng)始人和負(fù)責(zé)人。
研究方向是通過(guò)建立和教授大型語(yǔ)言模型(LLMs)來(lái)解決人工通用智能(AGI)問(wèn)題,實(shí)現(xiàn)人類水平的推理。
研究突破包括:指令調(diào)整(FLAN2)、思維鏈提示、自洽性解碼、最小到最大提示,以及LLMs的涌現(xiàn)特性。
值得一提的是,谷歌首席執(zhí)行官Sundar Pichai在2022年谷歌I/O大會(huì)上介紹了他們的工作。