自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT-3.5逆襲GPT-4!谷歌DeepMind華人天團(tuán),讓LLM像人類一樣制作工具,完勝CoT

人工智能
最近,來(lái)自Google DeepMind,普林斯頓和斯坦福的頂尖華人團(tuán)隊(duì)提出了一種全新的框架?,F(xiàn)在,LLM可以像人類一樣制作自己的工具了!

ChatGPT等大語(yǔ)言模型誕生以來(lái),憑著強(qiáng)大的語(yǔ)言理解能力、生成能力、邏輯推理能力等,已經(jīng)被人類玩出了花。

而OpenAI公開(kāi)GPT-4后,最大的驚喜之一,莫過(guò)于插件模式的引入了。

插件使得GPT-4可以執(zhí)行代碼、搜索引擎、集成各種APP的功能。這無(wú)疑是對(duì)于LLM后續(xù)應(yīng)用模式的一大突破。

圖片

顯然,通過(guò)工具的使用,我們可以顯著地提升LLM的生產(chǎn)力,

但是,如果沒(méi)有合適的工具怎么辦?

——那就讓LLM自己造!

最近,來(lái)自Google DeepMind,普林斯頓和斯坦福的華人團(tuán)隊(duì)提出了一種閉環(huán)框架,讓LLM可以通過(guò)程序的形式,制作并使用全新的工具(能重復(fù)使用的那種)。

簡(jiǎn)單來(lái)說(shuō),就是讓一個(gè)LLM作為工具制造者制作新工具,另一個(gè)LLM作為工具使用者,使用工具來(lái)解決新問(wèn)題。

圖片

論文地址:https://arxiv.org/abs/2305.17126

項(xiàng)目地址:https://github.com/ctlllll/LLM-ToolMaker

基于這個(gè)框架,LLM就變得像人類的祖先一樣,能夠自我開(kāi)發(fā),并且學(xué)會(huì)使用工具。

同時(shí),這種工具制造者和使用者之間的分工,在不降低生成工具和解決方案質(zhì)量的情況下,就能實(shí)現(xiàn)成本效益。

結(jié)果顯示,當(dāng)使用GPT-4作為工具制造者,GPT-3.5 Turbo作為工具使用者時(shí),可以在成本低、速度快的GPT-3.5 Turbo上實(shí)現(xiàn)與GPT-4相當(dāng)?shù)男阅堋?/p>

讓LLM自己造工具

雖然LLM很好用,但如果問(wèn)題太多的話,直接丟給GPT-4這種性能很強(qiáng)的模型,成本會(huì)非常高。

另一方面,輕量級(jí)模型在成本效益上很高,但通常在處理復(fù)雜任務(wù)時(shí)遇到困難。

LATM通過(guò)利用強(qiáng)大的模型作為工具制造者,為請(qǐng)求中觀察到的任務(wù)生成可重復(fù)使用的工具(以Python函數(shù)實(shí)現(xiàn)),并將工具傳遞給一個(gè)成本效益高的工具使用者模型,用于解決后續(xù)請(qǐng)求中的類似實(shí)例。

這種方法使得輕量級(jí)模型在保持更高的成本效率的同時(shí),能夠達(dá)到與強(qiáng)大模型相當(dāng)?shù)男阅堋?/p>

圖片


LATM的閉環(huán)框架

LATM可以分為兩個(gè)階段:

1. 制造工具:一個(gè)強(qiáng)大但更昂貴的模型作為工具制造者,從一些示例中生成通用且可重復(fù)使用的工具;

2. 使用工具:一個(gè)輕量且更便宜的模型作為工具使用者,使用工具來(lái)解決任務(wù)的各種實(shí)例。

制造工具階段可以進(jìn)一步劃分為三個(gè)子階段:

(1)工具提議:工具制造者試圖從一些訓(xùn)練示例中生成工具(Python函數(shù)),如果工具無(wú)法執(zhí)行,報(bào)告錯(cuò)誤并生成新的(修復(fù)函數(shù)中的問(wèn)題);

(2)工具驗(yàn)證:工具制造者在驗(yàn)證樣本上運(yùn)行單元測(cè)試,如果工具沒(méi)有通過(guò)測(cè)試,報(bào)告錯(cuò)誤并生成新的測(cè)試(修復(fù)單元測(cè)試中函數(shù)調(diào)用的問(wèn)題);

(3)工具封裝:封裝函數(shù)代碼和如何從單元測(cè)試中將問(wèn)題轉(zhuǎn)換為函數(shù)調(diào)用的示例,為工具使用者準(zhǔn)備可用的工具。

圖片

LATM的流程

在現(xiàn)實(shí)世界的場(chǎng)景中,任務(wù)實(shí)例通常都是按順序來(lái)的。為了適應(yīng)這種數(shù)據(jù)流,團(tuán)隊(duì)引入了第三個(gè)LLM——分派器。

具體來(lái)說(shuō),當(dāng)收到一個(gè)新的任務(wù)實(shí)例時(shí),分派器首先確定是否有適合當(dāng)前任務(wù)的工具。

· 如果存在合適的工具,分派器將實(shí)例及其相應(yīng)的工具傳遞給工具使用者進(jìn)行任務(wù)解決。

· 如果沒(méi)有找到合適的工具,分派器將該實(shí)例識(shí)別為新任務(wù),并使用強(qiáng)大的模型甚至調(diào)用人類標(biāo)注者來(lái)解決該實(shí)例。

鑒于分派任務(wù)的簡(jiǎn)單性,分派器可以是一個(gè)配備了適當(dāng)提示的輕量級(jí)模型,這只會(huì)為整個(gè)流程增加很小的成本。

結(jié)果顯示,分派器可以有效地識(shí)別現(xiàn)有的工具,而且對(duì)于沒(méi)有見(jiàn)過(guò)的任務(wù)也不會(huì)有顯著的性能下降。

圖片

分派器的工作流程

在下面這個(gè)任務(wù)示例中,需要根據(jù)給定的幾個(gè)條件確定五個(gè)對(duì)象的順序。

在工具提議階段,工具制造者(如GPT-4)會(huì)寫一個(gè)通用的Python函數(shù),能夠解決任務(wù)中提供的k個(gè)示例(實(shí)驗(yàn)中k=3)。

然后,工具制造者會(huì)生成一個(gè)搜索算法,枚舉所有可能的排序,并根據(jù)給定的條件進(jìn)行驗(yàn)證

在工具使用階段,工具使用者將每個(gè)自然語(yǔ)言問(wèn)題轉(zhuǎn)化為一系列條件,生成函數(shù)調(diào)用,利用工具解決每個(gè)任務(wù)實(shí)例。

圖片

工具提議和工具使用階段(邏輯推理任務(wù))

結(jié)果顯示,不管是由人類編寫還是由GPT-4生成,CoT在任務(wù)完成的準(zhǔn)確率上,都會(huì)被LATM吊打。

圖片

使用GPT-4生成的CoT的準(zhǔn)確性

如表1所示,當(dāng)被用作工具制造者時(shí),GPT-4會(huì)搜索所有排列組合,并選出滿足給定約束條件的,最終成功解決任務(wù)。

而且,工具制造者即便是接收到了錯(cuò)誤的信息,也依然有能力進(jìn)行糾正。

圖片

工具制造者為解決任務(wù)而生成的函數(shù)

在表2中,團(tuán)隊(duì)將思維鏈提示方法和LATM的性能進(jìn)行了比較。

結(jié)果顯示,有了工具的幫助,像GPT-3.5 Turbo這樣的輕量級(jí)模型可以實(shí)現(xiàn)與GPT-4相當(dāng)?shù)男阅?,并顯著優(yōu)于CoT提示。

而且,能夠利用工具的GPT-3.5 Turbo在平均成本上,也比直接用GPT-4低得多。

有趣的是,對(duì)于Dyck語(yǔ)言任務(wù),作為工具使用者的GPT-3.5 Turbo,甚至甚至超過(guò)了同樣作為使用者的GPT-4。

在研究錯(cuò)誤的案例時(shí),團(tuán)隊(duì)發(fā)現(xiàn),在將問(wèn)題轉(zhuǎn)化為函數(shù)調(diào)用時(shí),GPT-4有時(shí)會(huì)自發(fā)地去「解決」問(wèn)題。然而,這是完全不必要的,而且還會(huì)導(dǎo)致函數(shù)輸出錯(cuò)誤。

圖片

LATM和思維鏈(CoT)的性能比較

此外,在所有的模型中,GPT-3.5 Turbo也有著最佳的性價(jià)比。

圖片

各種工具使用者模型的性能比較

不過(guò),雖然GPT-3.5 Turbo在作為使用者時(shí)表現(xiàn)出色,但它并不能很好地扮演工具制造者的角色。

結(jié)果顯示,對(duì)于像邏輯推理這樣比較困難的任務(wù),GPT-3.5 Turbo一次都沒(méi)成功。

也就是說(shuō),使用一個(gè)強(qiáng)大的模型作為工具的制造者,是很有必要的。

圖片

GPT-4和GPT-3.5 Turbo在生成新工具時(shí)的成功率

LATM Prompt

圖片

工具制造

圖片

工具驗(yàn)證

圖片

工具封裝

圖片

分派器

封裝工具


圖片



邏輯推理

圖片

查找隨機(jī)對(duì)象

圖片

Dyck語(yǔ)言

圖片

單詞排序

圖片


余數(shù)定理

圖片

安排會(huì)議

作者介紹

論文一作Tianle Cai(蔡天樂(lè)),是普林斯頓大學(xué)的一年級(jí)博士生。

在此之前,他就讀于北京大學(xué),主修應(yīng)用數(shù)學(xué),同時(shí)兼修計(jì)算機(jī)科學(xué)。

他的興趣非常廣泛,橫跨機(jī)器學(xué)習(xí)的很堵領(lǐng)域。比如,優(yōu)化,表征學(xué)習(xí),架構(gòu)設(shè)計(jì)(Transformer,圖神經(jīng)網(wǎng)絡(luò)等)。宗旨就是,讓機(jī)器學(xué)習(xí)更通用,更高效,更可靠。

圖片

Xuezhi Wang是谷歌大腦的研究科學(xué)家。

在此之前,她于2016年在卡耐基梅隆大學(xué)計(jì)算機(jī)科學(xué)系獲得博士學(xué)位,于2011年在清華大學(xué)取得計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。

她的主要興趣是NLP模型的魯棒性和公平性,以及在語(yǔ)言模型中實(shí)現(xiàn)系統(tǒng)化的泛化。

圖片

Tengyu Ma(馬騰宇)是斯坦福大學(xué)計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)的助理教授。

他的研究興趣廣泛,包括機(jī)器學(xué)習(xí)、算法及其理論方面的課題,如深度學(xué)習(xí)、(深度)強(qiáng)化學(xué)習(xí)、預(yù)訓(xùn)練/基礎(chǔ)模型、魯棒性、非凸優(yōu)化、分布式優(yōu)化和高維統(tǒng)計(jì)。

圖片

Xinyun Chen(陳昕昀)是谷歌大腦的高級(jí)研究科學(xué)家。

在此之前,她于2022年在加州大學(xué)伯克利分校獲得計(jì)算機(jī)科學(xué)博士學(xué)位,并在上海交通大學(xué)ACM班獲得計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。

她的研究興趣是神經(jīng)程序合成和對(duì)抗性機(jī)器學(xué)習(xí)。

圖片

Denny Zhou是谷歌大腦和DeepMind推理團(tuán)隊(duì)的創(chuàng)始人和負(fù)責(zé)人。

研究方向是通過(guò)建立和教授大型語(yǔ)言模型(LLMs)來(lái)解決人工通用智能(AGI)問(wèn)題,實(shí)現(xiàn)人類水平的推理。

研究突破包括:指令調(diào)整(FLAN2)、思維鏈提示、自洽性解碼、最小到最大提示,以及LLMs的涌現(xiàn)特性。

值得一提的是,谷歌首席執(zhí)行官Sundar Pichai在2022年谷歌I/O大會(huì)上介紹了他們的工作。

圖片

參考資料:https://arxiv.org/abs/2305.17126

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2023-05-05 09:42:12

2023-08-06 08:06:30

OpenAIChatGPTGPT-4

2023-10-13 13:12:44

2023-09-06 16:44:03

2023-03-20 08:19:23

GPT-4OpenAI

2023-06-05 12:32:48

模型論文

2024-01-26 08:36:07

OpenAIGPT-4?人工智能

2023-10-31 15:26:02

阿里云通義千問(wèn)

2024-05-20 08:40:00

2023-06-21 13:37:41

模型研究

2023-03-29 10:31:40

MIT論文

2023-08-27 12:54:59

GPT-4神秘版本Code

2023-07-04 14:01:26

GPT-4模型

2023-10-30 17:23:54

數(shù)據(jù)模型

2023-10-10 13:59:00

模型研究

2023-06-19 08:19:50

2024-01-29 10:31:00

AI模型

2023-12-12 13:57:00

GPT-3.5MistralAI

2023-11-06 12:46:00

AI數(shù)據(jù)

2023-04-24 09:23:27

數(shù)據(jù)訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)