自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

GPT-3.5逆襲GPT-4！谷歌DeepMind華人天團(tuán)，讓LLM像人類一樣制作工具，完勝CoT

作者：新智元 2023-05-30 13:29:25

最近，來(lái)自Google DeepMind，普林斯頓和斯坦福的頂尖華人團(tuán)隊(duì)提出了一種全新的框架?，F(xiàn)在，LLM可以像人類一樣制作自己的工具了！

ChatGPT等大語(yǔ)言模型誕生以來(lái)，憑著強(qiáng)大的語(yǔ)言理解能力、生成能力、邏輯推理能力等，已經(jīng)被人類玩出了花。

而OpenAI公開(kāi)GPT-4后，最大的驚喜之一，莫過(guò)于插件模式的引入了。

插件使得GPT-4可以執(zhí)行代碼、搜索引擎、集成各種APP的功能。這無(wú)疑是對(duì)于LLM后續(xù)應(yīng)用模式的一大突破。

顯然，通過(guò)工具的使用，我們可以顯著地提升LLM的生產(chǎn)力，

但是，如果沒(méi)有合適的工具怎么辦？

——那就讓LLM自己造！

最近，來(lái)自Google DeepMind，普林斯頓和斯坦福的華人團(tuán)隊(duì)提出了一種閉環(huán)框架，讓LLM可以通過(guò)程序的形式，制作并使用全新的工具（能重復(fù)使用的那種）。

簡(jiǎn)單來(lái)說(shuō)，就是讓一個(gè)LLM作為工具制造者制作新工具，另一個(gè)LLM作為工具使用者，使用工具來(lái)解決新問(wèn)題。

論文地址：https://arxiv.org/abs/2305.17126

項(xiàng)目地址：https://github.com/ctlllll/LLM-ToolMaker

基于這個(gè)框架，LLM就變得像人類的祖先一樣，能夠自我開(kāi)發(fā)，并且學(xué)會(huì)使用工具。

同時(shí)，這種工具制造者和使用者之間的分工，在不降低生成工具和解決方案質(zhì)量的情況下，就能實(shí)現(xiàn)成本效益。

結(jié)果顯示，當(dāng)使用GPT-4作為工具制造者，GPT-3.5 Turbo作為工具使用者時(shí)，可以在成本低、速度快的GPT-3.5 Turbo上實(shí)現(xiàn)與GPT-4相當(dāng)?shù)男阅堋?/p>

讓LLM自己造工具

雖然LLM很好用，但如果問(wèn)題太多的話，直接丟給GPT-4這種性能很強(qiáng)的模型，成本會(huì)非常高。

另一方面，輕量級(jí)模型在成本效益上很高，但通常在處理復(fù)雜任務(wù)時(shí)遇到困難。

LATM通過(guò)利用強(qiáng)大的模型作為工具制造者，為請(qǐng)求中觀察到的任務(wù)生成可重復(fù)使用的工具（以Python函數(shù)實(shí)現(xiàn)），并將工具傳遞給一個(gè)成本效益高的工具使用者模型，用于解決后續(xù)請(qǐng)求中的類似實(shí)例。

這種方法使得輕量級(jí)模型在保持更高的成本效率的同時(shí)，能夠達(dá)到與強(qiáng)大模型相當(dāng)?shù)男阅堋?/p>

LATM的閉環(huán)框架

LATM可以分為兩個(gè)階段：

1. 制造工具：一個(gè)強(qiáng)大但更昂貴的模型作為工具制造者，從一些示例中生成通用且可重復(fù)使用的工具；

2. 使用工具：一個(gè)輕量且更便宜的模型作為工具使用者，使用工具來(lái)解決任務(wù)的各種實(shí)例。

制造工具階段可以進(jìn)一步劃分為三個(gè)子階段：

（1）工具提議：工具制造者試圖從一些訓(xùn)練示例中生成工具（Python函數(shù)），如果工具無(wú)法執(zhí)行，報(bào)告錯(cuò)誤并生成新的（修復(fù)函數(shù)中的問(wèn)題）；

（2）工具驗(yàn)證：工具制造者在驗(yàn)證樣本上運(yùn)行單元測(cè)試，如果工具沒(méi)有通過(guò)測(cè)試，報(bào)告錯(cuò)誤并生成新的測(cè)試（修復(fù)單元測(cè)試中函數(shù)調(diào)用的問(wèn)題）；

（3）工具封裝：封裝函數(shù)代碼和如何從單元測(cè)試中將問(wèn)題轉(zhuǎn)換為函數(shù)調(diào)用的示例，為工具使用者準(zhǔn)備可用的工具。

LATM的流程

在現(xiàn)實(shí)世界的場(chǎng)景中，任務(wù)實(shí)例通常都是按順序來(lái)的。為了適應(yīng)這種數(shù)據(jù)流，團(tuán)隊(duì)引入了第三個(gè)LLM——分派器。

具體來(lái)說(shuō)，當(dāng)收到一個(gè)新的任務(wù)實(shí)例時(shí)，分派器首先確定是否有適合當(dāng)前任務(wù)的工具。

· 如果存在合適的工具，分派器將實(shí)例及其相應(yīng)的工具傳遞給工具使用者進(jìn)行任務(wù)解決。

· 如果沒(méi)有找到合適的工具，分派器將該實(shí)例識(shí)別為新任務(wù)，并使用強(qiáng)大的模型甚至調(diào)用人類標(biāo)注者來(lái)解決該實(shí)例。

鑒于分派任務(wù)的簡(jiǎn)單性，分派器可以是一個(gè)配備了適當(dāng)提示的輕量級(jí)模型，這只會(huì)為整個(gè)流程增加很小的成本。

結(jié)果顯示，分派器可以有效地識(shí)別現(xiàn)有的工具，而且對(duì)于沒(méi)有見(jiàn)過(guò)的任務(wù)也不會(huì)有顯著的性能下降。

分派器的工作流程

在下面這個(gè)任務(wù)示例中，需要根據(jù)給定的幾個(gè)條件確定五個(gè)對(duì)象的順序。

在工具提議階段，工具制造者（如GPT-4）會(huì)寫一個(gè)通用的Python函數(shù)，能夠解決任務(wù)中提供的k個(gè)示例（實(shí)驗(yàn)中k=3）。

然后，工具制造者會(huì)生成一個(gè)搜索算法，枚舉所有可能的排序，并根據(jù)給定的條件進(jìn)行驗(yàn)證

在工具使用階段，工具使用者將每個(gè)自然語(yǔ)言問(wèn)題轉(zhuǎn)化為一系列條件，生成函數(shù)調(diào)用，利用工具解決每個(gè)任務(wù)實(shí)例。

工具提議和工具使用階段（邏輯推理任務(wù)）

結(jié)果顯示，不管是由人類編寫還是由GPT-4生成，CoT在任務(wù)完成的準(zhǔn)確率上，都會(huì)被LATM吊打。

使用GPT-4生成的CoT的準(zhǔn)確性

如表1所示，當(dāng)被用作工具制造者時(shí)，GPT-4會(huì)搜索所有排列組合，并選出滿足給定約束條件的，最終成功解決任務(wù)。

而且，工具制造者即便是接收到了錯(cuò)誤的信息，也依然有能力進(jìn)行糾正。

工具制造者為解決任務(wù)而生成的函數(shù)

在表2中，團(tuán)隊(duì)將思維鏈提示方法和LATM的性能進(jìn)行了比較。

結(jié)果顯示，有了工具的幫助，像GPT-3.5 Turbo這樣的輕量級(jí)模型可以實(shí)現(xiàn)與GPT-4相當(dāng)?shù)男阅?，并顯著優(yōu)于CoT提示。

而且，能夠利用工具的GPT-3.5 Turbo在平均成本上，也比直接用GPT-4低得多。

有趣的是，對(duì)于Dyck語(yǔ)言任務(wù)，作為工具使用者的GPT-3.5 Turbo，甚至甚至超過(guò)了同樣作為使用者的GPT-4。

在研究錯(cuò)誤的案例時(shí)，團(tuán)隊(duì)發(fā)現(xiàn)，在將問(wèn)題轉(zhuǎn)化為函數(shù)調(diào)用時(shí)，GPT-4有時(shí)會(huì)自發(fā)地去「解決」問(wèn)題。然而，這是完全不必要的，而且還會(huì)導(dǎo)致函數(shù)輸出錯(cuò)誤。

LATM和思維鏈（CoT）的性能比較

此外，在所有的模型中，GPT-3.5 Turbo也有著最佳的性價(jià)比。

各種工具使用者模型的性能比較

不過(guò)，雖然GPT-3.5 Turbo在作為使用者時(shí)表現(xiàn)出色，但它并不能很好地扮演工具制造者的角色。

結(jié)果顯示，對(duì)于像邏輯推理這樣比較困難的任務(wù)，GPT-3.5 Turbo一次都沒(méi)成功。

也就是說(shuō)，使用一個(gè)強(qiáng)大的模型作為工具的制造者，是很有必要的。

GPT-4和GPT-3.5 Turbo在生成新工具時(shí)的成功率

LATM Prompt

工具制造

工具驗(yàn)證

工具封裝

分派器

封裝工具

邏輯推理

查找隨機(jī)對(duì)象

Dyck語(yǔ)言

單詞排序

余數(shù)定理

安排會(huì)議

作者介紹

論文一作Tianle Cai（蔡天樂(lè)），是普林斯頓大學(xué)的一年級(jí)博士生。

在此之前，他就讀于北京大學(xué)，主修應(yīng)用數(shù)學(xué)，同時(shí)兼修計(jì)算機(jī)科學(xué)。

他的興趣非常廣泛，橫跨機(jī)器學(xué)習(xí)的很堵領(lǐng)域。比如，優(yōu)化，表征學(xué)習(xí)，架構(gòu)設(shè)計(jì)（Transformer，圖神經(jīng)網(wǎng)絡(luò)等）。宗旨就是，讓機(jī)器學(xué)習(xí)更通用，更高效，更可靠。

Xuezhi Wang是谷歌大腦的研究科學(xué)家。

在此之前，她于2016年在卡耐基梅隆大學(xué)計(jì)算機(jī)科學(xué)系獲得博士學(xué)位，于2011年在清華大學(xué)取得計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。

她的主要興趣是NLP模型的魯棒性和公平性，以及在語(yǔ)言模型中實(shí)現(xiàn)系統(tǒng)化的泛化。

Tengyu Ma（馬騰宇）是斯坦福大學(xué)計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)的助理教授。

他的研究興趣廣泛，包括機(jī)器學(xué)習(xí)、算法及其理論方面的課題，如深度學(xué)習(xí)、（深度）強(qiáng)化學(xué)習(xí)、預(yù)訓(xùn)練/基礎(chǔ)模型、魯棒性、非凸優(yōu)化、分布式優(yōu)化和高維統(tǒng)計(jì)。

Xinyun Chen（陳昕昀）是谷歌大腦的高級(jí)研究科學(xué)家。

在此之前，她于2022年在加州大學(xué)伯克利分校獲得計(jì)算機(jī)科學(xué)博士學(xué)位，并在上海交通大學(xué)ACM班獲得計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。

她的研究興趣是神經(jīng)程序合成和對(duì)抗性機(jī)器學(xué)習(xí)。

Denny Zhou是谷歌大腦和DeepMind推理團(tuán)隊(duì)的創(chuàng)始人和負(fù)責(zé)人。

研究方向是通過(guò)建立和教授大型語(yǔ)言模型（LLMs）來(lái)解決人工通用智能（AGI）問(wèn)題，實(shí)現(xiàn)人類水平的推理。

研究突破包括：指令調(diào)整（FLAN2）、思維鏈提示、自洽性解碼、最小到最大提示，以及LLMs的涌現(xiàn)特性。

值得一提的是，谷歌首席執(zhí)行官Sundar Pichai在2022年谷歌I/O大會(huì)上介紹了他們的工作。

參考資料：https://arxiv.org/abs/2305.17126

責(zé)任編輯：武曉燕來(lái)源：新智元

GPT-3.5 GPT-4 谷歌

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)