自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CREATOR制造、使用工具,實(shí)現(xiàn)LLM「自我進(jìn)化」

人工智能 新聞
近日,來(lái)自清華大學(xué)以及 UIUC 的研究人員聯(lián)合發(fā)布了關(guān)于大模型工具創(chuàng)造的研究框架。其旨在讓大模型自己進(jìn)行工具創(chuàng)造,以此剝離模型的抽象與具象思維能力,以降低任務(wù)推理成本,取得更好的效果。研究進(jìn)一步探索了模型在工具創(chuàng)造方面的潛在應(yīng)用價(jià)值,在當(dāng)下對(duì)大模型能力的探索上更進(jìn)了一步。

自古以來(lái),工具的使用被視為區(qū)分人與其他物種的一大區(qū)別,也被視為是智能的一種根本體現(xiàn)。而當(dāng)下,人工智能已不再局限于對(duì)工具的簡(jiǎn)單使用,它們已然能夠根據(jù)問題創(chuàng)造性地建立自己的工具來(lái)尋求解決方案。在思維上,這代表著當(dāng)下大模型已經(jīng)能夠掌握更高層次的抽象思維認(rèn)知,并將其與具象思維劃分,共同解決問題;而在能力上,工具創(chuàng)造的出現(xiàn)也意味著模型已經(jīng)能夠從 “學(xué)習(xí)” 中蛻變,去運(yùn)用已知 “創(chuàng)造” 未來(lái)的無(wú)限可能。

圖片

  • 論文鏈接:https://arxiv.org/pdf/2305.14318.pdf

研究背景

近年來(lái),大規(guī)模語(yǔ)言模型(Large Language Models)取得了顯著的研究進(jìn)展,包括 GPT-3、Codex、PaLM、LLaMA、ChatGPT 和最近發(fā)布的 GPT-4 等。這些模型在上下文學(xué)習(xí)(In-Context Learning)、代碼生成(Code Generation)和各種其他自然語(yǔ)言處理任務(wù)方面表現(xiàn)出色,將模型的潛力進(jìn)一步推向了通用人工智能。

盡管大模型在這些取得了巨大的成功,其當(dāng)下仍然存在很多短板,包括無(wú)法識(shí)別或回答最新的實(shí)時(shí)信息、很難在大規(guī)模的數(shù)據(jù)計(jì)算上達(dá)到高準(zhǔn)確性,在題干邏輯復(fù)雜時(shí)推理能力不穩(wěn)定等等。針對(duì)這些短板,研究者開始致力于向當(dāng)前模型架構(gòu)中引入對(duì)外部資源的利用能力,例如引入計(jì)算器,問答系統(tǒng),維基百科等等外部知識(shí)源,來(lái)增強(qiáng)模型能力。這一系列研究奠定了模型工具學(xué)習(xí)(Tool Learning)能力的基礎(chǔ)。

然而,當(dāng)下研究中利用的外部工具數(shù)量仍然有限,而在潛在的新任務(wù)類型幾乎是無(wú)盡的。因此,在面對(duì)新的問題類型時(shí),很難找到現(xiàn)有的適合解決問題的工具。此外,即使提供了有效的可利用的工具,模型需要在工具包文檔中進(jìn)行海量搜索、匹配并針對(duì)問題進(jìn)行針對(duì)性地規(guī)劃。這將給模型帶來(lái)很大的認(rèn)知負(fù)擔(dān),并需要較高的學(xué)習(xí)成本。

因此,研究團(tuán)隊(duì)提出了全新的一種研究范式:工具創(chuàng)造(Tool Creation)。其不再是簡(jiǎn)單利用大模型使用工具的能力,而是加入了全新的工具創(chuàng)造模塊,讓模型針對(duì)所面對(duì)的問題進(jìn)行工具創(chuàng)造并尋求解決方案。

利用大模型創(chuàng)造工具能夠提高工具的普適性、可復(fù)用性和多樣性,超越給定 API 的限制。工具創(chuàng)造模塊的設(shè)計(jì)還可以減輕大模型的認(rèn)知負(fù)擔(dān),并解耦其進(jìn)行抽象推理(創(chuàng)建可推廣的具有普適性的工具)和具象推理(根據(jù)工具實(shí)現(xiàn)細(xì)節(jié)和工具使用文檔進(jìn)行決策)的能力。同時(shí),該框架下模型以代碼作為工具創(chuàng)造的媒介,這使得模型對(duì)于錯(cuò)誤更加敏感,并能根據(jù)工具創(chuàng)造與使用中的問題進(jìn)行回溯與修正。

圖片

工具創(chuàng)造范式相比工具使用更加靈活并對(duì)不同場(chǎng)景有更強(qiáng)的適應(yīng)能力

CREATOR 研究框架

大模型進(jìn)行工具創(chuàng)造來(lái)解決問題的框架 CREATOR 主要分為了以下四個(gè)階段:

  • 創(chuàng)造(Creation):運(yùn)用大模型對(duì)于問題的抽象推理能力,通過(guò)代碼有針對(duì)性性地創(chuàng)造所需工具以及其使用說(shuō)明。
  • 決策(Decision):運(yùn)用大模型對(duì)于問題的具象推理能力,決策如何調(diào)用工具來(lái)解決當(dāng)前問題。
  • 執(zhí)行(Execution):根據(jù)創(chuàng)造的工具以及決策內(nèi)容,進(jìn)行決策的執(zhí)行,并捕獲執(zhí)行過(guò)程中的輸出信息。
  • 修正(Rectification):運(yùn)用大模型對(duì)于錯(cuò)因推理以及自我修復(fù)的能力,對(duì)執(zhí)行階段捕捉到的問題進(jìn)行修復(fù)。

圖片

大模型進(jìn)行工具創(chuàng)造與決策的流程框架

大模型首先將根據(jù)問題創(chuàng)造所需要的工具以及其相關(guān)使用說(shuō)明;此后,問題內(nèi)容以及工具信息將同時(shí)再次返回給大模型,用以決策針對(duì)本問題的解決方案,以及如何使用這些工具。此后,模型將根據(jù)執(zhí)行情況對(duì)工具及決策做出調(diào)整,以更好地適應(yīng)問題并尋求解答。

整個(gè)工具創(chuàng)造框架靈活運(yùn)用了大模型的不同思維能力:提取問題關(guān)鍵信息的抽象思維推理,根據(jù)任務(wù)實(shí)施方案決策的具象思維推理,以及根據(jù)問題尋求解決方案的自我修復(fù)推理。這些能力的解耦幫助大模型避免了在普通推理鏈(Chain-of-Thought, CoT)中的思維混亂而導(dǎo)致的失敗現(xiàn)象,有效提升了大模型對(duì)于任務(wù)的適應(yīng)能力及表現(xiàn)。

CREATOR 實(shí)驗(yàn)評(píng)測(cè)

作者將 CREATOR 框架與當(dāng)前的普通推理鏈方法(CoT),程序推理鏈方法(Program-of-Thought, PoT)以及沒有創(chuàng)造的簡(jiǎn)單工具使用(Tool Use)進(jìn)行了比對(duì)。同時(shí),為了驗(yàn)證框架中剝離抽象推理與具象推理的有效性,作者還額外引入了整體工具創(chuàng)造(Tool Create - whole)作為基線,該方法將 CREATOR 框架中的創(chuàng)造階段與決策階段合二為一,不再進(jìn)行推理能力上的解耦。

圖片

Creation Challenge 數(shù)據(jù)集問題,標(biāo)準(zhǔn)工具及決策示例

圖片

在 MATH 數(shù)據(jù)集上 CREATOR 框架的表現(xiàn)高于其他推理方法以及簡(jiǎn)單的工具運(yùn)用

在數(shù)據(jù)集的選取上,作者選擇了 MATH 以及 TabMWP 數(shù)據(jù)集作為主要驗(yàn)證。其中前者包含了美國(guó)數(shù)學(xué)競(jìng)賽當(dāng)中的高難度數(shù)學(xué)問題,而后者將問題與豐富的數(shù)據(jù)表結(jié)合,二者都考驗(yàn)了模型對(duì)于多樣化場(chǎng)景的問題推理與解決能力。除此之外,作者還額外引入了全新構(gòu)建的 Creation Challenge 數(shù)據(jù)集,其中的問題都無(wú)法直接套用現(xiàn)有工具或者代碼包解決,從而考驗(yàn)了模型進(jìn)行工具創(chuàng)造的能力。

圖片

圖片

在 TabMWP 數(shù)據(jù)集以及 Creation Challenge 上 CREATOR 框架效果也顯著更強(qiáng)

從實(shí)驗(yàn)結(jié)果看來(lái),CREATOR 框架的推理結(jié)果要明顯好于所有基線,尤其相對(duì)于標(biāo)準(zhǔn)的推理方法以及程序推理方法,均達(dá)到了更好的效果。同時(shí)實(shí)驗(yàn)也證明了對(duì)抽象與具象推理能力進(jìn)行解耦也可以有效幫助模型提高準(zhǔn)確率。在 Creation Challenge 測(cè)試集上,作者還額外驗(yàn)證了在有創(chuàng)造什么樣的工具的提示(hint)的情況下,模型將會(huì)對(duì)問題有著更強(qiáng)的解決能力。因此,提示與思維解耦這兩點(diǎn)也成為了工具創(chuàng)造中的重要影響因素。

圖片

不同方法針對(duì)任務(wù)難度的準(zhǔn)確率統(tǒng)計(jì)

圖片

在修正階段的參與下效果的提升

除此之外,作者還驗(yàn)證了不同方法對(duì)于任務(wù)難度的變化曲線,以及修正階段參與輪次與大模型效果提升之間的聯(lián)系。結(jié)果表明,CREATOR 框架面對(duì)有難度的問題能夠保持更好的魯棒性,以及修正階段的參與能夠讓不僅是 CREATOR 框架,甚至是 PoT 推理方法都能得到大幅度提升,證實(shí)了在實(shí)驗(yàn)中引入修正階段的合理性與有效性。

工具創(chuàng)造的其他優(yōu)勢(shì)

在主實(shí)驗(yàn)之外,文章作者也著重探討了工具創(chuàng)造的其他優(yōu)勢(shì)以及當(dāng)下大模型工具創(chuàng)造能力的不同展現(xiàn)形式。既然是創(chuàng)造工具,那么作為工具的一大優(yōu)勢(shì)必定是其可復(fù)用性。作者也順此思路進(jìn)一步展示了工具的復(fù)用對(duì)于任務(wù)效果的提升。

作者設(shè)計(jì)了 300 條問題并三個(gè)一組分為了 100 組。其中每一組的三個(gè)問題雖然場(chǎng)景不同,但都涉及相同的核心知識(shí)(Core Knowledge),即同類問題。作者驗(yàn)證了將對(duì)于一個(gè)問題創(chuàng)造的工具用于一組問題中的所有場(chǎng)景,是否都能夠有效解決并提升準(zhǔn)確率。

圖片

對(duì)于大模型創(chuàng)造的工具在其他問題上遷移,能夠有效提高準(zhǔn)確率

實(shí)驗(yàn)統(tǒng)計(jì)表明將模型創(chuàng)造的正確可用的工具遷移到其他同類問題場(chǎng)景,能夠有效提升問題解決的正確率。這即表明大模型創(chuàng)造的工具具有良好的可復(fù)用性,對(duì)于同類問題也有著良好的普適性。

除此之外,作者還展示了大模型進(jìn)行工具創(chuàng)造的三個(gè)維度:對(duì)已有工具進(jìn)行封裝以實(shí)現(xiàn)不同目的,將不同工具進(jìn)行組合實(shí)現(xiàn)目標(biāo)功能,以及進(jìn)行層次化的工具創(chuàng)建。這三個(gè)維度由低到高展示了當(dāng)下大模型工具創(chuàng)造的能力,而這些能力也幫助大模型能夠更高效地適應(yīng)不同場(chǎng)景。

圖片

大模型進(jìn)行工具創(chuàng)造的三個(gè)維度

總結(jié)

CREATOR 框架通過(guò)工具創(chuàng)造實(shí)現(xiàn)了大模型抽象與具象思維能力的解耦,是繼工具學(xué)習(xí)之后,對(duì)模型能力邊際探索的又一大突破。相信未來(lái)的更多研究將會(huì)以此為基礎(chǔ),繼續(xù)在工具的使用與創(chuàng)造上不斷證明與增強(qiáng)模型潛力,為我們帶來(lái)更多驚喜。

文章主要作者

圖片


錢成,清華大學(xué)大三年級(jí)本科生,THUNLP 實(shí)驗(yàn)室成員,導(dǎo)師劉知遠(yuǎn)。目前研究方向包括大模型預(yù)訓(xùn)練,大模型高效微調(diào),以及工具學(xué)習(xí)等領(lǐng)域。曾獲清華大學(xué)計(jì)算機(jī)綜合優(yōu)秀獎(jiǎng)學(xué)金,并以共同一作身份在 EMNLP,ACL 等國(guó)際會(huì)議中發(fā)表論文。

個(gè)人主頁(yè):https://qiancheng0.github.io/

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器學(xué)習(xí)
相關(guān)推薦

2025-03-07 09:34:14

2024-01-24 13:37:36

大型語(yǔ)言模型人工智能

2024-04-15 12:43:26

人工智能LLM

2024-09-27 12:20:18

2017-11-22 09:22:00

AI智能機(jī)器學(xué)習(xí)

2025-01-22 08:30:00

2023-07-31 10:24:29

云計(jì)算開源

2010-07-08 13:17:19

2024-10-28 14:05:00

2023-12-16 09:42:12

2015-07-17 08:27:19

EMMBYOD

2015-07-20 09:11:19

企業(yè)移動(dòng)管理EMMBYOD安全

2009-07-10 17:54:29

SwingUtilit

2019-06-17 09:55:05

GPartedLinux根分區(qū)

2009-03-16 10:11:16

度量基線自我監(jiān)控設(shè)置

2011-06-27 09:15:21

QT Creator

2011-06-21 17:45:27

Qt Creator

2010-09-25 16:27:09

2012-11-13 10:35:31

Linux系統(tǒng)運(yùn)維

2010-01-25 10:16:49

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)