自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="0us8x"><kbd id="0us8x"></kbd></style>

<s id="0us8x"><track id="0us8x"><menuitem id="0us8x"></menuitem></track></s>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

CREATOR制造、使用工具，實(shí)現(xiàn)LLM「自我進(jìn)化」

作者：機(jī)器學(xué)習(xí) 2023-06-12 12:21:27

人工智能新聞

近日，來(lái)自清華大學(xué)以及 UIUC 的研究人員聯(lián)合發(fā)布了關(guān)于大模型工具創(chuàng)造的研究框架。其旨在讓大模型自己進(jìn)行工具創(chuàng)造，以此剝離模型的抽象與具象思維能力，以降低任務(wù)推理成本，取得更好的效果。研究進(jìn)一步探索了模型在工具創(chuàng)造方面的潛在應(yīng)用價(jià)值，在當(dāng)下對(duì)大模型能力的探索上更進(jìn)了一步。

自古以來(lái)，工具的使用被視為區(qū)分人與其他物種的一大區(qū)別，也被視為是智能的一種根本體現(xiàn)。而當(dāng)下，人工智能已不再局限于對(duì)工具的簡(jiǎn)單使用，它們已然能夠根據(jù)問題創(chuàng)造性地建立自己的工具來(lái)尋求解決方案。在思維上，這代表著當(dāng)下大模型已經(jīng)能夠掌握更高層次的抽象思維認(rèn)知，并將其與具象思維劃分，共同解決問題；而在能力上，工具創(chuàng)造的出現(xiàn)也意味著模型已經(jīng)能夠從 “學(xué)習(xí)” 中蛻變，去運(yùn)用已知 “創(chuàng)造” 未來(lái)的無(wú)限可能。

論文鏈接：https://arxiv.org/pdf/2305.14318.pdf

研究背景

近年來(lái)，大規(guī)模語(yǔ)言模型（Large Language Models）取得了顯著的研究進(jìn)展，包括 GPT-3、Codex、PaLM、LLaMA、ChatGPT 和最近發(fā)布的 GPT-4 等。這些模型在上下文學(xué)習(xí)（In-Context Learning）、代碼生成（Code Generation）和各種其他自然語(yǔ)言處理任務(wù)方面表現(xiàn)出色，將模型的潛力進(jìn)一步推向了通用人工智能。

盡管大模型在這些取得了巨大的成功，其當(dāng)下仍然存在很多短板，包括無(wú)法識(shí)別或回答最新的實(shí)時(shí)信息、很難在大規(guī)模的數(shù)據(jù)計(jì)算上達(dá)到高準(zhǔn)確性，在題干邏輯復(fù)雜時(shí)推理能力不穩(wěn)定等等。針對(duì)這些短板，研究者開始致力于向當(dāng)前模型架構(gòu)中引入對(duì)外部資源的利用能力，例如引入計(jì)算器，問答系統(tǒng)，維基百科等等外部知識(shí)源，來(lái)增強(qiáng)模型能力。這一系列研究奠定了模型工具學(xué)習(xí)（Tool Learning）能力的基礎(chǔ)。

然而，當(dāng)下研究中利用的外部工具數(shù)量仍然有限，而在潛在的新任務(wù)類型幾乎是無(wú)盡的。因此，在面對(duì)新的問題類型時(shí)，很難找到現(xiàn)有的適合解決問題的工具。此外，即使提供了有效的可利用的工具，模型需要在工具包文檔中進(jìn)行海量搜索、匹配并針對(duì)問題進(jìn)行針對(duì)性地規(guī)劃。這將給模型帶來(lái)很大的認(rèn)知負(fù)擔(dān)，并需要較高的學(xué)習(xí)成本。

因此，研究團(tuán)隊(duì)提出了全新的一種研究范式：工具創(chuàng)造（Tool Creation）。其不再是簡(jiǎn)單利用大模型使用工具的能力，而是加入了全新的工具創(chuàng)造模塊，讓模型針對(duì)所面對(duì)的問題進(jìn)行工具創(chuàng)造并尋求解決方案。

利用大模型創(chuàng)造工具能夠提高工具的普適性、可復(fù)用性和多樣性，超越給定 API 的限制。工具創(chuàng)造模塊的設(shè)計(jì)還可以減輕大模型的認(rèn)知負(fù)擔(dān)，并解耦其進(jìn)行抽象推理（創(chuàng)建可推廣的具有普適性的工具）和具象推理（根據(jù)工具實(shí)現(xiàn)細(xì)節(jié)和工具使用文檔進(jìn)行決策）的能力。同時(shí)，該框架下模型以代碼作為工具創(chuàng)造的媒介，這使得模型對(duì)于錯(cuò)誤更加敏感，并能根據(jù)工具創(chuàng)造與使用中的問題進(jìn)行回溯與修正。

工具創(chuàng)造范式相比工具使用更加靈活并對(duì)不同場(chǎng)景有更強(qiáng)的適應(yīng)能力

CREATOR 研究框架

大模型進(jìn)行工具創(chuàng)造來(lái)解決問題的框架 CREATOR 主要分為了以下四個(gè)階段：

創(chuàng)造（Creation）：運(yùn)用大模型對(duì)于問題的抽象推理能力，通過(guò)代碼有針對(duì)性性地創(chuàng)造所需工具以及其使用說(shuō)明。
決策（Decision）：運(yùn)用大模型對(duì)于問題的具象推理能力，決策如何調(diào)用工具來(lái)解決當(dāng)前問題。
執(zhí)行（Execution）：根據(jù)創(chuàng)造的工具以及決策內(nèi)容，進(jìn)行決策的執(zhí)行，并捕獲執(zhí)行過(guò)程中的輸出信息。
修正（Rectification）：運(yùn)用大模型對(duì)于錯(cuò)因推理以及自我修復(fù)的能力，對(duì)執(zhí)行階段捕捉到的問題進(jìn)行修復(fù)。

大模型進(jìn)行工具創(chuàng)造與決策的流程框架

大模型首先將根據(jù)問題創(chuàng)造所需要的工具以及其相關(guān)使用說(shuō)明；此后，問題內(nèi)容以及工具信息將同時(shí)再次返回給大模型，用以決策針對(duì)本問題的解決方案，以及如何使用這些工具。此后，模型將根據(jù)執(zhí)行情況對(duì)工具及決策做出調(diào)整，以更好地適應(yīng)問題并尋求解答。

整個(gè)工具創(chuàng)造框架靈活運(yùn)用了大模型的不同思維能力：提取問題關(guān)鍵信息的抽象思維推理，根據(jù)任務(wù)實(shí)施方案決策的具象思維推理，以及根據(jù)問題尋求解決方案的自我修復(fù)推理。這些能力的解耦幫助大模型避免了在普通推理鏈（Chain-of-Thought, CoT）中的思維混亂而導(dǎo)致的失敗現(xiàn)象，有效提升了大模型對(duì)于任務(wù)的適應(yīng)能力及表現(xiàn)。

CREATOR 實(shí)驗(yàn)評(píng)測(cè)

作者將 CREATOR 框架與當(dāng)前的普通推理鏈方法（CoT），程序推理鏈方法（Program-of-Thought, PoT）以及沒有創(chuàng)造的簡(jiǎn)單工具使用（Tool Use）進(jìn)行了比對(duì)。同時(shí)，為了驗(yàn)證框架中剝離抽象推理與具象推理的有效性，作者還額外引入了整體工具創(chuàng)造（Tool Create - whole）作為基線，該方法將 CREATOR 框架中的創(chuàng)造階段與決策階段合二為一，不再進(jìn)行推理能力上的解耦。

Creation Challenge 數(shù)據(jù)集問題，標(biāo)準(zhǔn)工具及決策示例

在 MATH 數(shù)據(jù)集上 CREATOR 框架的表現(xiàn)高于其他推理方法以及簡(jiǎn)單的工具運(yùn)用

在數(shù)據(jù)集的選取上，作者選擇了 MATH 以及 TabMWP 數(shù)據(jù)集作為主要驗(yàn)證。其中前者包含了美國(guó)數(shù)學(xué)競(jìng)賽當(dāng)中的高難度數(shù)學(xué)問題，而后者將問題與豐富的數(shù)據(jù)表結(jié)合，二者都考驗(yàn)了模型對(duì)于多樣化場(chǎng)景的問題推理與解決能力。除此之外，作者還額外引入了全新構(gòu)建的 Creation Challenge 數(shù)據(jù)集，其中的問題都無(wú)法直接套用現(xiàn)有工具或者代碼包解決，從而考驗(yàn)了模型進(jìn)行工具創(chuàng)造的能力。

在 TabMWP 數(shù)據(jù)集以及 Creation Challenge 上 CREATOR 框架效果也顯著更強(qiáng)

從實(shí)驗(yàn)結(jié)果看來(lái)，CREATOR 框架的推理結(jié)果要明顯好于所有基線，尤其相對(duì)于標(biāo)準(zhǔn)的推理方法以及程序推理方法，均達(dá)到了更好的效果。同時(shí)實(shí)驗(yàn)也證明了對(duì)抽象與具象推理能力進(jìn)行解耦也可以有效幫助模型提高準(zhǔn)確率。在 Creation Challenge 測(cè)試集上，作者還額外驗(yàn)證了在有創(chuàng)造什么樣的工具的提示（hint）的情況下，模型將會(huì)對(duì)問題有著更強(qiáng)的解決能力。因此，提示與思維解耦這兩點(diǎn)也成為了工具創(chuàng)造中的重要影響因素。

不同方法針對(duì)任務(wù)難度的準(zhǔn)確率統(tǒng)計(jì)

在修正階段的參與下效果的提升

除此之外，作者還驗(yàn)證了不同方法對(duì)于任務(wù)難度的變化曲線，以及修正階段參與輪次與大模型效果提升之間的聯(lián)系。結(jié)果表明，CREATOR 框架面對(duì)有難度的問題能夠保持更好的魯棒性，以及修正階段的參與能夠讓不僅是 CREATOR 框架，甚至是 PoT 推理方法都能得到大幅度提升，證實(shí)了在實(shí)驗(yàn)中引入修正階段的合理性與有效性。

工具創(chuàng)造的其他優(yōu)勢(shì)

在主實(shí)驗(yàn)之外，文章作者也著重探討了工具創(chuàng)造的其他優(yōu)勢(shì)以及當(dāng)下大模型工具創(chuàng)造能力的不同展現(xiàn)形式。既然是創(chuàng)造工具，那么作為工具的一大優(yōu)勢(shì)必定是其可復(fù)用性。作者也順此思路進(jìn)一步展示了工具的復(fù)用對(duì)于任務(wù)效果的提升。

作者設(shè)計(jì)了 300 條問題并三個(gè)一組分為了 100 組。其中每一組的三個(gè)問題雖然場(chǎng)景不同，但都涉及相同的核心知識(shí)（Core Knowledge），即同類問題。作者驗(yàn)證了將對(duì)于一個(gè)問題創(chuàng)造的工具用于一組問題中的所有場(chǎng)景，是否都能夠有效解決并提升準(zhǔn)確率。

對(duì)于大模型創(chuàng)造的工具在其他問題上遷移，能夠有效提高準(zhǔn)確率

實(shí)驗(yàn)統(tǒng)計(jì)表明將模型創(chuàng)造的正確可用的工具遷移到其他同類問題場(chǎng)景，能夠有效提升問題解決的正確率。這即表明大模型創(chuàng)造的工具具有良好的可復(fù)用性，對(duì)于同類問題也有著良好的普適性。

除此之外，作者還展示了大模型進(jìn)行工具創(chuàng)造的三個(gè)維度：對(duì)已有工具進(jìn)行封裝以實(shí)現(xiàn)不同目的，將不同工具進(jìn)行組合實(shí)現(xiàn)目標(biāo)功能，以及進(jìn)行層次化的工具創(chuàng)建。這三個(gè)維度由低到高展示了當(dāng)下大模型工具創(chuàng)造的能力，而這些能力也幫助大模型能夠更高效地適應(yīng)不同場(chǎng)景。

大模型進(jìn)行工具創(chuàng)造的三個(gè)維度

總結(jié)

CREATOR 框架通過(guò)工具創(chuàng)造實(shí)現(xiàn)了大模型抽象與具象思維能力的解耦，是繼工具學(xué)習(xí)之后，對(duì)模型能力邊際探索的又一大突破。相信未來(lái)的更多研究將會(huì)以此為基礎(chǔ)，繼續(xù)在工具的使用與創(chuàng)造上不斷證明與增強(qiáng)模型潛力，為我們帶來(lái)更多驚喜。

文章主要作者

錢成，清華大學(xué)大三年級(jí)本科生，THUNLP 實(shí)驗(yàn)室成員，導(dǎo)師劉知遠(yuǎn)。目前研究方向包括大模型預(yù)訓(xùn)練，大模型高效微調(diào)，以及工具學(xué)習(xí)等領(lǐng)域。曾獲清華大學(xué)計(jì)算機(jī)綜合優(yōu)秀獎(jiǎng)學(xué)金，并以共同一作身份在 EMNLP，ACL 等國(guó)際會(huì)議中發(fā)表論文。

個(gè)人主頁(yè)：https://qiancheng0.github.io/

責(zé)任編輯：張燕妮來(lái)源：機(jī)器學(xué)習(xí)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)