自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

揮舞起代碼語料的魔杖,大模型和智能體將召喚出更強大的能量

人工智能 新聞
近日,伊利諾伊大學(xué)厄巴納 - 香檳分校(UIUC)的研究團隊發(fā)布了一項重要綜述。

正如瑞斯福茲魔杖締造了諸如鄧布利多在內(nèi)的歷代非凡魔法師的傳奇,具有巨大潛能的傳統(tǒng)大型語言模型,在經(jīng)過代碼語料的預(yù)訓(xùn)練 / 精調(diào)后,掌握了更超出本源的執(zhí)行力。

具體來說,進階版的大模型在編寫代碼、更強推理、自主援引執(zhí)行接口、自主完善等方面都獲得了提升,這將為它作為 AI 智能體、執(zhí)行下游任務(wù)時方方面面帶來增益。

近日,伊利諾伊大學(xué)厄巴納 - 香檳分校(UIUC)的研究團隊發(fā)布了一項重要綜述。

圖片

論文鏈接: https://arxiv.org/abs/2401.00812

這篇綜述探討了代碼(Code)如何賦予大型語言模型(LLMs)及其基于此的智能體(Intelligent Agents)強大的能力。

圖片

其中,code 特指機器可執(zhí)行且人類可讀的形式語言,如編程語言、預(yù)定義函數(shù)集等。類似于我們指導(dǎo) LLMs 理解 / 生成傳統(tǒng)自然語言,讓 LLMs 精通 code,僅需要將相同的語言建模訓(xùn)練目標應(yīng)用在 code 數(shù)據(jù)上。

和傳統(tǒng)語言模型不同,當(dāng)今通用的 LLMs,如 Llama2、GPT4,不僅在體量上顯著提升,并且它們經(jīng)歷了獨立于典型自然語言語料的 code 語料訓(xùn)練。Code 具有標準化的語法、邏輯一致性、抽象性和模塊化特性,并且能將高層次的目標轉(zhuǎn)化為可執(zhí)行的步驟,使之成為連接人類和計算機的理想媒介。

如圖 2 所示,在本篇綜述中,研究人員通過輯錄相關(guān)工作,詳細分析闡明了將 code 納入 LLMs 訓(xùn)練數(shù)據(jù)的各種優(yōu)點。

圖片

具體來說,研究人員觀察到 code 的獨特屬性有助于:

1. 增強 LLMs 的 code 編寫能力、推理能力,以及結(jié)構(gòu)化信息處理能力,使其能夠應(yīng)用于更復(fù)雜的自然語言任務(wù);

2. 引導(dǎo) LLMs 產(chǎn)生結(jié)構(gòu)化的、精確的中間步驟,這些步驟可以通過函數(shù)調(diào)用與外部執(zhí)行端連接;

3. 利用 code 的編譯、執(zhí)行環(huán)境,為模型自主改進提供多樣化反饋。

此外,研究人員也深察了這些由 code 賦予的 LLMs 的優(yōu)化項,如何強化它們作 Intelligent Agent 的決策中心,理解指令、分解目標、規(guī)劃和執(zhí)行行動以及從反饋中改進的一系列能力。

如圖 3 所示,在第一個部分中,研究人員發(fā)現(xiàn) LLMs 在 code 上的預(yù)訓(xùn)練,已將 LLMs 的任務(wù)范圍擴展到自然語言之外。這些模型能夠支持多樣化的應(yīng)用,包括為數(shù)學(xué)理論生成 code、常規(guī)編程任務(wù),以及數(shù)據(jù)檢索等。Code 需要產(chǎn)生邏輯上連貫、有序的步驟序列,這對于有效執(zhí)行至關(guān)重要。此外,code 中每個步驟的可執(zhí)行性允許逐步驗證邏輯。在預(yù)訓(xùn)練中利用并嵌入這些 code 屬性提高了 LLMs 在許多傳統(tǒng)自然語言下游任務(wù)中的思維鏈(CoT)表現(xiàn),驗證了它們在復(fù)雜推理技能上的改進。同時,通過對 code 結(jié)構(gòu)化格式的隱式學(xué)習(xí),codeLLMs 在常識性結(jié)構(gòu)化推理任務(wù)上表現(xiàn)更佳,如與標記語言、HTML 和圖表理解相關(guān)的任務(wù)。

圖片

如圖 4 所示,將 LLMs 與其他功能端相連接(即通過外部工具和執(zhí)行模塊擴展 LLMs 能力)有助于 LLMs 更準確、可靠地執(zhí)行任務(wù)。

圖片

在第二個部分中,如表 1 所示,研究人員觀察到一種普遍趨勢:LLMs 通過生成編程語言或利用預(yù)定義函數(shù)與其他功能端建立連接。這種 “以 code 為中心的范式” 不同于嚴格在 LLMs 推理機制中硬編碼工具調(diào)用的刻板做法,它允許 LLMs 動態(tài)生成調(diào)用執(zhí)行模塊的令牌,具有可調(diào)整的參數(shù)。

圖片

這種范式為 LLMs 與其他功能端的互動提供了一種簡單明確的方式,增強了它們應(yīng)用的靈活性和可擴展性。更為重要的是,它也允許 LLMs 與涵蓋多種模態(tài)和領(lǐng)域的眾多功能端進行互動。通過擴展 LLMs 可訪問的功能端的數(shù)量和種類,LLMs 能夠處理更復(fù)雜的任務(wù)。

如圖 5 所示,將 LLMs 嵌入 code 執(zhí)行環(huán)境可以實現(xiàn)自動化反饋和模型自主改進。LLMs 的表現(xiàn)超出了其訓(xùn)練參數(shù)的范圍,部分原因是它們能夠接納反饋。然而,必須謹慎選擇反饋,因為嘈雜的提示輸入可能會妨礙 LLMs 在下游任務(wù)上的表現(xiàn)。此外,由于人力資源代價高昂,反饋需要在保持真實性的同時滿足自動收集。在第三個部分中,研究人員發(fā)現(xiàn)將 LLMs 嵌入 code 執(zhí)行環(huán)境可以獲得滿足所有這些標準的反饋。

圖片

首先,由于 code 執(zhí)行是確定性的,從執(zhí)行 code 的結(jié)果中獲取反饋能夠直白忠實反映 LLM 執(zhí)行的任務(wù)。此外,code 解釋器為 LLMs 提供了一種自動查詢內(nèi)部反饋的途徑,消除了在利用 LLMs 調(diào)試或優(yōu)化錯誤 code 時需要昂貴的人工注釋的需求。Code 編譯與執(zhí)行環(huán)境也允許 LLMs 納入多樣化和全面的外部反饋形式,如簡單的生成二值的正確和錯誤評價、稍復(fù)雜的對執(zhí)行結(jié)果的自然語言解釋,以及各種帶有回饋值的排名方法,他們都使得提高性能的方法高度可定制化。

通過分析 code 訓(xùn)練數(shù)據(jù)集成如何增強 LLMs 能力的各種方式,研究人員進一步發(fā)現(xiàn),code 賦能 LLMs 的優(yōu)勢在 Intelligent Agent 的研發(fā)這項關(guān)鍵的 LLM 應(yīng)用領(lǐng)域尤為明顯。

圖 6 顯示了一個智能助理的標準工作流程。研究人員觀察到,通過 code 訓(xùn)練在 LLMs 中帶來的改進,也同時一一作用于它們作為智能助理時的實際步驟。

圖片

這些步驟包括:(1) 增強 IA 在環(huán)境感知和規(guī)劃方面的決策能力, (2) 通過將行動落實于模塊化動作原語和高效組織記憶來優(yōu)化策略執(zhí)行,以及 (3) 通過從 code 執(zhí)行環(huán)境自動派生的反饋優(yōu)化性能。

總的來說,在本篇綜述中,研究人員分析并闡明了 code 如何賦予 LLMs 強大能力,以及 code 如何協(xié)助 LLMs 作為 Intelligent Agents 決策中心工作。

通過全面的文獻回顧,研究人員觀察到經(jīng)過 code 訓(xùn)練后,LLMs 提高了它們的編程技能和推理能力,獲得了實現(xiàn)與跨模式和領(lǐng)域的多種功能端的靈活連接能力,以及強化了與 code 執(zhí)行環(huán)境中集成的評估模塊進行互動并實現(xiàn)自動自我提升的能力。

此外,code 訓(xùn)練帶來的 LLMs 能力提升有助于它們作為 Intelligent Agent 在下游應(yīng)用中的表現(xiàn),體現(xiàn)于如決策、執(zhí)行和自我提升等特定操作步驟。回顧以往的研究之外,研究人員也提出了該領(lǐng)域的幾個挑戰(zhàn),作為未來潛在發(fā)展方向的指導(dǎo)要素。

更多細節(jié)請參考原文!

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-07-08 09:49:54

2025-04-01 08:05:00

智能體人工智能MCP

2025-03-03 11:16:18

2024-03-06 13:11:50

云計算

2021-07-21 08:59:10

requestsPython協(xié)程

2024-11-21 15:48:40

2024-11-04 15:54:16

2011-07-20 09:11:58

C++

2023-08-28 06:52:29

2009-09-14 10:01:35

EGLJavaScriptIBM

2015-07-30 11:13:24

LinuxShell

2023-03-30 11:08:49

AI模型訓(xùn)練

2024-11-06 13:35:06

2023-03-06 09:15:38

ChatGPT人工智能

2024-05-29 12:13:50

2010-07-29 16:16:52

計算機

2022-06-21 14:08:25

AIGitHub模仿人類

2024-08-23 09:00:00

2023-10-08 20:31:18

React

2023-11-21 08:00:20

AI模型
點贊
收藏

51CTO技術(shù)棧公眾號