自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

智能體首次達(dá)到Kaggle Grandmaster水平,華為用結(jié)構(gòu)化推理補(bǔ)齊思維鏈短板

人工智能 新聞
在現(xiàn)實(shí)世界中,一個(gè)難題的解決方案往往都不是孤立存在的,而需要系統(tǒng)性的方法。這就促使人們開(kāi)始研究如何讓 LLM 通過(guò)順序或并行模塊處理智能體任務(wù),從而動(dòng)態(tài)地、分步驟地解決問(wèn)題。

前些時(shí)日,AI 大模型開(kāi)始掌握操作計(jì)算機(jī)的能力,但整體而言,它們與物理世界互動(dòng)的能力仍處于早期階段。

為了提高 LLM 在復(fù)雜的現(xiàn)實(shí)世界中的表現(xiàn),研究者們提出了各種提示策略來(lái)提升大模型的推理和規(guī)劃能力,比如思維鏈、思維樹(shù)和思維圖譜。這些進(jìn)步與工具集成一起,推動(dòng)著通用 AI 智能體的發(fā)展,讓它們現(xiàn)在已經(jīng)能夠用 LLM 輸出的決策策略來(lái)解決序列決策問(wèn)題(不過(guò)依然還相對(duì)簡(jiǎn)單)。

在現(xiàn)實(shí)世界中,一個(gè)難題的解決方案往往都不是孤立存在的,而需要系統(tǒng)性的方法。這就促使人們開(kāi)始研究如何讓 LLM 通過(guò)順序或并行模塊處理智能體任務(wù),從而動(dòng)態(tài)地、分步驟地解決問(wèn)題。

近日,華為諾亞方舟實(shí)驗(yàn)室、倫敦大學(xué)學(xué)院(UCL)和達(dá)姆施塔特工業(yè)大學(xué)的一個(gè)研究團(tuán)隊(duì)在這個(gè)研究方向上做出了自己的貢獻(xiàn)。他們采用第一性原理方法,將數(shù)據(jù)的分析、處理和預(yù)測(cè)(即數(shù)據(jù)科學(xué))作為 LLM 與現(xiàn)實(shí)世界環(huán)境和外部系統(tǒng)交互的核心和可遷移技能,得到了一種利用 LLM 解決系統(tǒng)數(shù)據(jù)科學(xué)任務(wù)復(fù)雜性的新方法。然后他們基于此開(kāi)發(fā)了智能體 Agent K v1.0,并讓其參加了多模態(tài) Kaggle 競(jìng)賽。最終 Agent K v1.0 獲得了相當(dāng)于 6 金 3 銀 7 銅的成績(jī),成為首個(gè)達(dá)到 Kaggle Grandmaster level 1 的 AI 智能體。

圖片


  • 論文標(biāo)題:Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level
  • 論文地址:https://arxiv.org/pdf/2411.03562

研究動(dòng)機(jī)

這項(xiàng)研究有三個(gè)研究動(dòng)機(jī)。

第一,數(shù)據(jù)科學(xué)的目的是從結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中提取見(jiàn)解和知識(shí),從而解決各種復(fù)雜問(wèn)題。這需要系統(tǒng)級(jí)的方法,需要自動(dòng)化和優(yōu)化來(lái)適應(yīng)具體的任務(wù)目標(biāo)。

舉個(gè)例子,在 Kaggle 數(shù)據(jù)科學(xué)競(jìng)賽中(如圖 1 所示),數(shù)據(jù)科學(xué)家需要遵循一個(gè)結(jié)構(gòu)化的工作流程:收集、清理、預(yù)處理和標(biāo)準(zhǔn)化數(shù)據(jù),創(chuàng)建數(shù)據(jù)加載器以實(shí)現(xiàn)高效管理,生成關(guān)鍵評(píng)估指標(biāo),以及開(kāi)發(fā)自定義模型。然后,這些見(jiàn)解和預(yù)測(cè)可以為決策和優(yōu)化提供信息。因此,為了解決這些工作流程,需要數(shù)據(jù)科學(xué)智能體將任務(wù)分解為子問(wèn)題并與各種子系統(tǒng)交互以實(shí)現(xiàn)指定目標(biāo)。

圖片

第二,數(shù)據(jù)能讓 LLM 感知和理解外部環(huán)境(物理和虛擬皆可)。LLM 智能體可通過(guò)收集、清理和分析這些數(shù)據(jù)來(lái)獲得有意義的見(jiàn)解并做出明智的決策。數(shù)據(jù)和動(dòng)作之間的這種基本聯(lián)系可將計(jì)算推理與有形的現(xiàn)實(shí)世界后果聯(lián)系起來(lái)。

第三,數(shù)據(jù)科學(xué)對(duì)企業(yè)而言至關(guān)重要。數(shù)據(jù)科學(xué)可將原始數(shù)據(jù)轉(zhuǎn)換成可行動(dòng)的見(jiàn)解,并由此提升效率和競(jìng)爭(zhēng)力,進(jìn)而推動(dòng)創(chuàng)新。因此,據(jù) Grand View Research 預(yù)計(jì),到 2031 年,全球?qū)?shù)據(jù)科學(xué)的投資將達(dá)到約 7400 億美元。數(shù)據(jù)科學(xué)智能體可通過(guò)生成代碼來(lái)自動(dòng)執(zhí)行數(shù)據(jù)清理、建模和預(yù)測(cè)等任務(wù),從而擴(kuò)大這種影響,使組織能夠擴(kuò)展其數(shù)據(jù)驅(qū)動(dòng)的決策,以最大化回報(bào)和利潤(rùn)。

結(jié)構(gòu)化推理造就強(qiáng)大數(shù)據(jù)科學(xué)智能體

華為諾亞方舟實(shí)驗(yàn)室首先確定了 LLM 智能體面臨的兩大難題,即自動(dòng)化和優(yōu)化。這些難題源自數(shù)據(jù)科學(xué)工作流程的復(fù)雜性和多面性。

為此,該團(tuán)隊(duì)提出了一種利用 LLM 解決系統(tǒng)數(shù)據(jù)科學(xué)任務(wù)復(fù)雜性的新方法。

具體來(lái)說(shuō),他們提出了一種靈活的「學(xué)習(xí)到推理」范式,從而無(wú)需反向傳播和微調(diào)就能實(shí)現(xiàn)學(xué)習(xí)和適應(yīng)。

該團(tuán)隊(duì)假設(shè) LLM 具有固有的基于案例的推理能力,這讓它們可使用過(guò)去的正例或負(fù)例經(jīng)驗(yàn),并將其泛化到新任務(wù)。通過(guò)優(yōu)化這些經(jīng)驗(yàn),學(xué)習(xí)和適應(yīng)可以自然地發(fā)生。

為了將這一觀(guān)察利用起來(lái),該團(tuán)隊(duì)提出了結(jié)構(gòu)化推理(structured reasoning),其中集成了一個(gè)記憶模塊,從而可以動(dòng)態(tài)地利用過(guò)去的成功和失敗經(jīng)驗(yàn)來(lái)實(shí)現(xiàn)更據(jù)適應(yīng)性的學(xué)習(xí)。這能克服思維鏈等方法的局限性。如圖 2 所示。

圖片

左側(cè)是基本思維鏈推理,其按順序生成中間步驟,其中每個(gè)步驟都是下一步驟的直接條件,直到得到最終答案。

右側(cè)是新提出的結(jié)構(gòu)化推理方法,它引入了一個(gè)記憶模塊(作為 RAG 或長(zhǎng)上下文的一種形式),可以根據(jù)外部獎(jiǎng)勵(lì)和反饋進(jìn)行優(yōu)化。該模塊可根據(jù)環(huán)境反饋動(dòng)態(tài)地修改存儲(chǔ)的內(nèi)容,讓智能體可在不改變底層 LLM 參數(shù)的情況下學(xué)習(xí)和適應(yīng),進(jìn)而根據(jù)具體目標(biāo)最大限度地提高性能(有效性和自動(dòng)化)。

有了結(jié)構(gòu)化推理之后,LLM 智能體可在內(nèi)部重構(gòu)自身,通過(guò)靈活和內(nèi)在的(智能體內(nèi)部的)自我反思功能實(shí)現(xiàn)主動(dòng)推理,并在采取外部行動(dòng)之前主動(dòng)適應(yīng)。

他們將這個(gè)智能體稱(chēng)為 Agent K v1.0,這是他們的結(jié)構(gòu)化推理框架 Pangu-Agent 的一個(gè)擴(kuò)展,但它也是專(zhuān)門(mén)為應(yīng)對(duì)數(shù)據(jù)科學(xué)挑戰(zhàn)設(shè)計(jì)的。

該團(tuán)隊(duì)為 Agent K v1.0 引入了新的內(nèi)部函數(shù)類(lèi)別,以便在自動(dòng)解決數(shù)據(jù)科學(xué)任務(wù)之前自動(dòng)設(shè)置它們。他們還引入了另一組可與外部工具(如超參數(shù)優(yōu)化算法、集成方法、計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理庫(kù))協(xié)作的內(nèi)部函數(shù),從而可以最佳方式構(gòu)建解答。

下圖展示了 Agent K v1.0 實(shí)現(xiàn)自動(dòng)設(shè)計(jì)、編程和執(zhí)行所需的整體數(shù)據(jù)科學(xué)工作流程:首先從一個(gè) Kaggle URL 開(kāi)始,再生成執(zhí)行代碼清理、特征工程、模型創(chuàng)建和優(yōu)化訓(xùn)練的復(fù)雜代碼,之后再自動(dòng)生成一個(gè)提交文件,并將其提交給 Kaggle 以獲得分?jǐn)?shù)。

圖片

第一階段(自動(dòng)化):設(shè)置數(shù)據(jù)科學(xué)任務(wù)

由于數(shù)據(jù)科學(xué)任務(wù)的數(shù)據(jù)類(lèi)型和格式繁多,因此設(shè)置階段并不輕松。圖 4 展示了這個(gè)自動(dòng)設(shè)置階段的主要步驟。

圖片

在抓取到任務(wù)后,該策略又分為兩個(gè)階段:

  • 首先,編寫(xiě)一系列有效代碼,以自動(dòng)設(shè)置每個(gè)模態(tài)的訓(xùn)練和測(cè)試數(shù)據(jù)加載器。每個(gè)階段步驟都由單元測(cè)試引導(dǎo),LLM 可以使用這些單元測(cè)試來(lái)反思和生成更好的代碼。之后,引入了一組聯(lián)合單元測(cè)試,讓智能體執(zhí)行跨步驟反思以進(jìn)行 credit 分配。
  • 完成這些后,Agent K v1.0 執(zhí)行格式化數(shù)據(jù)生成的第二階段,其中會(huì)生成提交格式和度量函數(shù)代碼。到這個(gè)階段結(jié)束時(shí),任務(wù) t 已被設(shè)置好,可以解決了 —— 這里還會(huì)用一個(gè)最終單元測(cè)試來(lái)檢查。

第二階段(優(yōu)化):解決數(shù)據(jù)科學(xué)任務(wù)

數(shù)據(jù)科學(xué)工作流程的這一部分通常涉及許多步驟,包括生成腳本以預(yù)處理輸入、創(chuàng)建各種模型或優(yōu)化超參數(shù)。

由于可以進(jìn)行多次嘗試,并且每個(gè)解決方案都是復(fù)合工作流程的結(jié)果,因此要實(shí)現(xiàn)非常有競(jìng)爭(zhēng)力的性能,需要能夠推斷每個(gè)解決方案組件的優(yōu)勢(shì)和劣勢(shì),并決定修改哪個(gè)部分或下一步嘗試什么。

在這里,該通過(guò)智能體的外部動(dòng)作將這些決定留給了智能體,并使用針對(duì)數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)設(shè)計(jì)量身定制的幾種工具為其提供支持。

第三階段(泛化):多任務(wù)和主動(dòng)任務(wù)選擇

有效的智能體應(yīng)該有能力解決不同領(lǐng)域的多種任務(wù)。該團(tuán)隊(duì)還為 Agent K v1.0 配備了跨領(lǐng)域的任務(wù)求解能力,其做法是將之前的設(shè)置泛化到多任務(wù)設(shè)置。并且,他們注意到了多任務(wù)解決方案的不可行性,于是還提出了一種在線(xiàn)持續(xù)學(xué)習(xí)擴(kuò)展。

下圖展示了 Agent K v1.0 智能體的總體設(shè)計(jì)。

圖片

按照 Kaggle 的設(shè)置,Agent K v1.0 只需要自然語(yǔ)言描述和非標(biāo)準(zhǔn)化原始數(shù)據(jù)即可成功完成任務(wù)。在每一輪 j 中,它會(huì)根據(jù)之前嘗試過(guò)的任務(wù)的歷史記錄主動(dòng)選擇要解決的數(shù)據(jù)科學(xué)任務(wù),并將其填充到隨時(shí)間變化的向量數(shù)據(jù)庫(kù) RAG_j 中。這種選擇是策略 π_1 (?) 基于 RAG_j 和一個(gè)剩余任務(wù)池執(zhí)行的。

選擇了任務(wù)之后,Agent K v1.0 會(huì)使用 π_setup (?) 自動(dòng)執(zhí)行標(biāo)準(zhǔn)化、清理任務(wù)數(shù)據(jù)、 準(zhǔn)備訓(xùn)練和測(cè)試指標(biāo)等操作。這個(gè)過(guò)程同樣基于 RAG_j。

設(shè)置完成后,Agent K v1.0 就會(huì)嘗試解決任務(wù),這個(gè)過(guò)程會(huì)訪(fǎng)問(wèn)工具并根據(jù)分?jǐn)?shù)反饋進(jìn)行改進(jìn)。這些 Python 日志會(huì)對(duì) RAG_j 進(jìn)行更新,并重復(fù)此過(guò)程。

競(jìng)爭(zhēng)性數(shù)據(jù)科學(xué)基準(zhǔn)

當(dāng)前的數(shù)據(jù)科學(xué)智能體缺乏競(jìng)爭(zhēng)性基準(zhǔn)測(cè)試,這限制了它們?cè)趯?zhuān)業(yè)領(lǐng)域的表現(xiàn)。為此,該團(tuán)隊(duì)也做出了自己的貢獻(xiàn):基于 Kaggle 競(jìng)賽構(gòu)建了一個(gè)多樣化且競(jìng)爭(zhēng)性的數(shù)據(jù)科學(xué)基準(zhǔn),而 Kaggle 提供了 27K 個(gè)多樣化數(shù)據(jù)集、110 萬(wàn)個(gè)筆記本、超過(guò) 7.7K 個(gè)預(yù)訓(xùn)練機(jī)器學(xué)習(xí)模型和大約 27K 場(chǎng)比賽。

該基準(zhǔn)支持在一個(gè)透明的排行榜上與人類(lèi)參與者進(jìn)行直接比較并涵蓋計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、時(shí)間序列和表格數(shù)據(jù)等多種任務(wù),支持多種模態(tài)。

下圖展示了該基準(zhǔn)中 Kaggle 任務(wù)的分布情況。目前,其中 55% 是表格任務(wù),包括數(shù)值、類(lèi)別、字符串和布爾值表。另外計(jì)算機(jī)視覺(jué)站 24%,自然語(yǔ)言處理占 10%、多模態(tài)任務(wù)占 11%。

圖片

下表則是基于 Kaggle 的指南和風(fēng)格構(gòu)建的 Kaggle 進(jìn)展系統(tǒng)。? (Top 10 + 0.2 %)  是指競(jìng)賽每增加 500 個(gè)參賽隊(duì)伍,就會(huì)額外給出一枚金牌。舉個(gè)例子,如果一個(gè)競(jìng)賽有 500 個(gè)參賽隊(duì)伍,則會(huì)給 11 團(tuán)隊(duì)授予金牌。而如果競(jìng)賽隊(duì)伍有 5000 個(gè),則金牌數(shù)會(huì)達(dá)到 20。

圖片

實(shí)驗(yàn)和結(jié)果

Agent K 表現(xiàn)如何?終究還需看實(shí)驗(yàn)結(jié)果。該團(tuán)隊(duì)嚴(yán)格測(cè)試了 Agent K v1.0(基礎(chǔ)模型使用了 Qwen-2.5 72B)實(shí)現(xiàn)完全自動(dòng)化的能力以及性能。

在自動(dòng)化方面,他們?cè)u(píng)估了新系統(tǒng)能否有效地直接根據(jù) Kaggle URL 設(shè)置任務(wù)。結(jié)果,在跨多個(gè)領(lǐng)域自動(dòng)執(zhí)行任務(wù)方面,該系統(tǒng)實(shí)現(xiàn)了 92.5% 的準(zhǔn)確度,展示了其完全自動(dòng)化地實(shí)現(xiàn)復(fù)雜設(shè)置的能力。

圖片

在性能方面,在多模態(tài)挑戰(zhàn)賽中,該團(tuán)隊(duì)的方法實(shí)現(xiàn)了相當(dāng)于 6 金 3 銀 7 銅的成績(jī)(共 65 場(chǎng)競(jìng)賽),成為了首個(gè)達(dá)到 Kaggle Grandmaster level 1 水平的方法。下圖展示了 Agent K v1.0 在各個(gè)任務(wù)上的性能表現(xiàn)。

圖片

此外,他們還測(cè)量了 Agent K v1.0 與人類(lèi)參與者的 Elo-MMR 評(píng)分。結(jié)果表明,在由 5856 名參賽者組成的競(jìng)賽池中,Agent K v1.0 排名前 38%。

圖片

實(shí)驗(yàn)詳情和更多實(shí)驗(yàn)結(jié)果以及相關(guān)討論請(qǐng)?jiān)L問(wèn)原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-12-26 12:12:01

模型訓(xùn)練

2019-07-17 10:39:44

技術(shù)人結(jié)構(gòu)化思維

2019-08-12 09:19:12

阿里結(jié)構(gòu)化思維

2018-04-03 14:00:03

結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)庫(kù)

2021-12-12 08:37:18

結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)

2023-09-10 10:51:22

算法結(jié)構(gòu)

2021-10-19 06:04:23

智能家居智能化物聯(lián)網(wǎng)

2024-05-27 00:32:45

2023-12-25 15:00:18

結(jié)構(gòu)化布線(xiàn)光纖

2022-05-24 09:52:37

Spark SQL大數(shù)據(jù)處理Hive

2022-10-19 08:00:00

2021-05-17 15:07:02

5G電力技術(shù)

2021-04-20 20:43:02

數(shù)據(jù)中心綜合布線(xiàn)智慧城市

2022-05-06 07:31:01

useEventReactHook

2024-05-10 12:52:01

2015-06-08 17:14:41

2024-12-13 14:30:00

AI模型數(shù)據(jù)

2024-11-06 10:22:23

數(shù)據(jù)安全Akamai

2025-01-14 13:52:56

2019-09-25 08:35:21

非結(jié)構(gòu)化數(shù)據(jù)人工智能數(shù)據(jù)科學(xué)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)