自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

將集體學(xué)習(xí)引入樹搜索,新方法CoMCTS實(shí)現(xiàn)o1-like的推理與反思

人工智能 新聞
最近,NLP 領(lǐng)域的突破,如 OpenAI o1,展示了 LLM 的推理能力并應(yīng)對(duì)復(fù)雜語言任務(wù)的巨大潛力。

“What I cannot create, I do not understand.”---Richard Feynman

盡管多模態(tài)大語言模型(MLLM)在簡(jiǎn)單任務(wù)上最近取得了顯著進(jìn)展,但在復(fù)雜推理任務(wù)中表現(xiàn)仍然不佳。費(fèi)曼的格言可能是這種現(xiàn)象的完美隱喻:只有掌握推理過程的每一步,才能真正解決問題。然而,當(dāng)前的 MLLM 更擅長(zhǎng)直接生成簡(jiǎn)短的最終答案,缺乏中間推理能力。本篇文章旨在開發(fā)一種通過學(xué)習(xí)創(chuàng)造推理過程中每個(gè)中間步驟直至最終答案的 MLLM,以實(shí)現(xiàn)問題的深入理解與解決。

最近,NLP 領(lǐng)域的突破,如 OpenAI o1,展示了 LLM 的推理能力并應(yīng)對(duì)復(fù)雜語言任務(wù)的巨大潛力。這些進(jìn)展的核心設(shè)計(jì)靈感源于類似 AlphaGo 的 “樹搜索” 方法:通過使用 MCTS 等樹搜索方法,自引導(dǎo)地構(gòu)建中間思維樹,探索有效的推理路徑,并利用這些路徑對(duì)模型進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)逐步推理能力的提升。

圖 1. (a)CoMCTS 搜索有效性和效率比較。(b)基于 CoMCTS 數(shù)據(jù)訓(xùn)練的 Mulberry 模型展現(xiàn)了卓越的推理性能。

一個(gè)直觀的想法是直接將樹搜索方法應(yīng)用于 MLLM 的有效推理路徑搜索,但這種方法效果并不好,如圖 1 所示。主要原因在于:

(1)搜索有效性:傳統(tǒng)的 MCTS 方法依賴自我引導(dǎo),而當(dāng)前的 MLLMs 訓(xùn)練時(shí)沒有明確且定義良好的中間推理步驟,導(dǎo)致搜索陷入單一 MLLM 推理空間的低質(zhì)量同質(zhì)節(jié)點(diǎn),降低搜索成功率。

(2)搜索效率:傳統(tǒng) MCTS 方法每次搜索迭代通常僅擴(kuò)展和探索一個(gè)后續(xù)推理節(jié)點(diǎn),每次前進(jìn)一步,需要大量迭代,使用 MLLM 進(jìn)行推理進(jìn)一步增加了計(jì)算復(fù)雜度。

為解決上述挑戰(zhàn),本文提出了集體蒙特卡羅樹搜索(Collective Monte Carlo Tree Search, CoMCTS),這是一種新的學(xué)習(xí)推理方法,通過將集體學(xué)習(xí)引入 “樹搜索”,實(shí)現(xiàn)有效且高效的推理路徑搜索與學(xué)習(xí)。


  • 論文:《Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search》
  • 論文鏈接:https://arxiv.org/abs/2412.18319
  • 代碼鏈接:https://github.com/HJYao00/Mulberry

CoMCTS 搜索的優(yōu)勢(shì)在于:

(1)聯(lián)合擴(kuò)展多個(gè) MLLM 的推理路徑,支持跨模型協(xié)同推理,避免單一模型陷入同質(zhì)化低質(zhì)量節(jié)點(diǎn)。

(2)聯(lián)合模擬與錯(cuò)誤定位機(jī)制跳過反復(fù)中間步驟生成、集體知識(shí)幫助更準(zhǔn)確地識(shí)別錯(cuò)誤,提升搜索效率與效果。

此外,CoMCTS 也通過結(jié)合正負(fù)推理節(jié)點(diǎn)構(gòu)建反思推理數(shù)據(jù),使得 MLLM 可在長(zhǎng)鏈路推理中進(jìn)行逐步反思。最終,通過 CoMCTS,本文構(gòu)建了通過逐步推理數(shù)據(jù)集 Mulberry-260K,訓(xùn)練了一系列 Mulberry 模型,在 8 個(gè) benchmark 上取得了明顯的提升。

研究方法

 圖 2. CoMCTS 總覽圖

CoMCTS 的推理路徑搜索

CoMCTSw 將集體學(xué)習(xí)的概念引入到樹搜索中,核心思想是通過多個(gè)模型的集體知識(shí)協(xié)作搜索有效的推理節(jié)點(diǎn),并通過多次迭代最終找到正確的推理路徑。

定義:將一個(gè)策略 MLLM 模型定義為 π,CoMCTS 利用一組多模態(tài)大語言模型 共同搜索并學(xué)習(xí)有效的推理路徑。對(duì)于輸入 Q = {文本,圖像},每次迭代中,每個(gè)模型 π 生成一系列中間推理狀態(tài),直到最終答案。第 m 步的中間推理狀態(tài)定義為 ,模型 在第 m 步生成狀態(tài)為 ,每步由一個(gè)或多個(gè)句子組成。

CoMCTS 算法從根節(jié)點(diǎn)開始,通過一定次數(shù)的迭代進(jìn)行推理路徑搜索,每次迭代包括四個(gè)關(guān)鍵操作:(a)擴(kuò)展 Expansion,(b)模擬與錯(cuò)誤定位 Simulation and Error Position,(c)反向傳播 Backpropagation,以及(d)選擇 Selection,具體說明如下:

(a)擴(kuò)展。擴(kuò)展當(dāng)前葉子推理節(jié)點(diǎn),整合新的候選推理節(jié)點(diǎn)。給定當(dāng)前葉子節(jié)點(diǎn) 

(由操作(d)選擇或根節(jié)點(diǎn)),CoMCTS 利用一組 MLLM 的集體知識(shí),協(xié)同擴(kuò)展一組多樣且互補(bǔ)的候選推理路徑 ,直到終止節(jié)點(diǎn):

其中  返回  的所有父節(jié)點(diǎn),而  表示從根節(jié)點(diǎn)到  的當(dāng)前推理路徑。表示由模型  從   開始生成的候選推理路徑

(b)模擬與錯(cuò)誤定位。CoMCTS 利用多個(gè)模型的集體知識(shí),共同模擬候選子節(jié)點(diǎn) (在操作(a)中添加的節(jié)點(diǎn))的候選值,將低分節(jié)點(diǎn)視為錯(cuò)誤推理節(jié)點(diǎn),過濾掉第一個(gè)小于閾值 t 的節(jié)點(diǎn)及其之后的所有節(jié)點(diǎn):

(c)反向傳播。CoMCTS 從葉子節(jié)點(diǎn)向根節(jié)點(diǎn)進(jìn)行自底向上的更新。推理樹中新擴(kuò)展路徑上的每個(gè)節(jié)點(diǎn) s 都會(huì)更新其統(tǒng)計(jì)信息,包括訪問次數(shù) N 和節(jié)點(diǎn)值 V:

其中,Child (s) 表示節(jié)點(diǎn) s 的所有子節(jié)點(diǎn),CountChild 表示用于計(jì)算節(jié)點(diǎn) s 在候選集中的子節(jié)點(diǎn)數(shù)量的計(jì)數(shù)函數(shù)。

(d)選擇節(jié)點(diǎn)。CoMCTS 根據(jù)上置信界限(UCB)值遍歷更新后的推理樹,選擇 UCB 值最高的候選節(jié)點(diǎn)  作為下一個(gè)搜索迭代的起始節(jié)點(diǎn)。

針對(duì)每個(gè)問題,重復(fù)迭代上述四個(gè)操作,直至達(dá)到預(yù)定次數(shù)或找到正確的推理路徑。CoMCTS 為每個(gè)問題構(gòu)建明確的集體推理樹,幫助 MLLM 學(xué)習(xí)逐步推理能力。

CoMCTS 中的反思學(xué)習(xí)

CoMCTS 構(gòu)建的推理樹包含了正向和負(fù)向的推理節(jié)點(diǎn),通過將負(fù)向的兄弟節(jié)點(diǎn)整合進(jìn)有效的推理路徑中,以構(gòu)建包含從負(fù)向推理節(jié)點(diǎn)過度的反思性推理路徑。具體來說,通過識(shí)別 UCB 差值最大的兄弟節(jié)點(diǎn)來構(gòu)建反思路徑,如圖 2 和圖 3 所示。

圖 3. CoMCTS 搜索推理樹示例。

使用集體蒙特卡羅樹搜索進(jìn)行訓(xùn)練

通過 CoMCTS 構(gòu)建有效推理和反思性推理數(shù)據(jù)集,并使用集體 SFT 對(duì)模型進(jìn)行訓(xùn)練,使模型具備逐步推理與反思能力。

 

實(shí)驗(yàn)數(shù)據(jù)

推理數(shù)據(jù)組成:為了構(gòu)建一個(gè)通用的推理數(shù)據(jù)集,本文從多個(gè)領(lǐng)域搜集了原始多模態(tài)輸入問題。將這些原始數(shù)據(jù)用 CoMCTS 方法搜索推理和反思路徑,最終得到 Mulberry-260K SFT 數(shù)據(jù)集。

推理數(shù)據(jù)分布:CoMCTS 生成的推理步驟大多集中在 6 到 8 步之間,簡(jiǎn)單任務(wù)在 6 到 7 步,復(fù)雜任務(wù)在 7 到 10 步。結(jié)果表明,CoMCTS 能生成靈活的推理路徑,幫助 MLLM 根據(jù)任務(wù)復(fù)雜性調(diào)整推理深度。

圖 4. 推理數(shù)據(jù)的步驟長(zhǎng)度分布

實(shí)驗(yàn)結(jié)果

性能比較

(1)與基準(zhǔn)模型比較。實(shí)驗(yàn)表明,Mulberry-260K 訓(xùn)練的 Mulberry-7B 和 Mulberry-11B 相比 Qwen2-VL-7B 和 LLaMA-3.2-11B-Vision-Instruct 分別提高了 + 4.2% 和 + 7.5%,驗(yàn)證了 CoMCTS 的有效性。此外,Mulberry-260K 訓(xùn)練的模型也使 Qwen2-VL-2B 和 LLaVA-NeXT-8B 分別提升了 + 5.4% 和 + 11.0%,證明了其泛化能力。

(2)與推理模型比較。使用 LLaVA-NeXT-8B 基準(zhǔn)模型時(shí),Mulberry 在 MathVista 上分別比 LLaVA-Reasoner 和 Insight-V 提高了 + 5.7% 和 + 6.5%,在 MMMU 上提高了 + 3.0% 和 + 1.0%。在相同基準(zhǔn) LLaMA-3.2-11B-Vision-Instruct 下,Mulberry 在 MathVista 上比 LLaVA-COT 提高了 + 6.3%。其優(yōu)勢(shì)來自 CoMCTS 的樹搜索和靈活的推理步驟設(shè)計(jì)。

(3)與 SOTA 模型比較。Mulberry 在基準(zhǔn)測(cè)試中優(yōu)于大多數(shù)開源 MLLM,并在與閉源模型的比較中展現(xiàn)出競(jìng)爭(zhēng)力,得益于 CoMCTS 搜索數(shù)據(jù)的訓(xùn)練。

表 1. 主要實(shí)驗(yàn)結(jié)果比較

消融實(shí)驗(yàn)

(1)CoMCTS 的消融研究。表 2 為使用 GPT-4o 作為基線進(jìn)行的關(guān)于 CoMCTS 消融實(shí)驗(yàn)。僅使用 GPT-4o 的 CoMCTS 將成功率提升至 63.8%,驗(yàn)證了 CoMCTS 設(shè)計(jì)的有效性。逐步引入更多模型進(jìn)一步提升成功率,即使較小的 Qwen2-VL-7B 也提高了性能(+2.4%),展現(xiàn)了 CoMCTS 在集體知識(shí)上的優(yōu)勢(shì)。使用四個(gè)模型時(shí),搜索成功率達(dá)到了 80.2%。

表 2. CoMCTS 的消融實(shí)驗(yàn)

(2)有效和反思推理的消融實(shí)驗(yàn)。表 3 顯示,加入反思性數(shù)據(jù)后,MathVista 上的性能提高了 0.8%,驗(yàn)證了 CoMCTS 搜索的推理數(shù)據(jù)與反思性數(shù)據(jù)的互補(bǔ)性。

表 3. CoMCTS 推理數(shù)據(jù)和反思數(shù)據(jù)的消融實(shí)驗(yàn)

討論

(1)與其它樹搜索方法的比較。將 CoMCTS 與其他樹搜索方法比較,表 4 顯示,現(xiàn)有方法對(duì)搜索性能提升有限,主要因傳統(tǒng) MCTS 易陷入單一 MLLM 的低質(zhì)量節(jié)點(diǎn)。CoMCTS 在搜索效果和效率上具有顯著優(yōu)勢(shì),得益于集體擴(kuò)展機(jī)制,使推理路徑搜索不僅限于單一 MLLM 推理空間,還能跨多個(gè) MLLM 推理空間,避免了陷入單一推理空間的困境。

表 4. CoMCTS 其它樹搜索方法的比較。

(2)定型分析。下圖定性分析比較顯示,LLaVA-NeXT-8B 和 Qwen2-VL-7B 生成的預(yù)測(cè)相對(duì)較短,缺乏深入的思考,導(dǎo)致錯(cuò)誤的答案。相反,Mulberry,生成了豐富、明確且結(jié)構(gòu)良好的推理步驟,最終得出了正確的答案。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2010-06-18 09:48:22

2015-08-21 09:14:40

大數(shù)據(jù)

2021-09-27 10:12:42

欺騙防御rMTD網(wǎng)絡(luò)攻擊

2025-01-10 11:42:40

2019-07-12 13:50:36

物聯(lián)網(wǎng)大數(shù)據(jù)安全

2022-07-07 10:47:16

IngressKubernetes

2018-10-07 07:00:59

2022-10-28 15:16:52

檢測(cè)數(shù)據(jù)

2022-04-20 08:00:00

深度學(xué)習(xí)數(shù)據(jù)集Hub

2010-04-01 09:30:57

2011-08-16 11:44:15

散熱數(shù)據(jù)中心服務(wù)器

2024-01-23 17:33:36

2024-10-23 19:47:54

2017-06-10 16:19:22

人工智能智能體強(qiáng)化學(xué)習(xí)

2009-04-28 10:42:31

虛擬化 評(píng)估

2021-11-26 10:02:22

擴(kuò)展業(yè)務(wù)領(lǐng)導(dǎo)者CIO

2023-11-23 15:05:02

玻璃歸檔存儲(chǔ)微軟

2023-07-06 15:29:52

數(shù)據(jù)中心能源回收

2009-07-31 08:56:59

ASP.NET頁面刷新

2025-03-07 09:24:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)