自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

自動調(diào)整推理鏈長度,SCoT來了!為激發(fā)推理能力研究還提出了一個新架構(gòu)

人工智能 新聞
為了激發(fā)推理能力,研究人員還提出了AtomThink,這是一個包含數(shù)據(jù)構(gòu)造、訓(xùn)練、推理和評估的全過程框架,用來提升多模態(tài)大模型在復(fù)雜推理任務(wù)上的表現(xiàn)。

不怕推理模型簡單問題過度思考了,能動態(tài)調(diào)整CoT的新推理范式SCoT來了!

SCoT,即自結(jié)構(gòu)化推理鏈(Self-structured Chain of Thought )。

它通過將推理過程分解為最小語義原子步驟,能動態(tài)生成適配不同復(fù)雜度問題的CoT結(jié)構(gòu),解決了現(xiàn)有方法在推理多樣性和效率上的不足。

圖片

另外,為了激發(fā)推理能力,研究人員還提出了AtomThink,這是一個包含數(shù)據(jù)構(gòu)造、訓(xùn)練、推理和評估的全過程框架,用來提升多模態(tài)大模型在復(fù)雜推理任務(wù)上的表現(xiàn)。

實驗中,SCoT使模型能根據(jù)問題復(fù)雜度自動調(diào)整推理鏈長度,復(fù)雜問題的推理步驟更長。

在多個數(shù)據(jù)集上,AtomThink框架顯著提升了基線模型的準確率,數(shù)據(jù)利用效率和推理效率也表現(xiàn)出顯著優(yōu)勢。

并且,原子能力評估揭示了多模態(tài)模型在不同推理能力上的分布特征,為理解多模態(tài)推理模式提供了新視角。

這項研究由來自中山大學(xué)、香港科技大學(xué)、上海交通大學(xué)、香港大學(xué)、華為諾亞方舟實驗室的研究人員聯(lián)合提出,以下是更多細節(jié)。

圖片

SCoT、AtomThink長啥樣?

當前,結(jié)構(gòu)化和非結(jié)構(gòu)化CoT面臨一定的挑戰(zhàn)。

現(xiàn)有方法或依賴于固定模板的結(jié)構(gòu)化推理,或采用自由形式的非結(jié)構(gòu)化推理,存在如推理行為單一、需要人工設(shè)計模版、計算效率低下或在簡單問題上過度思考的問題。

圖片

因此,團隊提出兩個假設(shè):

  • 不同類型的問題可能需要不同的推理能力;
  • 推理的復(fù)雜性應(yīng)與問題的難度相匹配。

為了為具有不同復(fù)雜性的問題動態(tài)生成適當?shù)耐评斫Y(jié)構(gòu),團隊引入了自結(jié)構(gòu)化思維鏈(SCoT)和一個全過程訓(xùn)推框架AtomThink。

其中自結(jié)構(gòu)化思維鏈(SCoT),即作者提出將推理過程分解為最小語義單元——原子步驟,并通過多輪預(yù)測方法動態(tài)生成推理鏈。

模型每次僅預(yù)測一個原子步驟,并將其附加到歷史推理步驟中,作為下一輪推理的輸入。

為應(yīng)對模型推理異常(如重復(fù)、停滯等),引入基于規(guī)則的過濾機制和溫度累積策略,以增強推理的多樣性和流暢性。

AtomThink框架則包含四個關(guān)鍵模塊:

  • 數(shù)據(jù)引擎:通過動態(tài)提示策略和短推理增強方法生成高質(zhì)量多步推理路徑,構(gòu)建包含20k多模態(tài)數(shù)學(xué)問題和124k原子步驟標注的AMATH數(shù)據(jù)集。
  • 原子步驟微調(diào):采用步驟級掩碼訓(xùn)練,迫使模型學(xué)習(xí)獨立推理步驟。
  • 策略引導(dǎo)的多輪推理:在過程監(jiān)督模型的基礎(chǔ)上,結(jié)合路徑搜索和步驟搜索策略(如多數(shù)投票、最佳候選選擇、貪婪算法和束搜索)擴展推理空間。
  • 原子能力評估:基于推理行為聚類和步驟利用率計算,評估模型在不同推理能力上的表現(xiàn)。

圖片

實驗結(jié)果如何?

研究團隊選取不同規(guī)模的LLaVA1.5-7B和Llama3.2-Vision-11B作為基線模型,使用AMATH-SFT數(shù)據(jù)集進行微調(diào),并在MathVista、MathVerse、MathVision和Humanity’s Last Exam基準數(shù)據(jù)集上進行評估。

實驗設(shè)置包括直接推理、普通推理鏈(CoT)、自結(jié)構(gòu)化推理鏈(SCoT)以及結(jié)合過程獎勵模型(PRM)的SCoT推理。

圖片

在MathVista、MathVerse和MathVision數(shù)據(jù)集上,AtomThink框架顯著提升了基線模型Llama3.2-Vision-11B的準確率,分別提高10.9%、10.2%和7.2%。

圖片

與現(xiàn)有結(jié)構(gòu)化CoT方法相比,AtomThink在準確率、數(shù)據(jù)利用效率和推理效率上均表現(xiàn)出顯著優(yōu)勢,在準確率超越LLaVA-CoT的條件下數(shù)據(jù)利用效率提升5倍,推理效率提升85.3%

圖片

另外,與結(jié)構(gòu)化方法相比,SCoT能夠動態(tài)生成更多樣化的推理結(jié)構(gòu),涵蓋圖像描述、數(shù)據(jù)提取、邏輯推理、因果推理等多種能力。

模型還能夠根據(jù)問題復(fù)雜度自動調(diào)整推理鏈長度,復(fù)雜問題的推理步驟更長,表現(xiàn)出自適應(yīng)的深度探索能力。

圖片

為了評估推理模型對于不同中間步驟的利用能力,團隊提出了一個新穎的評估方式。

首先通過聚類GPT-4o的推理行為來生成原子步驟分布集合(包含16種行為),構(gòu)建歷史步驟后進行rollout來計算對最近步驟的利用效率。

通過原子能力評估發(fā)現(xiàn)模型存在推理誤差累計現(xiàn)象,在CoT早期階段(如數(shù)據(jù)提取和圖像描述)開始繼承推理的錯誤率較高,提示未來工作需關(guān)注推理初期的質(zhì)量控制。

圖片

論文:https://arxiv.org/pdf/2503.06252
開源倉庫:https://github.com/Quinn777/AtomThink

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-06-17 13:34:54

2021-10-14 09:43:59

人工智能AI機器人

2025-01-08 09:00:00

訓(xùn)練數(shù)據(jù)研究

2021-04-02 09:40:06

量子計算芯片超算

2023-03-28 16:37:38

論文視頻

2024-04-11 11:35:03

大語言模型LLMs

2020-03-25 09:00:40

微軟瀏覽器Windows

2024-11-11 11:05:00

大語言模型系統(tǒng)

2025-01-16 08:40:00

2025-01-14 13:52:56

2025-01-20 13:08:25

2023-05-15 15:38:59

AI模型

2023-11-13 18:19:54

模型訓(xùn)練

2025-03-31 09:22:00

強化學(xué)習(xí)模型AI

2023-06-20 13:44:49

清華推理

2023-05-30 14:17:00

模型推理

2025-04-17 08:48:31

2024-12-02 13:30:00

2024-08-08 13:04:28

2024-12-23 07:20:00

LLM逆向思維語言模型
點贊
收藏

51CTO技術(shù)棧公眾號