自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

多模態(tài)慢思考：分解原子步驟以解決復(fù)雜數(shù)學(xué)推理

作者：機器之心 2024-12-02 08:30:00

人工智能新聞

本文將原子思維能力引入多模態(tài)大語言模型，以解決困難的數(shù)學(xué)推理問題。

本文作者來自中山大學(xué)、香港科技大學(xué)、上海交通大學(xué)和華為諾亞方舟實驗室等機構(gòu)。第一作者項鯤為中山大學(xué)博士生，劉智立為香港科技大學(xué)博士生，姜子昊為上海交通大學(xué)碩士研究生。

AtomThink 是一個包括 CoT 注釋引擎、原子步驟指令微調(diào)、政策搜索推理的全流程框架，旨在通過將 “慢思考 “能力融入多模態(tài)大語言模型來解決高階數(shù)學(xué)推理問題。量化結(jié)果顯示其在兩個基準(zhǔn)數(shù)學(xué)測試中取得了大幅的性能增長，并能夠輕易遷移至不同的多模態(tài)大模型當(dāng)中。

論文：https://arxiv.org/abs/2411.11930
主頁（即將開源）：https://github.com/Quinn777/AtomThink

背景與挑戰(zhàn)

在人工智能研究領(lǐng)域，高階數(shù)學(xué)推理一直是一項極具挑戰(zhàn)的任務(wù)。之前的一些工作通過精心設(shè)計 prompt 來激發(fā)模型生成思維鏈（CoT），而最近大熱的 OpenAI o1 的推出更是標(biāo)志著強人工智能的巨大飛躍，它擅長通過利用擴展推理鏈和放大測試時間來解決復(fù)雜問題，即 “慢思考”。

然而，在視覺數(shù)學(xué)任務(wù)中由于信息建模的數(shù)據(jù)和計算資源需求顯著增加，將慢思考技術(shù)應(yīng)用于多模態(tài)大語言模型（MLLM）具有挑戰(zhàn)性。盡管之前的一些工作說明激發(fā)模型固有 CoT 能力能夠改善推理，但他們并未考慮推理鏈中間步驟的質(zhì)量，也缺乏對多模態(tài) CoT 每個節(jié)點對應(yīng)能力的細粒度分析，因此很難應(yīng)用測試時間縮放策略來進行針對性的性能提升。

原子步驟質(zhì)量評估

因此，本研究率先提出了一種原子步驟質(zhì)量評估策略（如上圖所示），為慢思考能力提供新的分析視角。原子步驟是語義維度的最小推理步驟。考慮到人類可能利用不同的認知能力來解決數(shù)學(xué)問題，首先從 GPT-4o 的推理行為分布中構(gòu)建一個規(guī)范的推理能力集合，代表高級智能模型在進行思考時所使用的不同能力。最后，將候選模型輸出應(yīng)用結(jié)果監(jiān)督和重映射來估計其對應(yīng)能力的綜合得分。

下圖所示的結(jié)果表明當(dāng)前開源模型的平均原子步驟質(zhì)量較差，特別是在圖像識別、變量定義和計算等能力項上存在明顯缺陷。這一發(fā)現(xiàn)進一步促使我們關(guān)注現(xiàn)有模型執(zhí)行單步推理的能力，并通過提高原子推理步驟的質(zhì)量來引入更強大的慢思考。

AtomThink 慢思考框架

因此，為了解決開源 MLLM 原子步驟質(zhì)量較差的問題，本文提出了 AtomThink 慢思考框架，通過引入多模態(tài) CoT 注釋引擎、原子步驟微調(diào)策略和政策搜索策略，旨在通過仔細訓(xùn)練來增強 MLLM 的解碼能力，并結(jié)合采樣后搜索來識別最佳預(yù)測節(jié)點，以逐步生成一條高質(zhì)量的推理路徑。

1. 多模態(tài)注釋引擎

首先文中從數(shù)據(jù)角度引入了動態(tài)提示和短 CoT 增強策略來構(gòu)建數(shù)據(jù)引擎。動態(tài)提示策略促使已有 LLM 迭代地構(gòu)建狀態(tài)推理路徑。每個路徑節(jié)點代表一個推理步驟，包括前一階段、當(dāng)前狀態(tài)和可能的動作?？赡艿男袆影ɡ^續(xù)推理、驗證和得出結(jié)論，這由 LLM 自身決定。為充分利用現(xiàn)有 VQA 數(shù)據(jù)集的短 CoT 注釋和答案，本文還使用 GPT-4o 來執(zhí)行原子化分割和注釋增強，這允許我們通過簡單的提示來將原始推理過程從語義上劃分為多個離散的步驟。

通過上述方式，本文從公開數(shù)據(jù)集中采樣數(shù)學(xué)問題并生成長思維鏈，通過人工篩查和后處理去除不正確的節(jié)點，最終制作了 AtomMATH 數(shù)據(jù)集。它包括 AMATH-SFT 和 AMATH-PRM 兩個子集，分別用于監(jiān)督指令微調(diào)和過程監(jiān)督訓(xùn)練。

上表 2 中顯示了該數(shù)據(jù)集的質(zhì)量較高，甚至在 GPT-4o 的評分中超越了人工標(biāo)注的 PRM800k 數(shù)據(jù)集。

2. 原子步驟微調(diào)

該部分包括對現(xiàn)有 MLLM 的指令微調(diào)和對 PRM 的對齊訓(xùn)練。首先通過將輸入數(shù)據(jù)重構(gòu)為獨立的歷史狀態(tài)和當(dāng)前動作，讓多模態(tài)大模型學(xué)習(xí)近似馬爾可夫決策的輸出格式。而在 PRM 的訓(xùn)練則基于已有 LLM 來執(zhí)行后訓(xùn)練對齊，通過最小化下面的交叉熵損失函數(shù)來進行優(yōu)化：

3. 策略搜索

由于擴大測試時間會產(chǎn)生多個候選步驟，文中將現(xiàn)有的策略分為路徑維度搜索和步驟維度搜索。路徑維度搜索包括：

1）多數(shù)投票：通過選擇多個推理路徑中最常見的結(jié)果來選擇最優(yōu)。

2）Best-of-N：計算每個候選路徑的所有節(jié)點得分，通過不同聚合策略來將密集分數(shù)映射到整條路徑。聚合策略包括最壞動作、最后動作和平均得分。

步驟維度搜索包括：

1）貪心算法：側(cè)重于在推理過程的每一步做出局部最優(yōu)選擇。它根據(jù)當(dāng)前狀態(tài)選擇最佳的即時行動（步驟），而不考慮未來的后果。

2）Beam Search：在每個推理動作中探索多個分支，并為每個推理階段維護固定數(shù)量的較優(yōu)候選原子步驟。它在探索不同的推理鏈和當(dāng)前最優(yōu)步驟之間取得了平衡。

實驗結(jié)果

實驗測試了四種不同的推理范式，包括：

1）直接輸出：直接輸出答案。

2）CoT 輸出：設(shè)計 CoT 提示來一次性產(chǎn)生中間推理步驟和答案。

3）QuickThink：逐步產(chǎn)生一條原子推理路徑而不進行搜索，推理時間較短。

4）SlowThink：使用 Beam Search 來搜索和剪枝一棵搜索樹，推理時間較長。

上表展示了本文框架的性能。首先在只使用 QuickThink 時，對于 LLaVA-Llama3-8B 其 AtomThink 版本就大大超越了基線模型，在 MathVista 上實現(xiàn)了約 10% 的改進，在 MathVerse 上實現(xiàn)了 19% 的提升。這表明，當(dāng)模型具有原子推理能力時，它已經(jīng)可以利用快速思考進行更準(zhǔn)確的數(shù)學(xué)推理。

實驗結(jié)果還證明了純語言模型也能對多模態(tài)推理提供有效的過程監(jiān)督。在和 LLaVA-Llama3-8B 與 EMOVA-8B 的對比中 SlowThink 都獲得了一致的性能提升，特別是對比 CoT 輸出的性能甚至提升了一倍，表明該框架具有強大的可擴展性。

對于不同的搜索策略本文也做出了細致比較，實驗證明 Best-of-N 和 Beam Search 比多數(shù)投票和貪心算法的提升明顯，特別是基于平均得分聚合的 Best-of-N 在 MathVista-Math 任務(wù)中獲得了最高的 58.7% 的精度。

通過改變候選步驟數(shù)量，文章還探討了多模態(tài)數(shù)學(xué)推理任務(wù)中 Test-time scaling law 的存在。隨著候選步驟的增加，兩個模型都呈現(xiàn)出不斷增強的趨勢，其中較弱的 LLaVA 模型即使推理時間增加十倍也沒有呈現(xiàn)出邊際效應(yīng)。

總結(jié)

本文將原子思維能力引入多模態(tài)大語言模型，以解決困難的數(shù)學(xué)推理問題。文中發(fā)布了一個高質(zhì)量的長 CoT 數(shù)據(jù)集以及一個關(guān)注于提升原子步驟質(zhì)量的慢思考框架。該方法在解決問題的每一步都始終保持著較高的推理質(zhì)量，從而提高了各種多模態(tài)數(shù)學(xué)任務(wù)的推理性能，為開發(fā)廣義慢思考模型鋪平了道路。

責(zé)任編輯：張燕妮來源：機器之心

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<center id="eyr9s"></center>

<p id="eyr9s"></p>