自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

阿里國際版o1來了,Marco-o1:聚焦開放式問題推理

人工智能 新聞
大模型推理的一個關(guān)鍵挑戰(zhàn)在于,現(xiàn)實世界常常提出很多開放式和創(chuàng)造性的問題,對于 AI 來說,這是一類很難評估的任務(wù),因為沒有「標(biāo)準(zhǔn)答案」或者易于量化的獎勵。

自從 OpenAI 發(fā)布 o1 模型以來,業(yè)界對其的追趕不斷加速。

大模型推理的一個關(guān)鍵挑戰(zhàn)在于,現(xiàn)實世界常常提出很多開放式和創(chuàng)造性的問題,對于 AI 來說,這是一類很難評估的任務(wù),因為沒有「標(biāo)準(zhǔn)答案」或者易于量化的獎勵。

我們能否訓(xùn)練一個模型,讓它能夠從容應(yīng)對無法避免的「模糊性」,仍然生成可靠的推理結(jié)果?

11 月 22 日,阿里巴巴國際數(shù)字商業(yè)集團(tuán)MarcoPolo團(tuán)隊發(fā)布了 Marco-o1,這是一種旨在推進(jìn)開放式問題解決的大型推理模型 (LRM)。當(dāng)然該工作也提到:這是一項正在進(jìn)行的探索性工作,仍有進(jìn)一步改進(jìn)的空間。

這篇論文篇幅并不長,讓我們來梳理下技術(shù)細(xì)節(jié)。

圖片

  • 論文標(biāo)題:Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions
  • 論文鏈接:https://arxiv.org/pdf/2411.14405
  • 項目地址:https://github.com/AIDC-AI/Marco-o1

雖然 o1 模型在 AIME 和 CodeForces 等測試中都展示了強(qiáng)大的推理能力,但 Marco-o1 的目標(biāo)是超越結(jié)構(gòu)化挑戰(zhàn),實現(xiàn)跨多個領(lǐng)域的泛化,特別是在那些沒有嚴(yán)格評估指標(biāo)的領(lǐng)域。通過集成諸如思維鏈 (CoT) 微調(diào)、蒙特卡洛樹搜索 (MCTS) 和推理動作策略等技術(shù)來實現(xiàn)的,Marco-o1 能夠更有效地處理復(fù)雜的問題解決任務(wù)。

通過微調(diào) Qwen2-7B-Instruct 與過濾后的 Open-o1 CoT 數(shù)據(jù)集 、Marco-o1 CoT 數(shù)據(jù)集和 Marco-o1 指令數(shù)據(jù)集的組合,Marco-o1 提高了對復(fù)雜任務(wù)的處理能力。

  • Open-o1 CoT 數(shù)據(jù)集(已過濾):研究者通過應(yīng)用啟發(fā)式和質(zhì)量過濾過程完善了 Open-o1 項目的 CoT 數(shù)據(jù)集,這一改進(jìn)使模型能夠有效地采用結(jié)構(gòu)化推理模式。
  • Marco-o1 CoT 數(shù)據(jù)集(合成):研究者使用 MCTS 生成了 Marco-o1 CoT 數(shù)據(jù)集,這有助于制定復(fù)雜的推理路徑,進(jìn)一步增強(qiáng)了模型的推理能力。
  • Marco 指令數(shù)據(jù)集:認(rèn)識到強(qiáng)大的指令遵循能力在執(zhí)行復(fù)雜任務(wù)中的關(guān)鍵作用,研究者整合了一組指令遵循數(shù)據(jù)。這種整合確保了模型能夠勝任各種任務(wù),在保持其普遍有效性的同時顯著增強(qiáng)其推理能力。

圖片

結(jié)果顯示,Marco-o1 在 MGSM(英文)數(shù)據(jù)集上的準(zhǔn)確率提高了 6.17%,在 MGSM(中文)數(shù)據(jù)集上的準(zhǔn)確率提高了 5.60%,展示了更強(qiáng)的推理能力。

在翻譯任務(wù)中,實驗還證明 Marco-o1 在翻譯俚語表達(dá)方面表現(xiàn)出色。例如,該模型正確地將中文中字面意思為「這只鞋給人一種踩屎感」的俗語翻譯成了英文「This shoe has a comfortable sole」(這只鞋的鞋底很舒服),證明了它對俗語細(xì)微差別的精準(zhǔn)把握。

基于 MCTS 的解空間擴(kuò)展

圖片

該研究將 LLM 與 MCTS 集成在一起,以增強(qiáng) Marco-o1 模型的推理能力:

  • 節(jié)點是推理狀態(tài):在 MCTS 框架中,每個節(jié)點代表解決問題過程的推理狀態(tài);
  • 動作作為 LLM 輸出:節(jié)點可能執(zhí)行的動作是 LLM 生成的輸出。這些輸出代表推理鏈中的潛在 step 或 mini-step;
  • Rollout 和獎勵計算:在 rollout 階段,LLM 繼續(xù)推理過程直至終止?fàn)顟B(tài);
  • 指導(dǎo) MCTS:獎勵分?jǐn)?shù) R 用于評估和選擇 MCTS 中的有希望的路徑,從而有效地引導(dǎo)搜索走向更置信、更可靠的推理鏈。

此外,該研究通過計算置信度得分來獲得每個狀態(tài)的值。對于最終結(jié)果的每個 token t_i,作者通過將 softmax 函數(shù)應(yīng)用于其對數(shù)概率和前 5 個替代 token 的對數(shù)概率來計算其置信度得分。這由以下公式給出:

圖片

在獲得最終結(jié)果的所有 token 的置信度得分后,然后計算所有 token 的平均置信度得分,從而得出總獎勵得分:

圖片

此平均值作為獎勵信號,用于評估推理路徑的質(zhì)量。較高的 v 表示更置信且更準(zhǔn)確的推理路徑。

通過采用這種方法,該研究有效地擴(kuò)展了解空間,使模型能夠探索大量推理路徑并根據(jù)計算出的置信度分?jǐn)?shù)選擇最可能的路徑。

推理動作策略

動作選擇

該研究觀察到使用動作作為 MCTS 搜索的粒度相對粗糙,導(dǎo)致模型經(jīng)常忽略對解決復(fù)雜問題至關(guān)重要的細(xì)微推理路徑。

為了解決這個問題,該研究探索了 MCTS 搜索中的不同粒度級別。

最初,他們使用 step 作為搜索單位。

為了進(jìn)一步擴(kuò)展模型的搜索空間并增強(qiáng)其解決問題的能力,作者嘗試將這些 step 分成包含 64 或 32 個 token 較小的單元,稱為 mini-step。這種更加精細(xì)的粒度允許模型更詳細(xì)地探索推理路徑。

然而,雖然 token 級搜索在理論上提供了最大的靈活性和粒度,但由于需要大量的計算資源,以及設(shè)計這一級別的有效獎勵模型挑戰(zhàn)巨大,因此目前它是不切實際的。

實驗中,該研究在 MCTS 框架內(nèi)實施了以下策略:

Step 作為動作:允許模型生成完整的推理 step 作為動作。每個 MCTS 節(jié)點代表一個完整的思維或動作標(biāo)簽。這種方法可以實現(xiàn)有效的探索,但可能會錯過解決復(fù)雜問題所必需的更細(xì)粒度的推理路徑。

Mini-step 作為動作:使用 mini-step(32 或 64 個 token)作為動作。這種更細(xì)的粒度擴(kuò)展了解空間,并通過在搜索過程中考慮更細(xì)微的 step 來提高模型處理復(fù)雜推理任務(wù)的能力。通過在這個級別探索解空間,模型可以更好地找到可能被更大的動作單元忽略的正確答案。

思考后進(jìn)行反思

作者還引入了反思機(jī)制,通過在每個思考過程的末尾添加短語「Wait! Maybe I made some mistakes! I need to rethink from scratch。」 這提示模型自我反思并重新評估其推理步驟。實施這種反思機(jī)制已經(jīng)帶來了顯著的改進(jìn),特別是在原始模型最初無法正確解決的困難問題上。加上反思,這些具有挑戰(zhàn)性的問題大約有一半得到了正確的回答。

從自我批評的角度來看,這種方法使模型能夠充當(dāng)自己的批評者,識別其推理中的潛在錯誤。通過明確地提示模型質(zhì)疑其初步結(jié)論,獎勵模型重新表達(dá)和完善其思維過程。這種自我批評機(jī)制利用了模型檢測自身輸出中的不一致性或錯誤的能力,從而得到更準(zhǔn)確、更可靠的解決方案。反思步驟充當(dāng)了一個內(nèi)部反饋循環(huán),增強(qiáng)了模型在沒有外部干預(yù)的情況下自我糾正的能力。 

實驗及結(jié)果

作者基于 Qwen2-7B-Instruct,并在訓(xùn)練數(shù)據(jù)上進(jìn)行了 SFT,得到 Marco-o1-CoT。此外,作者在 MCTS(蒙特卡羅樹搜索)框架中使用了 Marco-o1-CoT,通過動作來區(qū)分: 

  • Marco-o1-MCTS (step):使用每個推理 step 作為一個動作(step);
  • Marco-o1-MCTS (mini-step of 64 tokens):使用 64 個 token 的 mini-step 作為一個動作(64 個 token);
  • Marco-o1-MCTS (mini-step of 32 tokens):使用 32 個 token 的 mini-step 作為一個動作(32 個 token)。

測試過程中,每個模型都使用了 CoT 提示來確保推理過程的一致性。

結(jié)果表明:在 MGSM-en 數(shù)據(jù)集中,Marco-o1-CoT 比 Qwen2-7B-Instruct 表現(xiàn)優(yōu)異,如圖 4 所示,這是由于使用了英文 CoT 數(shù)據(jù)進(jìn)行了微調(diào)。然而,在 MGSM-zh 數(shù)據(jù)集中,Marco-o1-CoT 的表現(xiàn)與 Qwen2-7B-Instruct 相比有所下降。這種下降歸因于用于微調(diào)的 CoT 數(shù)據(jù)是英文的,這可能無法有效地遷移到中文數(shù)據(jù)中。

圖片

這三個經(jīng)過 MCTS 增強(qiáng)的模型表現(xiàn)出比 Marco-o1-CoT 更好的改進(jìn),表明融入 MCTS 有助于擴(kuò)展模型的解空間,并增加獲得正確答案的概率。然而,由于本文使用置信度得分作為獎勵,樹搜索結(jié)果顯示出顯著的隨機(jī)性。

在 MGSM-en 中,step 作為動作策略表現(xiàn)最好,而在 MGSM-zh 中,mini-step 作為動作(32)策略產(chǎn)生了最高的準(zhǔn)確性。目前,如圖 4、5 和 6 所示,作者還無法得出哪種動作策略更優(yōu)的明確結(jié)論。但研究者相信,隨著獎勵變得更準(zhǔn)確,MCTS 提供的更大解空間將展現(xiàn)出更大的潛力。 

圖片

圖片

如圖 7、8 和 9 所示,Marco-o1 在處理復(fù)雜翻譯任務(wù)(尤其是口語和俚語)上具有高級理解和推理能力,優(yōu)于 Google 翻譯等標(biāo)準(zhǔn)翻譯工具。

圖片

圖片


圖片

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-09-24 11:01:03

2024-11-07 15:40:00

2024-10-17 14:10:00

模型訓(xùn)練

2024-09-29 13:07:16

2024-11-05 14:20:00

AI模型

2024-10-18 13:01:24

2024-09-18 09:17:00

OpenAI模型開源

2024-11-29 13:57:38

2025-01-20 09:28:00

AI工具模型

2024-11-04 09:00:00

2024-12-06 11:44:48

Pro模式AI人工智能

2025-01-08 13:08:55

2024-11-25 15:50:00

模型訓(xùn)練

2024-11-21 14:00:00

模型AI

2025-03-10 08:10:00

AI研究安全

2025-01-21 13:15:15

2024-12-17 12:30:00

2025-01-21 08:00:00

2024-12-06 08:36:31

點贊
收藏

51CTO技術(shù)棧公眾號