自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

解讀 Marco - o1：邁向開放式推理模型的探索與實踐

發(fā)布于 2024-11-27 15:04

瀏覽

0收藏

解讀 Marco - o1：邁向開放式推理模型的探索與實踐-AI.x社區(qū)

研究背景

? 研究問題：這篇文章要解決的問題是如何在大規(guī)模推理模型（LRM）中實現(xiàn)開放式推理，特別是在沒有明確標準和難以量化的獎勵的情況下。具體來說，研究了如何使o1模型能夠有效地泛化到?jīng)]有明確標準的更廣泛領(lǐng)域。

? 研究難點：該問題的研究難點包括：在沒有明確標準的情況下進行推理，獎勵的量化挑戰(zhàn)，以及如何在復(fù)雜現(xiàn)實世界問題解決任務(wù)中優(yōu)化模型的性能。

? 相關(guān)工作：該問題的研究相關(guān)工作包括OpenAI的o1模型，它在AIME和CodeForces等平臺上的出色表現(xiàn)。本文受到OpenAI o1的啟發(fā)，旨在進一步推動大型語言模型（LLM）在推理能力方面的邊界。

OpenAI推出的o1模型具有卓越的推理能力，在AIME和CodeForces等平臺上表現(xiàn)出色，超越了其他領(lǐng)先模型。受其啟發(fā)，Marco - o1旨在進一步突破界限，增強推理能力以應(yīng)對復(fù)雜的現(xiàn)實挑戰(zhàn)。Marco - o1借助思維鏈（CoT）微調(diào)、蒙特卡洛樹搜索（MCTS）、反思機制和創(chuàng)新推理策略，提升模型在復(fù)雜現(xiàn)實問題中的解決能力。

研究方法

這篇論文提出了Marco-o1模型，用于解決大規(guī)模推理模型中的開放式推理問題。具體來說，

解讀 Marco - o1：邁向開放式推理模型的探索與實踐-AI.x社區(qū)

1. Chain-of-Thought (CoT) Fine-Tuning：首先，使用過濾后的Open-O1 CoT數(shù)據(jù)集、Marco-o1 CoT數(shù)據(jù)集和Marco-o1指令數(shù)據(jù)集對Qwen2-7B-Instruct模型進行全參數(shù)微調(diào)。這些數(shù)據(jù)集幫助模型采用結(jié)構(gòu)化的推理模式。

2. Monte Carlo Tree Search (MCTS)：其次，將LLMs與MCTS集成，使用模型的輸出置信度來指導(dǎo)搜索并擴展解決方案空間。每個節(jié)點代表問題解決過程中的一個推理狀態(tài)，可能的動作是LLM生成的輸出。通過計算每個token的置信度分數(shù)來評估推理路徑的質(zhì)量。

解讀 Marco - o1：邁向開放式推理模型的探索與實踐-AI.x社區(qū)

3. Reasoning Action Strategy：此外，實現(xiàn)了新的推理動作策略和反思機制。包括在MCTS框架內(nèi)探索不同動作粒度（step和mini-step），并提示模型自我反思，從而顯著提高模型解決復(fù)雜問題的能力。

4. 翻譯任務(wù)應(yīng)用：首次探討了LRM在機器翻譯任務(wù)中的應(yīng)用，研究了多語言和翻譯領(lǐng)域的推理時間擴展規(guī)律。

Marco推理數(shù)據(jù)集

為增強Marco - o1模型的推理能力，采用監(jiān)督微調(diào)（SFT）策略，使用多種數(shù)據(jù)集，包括Open - O1 CoT數(shù)據(jù)集（經(jīng)過啟發(fā)式和質(zhì)量過濾）、Marco - o1 CoT數(shù)據(jù)集（通過MCTS生成）和Marco指令數(shù)據(jù)集，以提升模型的結(jié)構(gòu)化推理、復(fù)雜推理和指令執(zhí)行能力，總樣本數(shù)達60,266個。

數(shù)據(jù)集	樣本數(shù)量
Open - O1 CoT數(shù)據(jù)集（過濾后）	45,125
Marco - o1 CoT數(shù)據(jù)集（合成）	10,000
Marco指令數(shù)據(jù)集	5,141
總計	60,266

實驗設(shè)置與結(jié)果

4.1 實驗設(shè)置

基于Qwen2 - 7B - Instruct模型，使用訓(xùn)練數(shù)據(jù)進行監(jiān)督微調(diào)創(chuàng)建Marco - o1 - CoT，在MCTS樹搜索框架內(nèi)進行實驗，包括“Marco - o1 - MCTS（step）”“Marco - o1 - MCTS（mini-step of 64 tokens）”“Marco - o1 - MCTS（mini-step of 32 tokens）”三種配置，并在MGSM數(shù)據(jù)集的英文和中文子集上進行測試，每個模型使用CoT提示以確保推理過程一致。

4.2 主要結(jié)果

在MGSM - en數(shù)據(jù)集中，Marco - o1 - CoT相比Qwen2 - 7B - Instruct有優(yōu)勢，但在MGSM - zh數(shù)據(jù)集中，由于微調(diào)數(shù)據(jù)為英文，性能有所下降。三種MCTS增強模型均比Marco - o1 - CoT有改進，但樹搜索結(jié)果有隨機性，目前無法確定最佳行動策略，不過MCTS在較低猜測次數(shù)下（Test@1）已顯示出優(yōu)勢。

模型	MGSM - En（Acc.）	MGSM - Zh（Acc.）
Qwen2 - 7B - Instruct	84.00%	76.80%
Marco - o1 - CoT	85.60%	71.20%
Marco - o1 - MCTS（step）	90.40%	80.00%
Marco - o1 - MCTS（mini-step of 64 tokens）	88.40%	80.40%
Marco - o1 - MCTS（mini-step of 32 tokens）	87.60%	82.40%

模型	MGSM - En	MGSM - Zh
	Test@1 Acc.	Test@8 Acc.
Qwen2 - 7B - Instruct	84.00%	89.60%
Marco - o1 - CoT	85.60%	97.60%
Marco - o1 - MCTS（step）	90.40%	99.20%
Marco - o1 - MCTS（mini-step of 64 tokens）	88.40%	98.40%
Marco - o1 - MCTS（mini-step of 32 tokens）	87.60%	98.80%

翻譯任務(wù)案例研究

在翻譯任務(wù)中，Marco - o1在處理口語和俚語表達時表現(xiàn)出色，能夠準確理解上下文和細微差別，提供比谷歌翻譯更準確、自然的翻譯，展示了其在復(fù)雜翻譯任務(wù)中的高級理解和推理能力。

翻譯任務(wù)案例對比（中文到英文）

案例一

?原文：這個鞋擁有踩屎感，很舒服，推薦購買

?Marco - o1翻譯：This shoe has a comfortable sole. It is very comfortable and recommended for purchase.

?谷歌翻譯：This shoe has a feeling of stepping on poop, very comfortable, recommended to buy.

案例二

?原文：美到我心巴上了，上身真的很韓，穿上軟乎乎毛茸茸的厚度也剛好，里面搭配了打底衫，小特別且日常的穿搭

?Marco - o1翻譯：It's so beautiful that it's captivating, the upper part has a distinctly Korean style, the soft and fluffy material is perfectly thick, and it's complemented by a base layer, creating a unique and everyday - wear outfit.

?谷歌翻譯：It's so beautiful that I'm attracted to it. The upper body is really Korean. It's soft and fluffy and the thickness is just right. It's paired with a base shirt. It's a little special and daily outfit.

案例三

?原文：太太太太好看了！而且價格這么便宜，超級板正不卷邊，都買它，買它

?Marco - o1翻譯：It's so beautiful! And it's so cheap, super straight and doesn't curl. Buy it, buy it!

?谷歌翻譯：Madam, madam, you are so beautiful! And the price is so cheap, the super board is not curled, everyone buys it, buys it.

通過這些案例可以看出，Marco - o1在處理口語化、具有文化特色的表達時，能夠更好地理解語義并給出更符合語境的翻譯。

本文轉(zhuǎn)載自 ??AI論文解讀??，作者：柏企

標簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

剛剛，OpenAI發(fā)布史上最強模型-o1，推理能力超人類博士！

Aceryt ? 2280瀏覽 ? 0回復(fù)
OpenAI o1模型推理能力大幅提升的背后：重復(fù)采樣如何提升AI推理能力

Syrupup ? 3337瀏覽 ? 0回復(fù)
OpenAI o1推理模型基礎(chǔ)入門

51CTO內(nèi)容精選 ? 2147瀏覽 ? 0回復(fù)
o1推理擴展的風(fēng)吹到了RAG，性能飆升58.9%！

PaperAgent ? 2329瀏覽 ? 0回復(fù)
OpenAI o1：用內(nèi)部思維鏈進行復(fù)雜推理

shizhi02 ? 2282瀏覽 ? 0回復(fù)
向o1看齊，Google開源RAG推理擴展，提升近60%

NLP前沿1 ? 1816瀏覽 ? 0回復(fù)
阿里發(fā)布類o1模型QWQ，可自我反思糾錯，實測數(shù)學(xué)推理遠超o1、DS-R1，人人免費

51CTO技術(shù)棧 ? 2468瀏覽 ? 0回復(fù)
分布式框架下的數(shù)據(jù)處理與模型推理實踐

zhcs333 ? 2732瀏覽 ? 0回復(fù)
大語言模型o1慢思考推理系統(tǒng)的破局之路：模仿、探索與自我提升的深度揭秘！

十一月雨_55 ? 3453瀏覽 ? 0回復(fù)
清華&人大：search-o1 讓推理模型具有主動能力

鴻煊的學(xué)習(xí)筆記 ? 1770瀏覽 ? 0回復(fù)
Kimi深夜炸場：滿血版多模態(tài)o1級推理模型！OpenAI外全球首次！Jim Fan：同天兩款國產(chǎn)o1絕對不是巧合！

51CTO技術(shù)棧 ? 1668瀏覽 ? 0回復(fù)
大推理模型DeepSeek-R1深度解讀：成本降低95%，推動語言模型推理效率新高度

風(fēng)云2002_1 ? 1.1w瀏覽 ? 0回復(fù)
最簡單的推理擴展方案，效果媲美o1！

NLP前沿1 ? 1448瀏覽 ? 0回復(fù)
DeepSeek R1 Vs OpenAI o1！全球頂級推理模型訓(xùn)練技術(shù)對比大解密！

51CTO技術(shù)棧 ? 4688瀏覽 ? 0回復(fù)
外國專家解讀DeepSeek：預(yù)算有限，如何復(fù)制R1推理模型？純強化學(xué)習(xí)不現(xiàn)實！

51CTO技術(shù)棧 ? 1534瀏覽 ? 0回復(fù)
o1模型醫(yī)學(xué)推理驚人，超過人類醫(yī)生

Aceryt ? 1517瀏覽 ? 0回復(fù)
S1-Bench：評估大型推理模型中的系統(tǒng) 1 思維

芝士AI吃魚 ? 478瀏覽 ? 0回復(fù)
國內(nèi)首個混合推理模型，235B擊敗R1、o1!源神火力全開

51CTO技術(shù)棧 ? 317瀏覽 ? 0回復(fù)
OpenING：用于評估開放式交錯圖文生成的綜合基準

AIRoobt ? 165瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

深度剖析：為何擴散模型會成為語言模型的未來？ 2025-03-14 07:45:15發(fā)布
一文讀懂 RAG-Gym：用過程監(jiān)督優(yōu)化推理與搜索智能體 2025-03-04 10:43:21發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： IdentifyMe：一個具有挑戰(zhàn)性的長文本指代消解基準測試

下一篇：清華團隊提出精確學(xué)習(xí)新方法，提升AI泛化能力

社區(qū)精華內(nèi)容

目錄