自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

被神化的o1模型，規(guī)劃能力到底如何？

大語言模型論文跟蹤

發(fā)布于 2024-9-27 13:15

瀏覽

0收藏

最近OpenAI推出了新的o1模型，與之前類似檢索器的大語言模型（LLM）不同，o1被稱為推理器模型。o1模型可能是類似于 AlphaGo 的強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng)，只不過所生成和評(píng)估的“動(dòng)作”是思維鏈。

依據(jù) OpenAI 發(fā)布該模型的博客：o1模型與過去的大語言模型有所區(qū)別，是一個(gè)新系列的大型推理模型，代表了人工智能能力的新水平。所以，OpenAI將模型的計(jì)數(shù)器重置為1，命名為OpenAI o1模型。

在o1-preview 和 o1-mini 發(fā)布了一周后，作者在 PlanBench 測(cè)試數(shù)據(jù)集上進(jìn)行了性能測(cè)試。

PlanBench 是一套專門用于評(píng)估LLM規(guī)劃能力的工具套件。

那么，o1系列模型在規(guī)劃能力上到底表現(xiàn)如何？

1. 傳統(tǒng) LLM 在PlanBench上表現(xiàn)如何？

對(duì)于傳統(tǒng)大型語言模型（通過 RLHF 進(jìn)行微調(diào)的大規(guī)模 Transformer 模型），他們?cè)?PlanBench 上的表現(xiàn)都差強(qiáng)人意，這表明依靠近似檢索通常無法穩(wěn)妥地解決規(guī)劃問題。

被神化的o1模型，規(guī)劃能力到底如何？-AI.x社區(qū) 圖片

上表展示了前一代的LLM在Blocksworld和Mystery Blocksworld數(shù)據(jù)集上的表現(xiàn)。

在 Blocksworld 靜態(tài)數(shù)據(jù)集上，表現(xiàn)最好的模型是 LLaMA 3.1 405B，準(zhǔn)確率達(dá)到了62.6%。

但是在Mystery Blocksworld數(shù)據(jù)集上（該數(shù)據(jù)集為600個(gè)語義相同但句法混淆的測(cè)試數(shù)據(jù)），沒有任何一個(gè)模型能達(dá)到5%的準(zhǔn)確率。

2. o1系列模型表現(xiàn)如何？

傳統(tǒng)LLM是通過類似【檢索】的方式生成結(jié)果的，盡管在【System 1】類任務(wù)重表現(xiàn)出色，但是在更加偏向于【System 2】的任務(wù)上，比如：規(guī)劃任務(wù)，表現(xiàn)一般。

據(jù)論文作者所知，o1模型是一個(gè)底層 LLM（很可能是經(jīng)過修改的 GPT-4o）整合進(jìn)了一個(gè)經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的系統(tǒng)，該系統(tǒng)引導(dǎo)著私有思維鏈推理軌跡的創(chuàng)建、管理與最終選擇。目前大家能了解到的細(xì)節(jié)仍然不多，所以只能對(duì)其確切機(jī)制進(jìn)行推測(cè)。

本篇論文作者猜測(cè) o1 與 LLM 主要有兩點(diǎn)不同：

? 1、增加了一個(gè)強(qiáng)化學(xué)習(xí)的預(yù)訓(xùn)練階段（可能是為了從海量合成數(shù)據(jù)中學(xué)習(xí)不同思維鏈的q值）

? 2、引入了一種新的自適應(yīng)推理過程（或許在選擇特定的思維鏈之前，它會(huì)通過類似于展開的方式進(jìn)一步提煉已學(xué)習(xí)的q值）。

2.1 在靜態(tài)測(cè)試數(shù)據(jù)集上評(píng)估o1

在靜態(tài)的 PlanBench 測(cè)試集上對(duì) o1-preview 和 o1-mini 進(jìn)行了測(cè)試。

被神化的o1模型，規(guī)劃能力到底如何？-AI.x社區(qū) 圖片

? 在 Blocksworld 測(cè)試數(shù)據(jù)集中，o1-preview 的表現(xiàn)遠(yuǎn)超任何 LLM，正確回答了這些實(shí)例中的 97.8％。

? 在 Mystery Blocksworld 中，o1-preview 未能保持這樣的高性能，但仍遠(yuǎn)超以往所有模型，正確回答了 52.8％。

? 在隨機(jī) Mystery Blocksworld 中，盡管準(zhǔn)確率有所下降，仍有37.3%的問題得到了正確解答，這與之前模型測(cè)試時(shí)的零通過率形成了鮮明對(duì)比。

隨機(jī) Mystery Blocksworld是為驗(yàn)證數(shù)據(jù)污染是否破壞了效果，采用徹底隨機(jī)的字符串創(chuàng)建了新的混淆，并以語義對(duì)等且明確無誤的PDDL格式重新定義了問題域和具體問題的描述。

2.2 隨著問題規(guī)模增加，o1表現(xiàn)如何？

標(biāo)準(zhǔn)的 LLM 思維鏈提示方法較為脆弱，無法隨著問題規(guī)模穩(wěn)定擴(kuò)展，也難以誘導(dǎo)通用的算法程序遵循。

被神化的o1模型，規(guī)劃能力到底如何？-AI.x社區(qū) 圖片

在一組 110 個(gè)更大的 Blocksworld 問題上對(duì)模型進(jìn)行了測(cè)試。這組問題的長(zhǎng)度范圍在 6 到 20 個(gè)塊之間，并且需要 20 到 40 步的最優(yōu)計(jì)劃。

沒有任何混淆的情況下，性能從之前報(bào)告的 97.8％迅速滑落。實(shí)際上，在這 110 個(gè)實(shí)例中，o1-preview 僅能處理 23.63％，并且大部分的準(zhǔn)確性來自于正確解決需要少于 28 步的問題。雖然這些模型總體令人贊嘆，但這表明它們的性能遠(yuǎn)非穩(wěn)健。

2.3 在無解問題上的性能

在真實(shí)場(chǎng)景中的一個(gè)例子是網(wǎng)絡(luò)漏洞分析，希望證明對(duì)于特定系統(tǒng)不存在攻擊計(jì)劃。LLM 一直難以認(rèn)識(shí)到某些問題無法解決，而是自信地編造無意義的答案。

o1 宣稱已經(jīng)開始克服這個(gè)問題，并且現(xiàn)在能夠準(zhǔn)確地識(shí)別不可解的問題。

為了系統(tǒng)地測(cè)試這一點(diǎn)，通過向原始的 3 到 5 個(gè)塊測(cè)試集中的每個(gè)實(shí)例的目標(biāo)狀態(tài)添加一個(gè)“on(x,y)”類型的合取，使目標(biāo)無法達(dá)成，從而修改了 100 個(gè)實(shí)例。

被神化的o1模型，規(guī)劃能力到底如何？-AI.x社區(qū) 圖片

? 在 Blocksworld 上：

只有 27％的所有實(shí)例被 o1 正確且明確地識(shí)別為不可解。

在所有情況的 19％中，模型返回一個(gè)點(diǎn)或某種“[空計(jì)劃]”標(biāo)記，沒有任何關(guān)于不可解性的解釋或指示。
這些應(yīng)該被認(rèn)為是不正確的，因?yàn)椤翱沼?jì)劃”只有在目標(biāo)已經(jīng)達(dá)成時(shí)才是正確的答案。

在其余 54％的情況下，模型生成了完整的（因此不可能且不正確！
）計(jì)劃。

? 在隨機(jī) Mystery Blocksworld 上，這些數(shù)字更糟：

? 16％的情況被正確識(shí)別為不可解，5％返回空計(jì)劃，其余 79％用完整的（不可能或不滿足目標(biāo)的）計(jì)劃作答。

因此，不可解的實(shí)例仍然是 LRM 的難題。此外，有時(shí)能夠正確注意到不可能的計(jì)劃是有代價(jià)的：現(xiàn)在模型有時(shí)會(huì)錯(cuò)誤地聲稱可解的問題實(shí)際上是不可解的。

2.4 成本收益的權(quán)衡

盡管o1-preview可能比LLMs提供更高的精準(zhǔn)度，但它任然不能100%確保規(guī)劃的正確性，其成本效益也尚不明確。

不同于以往模型僅基于輸入和輸出令牌數(shù)量計(jì)費(fèi)，o1的每次調(diào)用費(fèi)用還包括基于其使用的“推理令牌”數(shù)量的附加費(fèi)——這些作為推理過程一部分生成的令牌并不向用戶展示，并且以更高的輸出令牌費(fèi)率計(jì)費(fèi)。

目前，用戶無法控制生成的推理令牌數(shù)量。自這些模型推出不到一周，論文作者在這項(xiàng)基準(zhǔn)測(cè)試的o1模型實(shí)驗(yàn)上已經(jīng)累積了1897.55美元的費(fèi)用！

像Fast Downward這樣的經(jīng)典規(guī)劃器在數(shù)據(jù)集上實(shí)現(xiàn)了100%的準(zhǔn)確率，僅用了一小部分的時(shí)間、計(jì)算和成本。

在個(gè)人計(jì)算機(jī)上運(yùn)行Fast Downward基本上是免費(fèi)的，平均每次實(shí)例0.265秒，比平均o1時(shí)鐘時(shí)間快了幾個(gè)數(shù)量級(jí)。結(jié)果也是可預(yù)測(cè)的，并且可以直接擴(kuò)展到更難的實(shí)例。

普通的LLMs通常非常擅長(zhǎng)在格式之間轉(zhuǎn)換問題，并且可以與經(jīng)典規(guī)劃器一起使用，成本僅為L(zhǎng)RMs的一小部分。

對(duì)于沒有簡(jiǎn)單的PDDL領(lǐng)域和實(shí)例規(guī)范的問題，LLM-Modulo系統(tǒng)可能是一個(gè)更安全、更便宜的方法：在循環(huán)中運(yùn)行一個(gè)更小、更快的LLM與一個(gè)可靠的驗(yàn)證器一起，以便組合系統(tǒng)只輸出保證正確的解決方案。

這種LLM-Modulo方法已經(jīng)可以在原始Blocksworld測(cè)試集的一個(gè)子集上實(shí)現(xiàn)82%的準(zhǔn)確率，以及在物流領(lǐng)域?qū)崿F(xiàn)70%的準(zhǔn)確率。

這些后兩種方法提供的準(zhǔn)確性保證在像o1這樣的LRMs中嚴(yán)重缺乏。如果一個(gè)通用推理系統(tǒng)繼續(xù)自信地制定錯(cuò)誤的計(jì)劃，那么它就不能被部署在安全關(guān)鍵和非遍歷領(lǐng)域。

o1是一個(gè)完全的黑匣子系統(tǒng)，甚至比以前的模型更是如此，OpenAI決定不僅要保密架構(gòu)和隱藏推理痕跡，而且要警告甚至禁止任何試圖理解它們內(nèi)部情況的人，這使得可解釋性幾乎是不可能的，并且降低了對(duì)系統(tǒng)整體的信任。

? 論文原文: https://arxiv.org/abs/2409.13373

本文轉(zhuǎn)載自??大語言模型論文跟蹤??，作者：HuggingAGI ????

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

剛剛，OpenAI發(fā)布史上最強(qiáng)模型-o1，推理能力超人類博士！

Aceryt ? 2280瀏覽 ? 0回復(fù)
OpenAI發(fā)布突破性AI模型o1系列，推理能力大幅躍升重塑行業(yè)格局

芝士AI吃魚 ? 2425瀏覽 ? 0回復(fù)
OpenAI o1模型推理能力大幅提升的背后：重復(fù)采樣如何提升AI推理能力

Syrupup ? 3337瀏覽 ? 0回復(fù)
OpenAI o1很強(qiáng)，也能被玩壞！

PaperAgent ? 2195瀏覽 ? 0回復(fù)
OpenAI發(fā)布新模型：o1系列模型，更像理科生的模型

大語言模型論文跟蹤 ? 3858瀏覽 ? 0回復(fù)
使用 OpenAI o1 的五種方法「詳細(xì)指南」

51CTO技術(shù)棧 ? 5164瀏覽 ? 0回復(fù)
國(guó)內(nèi)大模型廠商是如何看待突然的OpenAI o1？跟不跟是個(gè)問題！

Syrupup ? 2112瀏覽 ? 0回復(fù)
OpenAI o1推理模型基礎(chǔ)入門

51CTO內(nèi)容精選 ? 2147瀏覽 ? 0回復(fù)
草莓OpenAI o1的規(guī)劃能力怎么樣？泰斗Subbarao Kambhampati給你答案！

AIGC最前線 ? 2362瀏覽 ? 0回復(fù)
o1快慢思考的風(fēng)又吹到了Agent！

PaperAgent ? 2646瀏覽 ? 0回復(fù)
被GPT4o的讀圖能力震撼到了

ceesoft ? 1869瀏覽 ? 0回復(fù)
DeepSeek首發(fā)國(guó)產(chǎn)類o1模型！人人可以免費(fèi)使用！

51CTO技術(shù)棧 ? 3566瀏覽 ? 0回復(fù)
阿里重磅開源QwQ-32B：自我思考、糾正，數(shù)學(xué)能力擊敗o1模型

Aceryt ? 7252瀏覽 ? 0回復(fù)
o1的規(guī)劃能力如何？LRM是未來嗎？

探索AGI ? 1741瀏覽 ? 0回復(fù)
阿里發(fā)布類o1模型QWQ，可自我反思糾錯(cuò)，實(shí)測(cè)數(shù)學(xué)推理遠(yuǎn)超o1、DS-R1，人人免費(fèi)

51CTO技術(shù)棧 ? 2468瀏覽 ? 0回復(fù)
OpenAI o1 模型到來后，談?wù)勌崾驹~工程的未來

Baihai_IDP ? 1955瀏覽 ? 0回復(fù)
被 DeepSeek 帶火的蒸餾到底是啥

芝士AI吃魚 ? 4920瀏覽 ? 0回復(fù)
DeepSeek R1 Vs OpenAI o1！全球頂級(jí)推理模型訓(xùn)練技術(shù)對(duì)比大解密！

51CTO技術(shù)棧 ? 4688瀏覽 ? 0回復(fù)
o1模型醫(yī)學(xué)推理驚人，超過人類醫(yī)生

Aceryt ? 1517瀏覽 ? 0回復(fù)

大語言模型論文跟蹤

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

微軟亞洲研究院打造最強(qiáng)視覺元素定位模型 8天前發(fā)布
Hybrid-RRF：動(dòng)態(tài)權(quán)重混合檢索RAG方案 8天前發(fā)布

熱門推薦

Hybrid-RRF：動(dòng)態(tài)權(quán)重混合檢索RAG方案 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：全市場(chǎng)都下跌了，這套LLM智能體選出的策略累計(jì)收益超50%，重點(diǎn)是代碼開源！

下一篇： KAG：RAG已經(jīng)不夠了，知識(shí)增強(qiáng)生成才是王道，提升樸素RAG一倍性能

社區(qū)精華內(nèi)容

目錄

<blockquote id="6iy6k"><i id="6iy6k"><video id="6iy6k"></video></i></blockquote>

<cite id="6iy6k"></cite>

^{<thead id="6iy6k"></thead>}

<cite id="6iy6k"></cite>