自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="gadxr"></blockquote>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

草莓OpenAI o1的規(guī)劃能力怎么樣？泰斗Subbarao Kambhampati給你答案！原創(chuàng)

發(fā)布于 2024-10-8 11:08

瀏覽

0收藏

一、引言

OpenAI發(fā)布的草莓o1模型為評估大語言模型（LLMs）在規(guī)劃和調(diào)度基準上的進展提供了新的機會，但是它的規(guī)劃能力到底怎么樣呢？近期，規(guī)劃領域泰斗Subbarao Kambhampati教授領銜的論文對其進行了研究，旨在全面評估o1在既定規(guī)劃和調(diào)度基準上的性能，并展示如何通過將大型推理模型（Large Reasoning Model, LRM）嵌入到帶有可靠驗證器的循環(huán)中，為其輸出提供正確性保證并提高性能。

Subbarao Kambhampati一直是經(jīng)典AI的代表人物，在規(guī)劃領域造詣很深。熟悉他的讀者一定知道，Subbarao Kambhampati對大語言模型一直持保守態(tài)度。關于Subbarao Kambhampati教授的工作，我們前兩天曾經(jīng)報道過哦！感興趣的讀者可以參考《啥？！AAAI前主席Subbarao Kambhampati告訴你：大模型不能planning！》

本文評估了兩種大型推理模型（LRM）o1-preview和o1-mini在規(guī)劃和調(diào)度基準上的能力。結果表明，o1在某些方面優(yōu)于基于自回歸的大語言模型（LLMs），但推理成本較高，且無法保證生成結果的正確性。通過將o1模型與外部驗證器結合，可以保證組合系統(tǒng)輸出的正確性，同時進一步提高性能。

草莓OpenAI o1的規(guī)劃能力怎么樣？泰斗Subbarao Kambhampati給你答案！-AI.x社區(qū)

二、背景和相關工作

（一）規(guī)劃領域

LLM在規(guī)劃任務上表現(xiàn)出一定的局限性，即使在簡單的領域也可能失敗。本文關注經(jīng)典規(guī)劃問題，使用PlanBench基準測試，并在Blocksworld和Mystery Blocksworld等領域進行測試。

（二）調(diào)度領域

調(diào)度問題主要圍繞資源分配，本文在Natural Plan、TravelPlanner和graph coloring等調(diào)度基準上評估o1，這些基準涵蓋了旅行規(guī)劃、日歷調(diào)度和會議規(guī)劃等多個方面。

草莓OpenAI o1的規(guī)劃能力怎么樣？泰斗Subbarao Kambhampati給你答案！-AI.x社區(qū)

表1：不同系列的大型語言模型在Blocksworld和Mystery Blocksworld領域的600個實例上的性能，使用了零次提示和一次提示。同類最佳準確率用粗體顯示。

三、從近似檢索到近似推理

（一）o1的架構

o1結合了底層的LLM和類似System 2的能力，可能經(jīng)過強化學習預訓練和自適應推理過程，使其在本質(zhì)上與之前的LLM有很大不同。

（二）規(guī)劃能力評估

PlanBench測試

在原始600實例PlanBench測試集上，o1-preview在Blocksworld實例中正確回答率高達97.8%，遠超LLM，但在Mystery Blocksworld上性能有所下降。
隨著問題規(guī)模增加，性能會快速下降，在110個更難的Blocksworld問題上，o1-preview僅能達到23.63%的準確率。
在識別不可解問題方面，o1雖然有一定能力，但仍存在誤判情況，有時會錯誤地聲稱可解問題不可解，或者為不可解問題提供錯誤的計劃。

擴展到更難的領域

在Sokoban領域，o1-preview和o1-mini分別能正確回答12.7%和10.9%的實例，而Llama3.1 - 405B在這些實例上全部答錯。

草莓OpenAI o1的規(guī)劃能力怎么樣？泰斗Subbarao Kambhampati給你答案！-AI.x社區(qū)

圖1：這些示例是關于Mystery Blocksworld的。Fast Downward是一種與領域無關的規(guī)劃器，它能近乎即時地解決所有給定實例，并保證完美的準確性。大語言模型（LLMs）即使在最小的實例上也很困難。測試的兩種大型推理模型（LRMs），o1 - preview和o1 - mini，效果驚人，但這種性能仍然不夠穩(wěn)健，并且會隨著長度的增加而迅速下降。

（三）調(diào)度能力評估

Graph Coloring

o1-mini在原始220個圖著色問題上解決了96%，超過了GPT - 4的16%。在擴展的更難的圖著色測試集上，o1-mini解決了50%，o1-preview解決了64%。

Travel Planning

在TravelPlanner的180個實例驗證集中，o1-preview解決了10%的實例，略高于GPT - 4 - turbo的4.4%，o1-mini解決了1.67%的實例。

Natural Plan

在Natural Plan的三個領域中，o1-mini在日歷調(diào)度領域解決了94%的實例，但在旅行規(guī)劃和會議規(guī)劃領域表現(xiàn)不佳。

草莓OpenAI o1的規(guī)劃能力怎么樣？泰斗Subbarao Kambhampati給你答案！-AI.x社區(qū)

表2：OpenAI的o1系列大型推理模型和Fast Downward（F.D.）在Blocksworld、Mystery Blocksworld和Randomized Mystery Blocksworld領域的600個實例以及Logistics和Randomized Logistics領域的200個實例上的性能和平均耗時

四、準確性/成本權衡和保證

（一）成本比較

LRM的成本顯著高于LLM，o1-preview和o1-mini每100個實例的成本分別為和3.69，而一些LLM每100個實例的成本在到1.80之間。

（二）權衡分析

雖然o1-preview在準確性上可能高于LLM，但它無法提供正確性保證，且成本效益不明確。相比之下，古典規(guī)劃器如Fast Downward在成本、時間和保證正確性方面具有優(yōu)勢，而LLM - Modulo系統(tǒng)可以在較低成本下提供保證的解決方案。

五、LRM - Modulo提升o1并提供保證

（一）方法介紹

本文提出通過外部驗證器增強o1，將其集成到LRM - Modulo系統(tǒng)中，以提高整體性能并提供輸出保證。

（二）實驗結果

在五個最難的測試集上進行測試，結果表明即使迭代次數(shù)有限，性能也有顯著提升。例如，在更難的Blocksworld問題上，o1-preview結合系統(tǒng)的準確率達到98.2%，在Sokoban領域從12.7%提升到43.6%。

六、結論

本文評估了o1-preview和o1-mini在規(guī)劃和調(diào)度基準上的性能。o1在一些方面取得了進展，但在處理長問題和確定問題可解性方面存在不足。同時討論了準確性和效率的權衡，并展示了LRM - Modulo方法可應用于LRM以提高性能和提供保證。未來的評估需要關注這些因素，以保持其意義和相關性。

本文轉(zhuǎn)載自公眾號AIGC最前線作者：實習小畢?

原文鏈接：??https://mp.weixin.qq.com/s/HjAkw-0SUUH0WccBDgbr_g???

?著作權歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

已于2024-10-8 11:08:18修改

贊

收藏

回復

舉報

回復

相關推薦

AAAI前主席Subbarao Kambhampati：LLM-Modulo框架助力大模型完成規(guī)劃任務！

AIGC最前線 ? 2598瀏覽 ? 0回復
剛剛，OpenAI發(fā)布史上最強模型-o1，推理能力超人類博士！

Aceryt ? 2284瀏覽 ? 0回復
OpenAI發(fā)布突破性AI模型o1系列，推理能力大幅躍升重塑行業(yè)格局

芝士AI吃魚 ? 2427瀏覽 ? 0回復
OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實測：有坑，很難說

51CTO技術棧 ? 2902瀏覽 ? 0回復
OpenAI o1模型推理能力大幅提升的背后：重復采樣如何提升AI推理能力

Syrupup ? 3343瀏覽 ? 0回復
OpenAI o1很強，也能被玩壞！

PaperAgent ? 2206瀏覽 ? 0回復
OpenAI發(fā)布新模型：o1系列模型，更像理科生的模型

大語言模型論文跟蹤 ? 3868瀏覽 ? 0回復
從openAI最新模型GPT-o1再談思維鏈(Cot)技術，大模型該怎么提升其邏輯推理能力？

AI探索時代 ? 6443瀏覽 ? 0回復
使用 OpenAI o1 的五種方法「詳細指南」

51CTO技術棧 ? 5179瀏覽 ? 0回復
國內(nèi)大模型廠商是如何看待突然的OpenAI o1？跟不跟是個問題！

Syrupup ? 2118瀏覽 ? 0回復
OpenAI o1推理模型基礎入門

51CTO內(nèi)容精選 ? 2152瀏覽 ? 0回復
被神化的o1模型，規(guī)劃能力到底如何？

大語言模型論文跟蹤 ? 2631瀏覽 ? 0回復
開源社區(qū)離Openai o1越來越近~

NLP前沿1 ? 2242瀏覽 ? 0回復
OpenAI o1：用內(nèi)部思維鏈進行復雜推理

shizhi02 ? 2293瀏覽 ? 0回復
編程能力超o1，像人類一樣操作電腦，開啟Agent新時代！

51CTO技術棧 ? 2221瀏覽 ? 0回復
o1的規(guī)劃能力如何？LRM是未來嗎？

探索AGI ? 1758瀏覽 ? 0回復
OpenAI o1 模型到來后，談談提示詞工程的未來

Baihai_IDP ? 1967瀏覽 ? 0回復
DeepSeek R1 Vs OpenAI o1！全球頂級推理模型訓練技術對比大解密！

51CTO技術棧 ? 4728瀏覽 ? 0回復
Vision-R1：多模態(tài)領域的DeepSeek R1-Zero，7B參數(shù)比肩OpenAI O1

Syrupup ? 1714瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

預測未來模型能力！微調(diào)揭示LLM涌現(xiàn)能力的關鍵 2024-12-09 09:10:30發(fā)布
預測未來模型能力！微調(diào)揭示LLM涌現(xiàn)能力的關鍵 2024-12-03 15:46:55發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：經(jīng)典論文ReAct精讀

下一篇： COLM 2024：一種新的深度學習架構——Monotone Deep Boltzmann Machines

社區(qū)精華內(nèi)容

目錄

<sub id="sjxp5"><rt id="sjxp5"><form id="sjxp5"></form></rt></sub>

<style id="sjxp5"></style>

^{<blockquote id="sjxp5"></blockquote>}