自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

o1的規(guī)劃能力如何?LRM是未來嗎?

發(fā)布于 2024-11-28 15:27
瀏覽
0收藏

嘿,大家好!這里是一個(gè)專注于AI智能體的頻道~

今天給大家分享一個(gè)新研究,前頂會AAAI主席Subbarao Kambhampati發(fā)布的論文。

o1的規(guī)劃能力如何?LRM是未來嗎?-AI.x社區(qū)


能夠規(guī)劃一系列行動(dòng)以實(shí)現(xiàn)預(yù)期目標(biāo),長期以來被認(rèn)為是智能體的核心能力之一,并自人工智能研究之初便成為其不可或缺的一部分。隨著大型語言模型(LLMs)的出現(xiàn),關(guān)于它們是否具備這種規(guī)劃能力的問題引起了廣泛關(guān)注。我們于2022年開發(fā)的可擴(kuò)展基準(zhǔn)測試PlanBench,緊隨GPT-3的發(fā)布推出,至今仍是評估LLMs規(guī)劃能力的重要工具。盡管自GPT-3以來涌現(xiàn)了大量新的私有和開源LLMs,但在該基準(zhǔn)測試上的進(jìn)展卻出奇地緩慢。OpenAI聲稱,他們最近推出的o1(草莓)模型是專門構(gòu)建和訓(xùn)練的,旨在突破自回歸LLMs的常規(guī)限制,使其成為一種新型模型:大型推理模型(LRM)。本文以這一發(fā)展為契機(jī),全面考察了當(dāng)前LLMs和新LRMs在PlanBench上的表現(xiàn)。正如我們將看到的,盡管o1在該基準(zhǔn)測試中的表現(xiàn)實(shí)現(xiàn)了量級上的飛躍,遠(yuǎn)超競爭對手,但距離完全占據(jù)這一基準(zhǔn)還有相當(dāng)距離。這一進(jìn)步也引發(fā)了關(guān)于準(zhǔn)確性、效率和可靠性的討論,這些問題在部署此類系統(tǒng)前必須仔細(xì)考慮。

SOTA LLM模型在規(guī)劃能力方面仍然非常糟糕! 如下表:

  • 在未混淆的數(shù)據(jù)集-Blocksworld中,最好的LLMs(如LLaMA 3.1 405B)達(dá)到了62.6%的準(zhǔn)確率。

在語義相同但句法混淆的數(shù)據(jù)集-Mystery Blocksworld中,所有LLMs的表現(xiàn)都遠(yuǎn)遠(yuǎn)落后,沒有一款模型的準(zhǔn)確率超過5%。

o1的規(guī)劃能力如何?LRM是未來嗎?-AI.x社區(qū)

OpenAI的o1模型:是為了突破傳統(tǒng)自回歸LLMs的限制而設(shè)計(jì)和訓(xùn)練的,屬于LRMs的一種。特點(diǎn):

  • 結(jié)合了基礎(chǔ)LLM(可能是修改版的GPT-4)。
  • 通過RL訓(xùn)練系統(tǒng)來指導(dǎo)推理過程,生成、篩選和選擇私有推理路徑。
  • 在預(yù)訓(xùn)練階段和推理時(shí)可能使用了新的自適應(yīng)推理過程。

o1評測

  • 在PlanBenc上,o1模型在Blocksworld問題上的表現(xiàn)顯著優(yōu)于之前所有LLMs,正確回答了97.8%的問題。

然而,在Mystery Blocksworld問題上,o1的表現(xiàn)雖然超過所有先前的模型,但準(zhǔn)確率也只有52.8%。

o1的規(guī)劃能力如何?LRM是未來嗎?-AI.x社區(qū)

o1的規(guī)劃能力如何?LRM是未來嗎?-AI.x社區(qū)

當(dāng)處理更復(fù)雜問題時(shí)

o1模型的性能迅速下降。例如,在需要20到40步解決的更大Blocksworld問題上,o1的準(zhǔn)確率僅為23.63%。

o1的規(guī)劃能力如何?LRM是未來嗎?-AI.x社區(qū)

o1最厲害的一點(diǎn),是宣稱能夠準(zhǔn)確識別無法解決的問題,這是規(guī)劃能力的一個(gè)重要方面。但是,實(shí)驗(yàn)結(jié)果顯示,在被修改為無法解決的Blocksworld問題上,o1正確識別不可解問題的比例并不高,為27%,并且有時(shí)會錯(cuò)誤地聲稱可解問題為不可解。

o1的規(guī)劃能力如何?LRM是未來嗎?-AI.x社區(qū)

最后是平衡成本和效率

下表中,大型推理模型(LRMs)比大型語言模型(LLMs)的成本要高得多。

  • o1模型的推理成本遠(yuǎn)高于傳統(tǒng)LLMs,這可能會影響其在實(shí)際應(yīng)用中的可行性。
  • o1的推理過程缺乏透明度,用戶無法控制推理過程中生成的“推理token”數(shù)量,這增加了成本的不可預(yù)測性。

o1的規(guī)劃能力如何?LRM是未來嗎?-AI.x社區(qū)

文末,作者提到,雖然我們的主要關(guān)注點(diǎn)是對o1在PlanBench上的表現(xiàn)進(jìn)行量化評估,但我們也注意到一個(gè)值得提及的o1特性:當(dāng)模型給出錯(cuò)誤答案時(shí),有時(shí)還會附帶一個(gè)富有創(chuàng)意但荒謬的理由,幾乎讓人覺得o1從“幻覺”進(jìn)化到了“誤導(dǎo)”! 在一個(gè)案例中,模型認(rèn)為一個(gè)不可解決的問題是可解決的,因?yàn)殡m然目標(biāo)條件沒有在最終狀態(tài)中出現(xiàn),但在執(zhí)行過程中某個(gè)時(shí)刻曾為真,因此它認(rèn)為應(yīng)該繼續(xù)算數(shù)。在另一個(gè)案例中,模型聲稱on(a,c)為真,因?yàn)樗诤喍痰睦ㄌ栒f明中解釋道,a在b上,b在c上,因此a在某種程度上位于c的上方,應(yīng)該算作“在它上面”。

本文轉(zhuǎn)載自??探索AGI??,作者: 獼猴桃????

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦