自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

現(xiàn)實(shí)再次給大模型帶來(lái)沉重打擊

發(fā)布于 2024-10-12 14:12
瀏覽
0收藏

論文筆記分享,標(biāo)題:LLMS STILL CAN’T PLAN; CAN LRMS? A PRELIMINARY EVALUATION OF OPENAI’S O1 ON PLANBENCH

一個(gè)偏實(shí)驗(yàn)性的文章,這篇文章的主要的結(jié)論是。LLMs不擅長(zhǎng)規(guī)劃,LRMs看似有希望,但是希望不大

當(dāng)故事看把~

規(guī)劃簡(jiǎn)單定義就是說(shuō),在面對(duì)一些較復(fù)雜的開放式問(wèn)題時(shí),需要進(jìn)行一些搜索以確定最佳的解決方案。這個(gè)過(guò)程,不僅僅是思考可行的方向,還需要將問(wèn)題分解成更簡(jiǎn)單的任務(wù)。

當(dāng)使用目前最牛的LLM來(lái)測(cè)試這些能力時(shí)候,如下圖,對(duì)于人來(lái)說(shuō)相對(duì)容易解決:

現(xiàn)實(shí)再次給大模型帶來(lái)沉重打擊-AI.x社區(qū)

但是結(jié)果比較糟糕,Mystery Blocks world 基準(zhǔn)結(jié)果, ChatGPT、Claude、Gemini 和 Llama 的正確問(wèn)題率為 0% 。

現(xiàn)實(shí)再次給大模型帶來(lái)沉重打擊-AI.x社區(qū)

Openai O1目前通過(guò)更多的思考,天生就是為了這些復(fù)雜的任務(wù)而生的,當(dāng)在相同的數(shù)據(jù)集上測(cè)試, o1 的結(jié)果初看確實(shí)很驚艷,使第一個(gè)簡(jiǎn)單的數(shù)據(jù)集達(dá)到97.8% 準(zhǔn)確率,幾乎飽和了。

但是,仔細(xì)分析之后,一旦增加計(jì)劃的步驟數(shù),準(zhǔn)確曲線很快就崩潰了,當(dāng)計(jì)劃需要 14 個(gè)或更多步驟時(shí),準(zhǔn)確率會(huì)回到 0% 。

現(xiàn)實(shí)再次給大模型帶來(lái)沉重打擊-AI.x社區(qū)

當(dāng)然,必須考慮到成本問(wèn)題,生成成本比prompt編碼成本高很多。所以相比于LLM模型,LRM模型的推理成本達(dá)到了恐怖的100到1000倍

現(xiàn)實(shí)再次給大模型帶來(lái)沉重打擊-AI.x社區(qū)

另一方面,模型很容易自嗨看下圖,要完成一個(gè)需要 20 步的計(jì)劃,模型需要生成 6000 個(gè)token。比實(shí)際的單詞數(shù)量超出了1500+~。

現(xiàn)實(shí)再次給大模型帶來(lái)沉重打擊-AI.x社區(qū)

成本與效果的權(quán)衡,O1真的值得么?2011年就出現(xiàn)的AI算法,F(xiàn)astForward,在這個(gè)評(píng)測(cè)中可以達(dá)到100%的準(zhǔn)確率,赤裸裸的貼臉開大。并且,F(xiàn)astDownward 運(yùn)行速度快且成本便宜。比 o1 型號(hào)的成本效益高出幾個(gè)數(shù)量級(jí),并且至少具有三倍的性能。

現(xiàn)實(shí)再次給大模型帶來(lái)沉重打擊-AI.x社區(qū)

最后,在評(píng)估人工智能是否可以承認(rèn)一個(gè)計(jì)劃,自身是否是無(wú)法解決時(shí)。o1 表現(xiàn)出,沒(méi)有能力來(lái)評(píng)估這個(gè)事情。o1-preview 僅在 16% 的情況下將問(wèn)題識(shí)別為無(wú)法解決。在很多例子中,模型產(chǎn)生了完全不可行且愚蠢的結(jié)果,同時(shí)又很能bb。

現(xiàn)實(shí)再次給大模型帶來(lái)沉重打擊-AI.x社區(qū)

本文轉(zhuǎn)載自 ??NLP前沿??,作者: 熱愛AI

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦