自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

S1-Bench:評(píng)估大型推理模型中的系統(tǒng) 1 思維

發(fā)布于 2025-4-23 07:02
瀏覽
0收藏

介紹

大型推理模型 (LRM) 在解決復(fù)雜問(wèn)題方面表現(xiàn)出了令人印象深刻的能力,但它們常常難以處理人類憑直覺(jué)就能解決的簡(jiǎn)單任務(wù)。這種悖論是名為 S1-Bench 的新基準(zhǔn)測(cè)試的核心,該基準(zhǔn)測(cè)試專門針對(duì)評(píng)估 LRM 中的“系統(tǒng) 1”思維能力。

與大多數(shù)側(cè)重于復(fù)雜推理任務(wù)的現(xiàn)有基準(zhǔn)測(cè)試不同,S1-Bench 考察了 LRM 如何有效地處理簡(jiǎn)單、直觀的問(wèn)題,這些問(wèn)題應(yīng)該只需要最少的思考。該基準(zhǔn)測(cè)試表明,當(dāng)前的 LRM 傾向于“過(guò)度思考”簡(jiǎn)單問(wèn)題,從而導(dǎo)致效率低下,有時(shí)甚至降低準(zhǔn)確性。

S1-Bench:評(píng)估大型推理模型中的系統(tǒng) 1 思維-AI.x社區(qū)

S1-Bench 性能圖圖 1:各種 LRM 在 S1-Bench 上的性能比較,繪制了準(zhǔn)確率與平均響應(yīng) token 的關(guān)系。該圖表明,許多較大的模型會(huì)生成明顯更多的 token,但沒(méi)有相應(yīng)的準(zhǔn)確率提升,這表明它們?cè)谔幚砗?jiǎn)單任務(wù)時(shí)效率低下。

雙系統(tǒng)框架

該研究基于認(rèn)知心理學(xué)的雙系統(tǒng)框架,該框架將人類思維分為兩個(gè)系統(tǒng):

1.系統(tǒng) 1(直覺(jué)思維):快速、自動(dòng)且毫不費(fèi)力的處理,以最少的有意識(shí)思考來(lái)處理日常任務(wù)和模式識(shí)別。

2.系統(tǒng) 2(審慎思維):緩慢、費(fèi)力且分析性的處理,解決需要仔細(xì)推理和逐步分析的復(fù)雜問(wèn)題。

雖然人類會(huì)根據(jù)任務(wù)的復(fù)雜性自然地在這兩個(gè)系統(tǒng)之間切換,但 LRM 的主要設(shè)計(jì)和訓(xùn)練目標(biāo)是在系統(tǒng) 2 思維方面表現(xiàn)出色。當(dāng)它們遇到可以通過(guò)更直觀的方法受益的簡(jiǎn)單任務(wù)時(shí),這會(huì)產(chǎn)生效率低下。作者認(rèn)為,真正智能的系統(tǒng)應(yīng)該能夠根據(jù)任務(wù)要求動(dòng)態(tài)選擇合適的認(rèn)知系統(tǒng)。

S1-Bench 設(shè)計(jì)與方法

S1-Bench 經(jīng)過(guò)精心設(shè)計(jì),以確保其問(wèn)題真正簡(jiǎn)單直觀。該基準(zhǔn)測(cè)試包括 380 個(gè)問(wèn)題,涵蓋四個(gè)主要類別和 28 個(gè)子類別,包括英語(yǔ)和中文。

S1-Bench:評(píng)估大型推理模型中的系統(tǒng) 1 思維-AI.x社區(qū)

S1-Bench 構(gòu)建過(guò)程圖 2:S1-Bench 的構(gòu)建工作流程,展示了生成、驗(yàn)證和完善問(wèn)題的迭代過(guò)程,以確保簡(jiǎn)單性和準(zhǔn)確性。

基準(zhǔn)測(cè)試的構(gòu)建過(guò)程包括:

1.問(wèn)題生成:創(chuàng)建跨多個(gè)類別的各種問(wèn)題。

2.質(zhì)量控制:使用判別器過(guò)濾掉模棱兩可或復(fù)雜的問(wèn)題。

3.簡(jiǎn)單性驗(yàn)證:驗(yàn)證小型語(yǔ)言模型是否可以輕松回答問(wèn)題,以確認(rèn)其簡(jiǎn)單性。

4.迭代改進(jìn):修改過(guò)于復(fù)雜的問(wèn)題,直到它們滿足簡(jiǎn)單性標(biāo)準(zhǔn)。

S1-Bench 中的問(wèn)題刻意簡(jiǎn)短,大多數(shù)問(wèn)題僅包含 6-17 個(gè) token:

S1-Bench:評(píng)估大型推理模型中的系統(tǒng) 1 思維-AI.x社區(qū)

問(wèn)題 Token 長(zhǎng)度分布圖 3:S1-Bench 中問(wèn)題 token 長(zhǎng)度的分布,表明大多數(shù)問(wèn)題簡(jiǎn)潔明了。

S1-Bench 中的四個(gè)主要類別是:

1.推理問(wèn)題:簡(jiǎn)單的邏輯或數(shù)學(xué)問(wèn)題(例如,“7減去7是多少?”)

2.知識(shí)問(wèn)題:基本的事實(shí)查詢(例如,“化學(xué)家瑪麗·居里的性別是什么?”)

3.指令遵循:需要特定輸出格式或約束的任務(wù)

4.分析問(wèn)題:簡(jiǎn)單的分類或識(shí)別任務(wù)

評(píng)估指標(biāo)

該研究使用幾個(gè)關(guān)鍵指標(biāo)評(píng)估了 22 種不同的 LRM:

1.格式指標(biāo)

?L-Corr:衡量模型將思維過(guò)程與最終答案分離的程度

?S-Corr:評(píng)估對(duì)特定輸出格式要求的遵守情況

2.效率指標(biāo)

?ART(平均響應(yīng)Token數(shù)) :量化模型輸出的長(zhǎng)度,較短的響應(yīng)表示更高的效率

3.準(zhǔn)確性指標(biāo)

?pass@1:衡量首次嘗試的答案是否正確

?acc@k:評(píng)估采樣 k 次并選擇最常見答案時(shí)的準(zhǔn)確性

這些指標(biāo)提供了對(duì) LRM 在簡(jiǎn)單任務(wù)上的效率和有效性的全面評(píng)估。

主要發(fā)現(xiàn)

該研究揭示了關(guān)于 LRM 處理簡(jiǎn)單任務(wù)的幾個(gè)關(guān)鍵見解:

1.低效性:在解決相同的簡(jiǎn)單問(wèn)題時(shí),LRM 生成的輸出比小型語(yǔ)言模型長(zhǎng) 15.5 倍。這表明在處理直觀任務(wù)時(shí)存在顯著的低效率。

2.低準(zhǔn)確性:盡管采用了復(fù)雜的推理過(guò)程,但與小型模型相比,大型模型有時(shí)在簡(jiǎn)單問(wèn)題上獲得的準(zhǔn)確性較低。這表明過(guò)度思考實(shí)際上會(huì)阻礙在簡(jiǎn)單任務(wù)上的表現(xiàn)。

3.與模型大小沒(méi)有明確的相關(guān)性:該研究發(fā)現(xiàn)模型大小與響應(yīng)長(zhǎng)度之間沒(méi)有直接關(guān)系,表明低效率不僅僅是參數(shù)數(shù)量的函數(shù)。

4.任務(wù)特定的變化:LRM 在處理指令遵循問(wèn)題時(shí)表現(xiàn)出最顯著的 token 低效率,這表明它們尤其難以將簡(jiǎn)單的指令映射到簡(jiǎn)潔的行動(dòng)。

不同問(wèn)題類別中 token 使用情況的綜合熱圖說(shuō)明了這些低效率:

S1-Bench:評(píng)估大型推理模型中的系統(tǒng) 1 思維-AI.x社區(qū)

Token Usage Heatmap圖 4:熱圖顯示了每個(gè)模型在不同子類別中的 token 使用情況。較深的顏色表示使用的 token 更多,揭示了不同任務(wù)類型中的低效率模式。

過(guò)度思考分析

該研究提供了對(duì) LRM 中“過(guò)度思考”現(xiàn)象的詳細(xì)分析。作者將模型響應(yīng)分解為兩個(gè)組成部分:

1.初始思考:用于啟動(dòng)推理過(guò)程的 token

2.額外思考:在完成基本推理后生成的額外 token

S1-Bench:評(píng)估大型推理模型中的系統(tǒng) 1 思維-AI.x社區(qū)

Initial vs. Additional Thinking圖 5:比較了不同 LRM 之間的初始思考與額外思考,表明許多模型在不必要的額外思考上花費(fèi)了不成比例的 token。

該研究發(fā)現(xiàn),大多數(shù) LRM 在處理簡(jiǎn)單問(wèn)題時(shí)會(huì)進(jìn)行多輪“解決方案”。這種迭代推理通常會(huì)引入冗余,因?yàn)槟P蜁?huì)在不同的推理段中重復(fù)相似的信息。相似性分析表明,內(nèi)容相似性隨著每個(gè)額外的推理段而增加,表明信息價(jià)值正在降低:

S1-Bench:評(píng)估大型推理模型中的系統(tǒng) 1 思維-AI.x社區(qū)

Reasoning Redundancy Analysis圖 6:不同問(wèn)題類型之間推理段的最大相似性得分,顯示隨著推理的進(jìn)行冗余度增加。

這種模式表明 LRM 缺乏一種有效的機(jī)制來(lái)識(shí)別它們何時(shí)達(dá)到了足夠的推理水平,并且應(yīng)該提供一個(gè)簡(jiǎn)潔的答案。

錯(cuò)誤模式

一個(gè)特別有趣的發(fā)現(xiàn)是,LRMs有時(shí)會(huì)在推理的早期階段得出正確的答案,但隨后會(huì)偏離并產(chǎn)生不正確的最終答案。錯(cuò)誤分析揭示了幾種模式:

1.正確的思考,錯(cuò)誤的結(jié)論:模型有時(shí)會(huì)在整個(gè)思考過(guò)程中進(jìn)行正確的推理,但卻莫名其妙地給出一個(gè)錯(cuò)誤的最終答案。

2.不正確的中間結(jié)論:準(zhǔn)確率較低的模型通常在其推理鏈中包含不正確的步驟。

3.答案識(shí)別失敗:一些模型在推理過(guò)程中正確地提到了答案,但未能將其識(shí)別為最終答案。

S1-Bench:評(píng)估大型推理模型中的系統(tǒng) 1 思維-AI.x社區(qū)

錯(cuò)誤模式分析圖 7:錯(cuò)誤模式分析,顯示了思考過(guò)程 (TP) 和最終答案 (FA) 之間的關(guān)系。該圖表揭示了模型在思考中提供正確信息但得出不正確最終答案的情況。

這些錯(cuò)誤模式表明,LRMs 的擴(kuò)展推理過(guò)程有時(shí)可能會(huì)引入混亂而不是清晰性,尤其是在應(yīng)該憑直覺(jué)回答的問(wèn)題上。

簡(jiǎn)單性預(yù)判

一個(gè)有趣的發(fā)現(xiàn)是,許多 LRMs 能夠識(shí)別出一個(gè)問(wèn)題何時(shí)簡(jiǎn)單,但它們?nèi)匀粫?huì)進(jìn)行冗長(zhǎng)的推理過(guò)程。該研究分析了模型明確評(píng)論問(wèn)題簡(jiǎn)單性的案例:


S1-Bench:評(píng)估大型推理模型中的系統(tǒng) 1 思維-AI.x社區(qū)

簡(jiǎn)單性預(yù)判分析圖 8:分析模型識(shí)別問(wèn)題簡(jiǎn)單性的能力以及對(duì) Token 使用的影響。上面的圖表顯示了每個(gè)模型明確識(shí)別問(wèn)題為簡(jiǎn)單的頻率,而下面的圖表比較了有和沒(méi)有這種識(shí)別時(shí)的 Token 使用情況。

該分析揭示了模型識(shí)別簡(jiǎn)單性的能力與其響應(yīng)簡(jiǎn)單問(wèn)題的行為之間存在脫節(jié)。即使模型明確承認(rèn)問(wèn)題很簡(jiǎn)單,它們通常仍然會(huì)產(chǎn)生冗長(zhǎng)的響應(yīng)——這表明對(duì)簡(jiǎn)單性的識(shí)別并不能有效地觸發(fā)更有效的響應(yīng)策略。

意義和未來(lái)方向

該研究指出了未來(lái)工作的一些重要意義和方向:

1.雙系統(tǒng) LRMs:研究結(jié)果強(qiáng)調(diào),需要能夠根據(jù)任務(wù)要求在系統(tǒng) 1 和系統(tǒng) 2 思考之間動(dòng)態(tài)切換的 LRMs。這樣的模型將更有效率,并且在更廣泛的任務(wù)中可能更準(zhǔn)確。

2.利用預(yù)判:由于許多 LRMs 可以識(shí)別出一個(gè)問(wèn)題何時(shí)簡(jiǎn)單,未來(lái)的工作應(yīng)側(cè)重于開發(fā)允許模型利用這種識(shí)別來(lái)產(chǎn)生更簡(jiǎn)潔響應(yīng)的機(jī)制。

3.訓(xùn)練數(shù)據(jù)考慮:作者認(rèn)為,這個(gè)問(wèn)題可能源于訓(xùn)練數(shù)據(jù)強(qiáng)調(diào)對(duì)所有類型的問(wèn)題進(jìn)行冗長(zhǎng)的推理。未來(lái)的訓(xùn)練方法應(yīng)包括復(fù)雜問(wèn)題的詳細(xì)推理示例和簡(jiǎn)單問(wèn)題的簡(jiǎn)潔響應(yīng)示例。

4.更復(fù)雜的提示:研究表明,當(dāng)前的提示策略可能無(wú)法有效地指導(dǎo)模型根據(jù)任務(wù)復(fù)雜性調(diào)整其推理深度。開發(fā)更好的提示技術(shù)可能有助于解決過(guò)度思考問(wèn)題。

5.認(rèn)知框架:作者建議開發(fā)更細(xì)致的認(rèn)知框架,使 LRMs 能夠更好地將其推理方法與任務(wù)要求相匹配。

結(jié)論

S1-Bench 代表了對(duì) LRMs 的評(píng)估和理解的重要貢獻(xiàn),它強(qiáng)調(diào)了一個(gè)關(guān)鍵的局限性:過(guò)度思考簡(jiǎn)單問(wèn)題的趨勢(shì)。這種低效率不僅導(dǎo)致不必要的計(jì)算成本,而且還可能導(dǎo)致簡(jiǎn)單任務(wù)的準(zhǔn)確性降低。

該基準(zhǔn)測(cè)試為評(píng)估當(dāng)前和未來(lái)大型語(yǔ)言模型的系統(tǒng) 1 思維能力提供了一個(gè)有價(jià)值的工具。通過(guò)量化大型語(yǔ)言模型與理想雙系統(tǒng)模型之間的性能差距,S1-Bench 激發(fā)了對(duì)更具認(rèn)知靈活性的 AI 系統(tǒng)的開發(fā),這些系統(tǒng)可以高效地處理簡(jiǎn)單和復(fù)雜的任務(wù)。

研究結(jié)果表明,真正先進(jìn)的 AI 系統(tǒng)需要發(fā)展出根據(jù)任務(wù)復(fù)雜性動(dòng)態(tài)調(diào)整其推理深度的能力——就像人類一樣。這代表著一個(gè)重大的挑戰(zhàn),同時(shí)也為人工智能的未來(lái)研究提供了一個(gè)令人興奮的方向。

本文轉(zhuǎn)載自??芝士AI吃魚??,作者:芝士AI吃魚

已于2025-4-23 10:03:14修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦