自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

OpenAI的o1是萬金油嗎？專家為思維鏈“潑冷水”！研究發(fā)現(xiàn)：這三種任務(wù)不適合讓AI“想太多”，o1準(zhǔn)確率直降36.3%！

原創(chuàng) 精選

2024-11-07 13:16:26

尤其在GPT-4o中，CoT對MNLI和SNLI（數(shù)據(jù)集名）的性能提高了40%以上。然而，在直給答案的Prompt引導(dǎo)下表現(xiàn)最好的模型——Gemini 1.5 Pro中，研究卻看到了CoT造成的性能下降。

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

別想太多！這句勸解有一定道理，在很多問題上過度思考反而會適得其反！

AI是否也會這樣呢？

自 OpenAI 的 o1 推出后，思維鏈成為了 AI 能力升級的一個新方向。

掌握了“慢思考”的 AI ,通過思維鏈的逐步推理，大幅提高了模型理解問題的深度和準(zhǔn)確性。o1在國際數(shù)學(xué)奧林匹克（IMO）資格考試中取得了 83% 的驚人準(zhǔn)確率，讓人直呼逆天。

圖片

這種提升，正來源于 AI 對人類解決問題時逐步思考過程的模仿。

受到人類認(rèn)知心理學(xué)的啟發(fā)，普林斯敦大學(xué)和紐約大學(xué)的團(tuán)隊(duì)合作，希望驗(yàn)證在哪些特定任務(wù)中，思維鏈會對 AI 的任務(wù)表現(xiàn)起到負(fù)面作用。

圖片

先甩個結(jié)論：在人類不能“想太多”的任務(wù)上，有半數(shù)任務(wù)中思維鏈同樣起到了負(fù)向作用，分別是：隱式統(tǒng)計學(xué)習(xí)（Implicit Statistical Learning, ISL）、面部識別（Face Recognition, FR）和含有例外的數(shù)據(jù)分類（Classification of Data with Exceptions, CDE）。

1.6個人類不適合過度思考的任務(wù)，AI中了三個

過度思考降低人類能力的任務(wù)，也可能是CoT損害模型性能的任務(wù)。

順著這個思路，該研究團(tuán)隊(duì)找到了6個人類不能“想太多”的任務(wù)。

圖片

根據(jù)論文，人類不適合的過度思考的六種任務(wù)可以分為兩類：

1. 隱式統(tǒng)計學(xué)習(xí)（上圖中：ISL）：分類由人工語法生成的字符串。在這項(xiàng)任務(wù)中，人如果過度思考，反而會干擾潛意識中的統(tǒng)計規(guī)律學(xué)習(xí)，導(dǎo)致表現(xiàn)下降。

2. 面部識別（上圖中：FR）：從一組具有相似描述的面孔中識別特定的臉。若過度思考，會破壞直覺性的視覺識別過程，影響識別準(zhǔn)確率。

3. 含有例外的數(shù)據(jù)分類（上圖中：CDE）：在存在例外的情況下學(xué)習(xí)標(biāo)簽。過度思考會導(dǎo)致對規(guī)則的過度概括，忽略例外情況，從而降低準(zhǔn)確性。

4. 自然語言推理（上圖中：NLI）：識別邏輯上的不一致。過度思考可能使人們更容易忽視邏輯不一致性。

5. 空間直覺（上圖中：SI）：傾斜水杯的判斷。若人過度思考，則可能干擾直覺性的空間判斷。

6. 工作記憶（上圖中：WM）：聚合文本中描述的多個特征以做出決策。過度思考容易使人信息過載，影響決策質(zhì)量。

在實(shí)驗(yàn)中，除了 o1 以外， GPT-4o, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro 等主流模型也都被測到了。除了 o1 自帶思維鏈，其他的模型則使用了一句簡單的Prompt“Please reason about your answer before answering “Yes” or “No”（請?jiān)诨卮鹗腔蚍袂斑M(jìn)行推理）”，人為配置了思考過程。

結(jié)果表明，在前三項(xiàng)任務(wù)中，模型性能都同人一樣，出現(xiàn)了下降。

圖片

上圖：任務(wù)一結(jié)果，OpenAIo1預(yù)覽版，與GPT-4o 直給答案相比，絕對精度降低了36.3%。

不過，也有三個任務(wù) AI 并未受到思考過度的干擾，這體現(xiàn)了人類與 AI 能力的不同。

2.AI不受影響的任務(wù)，以及為什么？

在自然語言推理任務(wù)中，CoT通常使得模型能力不降反升。

尤其在GPT-4o中，CoT對MNLI和SNLI（數(shù)據(jù)集名）的性能提高了40%以上。然而，在直給答案的Prompt引導(dǎo)下表現(xiàn)最好的模型——Gemini 1.5 Pro中，研究卻看到了CoT造成的性能下降。

這說明，在自然語言推理任務(wù)下，思維鏈能幫助推理“底子”較弱的模型提升邏輯推理能力。

第二，在空間直覺任務(wù)上，CoT對模型性能的影響未有統(tǒng)計學(xué)的意義。原因很簡單：LLM沒有直覺！在如何傾斜水杯，水杯中的水會溢出來的這個問題上，模型不具有人類所有的運(yùn)動模擬能力，物理模型仍然留待突破。

最后，在工作記憶任務(wù)上，CoT 也通常使得模型的性能得到提升。

在這個任務(wù)中，參與者被展示了48個有關(guān)公寓的描述，其中這些陳述描述了四個公寓選擇中的一個積極、消極或中性的方面。在要求人類進(jìn)行選擇時，大多數(shù)人會做出糟糕的判斷。

不過，由于模型記憶容量遠(yuǎn)超人類，不易出現(xiàn)信息過載現(xiàn)象，因此逐步思考后，保持了良好的決策水平。

想了解更多AIGC的內(nèi)容，請?jiān)L問：

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責(zé)任編輯：武曉燕來源： 51CTO技術(shù)棧

OpenAI o1 準(zhǔn)確率

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<pre id="tozsl"><th id="tozsl"><tbody id="tozsl"></tbody></th></pre>

<var id="tozsl"><strike id="tozsl"><legend id="tozsl"></legend></strike></var>

<dfn id="tozsl"><strong id="tozsl"></strong></dfn>

<var id="tozsl"></var>