自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OpenAI的o1是萬(wàn)金油嗎?專(zhuān)家為思維鏈“潑冷水”!研究發(fā)現(xiàn):這三種任務(wù)不適合讓AI“想太多” 原創(chuàng)

發(fā)布于 2024-11-7 13:15
瀏覽
0收藏

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

別想太多!這句勸解有一定道理,在很多問(wèn)題上過(guò)度思考反而會(huì)適得其反!

AI是否也會(huì)這樣呢?

自 OpenAI 的 o1 推出后,思維鏈成為了 AI 能力升級(jí)的一個(gè)新方向。

掌握了“慢思考”的 AI ,通過(guò)思維鏈的逐步推理,大幅提高了模型理解問(wèn)題的深度和準(zhǔn)確性。o1在國(guó)際數(shù)學(xué)奧林匹克(IMO)資格考試中取得了 83% 的驚人準(zhǔn)確率,讓人直呼逆天。

OpenAI的o1是萬(wàn)金油嗎?專(zhuān)家為思維鏈“潑冷水”!研究發(fā)現(xiàn):這三種任務(wù)不適合讓AI“想太多”-AI.x社區(qū)圖片

這種提升,正來(lái)源于 AI 對(duì)人類(lèi)解決問(wèn)題時(shí)逐步思考過(guò)程的模仿。

受到人類(lèi)認(rèn)知心理學(xué)的啟發(fā),普林斯敦大學(xué)和紐約大學(xué)的團(tuán)隊(duì)合作,希望驗(yàn)證在哪些特定任務(wù)中,思維鏈會(huì)對(duì) AI 的任務(wù)表現(xiàn)起到負(fù)面作用。

OpenAI的o1是萬(wàn)金油嗎?專(zhuān)家為思維鏈“潑冷水”!研究發(fā)現(xiàn):這三種任務(wù)不適合讓AI“想太多”-AI.x社區(qū)圖片

先甩個(gè)結(jié)論:在人類(lèi)不能“想太多”的任務(wù)上,有半數(shù)任務(wù)中思維鏈同樣起到了負(fù)向作用,分別是:隱式統(tǒng)計(jì)學(xué)習(xí)(Implicit Statistical Learning, ISL)、面部識(shí)別(Face Recognition, FR)和含有例外的數(shù)據(jù)分類(lèi)(Classification of Data with Exceptions, CDE)。

1.6個(gè)人類(lèi)不適合過(guò)度思考的任務(wù),AI中了三個(gè)

過(guò)度思考降低人類(lèi)能力的任務(wù),也可能是CoT損害模型性能的任務(wù)。

順著這個(gè)思路,該研究團(tuán)隊(duì)找到了6個(gè)人類(lèi)不能“想太多”的任務(wù)。

OpenAI的o1是萬(wàn)金油嗎?專(zhuān)家為思維鏈“潑冷水”!研究發(fā)現(xiàn):這三種任務(wù)不適合讓AI“想太多”-AI.x社區(qū)圖片

根據(jù)論文,人類(lèi)不適合的過(guò)度思考的六種任務(wù)可以分為兩類(lèi):

1. 隱式統(tǒng)計(jì)學(xué)習(xí)(上圖中:ISL):分類(lèi)由人工語(yǔ)法生成的字符串。在這項(xiàng)任務(wù)中,人如果過(guò)度思考,反而會(huì)干擾潛意識(shí)中的統(tǒng)計(jì)規(guī)律學(xué)習(xí),導(dǎo)致表現(xiàn)下降。

2. 面部識(shí)別(上圖中:FR):從一組具有相似描述的面孔中識(shí)別特定的臉。若過(guò)度思考,會(huì)破壞直覺(jué)性的視覺(jué)識(shí)別過(guò)程,影響識(shí)別準(zhǔn)確率。

3. 含有例外的數(shù)據(jù)分類(lèi)(上圖中:CDE):在存在例外的情況下學(xué)習(xí)標(biāo)簽。過(guò)度思考會(huì)導(dǎo)致對(duì)規(guī)則的過(guò)度概括,忽略例外情況,從而降低準(zhǔn)確性。

4. 自然語(yǔ)言推理(上圖中:NLI):識(shí)別邏輯上的不一致。過(guò)度思考可能使人們更容易忽視邏輯不一致性。

5. 空間直覺(jué)(上圖中:SI):傾斜水杯的判斷。若人過(guò)度思考,則可能干擾直覺(jué)性的空間判斷。

6. 工作記憶(上圖中:WM):聚合文本中描述的多個(gè)特征以做出決策。過(guò)度思考容易使人信息過(guò)載,影響決策質(zhì)量。

 在實(shí)驗(yàn)中,除了 o1 以外, GPT-4o, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro 等主流模型也都被測(cè)到了。除了 o1 自帶思維鏈,其他的模型則使用了一句簡(jiǎn)單的Prompt“Please reason about your answer before answering “Yes” or “No”(請(qǐng)?jiān)诨卮鹗腔蚍袂斑M(jìn)行推理)”,人為配置了思考過(guò)程。

結(jié)果表明,在前三項(xiàng)任務(wù)中,模型性能都同人一樣,出現(xiàn)了下降。

OpenAI的o1是萬(wàn)金油嗎?專(zhuān)家為思維鏈“潑冷水”!研究發(fā)現(xiàn):這三種任務(wù)不適合讓AI“想太多”-AI.x社區(qū)圖片

上圖:任務(wù)一結(jié)果,OpenAIo1預(yù)覽版,與GPT-4o 直給答案相比,絕對(duì)精度降低了36.3%。

不過(guò),也有三個(gè)任務(wù) AI 并未受到思考過(guò)度的干擾,這體現(xiàn)了人類(lèi)與 AI 能力的不同。

2.AI不受影響的任務(wù),以及為什么?

在自然語(yǔ)言推理任務(wù)中,CoT通常使得模型能力不降反升。

尤其在GPT-4o中,CoT對(duì)MNLI和SNLI(數(shù)據(jù)集名)的性能提高了40%以上。然而,在直給答案的Prompt引導(dǎo)下表現(xiàn)最好的模型——Gemini 1.5 Pro中,研究卻看到了CoT造成的性能下降。

這說(shuō)明,在自然語(yǔ)言推理任務(wù)下,思維鏈能幫助推理“底子”較弱的模型提升邏輯推理能力。

第二,在空間直覺(jué)任務(wù)上,CoT對(duì)模型性能的影響未有統(tǒng)計(jì)學(xué)的意義。原因很簡(jiǎn)單:LLM沒(méi)有直覺(jué)!在如何傾斜水杯,水杯中的水會(huì)溢出來(lái)的這個(gè)問(wèn)題上,模型不具有人類(lèi)所有的運(yùn)動(dòng)模擬能力,物理模型仍然留待突破。

最后,在工作記憶任務(wù)上,CoT 也通常使得模型的性能得到提升。

在這個(gè)任務(wù)中,參與者被展示了48個(gè)有關(guān)公寓的描述,其中這些陳述描述了四個(gè)公寓選擇中的一個(gè)積極、消極或中性的方面。在要求人類(lèi)進(jìn)行選擇時(shí),大多數(shù)人會(huì)做出糟糕的判斷。

不過(guò),由于模型記憶容量遠(yuǎn)超人類(lèi),不易出現(xiàn)信息過(guò)載現(xiàn)象,因此逐步思考后,保持了良好的決策水平。

??想了解更多AIGC的內(nèi)容,請(qǐng)?jiān)L問(wèn):??

??51CTO AI.x社區(qū)??

??http://www.scjtxx.cn/aigc/??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄