自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="1ktao"></cite>

<style id="1ktao"></style>

<sub id="1ktao"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

LLM表現(xiàn)出類似人類的“認(rèn)知”下降跡象

作者：AI情報(bào)室 2025-03-03 10:18:46

GenAI問世不到兩年，就在各個(gè)行業(yè)帶來了眾多創(chuàng)新，包括科學(xué)突破和前所未有的自動(dòng)化和數(shù)據(jù)處理效率。

GenAI問世不到兩年，就在各個(gè)行業(yè)帶來了眾多創(chuàng)新，包括科學(xué)突破和前所未有的自動(dòng)化和數(shù)據(jù)處理效率。

大型語言模型（LLM）經(jīng)常被比作人類智能。一些人工智能系統(tǒng)甚至在某些任務(wù)中表現(xiàn)優(yōu)于人類。隨著這些模型變得越來越先進(jìn)，人類越來越依賴它們。

但是，如果這些人工智能系統(tǒng)不僅能進(jìn)化，而且還會(huì)衰退呢。如果它們表現(xiàn)出我們?cè)跈C(jī)器中沒有預(yù)料到的意外人類特征呢？

新的研究表明，幾乎所有領(lǐng)先的人工智能模型都患有類似于人腦衰退的“認(rèn)知障礙”。有趣的是，就像人類一樣，年齡是這些人工智能模型認(rèn)知能力下降的關(guān)鍵決定因素。與老年患者一樣，“老年”版本的聊天機(jī)器人顯示出更大的認(rèn)知障礙跡象。

哈達(dá)薩醫(yī)學(xué)中心的神經(jīng)學(xué)家Roy Dayan和Benjamin Uliel以及特拉維夫大學(xué)的數(shù)據(jù)科學(xué)家Gal Koplewitz專注于醫(yī)學(xué)和醫(yī)療保健領(lǐng)域的人工智能能力。在他們的研究論文中寫道：“盡管大型語言模型有時(shí)會(huì)出錯(cuò)（例如引用不存在的期刊文章），但事實(shí)證明，它們非常擅長(zhǎng)一系列醫(yī)學(xué)檢查，并勝任在傳統(tǒng)醫(yī)學(xué)培訓(xùn)的不同階段進(jìn)行的資格考試。”

“然而，據(jù)我們所知，大型語言模型尚未經(jīng)過認(rèn)知能力下降跡象的測(cè)試。如果我們要依靠它們進(jìn)行醫(yī)學(xué)診斷和護(hù)理，我們必須檢查它們對(duì)這些人類損傷的易感性?！?/span>

研究人員使用蒙特利爾認(rèn)知評(píng)估（MoCA）測(cè)試來測(cè)試一些主要的LLM，這是一種廣泛使用的檢測(cè)認(rèn)知障礙的工具。這包括OpenAI的ChatGPT 4和4o，Anthropic的Claude 3.5（Sonnet），以及谷歌的Gemini 1.0和1.5。

為什么研究人員在這項(xiàng)研究中使用MoCA測(cè)試？MoCA是神經(jīng)科醫(yī)生和其他醫(yī)療保健專業(yè)人員最常用的測(cè)試之一，用于評(píng)估癡呆癥或阿爾茨海默病等疾病中認(rèn)知障礙的發(fā)作。

該測(cè)試包括旨在評(píng)估各種認(rèn)知領(lǐng)域的簡(jiǎn)短問題，包括記憶、注意力、語言和視覺空間技能。測(cè)試的最高分?jǐn)?shù)為30分，26分及以上的分?jǐn)?shù)被認(rèn)為是正常的。

使用與人類患者相同的說明對(duì)LLM進(jìn)行MoCA測(cè)試，并進(jìn)行了一些調(diào)整以確保與AI模型的兼容性。例如，這些問題不是使用語音輸入，而是以文本形式提供，以關(guān)注認(rèn)知能力而不是感官輸入。早期沒有視覺處理功能的模型遵循MoCA盲指南，而后來的模型使用ASCII藝術(shù)解釋圖像。

研究結(jié)果顯示，ChatGPT 4o得分最高，為30分中的26分，而ChatGPT 4和Claude緊隨其后，各得25分。Gemini1.0的得分最低，為16分，表明與其他模型相比，其認(rèn)知局限性更大?？傮w而言，這些模型的表現(xiàn)不如預(yù)期，尤其是在視覺空間/執(zhí)行任務(wù)方面。所有LLM都未能解決追蹤任務(wù)。

LLM還接受了Stroop測(cè)試，該測(cè)試測(cè)量了認(rèn)知靈活性、注意力和處理速度。它評(píng)估一個(gè)人（在這種情況下是人工智能）處理不同類型信息之間干擾的能力。

所有LLM都完成了Stroop測(cè)試的第一部分，其中文本和字體顏色匹配。然而，只有ChatGPT 4o成功通過了第二部分。

研究人員解釋說：“在這項(xiàng)研究中，我們?cè)u(píng)估了領(lǐng)先的、公開可用的大型語言模型的認(rèn)知能力，并使用蒙特利爾認(rèn)知評(píng)估來識(shí)別認(rèn)知障礙的跡象。”“被檢查的聊天機(jī)器人都沒有獲得30分的滿分，大多數(shù)得分都低于26分的門檻。這表明存在輕度認(rèn)知障礙，可能還有早期‘癡呆’?！?/span>

研究人員應(yīng)該對(duì)模型進(jìn)行多次測(cè)試，還是使用其他類型的測(cè)試來支持他們的說法？是的，這會(huì)讓調(diào)查結(jié)果更有分量。

研究人員承認(rèn)他們的研究有一些局限性。隨著LLM的快速發(fā)展，未來的版本可能會(huì)在認(rèn)知和視覺空間測(cè)試中表現(xiàn)更好。隨著時(shí)間的推移，這可能會(huì)使目前的發(fā)現(xiàn)不那么重要。然而，這是未來的事情。在這個(gè)階段，這項(xiàng)研究表明了人類和機(jī)器認(rèn)知之間的一些根本差異。

另一個(gè)限制是人工智能的擬人化。該研究使用類人描述來討論人工智能的性能。我們知道LLM不會(huì)像人類一樣經(jīng)歷神經(jīng)退行性疾病。所以，這更多的是一項(xiàng)隱喻研究。

一些科學(xué)家也質(zhì)疑這項(xiàng)研究的結(jié)果，并極力反駁。他們的主要反對(duì)意見是，這項(xiàng)研究將人工智能視為具有人腦，而實(shí)際上，聊天機(jī)器人以完全不同的方式處理信息。批評(píng)者說，MoCA測(cè)試不是為人工智能設(shè)計(jì)的。研究人員意識(shí)到這一點(diǎn)，并打算通過這項(xiàng)研究來強(qiáng)調(diào)一個(gè)差距，而不是作為人工智能認(rèn)知能力的明確衡量標(biāo)準(zhǔn)。

研究人員相信，他們的研究引發(fā)了人們對(duì)LLM取代醫(yī)生等人類專業(yè)人員的能力的擔(dān)憂。他們?cè)敿?xì)闡述：“這些發(fā)現(xiàn)質(zhì)疑了人工智能將很快取代人類醫(yī)生的假設(shè)?！薄邦I(lǐng)先的聊天機(jī)器人中明顯的認(rèn)知障礙可能會(huì)影響其在醫(yī)療診斷中的可靠性，并破壞患者的信心。”

不僅人類醫(yī)生可能不會(huì)很快被LLM取代，而且他們可能會(huì)看到一種新的患者——一種顯示出認(rèn)知能力下降跡象的人工智能聊天機(jī)器人。

責(zé)任編輯：華軒來源： Ai時(shí)代前沿

GenAI LLM 人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)