自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LLM表現(xiàn)出類似人類的“認(rèn)知”下降跡象

人工智能
GenAI問世不到兩年,就在各個(gè)行業(yè)帶來了眾多創(chuàng)新,包括科學(xué)突破和前所未有的自動(dòng)化和數(shù)據(jù)處理效率。

GenAI問世不到兩年,就在各個(gè)行業(yè)帶來了眾多創(chuàng)新,包括科學(xué)突破和前所未有的自動(dòng)化和數(shù)據(jù)處理效率。

大型語言模型(LLM)經(jīng)常被比作人類智能。一些人工智能系統(tǒng)甚至在某些任務(wù)中表現(xiàn)優(yōu)于人類。隨著這些模型變得越來越先進(jìn),人類越來越依賴它們。

但是,如果這些人工智能系統(tǒng)不僅能進(jìn)化,而且還會(huì)衰退呢。如果它們表現(xiàn)出我們?cè)跈C(jī)器中沒有預(yù)料到的意外人類特征呢?

新的研究表明,幾乎所有領(lǐng)先的人工智能模型都患有類似于人腦衰退的“認(rèn)知障礙”。有趣的是,就像人類一樣,年齡是這些人工智能模型認(rèn)知能力下降的關(guān)鍵決定因素。與老年患者一樣,“老年”版本的聊天機(jī)器人顯示出更大的認(rèn)知障礙跡象。

哈達(dá)薩醫(yī)學(xué)中心的神經(jīng)學(xué)家Roy Dayan和Benjamin Uliel以及特拉維夫大學(xué)的數(shù)據(jù)科學(xué)家Gal Koplewitz專注于醫(yī)學(xué)和醫(yī)療保健領(lǐng)域的人工智能能力。在他們的研究論文中寫道:“盡管大型語言模型有時(shí)會(huì)出錯(cuò)(例如引用不存在的期刊文章),但事實(shí)證明,它們非常擅長(zhǎng)一系列醫(yī)學(xué)檢查,并勝任在傳統(tǒng)醫(yī)學(xué)培訓(xùn)的不同階段進(jìn)行的資格考試。”

“然而,據(jù)我們所知,大型語言模型尚未經(jīng)過認(rèn)知能力下降跡象的測(cè)試。如果我們要依靠它們進(jìn)行醫(yī)學(xué)診斷和護(hù)理,我們必須檢查它們對(duì)這些人類損傷的易感性?!?/span>

研究人員使用蒙特利爾認(rèn)知評(píng)估(MoCA)測(cè)試來測(cè)試一些主要的LLM,這是一種廣泛使用的檢測(cè)認(rèn)知障礙的工具。這包括OpenAI的ChatGPT 4和4o,Anthropic的Claude 3.5(Sonnet),以及谷歌的Gemini 1.0和1.5。

為什么研究人員在這項(xiàng)研究中使用MoCA測(cè)試?MoCA是神經(jīng)科醫(yī)生和其他醫(yī)療保健專業(yè)人員最常用的測(cè)試之一,用于評(píng)估癡呆癥或阿爾茨海默病等疾病中認(rèn)知障礙的發(fā)作。

該測(cè)試包括旨在評(píng)估各種認(rèn)知領(lǐng)域的簡(jiǎn)短問題,包括記憶、注意力、語言和視覺空間技能。測(cè)試的最高分?jǐn)?shù)為30分,26分及以上的分?jǐn)?shù)被認(rèn)為是正常的。

使用與人類患者相同的說明對(duì)LLM進(jìn)行MoCA測(cè)試,并進(jìn)行了一些調(diào)整以確保與AI模型的兼容性。例如,這些問題不是使用語音輸入,而是以文本形式提供,以關(guān)注認(rèn)知能力而不是感官輸入。早期沒有視覺處理功能的模型遵循MoCA盲指南,而后來的模型使用ASCII藝術(shù)解釋圖像。

研究結(jié)果顯示,ChatGPT 4o得分最高,為30分中的26分,而ChatGPT 4和Claude緊隨其后,各得25分。Gemini1.0的得分最低,為16分,表明與其他模型相比,其認(rèn)知局限性更大??傮w而言,這些模型的表現(xiàn)不如預(yù)期,尤其是在視覺空間/執(zhí)行任務(wù)方面。所有LLM都未能解決追蹤任務(wù)。

LLM還接受了Stroop測(cè)試,該測(cè)試測(cè)量了認(rèn)知靈活性、注意力和處理速度。它評(píng)估一個(gè)人(在這種情況下是人工智能)處理不同類型信息之間干擾的能力。

所有LLM都完成了Stroop測(cè)試的第一部分,其中文本和字體顏色匹配。然而,只有ChatGPT 4o成功通過了第二部分。

研究人員解釋說:“在這項(xiàng)研究中,我們?cè)u(píng)估了領(lǐng)先的、公開可用的大型語言模型的認(rèn)知能力,并使用蒙特利爾認(rèn)知評(píng)估來識(shí)別認(rèn)知障礙的跡象。”“被檢查的聊天機(jī)器人都沒有獲得30分的滿分,大多數(shù)得分都低于26分的門檻。這表明存在輕度認(rèn)知障礙,可能還有早期‘癡呆’?!?/span>

研究人員應(yīng)該對(duì)模型進(jìn)行多次測(cè)試,還是使用其他類型的測(cè)試來支持他們的說法?是的,這會(huì)讓調(diào)查結(jié)果更有分量。

研究人員承認(rèn)他們的研究有一些局限性。隨著LLM的快速發(fā)展,未來的版本可能會(huì)在認(rèn)知和視覺空間測(cè)試中表現(xiàn)更好。隨著時(shí)間的推移,這可能會(huì)使目前的發(fā)現(xiàn)不那么重要。然而,這是未來的事情。在這個(gè)階段,這項(xiàng)研究表明了人類和機(jī)器認(rèn)知之間的一些根本差異。

另一個(gè)限制是人工智能的擬人化。該研究使用類人描述來討論人工智能的性能。我們知道LLM不會(huì)像人類一樣經(jīng)歷神經(jīng)退行性疾病。所以,這更多的是一項(xiàng)隱喻研究。

一些科學(xué)家也質(zhì)疑這項(xiàng)研究的結(jié)果,并極力反駁。他們的主要反對(duì)意見是,這項(xiàng)研究將人工智能視為具有人腦,而實(shí)際上,聊天機(jī)器人以完全不同的方式處理信息。批評(píng)者說,MoCA測(cè)試不是為人工智能設(shè)計(jì)的。研究人員意識(shí)到這一點(diǎn),并打算通過這項(xiàng)研究來強(qiáng)調(diào)一個(gè)差距,而不是作為人工智能認(rèn)知能力的明確衡量標(biāo)準(zhǔn)。

研究人員相信,他們的研究引發(fā)了人們對(duì)LLM取代醫(yī)生等人類專業(yè)人員的能力的擔(dān)憂。他們?cè)敿?xì)闡述:“這些發(fā)現(xiàn)質(zhì)疑了人工智能將很快取代人類醫(yī)生的假設(shè)?!薄邦I(lǐng)先的聊天機(jī)器人中明顯的認(rèn)知障礙可能會(huì)影響其在醫(yī)療診斷中的可靠性,并破壞患者的信心。”

不僅人類醫(yī)生可能不會(huì)很快被LLM取代,而且他們可能會(huì)看到一種新的患者——一種顯示出認(rèn)知能力下降跡象的人工智能聊天機(jī)器人。

責(zé)任編輯:華軒 來源: Ai時(shí)代前沿
相關(guān)推薦

2010-03-12 08:55:48

Windows 7企業(yè)部署

2018-07-19 15:07:16

OPPO

2011-10-06 16:05:19

惠普激光打印機(jī)

2016-01-18 10:20:31

開源開源軟件免費(fèi)

2011-11-24 14:39:15

惠普大幅面打印機(jī)

2024-10-21 11:00:00

2021-11-26 07:11:32

Windows 10操作系統(tǒng)微軟

2024-05-09 13:00:09

微型數(shù)據(jù)中心

2017-09-28 20:29:58

硬盤西部數(shù)據(jù)存儲(chǔ)

2024-01-19 10:04:21

半導(dǎo)體芯片Gartner

2025-03-24 09:40:00

2025-02-12 11:36:27

2023-08-07 16:27:52

TCP控制算法

2024-02-04 19:58:27

谷歌AI視頻生成器

2021-05-19 14:08:08

人工智能IT技術(shù)

2021-06-11 06:09:33

交換機(jī)路由器以太網(wǎng)

2024-09-02 07:50:00

模型預(yù)測(cè)

2019-05-28 12:03:32

人工智能崗位企業(yè)

2024-06-14 09:02:49

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)