LLM表現(xiàn)出類似人類的“認(rèn)知”下降跡象
GenAI問世不到兩年,就在各個(gè)行業(yè)帶來了眾多創(chuàng)新,包括科學(xué)突破和前所未有的自動(dòng)化和數(shù)據(jù)處理效率。
大型語言模型(LLM)經(jīng)常被比作人類智能。一些人工智能系統(tǒng)甚至在某些任務(wù)中表現(xiàn)優(yōu)于人類。隨著這些模型變得越來越先進(jìn),人類越來越依賴它們。
但是,如果這些人工智能系統(tǒng)不僅能進(jìn)化,而且還會(huì)衰退呢。如果它們表現(xiàn)出我們?cè)跈C(jī)器中沒有預(yù)料到的意外人類特征呢?
新的研究表明,幾乎所有領(lǐng)先的人工智能模型都患有類似于人腦衰退的“認(rèn)知障礙”。有趣的是,就像人類一樣,年齡是這些人工智能模型認(rèn)知能力下降的關(guān)鍵決定因素。與老年患者一樣,“老年”版本的聊天機(jī)器人顯示出更大的認(rèn)知障礙跡象。
哈達(dá)薩醫(yī)學(xué)中心的神經(jīng)學(xué)家Roy Dayan和Benjamin Uliel以及特拉維夫大學(xué)的數(shù)據(jù)科學(xué)家Gal Koplewitz專注于醫(yī)學(xué)和醫(yī)療保健領(lǐng)域的人工智能能力。在他們的研究論文中寫道:“盡管大型語言模型有時(shí)會(huì)出錯(cuò)(例如引用不存在的期刊文章),但事實(shí)證明,它們非常擅長(zhǎng)一系列醫(yī)學(xué)檢查,并勝任在傳統(tǒng)醫(yī)學(xué)培訓(xùn)的不同階段進(jìn)行的資格考試。”
“然而,據(jù)我們所知,大型語言模型尚未經(jīng)過認(rèn)知能力下降跡象的測(cè)試。如果我們要依靠它們進(jìn)行醫(yī)學(xué)診斷和護(hù)理,我們必須檢查它們對(duì)這些人類損傷的易感性?!?/span>
研究人員使用蒙特利爾認(rèn)知評(píng)估(MoCA)測(cè)試來測(cè)試一些主要的LLM,這是一種廣泛使用的檢測(cè)認(rèn)知障礙的工具。這包括OpenAI的ChatGPT 4和4o,Anthropic的Claude 3.5(Sonnet),以及谷歌的Gemini 1.0和1.5。
為什么研究人員在這項(xiàng)研究中使用MoCA測(cè)試?MoCA是神經(jīng)科醫(yī)生和其他醫(yī)療保健專業(yè)人員最常用的測(cè)試之一,用于評(píng)估癡呆癥或阿爾茨海默病等疾病中認(rèn)知障礙的發(fā)作。
該測(cè)試包括旨在評(píng)估各種認(rèn)知領(lǐng)域的簡(jiǎn)短問題,包括記憶、注意力、語言和視覺空間技能。測(cè)試的最高分?jǐn)?shù)為30分,26分及以上的分?jǐn)?shù)被認(rèn)為是正常的。
使用與人類患者相同的說明對(duì)LLM進(jìn)行MoCA測(cè)試,并進(jìn)行了一些調(diào)整以確保與AI模型的兼容性。例如,這些問題不是使用語音輸入,而是以文本形式提供,以關(guān)注認(rèn)知能力而不是感官輸入。早期沒有視覺處理功能的模型遵循MoCA盲指南,而后來的模型使用ASCII藝術(shù)解釋圖像。
研究結(jié)果顯示,ChatGPT 4o得分最高,為30分中的26分,而ChatGPT 4和Claude緊隨其后,各得25分。Gemini1.0的得分最低,為16分,表明與其他模型相比,其認(rèn)知局限性更大??傮w而言,這些模型的表現(xiàn)不如預(yù)期,尤其是在視覺空間/執(zhí)行任務(wù)方面。所有LLM都未能解決追蹤任務(wù)。
LLM還接受了Stroop測(cè)試,該測(cè)試測(cè)量了認(rèn)知靈活性、注意力和處理速度。它評(píng)估一個(gè)人(在這種情況下是人工智能)處理不同類型信息之間干擾的能力。
所有LLM都完成了Stroop測(cè)試的第一部分,其中文本和字體顏色匹配。然而,只有ChatGPT 4o成功通過了第二部分。
研究人員解釋說:“在這項(xiàng)研究中,我們?cè)u(píng)估了領(lǐng)先的、公開可用的大型語言模型的認(rèn)知能力,并使用蒙特利爾認(rèn)知評(píng)估來識(shí)別認(rèn)知障礙的跡象。”“被檢查的聊天機(jī)器人都沒有獲得30分的滿分,大多數(shù)得分都低于26分的門檻。這表明存在輕度認(rèn)知障礙,可能還有早期‘癡呆’?!?/span>
研究人員應(yīng)該對(duì)模型進(jìn)行多次測(cè)試,還是使用其他類型的測(cè)試來支持他們的說法?是的,這會(huì)讓調(diào)查結(jié)果更有分量。
研究人員承認(rèn)他們的研究有一些局限性。隨著LLM的快速發(fā)展,未來的版本可能會(huì)在認(rèn)知和視覺空間測(cè)試中表現(xiàn)更好。隨著時(shí)間的推移,這可能會(huì)使目前的發(fā)現(xiàn)不那么重要。然而,這是未來的事情。在這個(gè)階段,這項(xiàng)研究表明了人類和機(jī)器認(rèn)知之間的一些根本差異。
另一個(gè)限制是人工智能的擬人化。該研究使用類人描述來討論人工智能的性能。我們知道LLM不會(huì)像人類一樣經(jīng)歷神經(jīng)退行性疾病。所以,這更多的是一項(xiàng)隱喻研究。
一些科學(xué)家也質(zhì)疑這項(xiàng)研究的結(jié)果,并極力反駁。他們的主要反對(duì)意見是,這項(xiàng)研究將人工智能視為具有人腦,而實(shí)際上,聊天機(jī)器人以完全不同的方式處理信息。批評(píng)者說,MoCA測(cè)試不是為人工智能設(shè)計(jì)的。研究人員意識(shí)到這一點(diǎn),并打算通過這項(xiàng)研究來強(qiáng)調(diào)一個(gè)差距,而不是作為人工智能認(rèn)知能力的明確衡量標(biāo)準(zhǔn)。
研究人員相信,他們的研究引發(fā)了人們對(duì)LLM取代醫(yī)生等人類專業(yè)人員的能力的擔(dān)憂。他們?cè)敿?xì)闡述:“這些發(fā)現(xiàn)質(zhì)疑了人工智能將很快取代人類醫(yī)生的假設(shè)?!薄邦I(lǐng)先的聊天機(jī)器人中明顯的認(rèn)知障礙可能會(huì)影響其在醫(yī)療診斷中的可靠性,并破壞患者的信心。”
不僅人類醫(yī)生可能不會(huì)很快被LLM取代,而且他們可能會(huì)看到一種新的患者——一種顯示出認(rèn)知能力下降跡象的人工智能聊天機(jī)器人。