如何正確看待 AI 的推理能力?走出人類中心主義 原創(chuàng) 精華
編者按: 人工智能真的能“推理”嗎?我們是否正在用過于狹隘的人類思維,限制了對 AI 推理能力的認(rèn)知?我們今天為大家?guī)淼奈恼拢髡叩挠^點是:AI 的推理能力不應(yīng)被簡單地用“人類中心主義”的標(biāo)準(zhǔn)來否定。文章重點揭示了三個關(guān)鍵內(nèi)容:
- 推理能力的定義應(yīng)更加開放,不應(yīng)局限于傳統(tǒng)人類思維模式
- 通過多個標(biāo)準(zhǔn)化測試(如 HellaSwag、WinoGrande),AI 在推理任務(wù)中已展現(xiàn)出顯著能力
- 我們需要以更開放的心態(tài),將 AI 視為一種獨特的“外星智能”
這不僅是一篇技術(shù)解讀,更是對人類智能的深刻反思。在 AI 快速迭代的今天,我們是否能突破“人類中心主義”的思維桎梏,以更開放、更謙遜的態(tài)度擁抱這種新興的“外星智能”?
作者 | Rafe Brena, Ph.D.
編譯 | 岳揚
Image by the author using ChatGPT
近期,關(guān)于人工智能是否具備推理能力的討論愈發(fā)白熱化。近期發(fā)布的 DeepSeek R1 模型和 OpenAI o3-mini 模型[1]引發(fā)了各方反應(yīng)[2],有觀點認(rèn)為“這不過是炒作和幻象”,也有觀點視其為“人工智能的新典范”。
人工智能的推理能力(或推理能力的缺失)似乎觸動了眾多人的敏感神經(jīng)。我猜想,他們認(rèn)為承認(rèn)人工智能能夠“推理”被看作是對人類自尊的一種打擊,因為這樣說明推理并非人類獨享。
在十九世紀(jì),算術(shù)被視為一種智力成就(嘿,你見過牛做加法嗎?)。然而,我們必須適應(yīng)使用遠(yuǎn)比我們強大的計算器。
我見過一些令人震驚的論斷,從“我們即將實現(xiàn)通用人工智能”到“人工智能已達(dá)到博士水平”再到對人工智能推理能力的徹底否定,例如“蘋果公司稱人工智能革命是扯淡”。
在其它文章中,我曾評論過埃隆·馬斯克(Elon Musk)的粉絲們所宣稱的 AGI 是多么的無稽之談。在本文中,我將探討上述觀點的另一端:針對那些宣稱人工智能根本無法推理的人。
加里·馬庫斯(Gary Marcus)[3],最直言不諱的人工智能否認(rèn)者(我并不稱他們?yōu)椤皯岩烧撜摺保?,認(rèn)為人工智能在模式識別上可能表現(xiàn)卓越,但缺乏“真實推理”的能力。
此外,馬庫斯將 AI chatbots 稱作“被美化的自動補全”,為艾米莉·本德(Emily Bender)在 ChatGPT 早期發(fā)明的著名貶義詞“隨機鸚鵡”增添了一個新術(shù)語。
何為“真正的推理(genuine reasoning)”?我將在下文中嘗試回答這個問題。
甚至像諾姆·喬姆斯基(Noam Chomsky)這樣更有聲望的思想領(lǐng)袖也認(rèn)為人工智能無法 “真正思考”,認(rèn)為它缺乏 “understanding of meaning”(譯者注:部分研究者認(rèn)為,AI 可能通過“具身智能”(embodied AI)或更復(fù)雜的多模態(tài)學(xué)習(xí)逐步接近“意義理解”。但喬姆斯基派堅持認(rèn)為,只要 AI 沒有意識、意圖和身體經(jīng)驗,其“理解”就與人類有本質(zhì)區(qū)別。)。他還認(rèn)為,人工智能永遠(yuǎn)無法與人類的創(chuàng)造力和抽象思維能力相抗衡。
01 大語言模型(LLMs)能推理嗎?
在這些支持和反對人工智能具備推理能力的激進觀點的洪流中,我們怎樣才能理解哪些是基于事實的,而不僅僅是單純的個人感覺或個人想法呢?當(dāng)然是看證據(jù)。
但這場爭議中的“事實(facts)”究竟是什么?請注意,所謂“事實”很大程度上取決于你對“推理”的定義,尤其是當(dāng)有些人進一步要求推理應(yīng)當(dāng)是“真正地推理(truly reason)”時。例如,薩爾瓦托雷·拉伊利(Salvatore Raieli )在他最近的文章中問道:
“大語言模型(LLMs)真的能推理嗎?(Can Large Language Models (LLMs) truly reason?)”
這里的關(guān)鍵詞是“真正地(truly)”。那么,“推理”與“真正地推理”有何區(qū)別?我懷疑這里存在一種人類中心主義的偏見,好像“真正地推理”意味著“像我們?nèi)祟愐粯油评?,我們是宇宙中唯一真正的推理者”?/p>
相反,我更愿意將“推理”定義為解決公認(rèn)需要推理的問題的認(rèn)知能力。這包括數(shù)學(xué)推理(mathematical reasoning)、常識推理(commonsense reasoning)、語言理解(language understanding)和推斷(inference)等。
這個定義可能有些循環(huán)論證的嫌疑。但一旦我們就一系列與特定能力相關(guān)的問題達(dá)成共識,接下來就是檢驗人工智能系統(tǒng)是否能解決這些問題。問題在于,正如我將在下文中論述的,當(dāng)前的人工智能可能在解決某個問題時得心應(yīng)手,但對人類而言看似與這個問題相似的問題(如不同角度的物體識別、同一問題的不同表達(dá)方式),AI系統(tǒng)可能完全無法處理。
請留意,在采用這個定義時,我明確與著名的“圖靈測試”(Turing Test)區(qū)分開來。圖靈測試的目的是想通過騙過人類評委,讓他們以為自己是在和真人對話。如果你還沒聽說過圖靈測試,可以看看我寫的文章“Why the Turing Test Became Obsolete?(圖靈測試為何不再適用?)”[4]
同時,我也不同意那種認(rèn)為人工智能要變得聰明就必須“像人一樣推理”的觀點。我認(rèn)為“像人類一樣推理”這種表述是模糊的、擬人化的,且沒有實際價值。
在文章的最后一部分,我認(rèn)為現(xiàn)代人工智能其實根本不是“像人一樣推理”;它更像是一種非人類的形式、或者說“外星”智能。
另外,還有人提出,“真正的推理”應(yīng)該是在所謂的“思維鏈”(Chain of Thought,CoT)中進行的“多步驟思考(think in several steps)”。
這個和 AI chatbots 有關(guān)的想法,最初是由谷歌研究院在 2022 年的一篇論文“Chain of Thought Prompting Elicits Reasoning in Large Language Models”[5]中提出的。OpenAI 實現(xiàn)了這個想法,并且做得很好,因此有人稱其為 “人工智能的新范式”。
我并不反對在人工智能中使用思維鏈(CoT),比如 OpenAI 就做得很好(相關(guān)測試結(jié)果清楚地表明了改進之處)。但我覺得,推理是一種認(rèn)知能力,不僅僅局限于多步驟的思考。
推理也不只是“解決復(fù)雜問題”(就像上文提到的 Raieli 說的那樣)。我覺得推理可以很簡單,也可以很復(fù)雜,而且每種推理都應(yīng)該有客觀的測試方法。
說到這里,你大概能明白為什么很多人覺得“人工智能不會推理”了:
- 有些人覺得人工智能不是“真的”在推理,或者不是“像人一樣推理”。
- 另一些人認(rèn)為 AI 應(yīng)該精通“復(fù)雜推理和問題解決”,卻忽視了更簡單的推理形式。
- 還有一些人對任何不是由一系列推理步驟組成的推理都不屑一顧。
很多事情都是細(xì)節(jié)決定成敗,這里的細(xì)節(jié)就是怎么定義所謂的“推理能力”。我已經(jīng)在上文給出了我的定義。我覺得這些對人工智能推理能力的質(zhì)疑其實是一種偏見,因為一開始就改變了“推理”的含義。
現(xiàn)在,我們來聊聊怎么驗證和衡量推理能力。
02 怎么衡量智能?
請記住,我們衡量認(rèn)知能力的標(biāo)準(zhǔn),與蒙騙那些被誘導(dǎo)相信自己在“與擁有靈魂的實體互動”的輕信者毫無關(guān)系 —— 這讓人想起前谷歌工程師布萊克·勒莫因(Blake Lemoine)那聽起來很玄但其實不對的觀點,他曾以道德理由拒絕關(guān)閉一個“有意識”的 AI chatbot。
咱們衡量認(rèn)知能力,可不能靠主觀感覺。得用標(biāo)準(zhǔn)的題庫來測量,比如:
- HellaSwag[6] 和 WinoGrande[7],用來看看 AI 的常識推理能力怎么樣。
- GLUE[8] 和 SuperGLUE,用來評估 AI 理解自然語言的能力。
- InFoBench[9],用來檢查 AI 能不能好好遵循指令。
- AI2 Reasoning Challenge(ARC)[10],里面還包括了思維鏈能力的測試。
這些題庫各有各的側(cè)重點,但都在考察“推理”能力。你得知道,“推理”可并不是一個單一的任務(wù),很多不同的任務(wù)都可以算是“推理”。
從我開始用 ChatGPT 的時候,我就發(fā)現(xiàn)它特別聽話,能按指令辦事。說實話,這讓我對大語言模型(LLMs)的推理能力有了新的認(rèn)識,我下面會詳細(xì)說說。
有一天,我聽到了 Sebastien Bubeck(那時候他在微軟,現(xiàn)在在 OpenAI)關(guān)于大語言模型的推理能力的一個很有道理的觀點:
要是 AI 不懂指令,它怎么會照著做呢?
沒錯。
Bubeck 的意思不是 AI 會說“我聽懂了你的問題”。而是 AI 會按照指令去做,然后我們?nèi)耍ɑ蛘邉e的程序)來檢查它做得對不對。
現(xiàn)在有了衡量遵循指令能力的基準(zhǔn)測試,這個觀點可以更深入地討論。
接下來,讓我們探討一下常識推理。這被認(rèn)為是人類特有的品質(zhì),對吧?但事實上,常識推理也可以通過像 WinoGrande 這樣的基準(zhǔn)測試來評估。
來看看 WinoGrande 的問題是怎么問的。這個基準(zhǔn)測試大部分問題都是關(guān)于代詞指代,比如這個:
“Ann 問 Mary 圖書館什么時候關(guān)門,因為她忘記了?!?/p>
這里的“她”是指誰,Ann 還是 Mary?
人類一眼就能看出“她”是 Ann,因為問題是她問的。但機器碰到這種問題可能就犯難了。
很明顯,用題庫來測試 AI 的認(rèn)知能力時,得確保 AI 之前沒見過這些題,不然就是“作弊”了。
那大語言模型在這些題庫測試?yán)锉憩F(xiàn)怎么樣呢?
比較起來有個麻煩,就是每家 AI 公司用的題庫都不一樣,我猜他們肯定是挑自己 AI 得分高的題庫。所以,大家常用的比較方法變成了使用“Chatbot arena”,不是看題庫成績,而是看人投票。這又讓我們想起了圖靈測試的那些問題……
截至 2024 年 12 月 10 日的 Chatbot 競技場排名(Hugging Face)
在 HellaSwag 這個測試?yán)?,Gemini Pro 1.5 得了 92.5分(滿分100),GPT-4 Turbo 更厲害,得了 96 分(雖然不是最新版本,但也能看出個大概)。
這局 OpenAI 贏了,Google 輸了。
在 MMLU 這個測試(跟 GLUE 差不多)里,GPT-4 大概得了87分,Gemini Ultra 得了 90 分。
這局倆人都贏了一次,打平了。
我們還可以繼續(xù)比下去,但說實話,現(xiàn)在最牛的這些 LLMs 水平都差不多。為啥呢?因為頂尖的 AI 專家們都在這些大公司之間跳來跳去,人才流動太頻繁了。
重點是,現(xiàn)在這些最厲害的 LLMs 都有的認(rèn)知能力,不是光靠運氣或記憶力就能解釋的。所以,我覺得那個“隨機鸚鵡”的說法,其實啥也說明不了。
03 “外星智能”
咱們?nèi)祟惻龅浆F(xiàn)在這種人工智能(就是那種基于大語言模型的 AI)時,經(jīng)常會覺得摸不著頭腦,這其實是有原因的。
我最近寫了篇文章[11],說了說人類智能和這種現(xiàn)代 AI 有啥不一樣。主要區(qū)別有這么幾點:
- 區(qū)別1:人類是真的有感情;機器呢,只是裝裝樣子。
- 區(qū)別2:人類對事情的理解很明確,懂就是懂,不懂就是不懂。
- 區(qū)別3:機器在做決定時,從來不會猶豫。
這三個區(qū)別都很重要,但我想重點說說區(qū)別2,因為它跟推理能力關(guān)系最大。咱們來好好聊聊這個。
咱們?nèi)祟愑袝r候會突然“開竅”,對某個事情有了徹底的理解,這種理解是很堅定的,不會因為一些無關(guān)緊要的細(xì)節(jié)就改變。但是機器呢,就不是這么回事了。
最近,蘋果公司的研究人員發(fā)了篇論文[12],這篇論文引起了很大的反響(而且是好的那種)。論文里說了,大語言模型在推理任務(wù)上其實有很多局限性。
蘋果的研究人員還專門做了數(shù)學(xué)推理能力測試,用了一種特別的測試方法來評估。他們做了些很有意思的實驗,我接下來就給大家講講。
在其中一項實驗中,研究人員先測試了系統(tǒng)在回答一系列問題時的表現(xiàn),然后他們對問題進行了一系列所謂的無關(guān)修改,比如改了人名、數(shù)字或者加入了一些無關(guān)的內(nèi)容。結(jié)果他們發(fā)現(xiàn),當(dāng)再次測試時,系統(tǒng)的表現(xiàn)大幅下滑。
為什么修改這些無關(guān)信息會導(dǎo)致系統(tǒng)表現(xiàn)下降呢?因為在類似的情況下,人類幾乎總能分辨出哪些信息是重要的,哪些不是,然后忽略掉無關(guān)的信息。但機器在這方面就很吃力了,盡管它們在很多情況下都能給出正確答案,但整體表現(xiàn)還是受到了很大影響。
蘋果公司的實驗無可辯駁。但如何解讀這些結(jié)果確實是個問題。
在得出結(jié)論時,我發(fā)現(xiàn)蘋果的研究人員也和大家一樣有偏見。比如,他們說“當(dāng)前的 LLMs 無法進行真正的邏輯推理?!蔽也赂魑蛔x者能找出這句話的關(guān)鍵詞,就是“真正的”。我們再次把人類的推理視為唯一“真實”的推理方式。
04 結(jié)束語
大多數(shù)對 AI 推理的否認(rèn)都基于一種偏見,這種偏見通常與“AI 應(yīng)該像人類一樣推理”的假設(shè)有關(guān)。如果不是這樣,那么 AI 就不是在推理——或者說不算作推理。
這一切都取決于我們?nèi)绾味x“AI 能推理”。
有些人認(rèn)為,模式匹配意味著完全無法進行“真實”的推理,即使 AI 在大多數(shù)情況下都能給出正確答案。
這就好像在說,任何通過模式匹配完成的事情“都不算作推理”。但是,如果 AI 在許多——不是所有的推理測試中都給出了正確答案呢?如果 AI 在推理問題上逐漸給出了越來越高的準(zhǔn)確率,無論是否使用模式匹配呢?
我再次看到了我們的“人類自豪感”在作祟。我們?nèi)祟愂怯钪娴闹髟?,不是嗎?所以,我們的推理?yīng)該是唯一有效的推理方式。我們已經(jīng)先后被計算器、深藍(lán)(國際象棋)和阿爾法狗(圍棋)超越,受到了打擊?,F(xiàn)在,我們的通用推理能力又受到了“大規(guī)模模式匹配”裝置的挑戰(zhàn),這簡直是雪上加霜。
我們是要固守'人類中心主義'的立場——自視為宇宙的主宰,還是轉(zhuǎn)向更謙遜(或許也更現(xiàn)實)的認(rèn)知:將人類視為非凡但有限的存在,能夠與其他形態(tài)的智能進行互動?
Thanks for reading!
Hope you have enjoyed and learned new things from this blog!
About the author
Rafe Brena, Ph.D.
AI expert, writepreneur, and futurologist. I was in AI way before it became cool.
END
本期互動內(nèi)容 ??
?在你看來,AI 的推理能力與人類推理能力最大的不同點是什么?
??文中鏈接??
[1]??https://openai.com/index/openai-o3-mini/??
[3]??https://x.com/garymarcus??
[6]??https://paperswithcode.com/dataset/hellaswag??
[7]??https://winogrande.allenai.org/??
[8]??https://gluebenchmark.com/??
[9]??https://arxiv.org/abs/2401.03601??
[10]??https://paperswithcode.com/dataset/arc??
[12]??https://arxiv.org/pdf/2410.05229??
原文鏈接:
??https://towardsdatascience.com/why-ai-cant-reason-is-a-bias-3c582bba1aeb??
