自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型=缸中之腦?通院朱松純團隊剖析AGI關(guān)鍵缺失

人工智能 新聞
“知行合一”:大語言模型距離通用人工智能最欠缺的一步。

近期 ChatGPT/GPT-4 系列產(chǎn)品引發(fā)全球關(guān)注和討論,以其為代表的大模型在語言方面表現(xiàn)出了一定的通用性,使通用人工智能的概念浮出水面,進入了大眾視野。

業(yè)界很多人認為大模型是通往通用人工智能的必經(jīng)之路,然而大模型真的如業(yè)界所追捧的一樣 “無所不能” 么?以 GPT-4 為代表的大語言模型究竟離通用人工智能還有多遠?

北京通用人工智能研究院朱松純教授團隊最新發(fā)布了一份針對大模型的技術(shù)報告,系統(tǒng)回顧了現(xiàn)有使用標準化測試和能力基準對大型語言模型(LLMs)進行的評估,并指出了當前評估方法中存在的幾個問題,這些問題往往會夸大 LLMs 的能力。報告進一步提出通用人工智能(AGI)應(yīng)具備的四個特征:能夠執(zhí)行無限任務(wù),自主生成新任務(wù),由價值系統(tǒng)驅(qū)動,以及擁有反映真實世界的世界模型。

研究人員在技術(shù)報告中指出,“知行合一”(認識和行動的內(nèi)在統(tǒng)一)是大模型目前所欠缺的機制,也是邁向通用人工智能的必經(jīng)之路。研究人員認為,概念的學(xué)習(xí)依賴于與真實世界的交互,且知識的獲取并不完全依賴于被動輸入,在新環(huán)境中獲取知識的關(guān)鍵途徑更應(yīng)該是主動探索和試錯而非被動接受。

論文鏈接:https://arxiv.org/abs/2307.03762

一、大語言模型無異于缸中之腦

缸中之腦是由哲學(xué)家 Hilary Putnam 提出的一個著名思想實驗,該實驗假設(shè)人的大腦從身體剝離,放在一個能夠維持其機能的營養(yǎng)液缸,由一個超級計算機聯(lián)結(jié)大腦神經(jīng)元制造出各種幻象,讓人覺得一切正常,就像《黑客帝國》所演的那樣,那我們該怎么知道自己不是缸中之腦呢?

圖片

基于語義學(xué)的分析,Putnam 反駁道,當缸中大腦里的人聲稱自己是 “缸中之腦” 時,缸和腦的所指已經(jīng)發(fā)生了變化。如何理解這一觀點呢?舉個簡單的例子 —— 假設(shè)存在一個孿生地球,其居民和我們生活方式、語言均相同,但他們的 "水" 分子組成為 XYZ,與我們的 H2O 不同。盡管這兩種 "水" 在外觀、用途和名稱上無異,且兩地居民對 "水" 的心理感知相同,但指向的實質(zhì)卻不同,因此其含義也應(yīng)有所區(qū)別。這也啟發(fā)研究者從符號落地(symbol grounding)的視角看待大模型。論文認為,大模型無異于缸中之腦,因為大模型本身并不在真實世界中 (living in the world),它無法像人一樣實現(xiàn)從” 詞語 (word)“到” 世界 (world)“的聯(lián)結(jié)。這一點是由它的內(nèi)在構(gòu)造機制所決定的 —— 通過統(tǒng)計建模在大量文本上進行訓(xùn)練,學(xué)習(xí)文本之間的語言學(xué)相關(guān)關(guān)系,從而根據(jù)上個詞匯預(yù)測下個詞匯。

缺乏符號落地使得大模型很容易陷入繞圈圈的境地。研究者嘗試給 GPT-4 一個引子,讓它跟自己對話,然而在有限回合之后,GPT 就開始重復(fù)自己說的話,無法跳脫當下的語義空間。

圖片

大模型的 “智能” 與其說是內(nèi)在的,不如說是人類智能的投影。大模型生成的文本并不先天具有意義,其意義來自于人類用戶對于文本的闡釋。例如語言學(xué)家喬姆斯基曾經(jīng)嘗試挑戰(zhàn)語言學(xué)界構(gòu)造了一個符合語法規(guī)范但無意義的句子 ——“無色的綠思狂暴地沉睡”(“Colorless green ideas sleep furiously”),然而中國語言學(xué)之父趙元任在他的名文《從胡說中尋找意義》中給予了這個句子一個充滿哲思的闡釋。

二、大模型的局限性

大模型訓(xùn)練數(shù)據(jù)集的不透明以及人類評估時所采取的指標差異可能使得人類高估了大模型的真正表現(xiàn)。一方面,大模型的訓(xùn)練數(shù)據(jù)集通常是規(guī)模巨大且高度易得的互聯(lián)網(wǎng)數(shù)據(jù),這些訓(xùn)練數(shù)據(jù)可能會包含后續(xù)用于評估的數(shù)據(jù)集。由于當前我們并不知道 GPT-4 等大模型的訓(xùn)練數(shù)據(jù)集構(gòu)成,泛化這一概念變得模糊,即我們無法判斷大模型是真的學(xué)習(xí)到了核心概念,還是僅僅從它的訓(xùn)練產(chǎn)生的 “隱藏記憶” 中進行檢索,這種不透明性阻礙了學(xué)術(shù)界對其公正和可靠的評估。另一方面,有研究發(fā)現(xiàn)大模型的涌現(xiàn)能力并非源于模型行為的本質(zhì)變化,而是由于使用的評估指標導(dǎo)致大模型看起來突然變得很強大。簡單地說,在使用非線性度量(如 X 的 n 次方)時,曲線上稀疏的采樣點可能讓人感覺到存在某種涌現(xiàn)現(xiàn)象,然而如果換成線性度量,這種現(xiàn)象就不存在了。

在回顧了數(shù)十篇大語言模型的評估研究后,研究人員發(fā)現(xiàn):

1)雖然某些研究聲稱大語言模型能夠在標準化測試(SAT,LSAT)中取得超越普通人類考生的卓越成績,但一旦引入非英語的其他語言同類型測試,比如中國高考、印度升學(xué)考試、越南高考時,GPT 的表現(xiàn)顯著下降,且其在需要應(yīng)用推理的考試(數(shù)學(xué)、物理等)的成績顯著低于強語言依賴學(xué)科(英文、歷史)的考試。GPT 的表現(xiàn)看上去更像是采取了一種題海戰(zhàn)術(shù),通過重復(fù)的記憶來做題,而非習(xí)得了如何進行推理。

圖片

2) 大語言模型的數(shù)學(xué)推理能力仍然有待提高。Bubeck 等人(2023)在《Sparks of Artificial General Intelligence》這篇文章中采取了單個案例展示的方式嘗試說明 GPT-4 能夠解決 IMO 級別的問題,但研究者在仔細檢視了 GPT 所提供的解決方案發(fā)現(xiàn) Bubeck 等人的結(jié)論具有很強的誤導(dǎo)性,因為測試的題目被極大程度地簡化了,在讓 GPT-4 解決 IMO 數(shù)學(xué)題原題時, GPT-4 的數(shù)學(xué)邏輯鏈條是完全錯誤的。另有研究發(fā)現(xiàn),在 MATH 訓(xùn)練數(shù)據(jù)集上,即使把模型設(shè)置為 MathChat 的模式,其準確率也只有 40% 左右。

3)大語言模型的推理與其說是來自于理解邏輯關(guān)系,不如說是來自于大量文本的相關(guān)性。朱松純團隊的另一篇研究發(fā)現(xiàn),一旦將自然語言替換為符號,大語言模型在歸納、演繹、溯因任務(wù)上表現(xiàn)驟降,無論是否使用思維鏈(thought of chain)的策略。

一個簡單的例子如下圖所示:圖左用動物(熊、狗、牛等)生成了一系列陳述(比如 “熊喜歡狗”、“牛的屬性是圓”、“如果某個動物的屬性是圓,那么他們喜歡松鼠”),而后給 GPT-4 一個新的陳述(比如 “牛喜歡松鼠”)讓其判斷正確與否,研究者發(fā)現(xiàn)當把具有明確語義的詞匯替換成抽象符號時,(比如用 e4 替代熊,e5 替代狗,e2 替代圓),大語言模型的表現(xiàn)將會顯著下降。另一個對大模型的因果推斷能力的研究揭露了相似的發(fā)現(xiàn) —— 當將大模型的語義轉(zhuǎn)化為符號時,大模型的表現(xiàn)將下降到幾乎同隨機回答無異,哪怕在微調(diào)之后,大模型也只能應(yīng)對之前出現(xiàn)過的類似的符號表達,而無法泛化到新場景中。

圖片圖片

4)大模型做不好抽象推理,當面對那些僅依賴于幾個小樣本演示從而找到潛在規(guī)律的任務(wù)時,大模型的表現(xiàn)較為一般。如下圖所示,在瑞文測試數(shù)據(jù)集(RAVEN) 中,測試者需要根據(jù)已有的 8 個圖形(形狀、顏色、數(shù)量、大?。ふ野岛囊?guī)律,然后推理出最后一個圖形。

圖片

另外一個例子來自于 Evals-P 數(shù)據(jù)集,如下右圖所示,大模型需要能夠在缺少大量訓(xùn)練樣本的前提下找到出現(xiàn) foo 或者 bar 的規(guī)律,即當首字母包含在之后的字符串里時是 foo,不包含時為 bar。對于某些大模型,這些任務(wù)的準確率接近于 0,而哪怕 GPT-4 的準確率也只有 30% 左右。

三、關(guān)于通用人工智能的一種觀點

判斷 “某某某 AI” 是不是通用人工智能的一個前提是得清楚通用人工智能的定義或者基本特征,朱松純團隊嘗試刻畫出了通用人工智能(AGI)的四個特征:

1.能夠執(zhí)行無限的任務(wù);

2.能夠自主生成新任務(wù);

3.由價值系統(tǒng)驅(qū)動;

4.擁有反映真實世界的世界模型。

首先,智能體應(yīng)具備在物理和社會環(huán)境中完成無窮任務(wù)的能力。如果設(shè)定一個表示達到 AGI 的任務(wù)數(shù)量閾值,那么如何確定這個閾值將始終是一個值得質(zhì)疑的問題。如果智能體在完成 N 個任務(wù)后沒有展現(xiàn)出通用智能,我們就沒有理由相信它在完成第 N+1 個任務(wù)后會突然擁有通用智能。雖然一系列具體而具挑戰(zhàn)性的任務(wù)清單對于評估智能體的性能有所幫助,類似于教師用學(xué)生的考試分數(shù)來評估他們的學(xué)習(xí)成績,但僅僅完成具體任務(wù)并不等同于擁有通用智能,這就像不能僅憑學(xué)生的分數(shù)判斷他們真正的學(xué)習(xí)能力一樣。此外,無窮任務(wù)并不意味著智能體需要像超人一樣無所不能,而是指通用智能體應(yīng)能夠在特定環(huán)境中自主生成新的任務(wù),這與學(xué)生學(xué)會自我學(xué)習(xí)相仿。

智能體生成新任務(wù)需要兩個基本機制。首先,智能體需要一個驅(qū)動任務(wù)生成的引擎。例如,達爾文的進化論揭示出生存和繁衍這兩個本能,它們被編碼在我們的基因中,而人類的進化過程豐富了價值系統(tǒng),出現(xiàn)了各種各樣的細分價值,如利他主義、誠實和勇氣等,每個人都受到一個由其與現(xiàn)實世界持續(xù)互動塑造的復(fù)雜價值系統(tǒng)的驅(qū)動。同樣的,我們可以應(yīng)用這種價值系統(tǒng)的概念來構(gòu)建通用智能體,在這種情況下,人類可以通過調(diào)整智能體的價值函數(shù)來影響其行為,而無需預(yù)先定義詳細的任務(wù)步驟。其次,智能體需要一個包含真實世界中物理法則和社會規(guī)范的世界模型,來指導(dǎo)智能體和真實世界的交互。這就像一個玩樂高,世界模型包含了各種積木(物體表征)以及積木之間的連接方式(物理法則和因果鏈等)。然而,價值函數(shù)在所有可能的選項中選擇了一種藍圖,比如拼一個城堡,驅(qū)動智能體去執(zhí)行任務(wù),在樂高城堡搭建的過程中,智能體需要根據(jù)當前的進度,選擇合適的積木并將其正確地放置在相應(yīng)的位置(自我生成新任務(wù))。

四、“知行合一”

王陽明曾說,知而不行,只是未知。為了解決符號落地并且誕生具有上述特征的通用人工智能,僅依賴于知識是遠遠不夠的,整合知識和行動是必須的。此時,智能體不僅能夠通過主動地行動來生成對于現(xiàn)實世界物體的更加完整的表征,比如整合了視覺、觸覺、聽覺等信號,更重要的是能夠通過探索環(huán)境生成知識,并進一步泛化到新場景中。

其一,人對于世界的理解是建立在和真實世界交互中的。符號(語言、數(shù)學(xué)符號等)只是概念的指針,只有多模態(tài)的交互信號才能真正建立概念表征。僅停留在文本空間上的大語言模型雖然能夠生成符號,但無法實現(xiàn)理解符號所指向的概念。如同一個螞蟻意外的行動軌跡構(gòu)成了一個 “○”,但螞蟻本身并不理解圓形意味著什么。

其二,知識并非是先天存在的,知識和行動之間有著內(nèi)在的聯(lián)系。人類對世界的深刻理解并非來自于簡單地閱讀手冊,而是通過自己親身探索或者來自于他人探索的傳遞等反復(fù)的試錯積累而來。在這里,知識體現(xiàn)了人與世界交互的能力(比如推理,問題解決,社會理解),但如果模型只是被動地接受知識并通過統(tǒng)計模型生成內(nèi)容,無異于一個壓縮了大量知識的百科全書,但卻無法在新環(huán)境中通過探索世界進行新的知識生產(chǎn)( 包括知識抽象、知識積累和知識遷移等過程)。

五、總結(jié)

研究團隊提出的大模型技術(shù)報告為接下來的人工智能研究提供了一些潛在的研究方向:

  1. 建立透明的評估機制和評估系統(tǒng);
  2. 創(chuàng)造具有豐富可供性(大量交互可能性)的仿真環(huán)境;
  3. 探索一套 “知行合一” 的認知架構(gòu),從 “純數(shù)據(jù)驅(qū)動” 的范式向 “任務(wù)驅(qū)動” 的范式轉(zhuǎn)變


責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-02-27 14:51:03

2025-01-08 14:13:53

2020-09-14 09:48:27

AI 數(shù)據(jù)人工智能

2025-01-09 14:34:50

2022-07-15 09:07:19

AI機器人

2022-07-25 15:13:54

云計算關(guān)鍵詞何寶宏

2021-07-27 12:46:02

云計算云遷移

2016-03-18 15:21:10

2021-04-26 14:58:20

AI 數(shù)據(jù)人工智能

2021-05-10 10:23:32

云計算混合云云原生

2023-03-13 15:56:00

模型框架

2024-10-24 09:50:00

AI機器人

2023-05-24 20:23:50

云知聲AGI大模型

2012-12-13 09:45:32

BYOD移動通信
點贊
收藏

51CTO技術(shù)棧公眾號