谷歌DeepMind給AGI劃等級,猜猜ChatGPT在哪個(gè)位置
我們到底該如何定義 AGI(通用人工智能)?如果你要求 100 位 AI 專家進(jìn)行解答,你可能會得到 100 個(gè)相關(guān)但不同的定義。
現(xiàn)階段,AGI 是 AI 研究中一個(gè)重要且存在爭議的概念,有研究者認(rèn)為 AGI 已經(jīng)出現(xiàn)在最新一代大語言模型(LLM)中;還有一些人預(yù)測人工智能將在大約十年內(nèi)超越人類,甚至斷言當(dāng)前的 LLM 就是 AGI。
深入理解 AGI 的概念很重要,因?yàn)樗成淞巳斯ぶ悄芩_(dá)到的目標(biāo)、對事物的預(yù)測以及帶來的風(fēng)險(xiǎn)。
我們該如何劃分 AGI 等級呢?就像自動駕駛等級(如 L0 無自動駕駛)一樣,這種級別的劃分對人與人之間的溝通能力、制定規(guī)則和定義自動駕駛目標(biāo)非常有用。本文,來自 Google DeepMind 的研究者提出了類似的 AGI 等級,根據(jù)劃分原則,ChatGPT 被劃分為 L1 Emerging AGI,Imagen 是 L3 Expert Narrow AI,AlphaGo 被劃分為 L4 Virtuouso Narrow AI。
具體而言,他們提出了一個(gè)框架,用于對 AGI 模型進(jìn)行分類。Google DeepMind 希望這個(gè)框架能夠以類似于自動駕駛水平的方式發(fā)揮作用,從而提供一種通用語言來比較模型、評估風(fēng)險(xiǎn)和衡量 AGI 的進(jìn)展。
為了開發(fā)這個(gè)框架,DeepMind 對 AGI 的現(xiàn)有定義進(jìn)行了分析,并提煉出了六個(gè)原則:
- 關(guān)注模型能力,而不是過程。
- 注注通用性和性能。
- 關(guān)注認(rèn)知和元認(rèn)知任務(wù)。
- 關(guān)注潛能,而不是部署。
- 關(guān)注生態(tài)的有效性。
- 關(guān)注 AGI 發(fā)展道路,而不是只關(guān)心終點(diǎn)。
在這些原則的基礎(chǔ)之上,DeepMind 從性能和通用性兩個(gè)維度提出了「AGI 等級(Levels of AGI)」。
- Level 0:無 AI(No AI),如 Amazon Mechanical Turk;
- Level 1: 涌現(xiàn)(Emerging),與不熟練的人類相當(dāng)或比之更好, 如 ChatGPT、Bard、Llama 2 ;
- Level 2: 有能力(Competent),達(dá)到 50% 的人類水平,廣泛任務(wù)上還沒實(shí)現(xiàn);
- Level 3: 專家(Expert),到達(dá) 90% 的人類水平,廣泛任務(wù)上還沒實(shí)現(xiàn), Imagen、Dall-E 2 在特定任務(wù)上已經(jīng)實(shí)現(xiàn);
- Level 4: 大師(Virtuoso) ,達(dá)到 99% 的人類水平,在廣泛任務(wù)上還沒實(shí)現(xiàn),Deep Blue 、AlphaGo 在特定任務(wù)上已經(jīng)實(shí)現(xiàn);
- Level 5: 超人類(Superhuman),勝過 100% 人類,廣泛任務(wù)上還沒實(shí)現(xiàn),在一些任務(wù)范圍內(nèi),AlphaFold 、AlphaZero 、 StockFish 已經(jīng)實(shí)現(xiàn)。
論文地址:https://arxiv.org/pdf/2311.02462.pdf
AGI 六個(gè)原則
DeepMind 認(rèn)為,AGI 的任何定義都應(yīng)滿足以下六個(gè)標(biāo)準(zhǔn):
1. 關(guān)注模型能力,而不是過程。這一原則可以幫助我們排除一些不一定是實(shí)現(xiàn) AGI 的必備條件。比如實(shí)現(xiàn) AGI 并不意味著系統(tǒng)以類似人類的方式進(jìn)行思考或理解;又比如實(shí)現(xiàn) AGI 并不意味著系統(tǒng)擁有諸如意識(主觀意識)或感知力(有感情的能力)等屬性。
2. 關(guān)注通用性和性能。所有定義都不同程度地強(qiáng)調(diào)了通用性,但有些定義排除了性能標(biāo)準(zhǔn)。DeepMind 認(rèn)為通用性和性能都是 AGI 的關(guān)鍵組成部分。
3. 關(guān)注認(rèn)知和元認(rèn)知任務(wù)。是否需要具身智能作為 AGI 的標(biāo)準(zhǔn)是一個(gè)有爭議的問題。大多數(shù)定義側(cè)重于認(rèn)知任務(wù),即非物理任務(wù)。盡管機(jī)器人技術(shù)最近取得了進(jìn)展,但人工智能系統(tǒng)的物理能力似乎落后于非物理能力。DeepMind 認(rèn)為執(zhí)行物理任務(wù)的能力可以增加系統(tǒng)的通用性,但不應(yīng)被視為實(shí)現(xiàn) AGI 的必要先決條件。另一方面,元認(rèn)知能力(例如學(xué)習(xí)新任務(wù)的能力或知道何時(shí)向人類尋求澄清或幫助的能力)是系統(tǒng)實(shí)現(xiàn)通用性的關(guān)鍵先決條件。
4. 關(guān)注潛能,而不是部署。假如我們證明了一個(gè)系統(tǒng)可以在給定的性能水平上執(zhí)行一組必要的任務(wù),那么就足以聲明該系統(tǒng)是 AGI,然而部署這樣的系統(tǒng)不應(yīng)該被視為是 AGI 固有的。要求將可部署能力作為衡量 AGI 的必要條件會帶來非技術(shù)障礙,例如需要考慮法律和社會責(zé)任,以及潛在的道德和安全問題。
5. 關(guān)注生態(tài)有效性。用來衡量 AGI 進(jìn)展的 benchmark 非常重要,雖然傳統(tǒng)的 AI 指標(biāo)非常容易自動化或量化,但可能無法獲得人們在 AGI 中看重的技能。
6. 關(guān)注 AGI 發(fā)展之路,而不是只關(guān)心終點(diǎn)。本文認(rèn)為定義 AGI 等級是有價(jià)值的。將 AGI 的每個(gè)等級與一組清晰的指標(biāo) / 基準(zhǔn)相關(guān)聯(lián)非常有意義。
根據(jù)原則 2 和原則 6,表 1 引入了一個(gè)矩陣式分級系統(tǒng),該系統(tǒng)將性能和通用性作為 AGI 的核心維度:
DeepMind 認(rèn)為,當(dāng)前的前沿語言模型應(yīng)被視為 Level 1 General AI(Emerging AGI)。而下一等級 Level 2 General AI,即 Competent AGI,需要在更廣泛任務(wù)集上提高性能才能達(dá)到。
在 Level 3 Narrow AI,即 Expert Narrow AI 等級中,大家熟知的 DALLE-2 被劃分為這一等級。之所以這樣劃分,DeepMind 表示 DALLE-2 生成的圖像質(zhì)量比大多數(shù)人類能夠繪制的圖像質(zhì)量都高。
在矩陣分級系統(tǒng)中,AGI 的最高等級是 ASI (Artificial Superintelligence),即把「超人類」的表現(xiàn)定義為超越 100% 的人類。舉例來說,假設(shè) AlphaFold 是 Level 5 Narrow AI (Superhuman Narrow AI),因?yàn)樗鼒?zhí)行單一任務(wù)高于世界頂尖科學(xué)家水平。這一定義意味著 ASI 系統(tǒng)將能夠以人類無法比擬的水平完成廣泛的任務(wù)。
此外,這一框架還意味著超人類系統(tǒng)或許能夠比較低級別的 AGI 執(zhí)行更廣泛的任務(wù),例如,ASI 系統(tǒng)可能擁有人類所沒有的技能,如通過分析大腦信號來解碼人類思想,通過分析大腦信號來解碼思想機(jī)制,又或者與動物交流。
接著文章又討論了 AI 風(fēng)險(xiǎn)。表 2 說明了 AGI 等級、自主等級和風(fēng)險(xiǎn)之間的相互作用。表 2 還提供了六個(gè)自主等級的具體示例。
了解更多內(nèi)容,請參考原論文。