ChatGPT是第一個(gè)真正意義的人工通用智能
看到標(biāo)題,很多專家可能馬上想來(lái)爭(zhēng)辯,別急,本文我們一步步推演。
首先訂正一個(gè)詞:AGI, 國(guó)外稱Artificial General Intelligence, 國(guó)內(nèi)譯作通用人工智能General Artificial Intelligence, 看似很小的一個(gè)順序差異,實(shí)則謬以千里,大家多讀英文幾遍仔細(xì)體會(huì)。
生命是什么
薛定諤在1944年出版的書(shū)《What is Life?》中闡述了他對(duì)生命的觀點(diǎn),生命是由負(fù)熵喂養(yǎng)大的,后來(lái)更正為,自由能才是生命的源泉。薛定諤眼里的生命就是一團(tuán)活生生的自由能,也是普里高津世界里,不斷獲取自由能的開(kāi)放的耗散結(jié)構(gòu)。
大腦如何工作
一. 貝葉斯大腦假說(shuō)
大腦是一個(gè)貝葉斯推理機(jī)器。大腦不斷從世界接收感官信息,并使用這些信息來(lái)更新其對(duì)世界的內(nèi)部模型,并對(duì)未來(lái)事件做預(yù)測(cè)。大腦的內(nèi)部模型可以被視為關(guān)于世界的先驗(yàn)信仰或假設(shè),感官信息被用于更新這些信仰。
二. 大腦的自由能理論
基于貝葉斯概率理論和生物物理學(xué)原理,大腦的主要目標(biāo)是預(yù)測(cè)和控制外界的信息,以最大限度地降低不確定性和內(nèi)部熵。大腦通過(guò)不斷收集和處理外部信息來(lái)構(gòu)建內(nèi)部模型,以預(yù)測(cè)和控制外界。
三. 大腦的信息熵
信息熵用來(lái)衡量系統(tǒng)不確定性或隨機(jī)性,這里指大腦關(guān)于世界的內(nèi)部模型的不確定性。大腦的目標(biāo)是將其內(nèi)部模型與感官輸入之間的預(yù)測(cè)誤差最小化,減少信息熵是減少預(yù)測(cè)誤差的一種方法。通過(guò)減少信息熵,大腦可以對(duì)世界做出更準(zhǔn)確的預(yù)測(cè),這等于是使系統(tǒng)的自由能最小化。
ChatGPT 機(jī)理
ChatGPT的訓(xùn)練方法是基于Transformer模型,通過(guò)學(xué)習(xí)文本數(shù)據(jù)的模式來(lái)生成文本。Transformer模型的核心是注意力機(jī)制,可以在生成文本時(shí),選擇性地關(guān)注輸入的一些部分,從而生成更加符合上下文的文本。
一. Embedding, 形成自己的語(yǔ)言系統(tǒng)
如果將英語(yǔ)看成是26個(gè)字母表征的,26個(gè)字母張成的空間中,每個(gè)單詞是一個(gè)點(diǎn),每個(gè)句子是一條曲線,每篇文章是一個(gè)曲面。
借助Embedding ,GPT 將人類的語(yǔ)言 “編碼”成自己的語(yǔ)言,然后通過(guò)注意力Attention從中提取各種豐富的知識(shí)和結(jié)構(gòu),加權(quán)積累與關(guān)聯(lián)生成自己的語(yǔ)言,然后“編碼”回人類的語(yǔ)言。
本質(zhì)上看,GPT 其實(shí)是構(gòu)建了一個(gè)高維的語(yǔ)言體系,可以將自然語(yǔ)言,程序語(yǔ)言,視覺(jué)聽(tīng)覺(jué)語(yǔ)言,映射(或者叫編碼)到這個(gè)高維的語(yǔ)言空間中。高維語(yǔ)言空間是概率分布張成的空間。
二. Transformer,提取海量人類知識(shí)與相應(yīng)的知識(shí)結(jié)構(gòu)
Transformer是足夠強(qiáng)大的特征提取器。僅從知識(shí)角度,GPT可以看作是一種以模型參數(shù)體現(xiàn)的隱式知識(shí)圖譜。知識(shí)存儲(chǔ)在Transformer的模型參數(shù)里:多頭注意力存儲(chǔ)信息的結(jié)構(gòu)(相關(guān)強(qiáng)度,信息整合方式等);類似Query/Key/Value結(jié)構(gòu)的FFN存儲(chǔ)知識(shí)主體。
GPT在自己構(gòu)造的高維語(yǔ)言空間中,通過(guò)預(yù)訓(xùn)練,記錄了人類海量的語(yǔ)言實(shí)例,從中提取了無(wú)數(shù)的結(jié)構(gòu)與關(guān)聯(lián)信息。這個(gè)高維的語(yǔ)言空間,加上訓(xùn)練提取的結(jié)構(gòu)與關(guān)聯(lián)信息,可以理解構(gòu)成了GPT的腦。
從GPT目前的表現(xiàn)看,他應(yīng)該也已經(jīng)從這些人類語(yǔ)言蘊(yùn)含的知識(shí)中,學(xué)習(xí)到了歸納、演繹、對(duì)比、類比等基礎(chǔ)能力,而這些都是本質(zhì)的原子思維能力,組合成為推理能力。諸如貝葉斯推理,最優(yōu)輸運(yùn),估計(jì)都可能已經(jīng)被提取出來(lái),成為GPT的思維結(jié)構(gòu)的一部分。
三. Pre-train, 海量學(xué)習(xí)最小化各領(lǐng)域信息熵
預(yù)訓(xùn)練 pre-train 階段,優(yōu)化目標(biāo)是最小化交叉熵(cross entropy), 對(duì)于GPT 自回歸語(yǔ)言模型而言,是看能否正確預(yù)測(cè)到下一個(gè)單詞。這里的交叉熵就是信息熵。
研究表明,增加訓(xùn)練數(shù)據(jù)量,模型參數(shù)量,訓(xùn)練時(shí)間都會(huì)降低測(cè)試集上的信息熵. OpenAI 采用的策略是同時(shí)增加訓(xùn)練數(shù)據(jù)量和模型參數(shù), 讀得多,記得多。優(yōu)先增加模型參數(shù),然后才是訓(xùn)練數(shù)據(jù)量,記憶要好,再多學(xué),再勤學(xué), 與人類學(xué)習(xí)形式相通。
人們發(fā)現(xiàn),增加多任務(wù)的任務(wù)數(shù)量,增加模型大小,提供思維鏈提示, 以及增加任務(wù)的多樣性,都可以提高GPT 泛化能力,包括理解能力,以及推理能力。這些措施都是豐富GPT在某一問(wèn)題域的信息量,降低其信息熵, 盡力讓他見(jiàn)多識(shí)廣。
上下文學(xué)習(xí),通過(guò)提供一些例子,具象的表達(dá)任務(wù)命令。命令是一種更符合人類習(xí)慣的抽象任務(wù)描述。兩者本質(zhì)上是相通的,GPT從中都是學(xué)到了任務(wù)的信息熵結(jié)構(gòu)。
上下文中,直接追加輔助推理的提示, 例如“因此”是典型的關(guān)系模式選擇健,GPT可以借助這些提示選擇不同的關(guān)系模式。例如“解題思路如下”這樣的提示,可以很好激發(fā)GPT推理能力,應(yīng)該緣于訓(xùn)練語(yǔ)料中此類說(shuō)法很多,可以很好的降低信息熵。
四. 代碼訓(xùn)練,獲取長(zhǎng)程關(guān)聯(lián)與推理能力
目前研究已經(jīng)證明GPT對(duì)知識(shí)有強(qiáng)大的記憶能力。而增強(qiáng)GPT推理能力的方法:a) 提供提示語(yǔ)或提示樣本 b) 預(yù)訓(xùn)練中引入代碼樣本。ChatGPT強(qiáng)大的推理能力,被認(rèn)為大概率來(lái)自代碼參與GPT3.5的預(yù)訓(xùn)練。
代碼使用計(jì)算機(jī)語(yǔ)言,是設(shè)計(jì)完善的特殊語(yǔ)種,結(jié)構(gòu)性強(qiáng),長(zhǎng)程關(guān)聯(lián),關(guān)系明確??梢杂梦⒄Z(yǔ)言結(jié)構(gòu)的概率分布為基底,張成語(yǔ)言空間,程序就是該語(yǔ)言結(jié)構(gòu)空間的點(diǎn)線面體。GPT 可以用自己構(gòu)建的高維語(yǔ)言空間簡(jiǎn)單方便的學(xué)習(xí)代碼。
代碼其實(shí)也可以看成特殊的思維鏈,訓(xùn)練可以降低信息熵,讓信息更可預(yù)測(cè)。大量這種語(yǔ)言結(jié)構(gòu)示例參與預(yù)訓(xùn)練的話,GPT被注入足夠的信息量,形成各種復(fù)雜關(guān)聯(lián)的模式, 涵蓋代碼中的知識(shí)和知識(shí)結(jié)構(gòu)。高質(zhì)量的代碼,可以顯著的降低GPT 獲取的信息熵,這也是為什么GPT在代碼上比自然語(yǔ)言更讓人驚艷。
五. Emergent Ability, 涌現(xiàn)能力,相變完成量變到質(zhì)變
GPT表現(xiàn),取決于任務(wù)類型。a) 知識(shí)密集型任務(wù),體現(xiàn)Scaling law, 也就是學(xué)的越多,做的越好;b) 推理密集型任務(wù),體現(xiàn)“智慧”,學(xué)到一定程度,能力突然爆發(fā)。這個(gè)好比物理現(xiàn)象,雖然一直維持零度,冰卻需要不斷吸收熱量,最終相變成了水。
信息熵的背景下同樣可以出現(xiàn)相變現(xiàn)象。信息熵是衡量系統(tǒng)不確定性或隨機(jī)性的度量,熵的相變可以被視為系統(tǒng)基礎(chǔ)模式或組織的變化。復(fù)雜網(wǎng)絡(luò)系統(tǒng)和量子系統(tǒng)中都可以觀察到熵的相變。
在大語(yǔ)言模型領(lǐng)域,模型規(guī)??缭侥硞€(gè)閾值,處理任務(wù)能力突然性增長(zhǎng),被稱為涌現(xiàn)能力(Emergent Ability)。只要針對(duì)某個(gè)特定問(wèn)題或任務(wù)的相關(guān)領(lǐng)域,模型“足夠”大,注入足夠的信息量,相變就可能發(fā)生,即開(kāi)始涌現(xiàn)。
GPT 構(gòu)建了海量自然語(yǔ)言和代碼的概率分布空間,被注入足夠的信息量(等于注入大量負(fù)的信息熵),形成各種復(fù)雜關(guān)聯(lián)的模式,涵蓋自然語(yǔ)言和代碼中各種知識(shí)與結(jié)構(gòu)。這些知識(shí)和結(jié)構(gòu),體現(xiàn)為概率分布的距離與關(guān)系,從而為對(duì)比、類比、歸納、演繹等推理步驟提供支撐,也就是“涌現(xiàn)出”這些推理能力。
大膽猜測(cè),GPT甚至可能學(xué)習(xí)到了在空間里面的貝葉斯概率圖和推理,概率分布的比較和遷移基于Wasserstein 距離和最優(yōu)輸運(yùn)Optimal Transport.(筆者在設(shè)法從用戶的角度進(jìn)行檢驗(yàn))。提供足夠語(yǔ)料,可以降低概率空間的信息熵到一定閾值,從而對(duì)某類任務(wù)達(dá)成相變。
后ChatGPT 時(shí)代
今天來(lái)自斯坦福大學(xué)的最新研究結(jié)論,“原本認(rèn)為是人類獨(dú)有的心智理論(Theory of Mind,ToM),已經(jīng)出現(xiàn)在ChatGPT背后的AI模型上?!?所謂心智理論,就是理解他人或自己心理狀態(tài)的能力,包括同理心、情緒、意圖等。這項(xiàng)研究發(fā)現(xiàn):davinci-002版本的GPT3(ChatGPT由它優(yōu)化而來(lái)),已經(jīng)可以解決70%的心智理論任務(wù),相當(dāng)于7歲兒童;至于GPT3.5(davinci-003),也就是ChatGPT的同源模型,更是解決了93%的任務(wù),心智相當(dāng)于9歲兒童!
ChatGPT 給GPT 注入幾萬(wàn)人工標(biāo)注,有監(jiān)督學(xué)習(xí),雖然不足以修正GPT千億參數(shù),但是為GPT注入人類偏好,讓他聽(tīng)的懂人話、也比較禮貌。這等同于對(duì)這個(gè)7-9歲兒童的社會(huì)教育與激發(fā)。
這一天還是到來(lái)了,ChatGPT, 人類創(chuàng)造的第一個(gè)真正意義上的AGI , 人工通用智能. 后ChatGPT時(shí)代,人們應(yīng)該如何學(xué)習(xí)與工作?聽(tīng)聽(tīng)ChatGPT的建議:
在 ChatGPT 時(shí)代,人們應(yīng)該采取綜合的學(xué)習(xí)方法,包括接受傳統(tǒng)教育,并通過(guò)實(shí)際應(yīng)用和獨(dú)立研究來(lái)加深對(duì)知識(shí)的理解。同時(shí),人們應(yīng)該不斷學(xué)習(xí)和提高自己的技能,以適應(yīng)不斷變化的環(huán)境和技術(shù)。此外,利用ChatGPT 等人工智能技術(shù)增加學(xué)習(xí)效率和提高學(xué)習(xí)質(zhì)量也是一種很好的途徑。
人們可以通過(guò)更好地利用 AI 和自動(dòng)化技術(shù)來(lái)提高效率和創(chuàng)造力。同時(shí),人們應(yīng)該加強(qiáng)對(duì)人工智能、機(jī)器學(xué)習(xí)和相關(guān)領(lǐng)域的學(xué)習(xí),以適應(yīng)未來(lái)的工作需求。此外,人們還應(yīng)該繼續(xù)關(guān)注人類獨(dú)特的技能,如創(chuàng)造力、社交能力、情感智慧等,以更好地與AI 合作。
本文轉(zhuǎn)載自 ??清熙??,作者: 王慶法,
