清華教授歐智堅(jiān)專訪,深度剖析ChatGPT的光環(huán)背后及未來(lái)挑戰(zhàn)!
2022年11月底,ChatGPT一經(jīng)推出,全球關(guān)注,風(fēng)頭依舊強(qiáng)勁!取代搜索引擎,奇點(diǎn)說(shuō),拐點(diǎn)說(shuō),若干職業(yè)面臨失業(yè)危機(jī),人類面臨終極挑戰(zhàn)…,面對(duì)如此熱點(diǎn),本文分享我們的認(rèn)識(shí),歡迎討論和指正。
總的來(lái)說(shuō),ChatGPT取得了顯著科技進(jìn)步,盡管有不足,但邁向AGI(artificial general intelligence,通用人工智能)仍充滿諸多挑戰(zhàn)!
圖1:https://openai.com/blog/chatgpt/ 網(wǎng)頁(yè)截圖
首先,介紹AI研究中的伊莉莎效應(yīng)(Eliza Effect),也是與聊天機(jī)器人(chatbot)有關(guān)。
伊莉莎效應(yīng),指人會(huì)過(guò)度解讀機(jī)器的結(jié)果,讀出原來(lái)不具有的意義。人有一種心理趨向,在下意識(shí)中以為自然界現(xiàn)象與人類行為相似,心理學(xué)上稱為人的擬人化意識(shí)(anthropomorphisation),特別是當(dāng)人類對(duì)新現(xiàn)象缺乏足夠認(rèn)識(shí)的情況下。比如古時(shí)人們認(rèn)為打雷是因?yàn)樘焐献≈粋€(gè)雷公,雷公生氣就打雷了。
名字「伊莉莎」取自1966年由MIT的計(jì)算機(jī)科學(xué)家Joseph Weizenbaum開發(fā)的一款聊天機(jī)器人。聊天機(jī)器人Eliza被設(shè)計(jì)成一個(gè)心理咨詢師,討巧的Eliza項(xiàng)目取得了意外的成功,效果讓當(dāng)時(shí)的用戶非常震驚,引起轟動(dòng),但其實(shí)只是以簡(jiǎn)單的規(guī)則文法為基礎(chǔ)的巧妙運(yùn)用。
對(duì)ChatGPT的原理加以一定理解,應(yīng)能減少在認(rèn)知ChatGPT時(shí)的伊莉莎效應(yīng)。有一個(gè)正確判斷,才能行健致遠(yuǎn)。為此我們力求嚴(yán)謹(jǐn),并提供參考文獻(xiàn),以便讀者進(jìn)一步了解。下文將分三大部分:
- ChatGPT的進(jìn)步
- ChatGPT的不足
- 邁向AGI的挑戰(zhàn)
個(gè)人主頁(yè):http://oa.ee.tsinghua.edu.cn/ouzhijian
作者:歐智堅(jiān),清華大學(xué)電子工程系副教授、博士生導(dǎo)師。擔(dān)任IEEE音頻語(yǔ)音語(yǔ)言期刊(TASLP)副主編,Computer Speech&Language編委,IEEE語(yǔ)音語(yǔ)言技術(shù)委員會(huì)(SLTC)委員,IEEE言語(yǔ)技術(shù)(SLT)2021大會(huì)主席,中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)杰出會(huì)員及語(yǔ)音對(duì)話與聽覺(jué)專委會(huì)委員等。發(fā)表論文近百篇,獲得省部級(jí)獎(jiǎng)3項(xiàng)及多次國(guó)內(nèi)外優(yōu)秀論文獎(jiǎng)。在隨機(jī)場(chǎng)語(yǔ)言模型,離散隱變量模型的學(xué)習(xí)算法,端到端對(duì)話模型及其半監(jiān)督學(xué)習(xí)等方面做出基礎(chǔ)原創(chuàng)研究。
01 ChatGPT的進(jìn)步
ChatGPT的進(jìn)步,是站在多年來(lái)人工智能研究的巨人肩膀上,特別是深度學(xué)習(xí)技術(shù),也就是使用多層神經(jīng)網(wǎng)絡(luò)的技術(shù)。我們梳理了在ChatGPT的系統(tǒng)構(gòu)建中,起著重要作用的幾個(gè)技術(shù),如下圖。正是這些技術(shù)的共同作用(六部曲),才誕生了ChatGPT。
ChatGPT的模型骨架是,基于Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu)的自回歸語(yǔ)言模型(language model)?;谖⒄{(diào)(finetuning)的技術(shù),基于Prompt(提示)的技術(shù),情景學(xué)習(xí)(in-context learning),從人類反饋中強(qiáng)化學(xué)習(xí)(RLHF)技術(shù),逐步發(fā)展并最終促成了ChatGPT的誕生。
圖2:ChatGPT的進(jìn)步?
1. 語(yǔ)言模型(LM,language model)
語(yǔ)言模型,就是人類自然語(yǔ)言的概率模型。人類自然語(yǔ)言是一個(gè)個(gè)句子,一個(gè)句子是一個(gè)自然語(yǔ)言符號(hào)序列x1,x2,…,xn,服從概率分布
利用概率論乘法公式,可得
把這種從左至右,每個(gè)位置利用前面歷史符號(hào)x1,x2,…,xi-1(即上文),計(jì)算當(dāng)前符號(hào)出現(xiàn)的(條件)概率P(xi | x1,…,xi-1)的模型,稱為自回歸語(yǔ)言模型,非常自然可用來(lái)在給定上文條件下,生成當(dāng)前符號(hào)。比如,下圖示例了在給定上文「The best thing about AI is its ability to」,下一個(gè)符號(hào)的出現(xiàn)概率。
依此可以遞歸生成,
語(yǔ)言模型問(wèn)題的關(guān)鍵在于,構(gòu)建什么樣的函數(shù)族來(lái)表示條件分布P(xi | x1,…,xi-1),并能有效從大數(shù)據(jù)中學(xué)習(xí)到模型參數(shù)。ChatGPT基于的一個(gè)技術(shù)進(jìn)步,就是利用神經(jīng)網(wǎng)絡(luò)來(lái)表示P(xi | x1,…,xi-1)。
2. Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu)
對(duì)于序列條件分布 P(xi | x1,…,xi-1) 建模的一個(gè)挑戰(zhàn)就是,長(zhǎng)程依存關(guān)系(long-range dependencies)的建模。利用普通遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)的序列模型,在訓(xùn)練時(shí)會(huì)遇到梯度爆炸和消失的缺陷(the exploding and vanishing gradient effects)[1],因此很長(zhǎng)一段時(shí)間人們利用基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory, LSTM)[2]的RNN來(lái)進(jìn)行序列建模。LSTM通過(guò)引入門控機(jī)制一定程度上緩解了梯度爆炸和消失的缺陷。2017年發(fā)展的Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu)[3],則徹底舍棄了遞歸計(jì)算,通過(guò)利用自注意力機(jī)制,使用前饋神經(jīng)網(wǎng)絡(luò)(feed-forward neural network,F(xiàn)FNN)來(lái)進(jìn)行序列建模,更好地解決了梯度爆炸和消失的缺陷。
讓我們直觀來(lái)理解Transformer在序列建模方面相比RNN的優(yōu)勢(shì)。考慮序列中相距為n的兩處位置,這兩處位置間的在前向和后向計(jì)算中的信號(hào),在神經(jīng)網(wǎng)絡(luò)中行進(jìn)的路徑長(zhǎng)度,是影響神經(jīng)網(wǎng)絡(luò)對(duì)長(zhǎng)程依存關(guān)系學(xué)習(xí)能力的一個(gè)重要因素,RNN是O(n),而Transformer是O(1)。對(duì)這塊不理解的讀者,可以跳過(guò),不影響后面內(nèi)容的閱讀 :-)
圖3
3. GPT語(yǔ)言模型及預(yù)訓(xùn)練+微調(diào)技術(shù)
自然語(yǔ)言理解包括范圍廣泛的不同任務(wù),例如問(wèn)答、語(yǔ)義相似性評(píng)估、文本蘊(yùn)含關(guān)系判斷、文檔分類、機(jī)器翻譯、閱讀理解,摘要等等。人們發(fā)現(xiàn)可以先在大量(無(wú)需標(biāo)注的)文本上訓(xùn)練一個(gè)大型Transformer-LM(常稱為骨架),然后在面對(duì)不同的下游任務(wù)時(shí),利用下游任務(wù)各自的標(biāo)注數(shù)據(jù)對(duì)這個(gè)大型Transformer網(wǎng)絡(luò)進(jìn)行微調(diào),取得了很大性能提升,這就是所謂的預(yù)訓(xùn)練+微調(diào)技術(shù)(pre-training + fine-tuning),典型技術(shù)包括2018-2019年發(fā)展的GPT [4]和BERT [5]。GPT是基于Transformer的自回歸語(yǔ)言模型,BERT是基于Transformer的掩碼語(yǔ)言模型(masked language model, MLM)。
正如GPT原文表述的「Our work broadly falls under the category of semi-supervised learning for natural language.」,這種無(wú)監(jiān)督預(yù)訓(xùn)練(unsupervised pre-training)結(jié)合有監(jiān)督微調(diào)(supervised fine-tuning),是一種半監(jiān)督學(xué)習(xí),其本質(zhì)是協(xié)同進(jìn)行有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。
(來(lái)自GPT原文[4]「Improving language understanding by generative pre-training」)
4. GPT-2及零樣本提示技術(shù)
在預(yù)訓(xùn)練+微調(diào)技術(shù)框架下,仍然需要對(duì)每個(gè)下游任務(wù),采集和標(biāo)注各自不少的標(biāo)注數(shù)據(jù),然后微調(diào)得到各自任務(wù)上的一個(gè)「狹隘專家」(narrow expert),每個(gè)狹隘模型都需要單獨(dú)構(gòu)建和存儲(chǔ),這費(fèi)時(shí)費(fèi)力費(fèi)資源。如果能建設(shè)更通用(more general)的系統(tǒng),其能勝任很多任務(wù),并且能免除為每個(gè)任務(wù)人工采集和標(biāo)注數(shù)據(jù)集,就太棒了。在2019年GPT-2原文[6],有這樣愿景的清晰闡述,是不是已經(jīng)看出了邁向AGI的味道 :-)
「We would like to move towards more general systems which can perform many tasks – eventually without the need to manually create and label a training dataset for each one.」
讓機(jī)器去學(xué)習(xí)執(zhí)行一個(gè)自然語(yǔ)言理解任務(wù)(如問(wèn)答),本質(zhì)是去估計(jì)出條件分布
既然一個(gè)通用系統(tǒng)能執(zhí)行許多不同的任務(wù),那它的建模應(yīng)該進(jìn)一步條件于任務(wù)task,即建模
以GPT-2為代表的一個(gè)創(chuàng)新做法是,task、input、output 都用自然語(yǔ)言來(lái)表述成符號(hào)序列,這樣模型 P(output | task,input)就歸結(jié)為一個(gè)語(yǔ)言模型——給定上文,遞歸生成下一個(gè)符號(hào)。不同任務(wù)的訓(xùn)練數(shù)據(jù)都統(tǒng)一組織成
這樣的符號(hào)序列的形式。比如,
(translate to french, english text, french text)
(answer the question, document, question, answer)
其中,task,常稱為是提示(prompt)。提示的做法很多,也有很多相關(guān)研究,本文不展開介紹了。
在GPT-2之前也有類似想法的研究,GPT-2把規(guī)模(無(wú)論訓(xùn)練集還是模型的規(guī)模)拉到了一個(gè)新高度,采集百萬(wàn)網(wǎng)頁(yè)創(chuàng)建了一個(gè)大數(shù)據(jù)集WebText(40GB),訓(xùn)練出最大參數(shù)規(guī)模為1.5B的Transformer-LM,展示了零樣本情形下,在多個(gè)任務(wù)上的出色性能,不需要任何參數(shù)或模型架構(gòu)修改(without any parameter or architecture modification)。值得指出一點(diǎn),GPT-2的做法充分體現(xiàn)了多任務(wù)學(xué)習(xí)(multitask learning) 和元學(xué)習(xí)(meta-learning),可作為GPT-2之所以有出色性能的一個(gè)直觀解釋吧。
(來(lái)自GPT-2原文 [6]「 Language models are unsupervised multitask learners」。GPT-2訓(xùn)練了系列的Transformer-LM,參數(shù)規(guī)模分別為117M、345M、762M、1542M,上圖展示了隨著模型參數(shù)規(guī)模的增大,各任務(wù)性能的不斷提升。)
5. GPT-3及in-context learning
2020年GPT-3的工作 [7],延續(xù)了GPT-2的愿景和技術(shù)路線,希望突破在各個(gè)任務(wù)中仍需任務(wù)特定標(biāo)注及微調(diào)的缺陷(there is still a need for task-specific datasets and task-specific fine-tuning),希望能建設(shè)象人一樣的通用系統(tǒng),文中清晰指出其中研究動(dòng)機(jī)之一是注意到:
「humans do not require large supervised datasets to learn most language tasks – a brief directive in natural language (e.g. 『please tell me if this sentence describes something happy or something sad』) or at most a tiny number of demonstrations (e.g. 『here are two examples of people acting brave; please give a third example of bravery』) is often sufficient to enable a human to perform a new task to at least a reasonable degree of competence.」
也就是說(shuō)給了任務(wù)描述(directive)和示范樣本(demonstrations),機(jī)器應(yīng)該就能象人一樣執(zhí)行多樣的任務(wù)。
GPT-3再次拉升規(guī)模(scaling up)到了一個(gè)新高度,訓(xùn)練集規(guī)模為45TB文本(清洗前)、570GB(清洗后),Transformer-LM規(guī)模比GPT-2又增加了10倍,達(dá)到了175B(見下Table 2.1)。GPT-2文章主要做了零樣本提示情形,GPT-3則做了零樣本(zero-shot),單樣本(single-shot)以及少樣本(few-shot)情形的實(shí)驗(yàn),統(tǒng)稱為In Context Learning(情景學(xué)習(xí)),其中給出的示范樣本(demonstrations)可以是0個(gè)、1個(gè)或多個(gè),但都會(huì)帶有任務(wù)描述(task description),見Figure 2.1的圖示說(shuō)明。從Figure1.2可看出,隨著示范樣本的增多,不同規(guī)模的模型的性能提升的趨勢(shì)。
(以上均來(lái)自GPT-3原文 [7]「Language Models are Few-Shot Learners」)
6. InstructGPT, ChatGPT及RLHF技術(shù)
目前大型語(yǔ)言模型(large language model, LLM)用于自然語(yǔ)言理解的做法是,依據(jù)P(output | task,input),給定上文task,input,遞歸生成下一個(gè)符號(hào)。InstructGPT研究的一個(gè)出發(fā)點(diǎn)是考慮到在人機(jī)對(duì)話中,增大語(yǔ)言模型并不能從本質(zhì)上使它們更好地遵循用戶意圖。大型語(yǔ)言模型也會(huì)表現(xiàn)出不盡人意的行為,如編造事實(shí),生成有偏有害文本,或根本對(duì)用戶沒(méi)有幫助。
這是因?yàn)樵S多最近的大型 LM 使用的語(yǔ)言建模目標(biāo)是,預(yù)測(cè)來(lái)自互聯(lián)網(wǎng)的網(wǎng)頁(yè)上的下一個(gè)符號(hào),這不同于「有幫助和安全地遵循用戶的指示」的目標(biāo)。因此,我們說(shuō)語(yǔ)言建模目標(biāo)是未對(duì)齊的(misaligned)。避免這些意外行為,對(duì)于在數(shù)百個(gè)應(yīng)用程序中部署和使用語(yǔ)言模型尤為重要。2022年3月,InstructGPT工作[8]展示了一種途徑,可以通過(guò)根據(jù)人類反饋進(jìn)行微調(diào),使語(yǔ)言模型在一系列任務(wù)上對(duì)齊到用戶意圖(aligning language models with user intent),得到的模型稱為InstructGPT。具體來(lái)說(shuō),如下Figure 2所示,InstructGPT構(gòu)建過(guò)程包含三步:
第1 步:收集演示數(shù)據(jù)(13K條數(shù)據(jù)),使用有監(jiān)督學(xué)習(xí)微調(diào)GPT-3(大小為175B),訓(xùn)練得到supervised policy(有監(jiān)督策略)。
第2步:收集對(duì)比數(shù)據(jù)(33K條數(shù)據(jù)),訓(xùn)練出reward model(獎(jiǎng)勵(lì)模型),大小為6B。
第3步:收集31K條訓(xùn)練數(shù)據(jù),使用強(qiáng)化學(xué)習(xí)針對(duì)獎(jiǎng)勵(lì)模型來(lái)優(yōu)化策略,稱為從人類反饋中強(qiáng)化學(xué)習(xí)(reinforcement learning from human feedback, RLHF)。具體是使用稱為PPO的策略優(yōu)化方法[9]。
對(duì)演示數(shù)據(jù)和對(duì)比數(shù)據(jù)的收集,使用了40人的外包標(biāo)注員。
(來(lái)自IntructGPT原文[8]「Training language models to follow instructions with human feedback」)
2022年11月,OpenAI發(fā)布的ChatGPT模型 [10],基本是InstructGPT模型的沿襲,使用了相同的三步驟訓(xùn)練方法,但是收集了更大規(guī)模的數(shù)據(jù),進(jìn)行模型訓(xùn)練和系統(tǒng)構(gòu)建。
總結(jié):從語(yǔ)言模型研究、Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu)、GPT語(yǔ)言模型及預(yù)訓(xùn)練+微調(diào)、GPT-2及零樣本提示(zero-shot prompting)、GPT-3及情景學(xué)習(xí)(in-context learning),發(fā)展到InstructGPT,ChatGPT及RLHF技術(shù),回頭看看上去是一條比較清晰的技術(shù)路徑,但事實(shí)上,其它類型的語(yǔ)言模型(比如基于能量的語(yǔ)言模型 [11])、其它類型的神經(jīng)網(wǎng)絡(luò)架構(gòu)(比如狀態(tài)空間模型 [12])、其它類型的預(yù)訓(xùn)練辦法(比如基于隱變量模型 [13])、其它的強(qiáng)化學(xué)習(xí)辦法(比如基于用戶仿真器 [14])等,都在不斷發(fā)展中,新方法研究從來(lái)沒(méi)有停止過(guò),不同方法間相互啟發(fā)、相互促進(jìn),形成通往通用人工智能的滾滾洪流,奔涌向前,生生不息。貫穿ChatGPT六部曲的很重要一點(diǎn)是,規(guī)模效應(yīng),俗稱暴力美學(xué)。在路線基本正確的判斷下,把規(guī)模拉上去,是提升性能的好辦法。
量變產(chǎn)生質(zhì)變,量變未必產(chǎn)生質(zhì)變,如果路線存在不足的話。下面談?wù)凜hatGPT的不足。
02 ChatGPT的不足
近年來(lái)人工智能領(lǐng)域的頂會(huì)(如ICML, ACL)的一個(gè)非常好的做法,就是對(duì)投稿增加了一項(xiàng)要求,在文章中需留一節(jié)表述自己工作的不足(Limitations)。相反,對(duì)不足避而不談,并不嚴(yán)謹(jǐn),也不利于對(duì)一項(xiàng)技術(shù)的全面認(rèn)識(shí),可能誤導(dǎo)大眾、助長(zhǎng)伊莉莎效應(yīng)乃至錯(cuò)誤判斷。
事實(shí)上,ChatGPT原文[10]對(duì)其不足,已經(jīng)做了比較全面的聲明。
ChatGPT的不足(截圖來(lái)自ChatGPT原文[10])
讀者可以直接看上面英文,下面用中文稍做一下解釋。讀者可以結(jié)合下面的例子進(jìn)行理解。我們對(duì)ChatGPT不足的更多分析,將在下一章探討邁向AGI(通用人工智能)所面臨的挑戰(zhàn)時(shí)來(lái)一起討論。
L1. ChatGPT 有時(shí)會(huì)寫出看似合理但不正確或荒謬的答案。
L2. ChatGPT 對(duì)輸入措辭的調(diào)整或多次嘗試相同的提示很敏感。
L3. ChatGPT的生成,通常過(guò)于冗長(zhǎng)并過(guò)度使用某些短語(yǔ),例如重申它是 OpenAI 訓(xùn)練的語(yǔ)言模型。
L4. 理想情況下,當(dāng)用戶提供模棱兩可的查詢時(shí),模型應(yīng)該提出要求對(duì)方做澄清的問(wèn)題。相反,當(dāng)前的模型通常會(huì)猜測(cè)用戶的意圖。
L5. 雖然ChatGPT已努力使模型拒絕不當(dāng)請(qǐng)求,但有時(shí)仍會(huì)響應(yīng)有害指令或表現(xiàn)出有偏見的行為。
圖4:ChatGPT有關(guān)牛蛋和雞蛋的例子
圖5:有關(guān)ChatGPT實(shí)時(shí)信息處理不足的例子
03 邁向AGI的挑戰(zhàn)
結(jié)合ChatGPT原文[10]自述的不足,我們將ChatGPT的不足概括為以下五點(diǎn)。這五點(diǎn)也基本代表了從ChatGPT往未來(lái)看,邁向通用人工智能(AGI)所面臨的挑戰(zhàn),是邁向AGI所亟待解決的重要科學(xué)問(wèn)題和關(guān)鍵技術(shù)。值得指出的,本文的角度并不是以任務(wù)來(lái)分析不足和挑戰(zhàn),而更多是從各類任務(wù)的共性問(wèn)題的角度來(lái)分析。如果以任務(wù)為行,問(wèn)題為列,那我們的角度是按列來(lái)分析。按行也可以給出非常好的分析和判斷。
當(dāng)討論AGI之時(shí),我們需跳出僅關(guān)注自然語(yǔ)言處理的局限,以更大的視野審視人工智能的研究和技術(shù)。參考人工智能經(jīng)典著作[15],人工智能指智能體的研究與設(shè)計(jì),智能體(intelligent agent)指任何設(shè)備,其可以觀察周遭環(huán)境并作出行動(dòng)以最大化成功機(jī)會(huì),更學(xué)術(shù)的說(shuō)法是,最大化期望效用(utility)或最大化期望回報(bào)(return),如下圖所示。細(xì)心的讀者會(huì)發(fā)現(xiàn),下圖也常用于強(qiáng)化學(xué)習(xí)的框架圖。確實(shí)如此,在[15]有類似闡述,「Reinforcement learning might be considered encompass all of AI」(強(qiáng)化學(xué)習(xí)可能被認(rèn)為涵蓋了人工智能的所有)。帶著這些概念,我們來(lái)認(rèn)識(shí)ChatGPT的不足。
圖6:智能體與環(huán)境的交互,常用于作為強(qiáng)化學(xué)習(xí)的框架圖[16]
1. ChatGPT會(huì)隨機(jī)編造(一本正經(jīng)地給出錯(cuò)誤的信息),在知識(shí)建模及利用上存在明顯不足。
這基本對(duì)應(yīng)前面介紹的L1,可以從前面的例子清楚看出來(lái)。我們所說(shuō)的知識(shí),包括常識(shí)知識(shí),專門知識(shí),以及實(shí)時(shí)信息等方面。例如,從常識(shí)來(lái)講,ChatGPT一開始表現(xiàn)出并不知道牛是哺乳動(dòng)物,不能產(chǎn)蛋。從實(shí)時(shí)信息來(lái)看,ChatGPT,本質(zhì)上是一個(gè)基于Transformer架構(gòu)的大型自回歸語(yǔ)言模型,其學(xué)到的知識(shí)僅限于其訓(xùn)練數(shù)據(jù),其截止年份為2021年。讀者可以自行嘗試使用ChatGPT,發(fā)現(xiàn)其在這方面的不足。
上述不足,從更深層次來(lái)說(shuō),反映了人工智能歷史上由來(lái)已久的聯(lián)結(jié)主義(connectionist)與符號(hào)主義(symbolism)的兩股思潮的紛爭(zhēng)。
- 聯(lián)結(jié)主義,簡(jiǎn)單說(shuō)就是主張使用人工神經(jīng)網(wǎng)絡(luò)(一種數(shù)學(xué)上的非線性函數(shù))去實(shí)現(xiàn)人工智能。當(dāng)前的深度學(xué)習(xí)以及ChatGPT是聯(lián)結(jié)主義路線下的成功。
- 符號(hào)主義,簡(jiǎn)單說(shuō)就是主張使用符號(hào)是實(shí)現(xiàn)智能的核心手段,實(shí)現(xiàn)智能應(yīng)該注重數(shù)理邏輯和知識(shí)推理。舉一個(gè)符號(hào)系統(tǒng)的經(jīng)典例子,語(yǔ)言的上下文無(wú)關(guān)語(yǔ)法認(rèn)為語(yǔ)言包括一些終結(jié)符,一些非終結(jié)符,以及一些重寫規(guī)則。理解一句話,包括理解這句話背后的語(yǔ)法結(jié)構(gòu)。
圖7
聯(lián)結(jié)主義認(rèn)為知識(shí)埋藏于神經(jīng)網(wǎng)絡(luò)的權(quán)重,訓(xùn)練神經(jīng)網(wǎng)絡(luò)調(diào)整其權(quán)重能讓其學(xué)習(xí)知識(shí)。符號(hào)主義主張知識(shí)由符號(hào)系統(tǒng)來(lái)組織,比如關(guān)系型數(shù)據(jù)庫(kù),知識(shí)圖譜,數(shù)學(xué)物理等其它專門知識(shí),以及數(shù)理邏輯。兩種思潮也在交叉融合,比如
- 基于神經(jīng)網(wǎng)絡(luò)的生成式對(duì)話系統(tǒng),用從知識(shí)庫(kù)進(jìn)行檢索來(lái)增強(qiáng) [17];
- 促進(jìn)大型語(yǔ)言模型(LLM)推理能力的思維鏈(CoT,Chain of Thought)方法[18]。
因此,為克服ChatGPT在知識(shí)建模及利用上的不足,對(duì)現(xiàn)有技術(shù)的一個(gè)深層次挑戰(zhàn)是,神經(jīng)網(wǎng)絡(luò)與符號(hào)邏輯的有效融合。數(shù)據(jù)與知識(shí)雙輪驅(qū)動(dòng),多年來(lái)有不少研究工作,但總的來(lái)說(shuō)找到行之有效的融合辦法仍需持續(xù)努力。
2. ChatGPT在多輪對(duì)話交互上存在明顯不足,缺乏規(guī)劃能力。
這基本對(duì)應(yīng)上面的L4,L4只是指出ChatGPT不會(huì)做澄清提問(wèn)。但是我們看到比L4更嚴(yán)重的不足,從ChatGPT的構(gòu)建過(guò)程看,它是建模條件分布 P(output | input) 進(jìn)行預(yù)測(cè)(prediction),并不會(huì)做規(guī)劃(planning)。
在圖6所示框架中,一個(gè)很重要的概念是規(guī)劃(planning),規(guī)劃的目的是,為了最大化期望效用。這顯著不同于大型語(yǔ)言模型最大化語(yǔ)言符號(hào)出現(xiàn)的條件似然 P(output | input)。InstructGPT考慮系統(tǒng)應(yīng)該遵循用戶意圖,用RLHF(從人類反饋中強(qiáng)化學(xué)習(xí))的技術(shù)讓系統(tǒng)輸出對(duì)齊到人類提問(wèn),部分地緩解了對(duì)GPT-3做有監(jiān)督學(xué)習(xí)而沒(méi)有進(jìn)行規(guī)劃而帶來(lái)的未對(duì)齊問(wèn)題。進(jìn)一步提高規(guī)劃能力實(shí)現(xiàn)最大化期望效用,將是ChatGPT通往AGI的一個(gè)大挑戰(zhàn)。
那么人機(jī)交互系統(tǒng)的效用是什么呢?有關(guān)這點(diǎn),InstructGPT的論文[8]對(duì)此從有幫助(helpful),誠(chéng)實(shí)(honest),無(wú)害(harmless)三個(gè)維度有過(guò)討論?!肝覀兿MZ(yǔ)言模型是有幫助的(它們應(yīng)該幫助用戶解決他們的任務(wù))、誠(chéng)實(shí)的(它們不應(yīng)該偽造信息或誤導(dǎo)用戶)和無(wú)害的(它們不應(yīng)對(duì)人或環(huán)境造成身體、心理或社會(huì)傷害)?!沟唧w的實(shí)現(xiàn)手段,尚需進(jìn)一步探索,而不是止步于RLHF技術(shù)。
3. ChatGPT行為不可控(uncontrollable)。
這基本對(duì)應(yīng)上面的L2、L3、L5。系統(tǒng)輸出對(duì)輸入很敏感(L2),沒(méi)法控制它輸出過(guò)于冗長(zhǎng)或者過(guò)度使用某些短語(yǔ)(L3),沒(méi)法控制它響應(yīng)有害指令或表現(xiàn)出有偏見的行為(L5)。這些不足不僅僅出現(xiàn)在ChatGPT,在以目前深度學(xué)習(xí)技術(shù)構(gòu)建起來(lái)的計(jì)算機(jī)視覺(jué),語(yǔ)音識(shí)別等智能系統(tǒng)中,也有類似不可控問(wèn)題。
人類具有蘇格拉底式的智慧,即「自己知道自己不知道」,這正是現(xiàn)在的深度神經(jīng)網(wǎng)絡(luò)系統(tǒng)欠缺的,自己不知道自己出錯(cuò)了?,F(xiàn)在的神經(jīng)網(wǎng)絡(luò)系統(tǒng)大都過(guò)于自信(over-confident),不會(huì)向人類做出錯(cuò)匯報(bào),在出錯(cuò)時(shí)似然仍出奇得高,讓人難以信賴和控制。可信賴(Trustworthy)和可控,將是通往AGI的一個(gè)大挑戰(zhàn)。
4. ChatGPT效率(efficiency)不足。
在ChatGPT聲明的不足中并沒(méi)重視這點(diǎn)。效率包括參數(shù)效率,數(shù)據(jù)效率,能耗效率等。ChatGPT通過(guò)使用超大數(shù)據(jù),訓(xùn)練超大模型,不斷拉升規(guī)模,取得了一個(gè)出彩的性能。但是,在同等規(guī)模下(同等的模型參數(shù)個(gè)數(shù),同等的數(shù)據(jù)標(biāo)注量或標(biāo)注成本,同等的算力,同等的能耗),ChatGPT是否代表了最先進(jìn)的技術(shù)呢?答案很多時(shí)候是否定的。例如,最近的研究報(bào)道[19],參數(shù)個(gè)數(shù)13B的LLaMA 模型在多個(gè)基準(zhǔn)測(cè)試中性能優(yōu)于175B的GPT-3模型,因此13B的LLaMA具有更好的參數(shù)效率。近期我們自己的工作也表明,一個(gè)良好設(shè)計(jì)的知識(shí)檢索對(duì)話模型僅用100M,性能顯著超過(guò)1B的大模型。
能耗效率好理解,我們來(lái)看數(shù)據(jù)效率。目前的智能系統(tǒng)構(gòu)建,困于依賴大量人工標(biāo)注下有監(jiān)督學(xué)習(xí)范式,數(shù)據(jù)效率低?;谧曰貧w的大型語(yǔ)言模型,人們發(fā)現(xiàn)可以先在大量(無(wú)需標(biāo)注的)文本上訓(xùn)練,然后使用微調(diào)或提示技術(shù),部分緩解了目前深度學(xué)習(xí)技術(shù)數(shù)據(jù)效率低的不足,但仍需要任務(wù)相關(guān)的標(biāo)注數(shù)據(jù)。模型愈大,對(duì)標(biāo)注量要求愈大。如何進(jìn)一步高效協(xié)同利用有標(biāo)數(shù)據(jù)和無(wú)標(biāo)數(shù)據(jù),是實(shí)現(xiàn)數(shù)據(jù)高效的一個(gè)挑戰(zhàn)。
5. 多模態(tài)具身智能,是探索AGI的重要內(nèi)容。
ChatGPT僅限于文本輸入輸出,其所犯的許多錯(cuò)誤也說(shuō)明了它對(duì)語(yǔ)義、知識(shí)和因果推理的嚴(yán)重缺乏。單詞的意義似乎在于它們?cè)诮y(tǒng)計(jì)學(xué)上的共現(xiàn)性,而非現(xiàn)實(shí)世界的基礎(chǔ)。所以即使未來(lái)的語(yǔ)言模型越來(lái)越大,它們?cè)谝恍┗镜奈锢沓WR(shí)方面還是表現(xiàn)不佳。
智力遠(yuǎn)不止語(yǔ)言能力,生物智能的基本要素在于動(dòng)物與世界進(jìn)行感覺(jué)運(yùn)動(dòng)交互的能力[20]。未來(lái)的智能機(jī)器不一定具有人形,但是機(jī)器在聽、說(shuō)、讀、寫、思考、操縱物體、行動(dòng)等若干方面,通過(guò)具身與環(huán)境進(jìn)行多模態(tài)互動(dòng),將極大促進(jìn)機(jī)器智能的發(fā)展,也將助力機(jī)器智能超越文本單一模態(tài)局限,更好地幫助人類。
總結(jié):從語(yǔ)言學(xué)看,語(yǔ)言知識(shí)包括單詞的結(jié)構(gòu)和特性——形態(tài)學(xué)(morphology)和詞匯(lexicon),單詞如何構(gòu)成短語(yǔ)和句子——句法學(xué)(syntax),詞素、單詞、短語(yǔ)、句子和語(yǔ)篇的意義——語(yǔ)義學(xué)(semantics)[21]。ChatGPT通過(guò)超大模型,學(xué)習(xí)到了相當(dāng)?shù)恼Z(yǔ)言知識(shí)(特別是語(yǔ)義層次之下的知識(shí)),具備一定的語(yǔ)言理解能力,生成通順的句子,但是也存在明顯的不足:
- ChatGPT會(huì)隨機(jī)編造,在知識(shí)建模及利用上存在明顯不足。
- ChatGPT在多輪對(duì)話交互上存在明顯不足,缺乏規(guī)劃能力。
- ChatGPT行為不可控(uncontrollable)。
- ChatGPT效率(efficiency)不足。
- 多模態(tài)具身智能,是探索AGI的重要內(nèi)容。
針對(duì)這些不足,我們梳理了從ChatGPT往未來(lái)看,邁向通用人工智能(AGI)所面臨的若干挑戰(zhàn),如圖8所示,也指出若干重要的研究?jī)?nèi)容。值得指出的是,各塊研究的范疇并不是孤立的,而是彼此有交集。比如,在可信賴和可控研究中,希望系統(tǒng)輸出符合社會(huì)規(guī)范,那么在系統(tǒng)的效用中如何體現(xiàn)這種社會(huì)規(guī)范,從而系統(tǒng)規(guī)劃的輸出,能夠符合社會(huì)規(guī)范。因此,系統(tǒng)可控的研究與提高系統(tǒng)規(guī)劃能力的研究,是有交集的。又比如,在系統(tǒng)的規(guī)劃決策中,如何融合知識(shí)?
圖8:邁向AGI的挑戰(zhàn)
04 結(jié)束語(yǔ)
ChatGPT是人工智能研究中的一個(gè)重要事件,嚴(yán)謹(jǐn)認(rèn)識(shí)其進(jìn)步,不足及邁向AGI的未來(lái)挑戰(zhàn),非常重要。我們相信,求真務(wù)實(shí),不斷創(chuàng)新,推動(dòng)人工智能發(fā)展到一個(gè)新的高度未來(lái)可期,歡迎大家多探討指正,謝謝!