能取代90%人工作的ChatGPT到底牛在哪里
人工智能研究實(shí)驗(yàn)室OpenAI在2022年11月30日發(fā)布了自然語言生成模型ChatGPT,上線兩個(gè)月就已經(jīng)超過一億用戶,成為了人工智能界當(dāng)之無愧的超級大網(wǎng)紅。ChatGPT憑借著自身強(qiáng)大的擬人化及時(shí)應(yīng)答能力迅速破圈,引起了各行各業(yè)的熱烈討論。簡單來說ChatGPT就是可以基于用戶文本輸入自動生成回答的人工智能聊天機(jī)器人。那肯定會有人說這不就是Siri嘛,雖然都是交互機(jī)器人但是兩者的差別可老大了。那么ChatGPT在人機(jī)交互時(shí)為什么會有這么出色的表現(xiàn)?它到底會不會取代搜索引擎?90%的人真的會因?yàn)镃hatGPT的出現(xiàn)而面臨失業(yè)的危險(xiǎn)嗎?帶著這些疑問我們一起來看看ChatGPT到底有哪些過人之處以及未來會給行業(yè)帶來怎樣的變革。
ChatGPT到底是個(gè)啥?
誰搞出來的ChatGPT
OpenAI的創(chuàng)始人Sam Altman是一個(gè)8歲就會編程的天才,在2015年他聯(lián)合特斯拉老板馬斯克、天使投資人彼得·泰爾等一眾硅谷大佬創(chuàng)辦了OpenAI,這是一家人工智能研究實(shí)驗(yàn)室,主要由盈利組織 OpenAI LP 與母公司非盈利組織 OpenAI Inc 所組成,目的是促進(jìn)和發(fā)展友好的人工智能,避免人工智能脫離人類控制。OpenAI重點(diǎn)研究開發(fā)尖端的人工智能技術(shù),其中包括機(jī)器學(xué)習(xí)算法、強(qiáng)化學(xué)習(xí)以及自然語言處理等。OpenAI在2022年11月30日發(fā)布了ChatGPT,正式向外提供實(shí)時(shí)的在線問答對話服務(wù)。
ChatGPT是什么
《知識的邊界》一書中有這樣一段話:
當(dāng)知識變得網(wǎng)絡(luò)化之后,房間里最聰明的那個(gè),已經(jīng)不是站在屋子前頭給我們上課的那個(gè),也不是房間里所有人的群體智慧。房間里最聰明的人,是房間本身:是容納了其中所有的人與思想,并把他們與外界相連的這個(gè)網(wǎng)。
我對這句話的理解就是,互聯(lián)網(wǎng)上擁有全人類的知識以及經(jīng)驗(yàn),為人工智能提供了海量的學(xué)習(xí)數(shù)據(jù),當(dāng)這些知識和經(jīng)驗(yàn)被有序的進(jìn)行組織之后,也同時(shí)為為訓(xùn)練一個(gè)“懂王”人工智能應(yīng)用提供了豐沛的數(shù)據(jù)土壤。而ChatGPT就是被互聯(lián)網(wǎng)海量的文本數(shù)據(jù)以及語言資料庫數(shù)據(jù)喂養(yǎng)訓(xùn)練之后,它就可以根據(jù)你輸入文字的內(nèi)容來生成對應(yīng)的回答,就好像兩個(gè)人在一問一答的聊天。它除了可以和你無障礙的進(jìn)行溝通,甚至讓你感覺你對話的不是一個(gè)聊天機(jī)器人而是一個(gè)學(xué)識淵博又有點(diǎn)風(fēng)趣的真實(shí)的人,回答出來的答案甚至帶有人類的某種語氣,這在以往的聊天機(jī)器人中是不敢想象的。
這里稍微說明下ChatGPT的字面含義,它是一款通用自然語言生成模型,Chat是對話的意思,而所謂GPT就是Genarative Pre-trained Transformer,意思就是生成型預(yù)訓(xùn)練轉(zhuǎn)換模型,聽上去是不是有點(diǎn)不明覺厲的感覺。
除此之外,你還可以讓他幫你完成一些實(shí)際的工作,比如寫文案、寫劇本甚至可以幫你直接寫代碼出來還可以幫你找到代碼的bug,這是程序員要把自己飯碗給砸碎而且是稀碎的節(jié)奏啊,在文字以及代碼層面可以說是無所不能。這種輸入問題立馬給答案的交互方式,遠(yuǎn)勝于傳統(tǒng)搜索引擎在海量數(shù)據(jù)中查找自己需要內(nèi)容的使用感受,因此可以預(yù)見在不久的將來ChatGPT將會顛覆傳統(tǒng)的搜索引擎,徹底改變信息檢索的使用方式。
另外ChatGPT還可以在上下文語境下回答問題、同時(shí)能夠主動承認(rèn)自己的不足以及挑戰(zhàn)問題的合理性。以下就是ChatGPT在否定我提出來的問題。
PS:幫大家問了ChatGPT如何成為世界首富,秘訣在下面。
正因?yàn)镃hartGPT具備這樣強(qiáng)大的理解能力、學(xué)習(xí)能力以及創(chuàng)作能力,促使它成為AI人工智能誕生以來,面向C端用戶增長最快的智能應(yīng)用產(chǎn)品。在以前,人工智能C端產(chǎn)品總是被認(rèn)為不夠智能甚至被嘲笑是“人工智障”,即便在B端也只是某些場景下使用,普通人根本感受不到AI人工智能的威力,但是ChatGPT的出現(xiàn)可能預(yù)示著未來人工智能將融入到普通人的生活當(dāng)中。
PS:我真怕他回答有。
ChatGPT為什么這么強(qiáng)?
語言模型迭代
我們都知道自然語言是人類進(jìn)行交流溝通的最重要的工具,因此如何讓機(jī)器可以和人通過自然語言進(jìn)行無障礙的溝通交流一直是人工智能領(lǐng)域孜孜不倦追求的目標(biāo)。而NLP(Natural Language Processing,自然語言處理)就是計(jì)算機(jī)科學(xué)領(lǐng)域和人工智能領(lǐng)域?qū)iT研究讓機(jī)器可以理解自然語言同時(shí)在此基礎(chǔ)上進(jìn)行響應(yīng)的重要研究方向。那么要想讓計(jì)算機(jī)可以識別自然語言,那么需要對應(yīng)的語言模型來對文本進(jìn)行分析處理。而語言模型的大致原理就是對語言文本進(jìn)行概率建模,通過模型來預(yù)測下一段輸出內(nèi)容的概率。大致的過程如下所示,通過語言模型將一段話后面的出現(xiàn)概率最高的語句進(jìn)行輸出。
語言模型可以分為統(tǒng)計(jì)語言模型以及神經(jīng)網(wǎng)絡(luò)語言模型。而ChatGPT就屬于神經(jīng)網(wǎng)絡(luò)語言模型,它在經(jīng)過多個(gè)版本的迭代優(yōu)化后才有了今天震驚四座的優(yōu)秀表現(xiàn)。我們可以簡單梳理下LM(Language Model,語言模型)的發(fā)展脈絡(luò),看看語言模型是怎么一步步進(jìn)行進(jìn)化的,這對我們理解ChatGPT背后的技術(shù)原理非常有幫助。
RNN
RNN(Recurrent Neural Network,循環(huán)神經(jīng)網(wǎng)絡(luò))在NPL領(lǐng)域有著廣泛的應(yīng)用。上文我們提到的NLP要解決的是讓機(jī)器理解自然語言的問題,因此如果讓機(jī)器理解一句話的含義,肯定不能只理解這句話中每個(gè)單詞是什么意思,而應(yīng)該處理這句話連起來之后的序列所表達(dá)的的含義是什么,而RNN解決的是就是樣本數(shù)據(jù)為序列的建模問題。
但是RNN存在效率問題,在處理語言序列的時(shí)候是通過串行化的方式來進(jìn)行的,也就是說后一個(gè)單詞的的處理需要等到前一個(gè)單詞的狀態(tài)輸出后才能進(jìn)行,另外還有梯度爆炸和遺忘等問題。因此人工智能專家們不斷在此基礎(chǔ)上進(jìn)行模型優(yōu)化。
Transformer
Google Brain 2017年在《Attention Is All You Need》論文提出了Transformer模型,這是一個(gè)基于自注意力機(jī)制的深度學(xué)習(xí)模型,主要針對RNN的問題進(jìn)行了優(yōu)化設(shè)計(jì)。特別是串行化出列文本序列的問題,Transformer模型可以同時(shí)處理文本序列中所有的單詞,同時(shí)序列中任意單詞的距離都為1,避免了RNN模型中因?yàn)樾蛄羞^長到導(dǎo)致的距離過長問題。Transformer模型的提出可以說是NLP領(lǐng)域跨越式發(fā)展的重要標(biāo)志,因?yàn)楹罄m(xù)著名的BERT模型以及GPT模型都是基于Transformer模型演化而來的。下圖為Transformer模型結(jié)構(gòu)。
GPT、GPT-2
無論是原始的GPT模型還是最新的ChatGPT模型其實(shí)都是以Transformer模型為核心結(jié)構(gòu)的語言模型。GPT使用的是Transformer模型的Decoder組件,比較適合根據(jù)上文回答下文的場景。
為了提高訓(xùn)練的精準(zhǔn)度,很多機(jī)器學(xué)習(xí)的訓(xùn)練任務(wù)都是采用標(biāo)記的dataset來完成,但是實(shí)際上標(biāo)注數(shù)據(jù)是一個(gè)工作量很大的事情會耗費(fèi)大量的人力和時(shí)間。因此隨著算力的不斷增強(qiáng),實(shí)際上我們需要對更多的未進(jìn)行人工標(biāo)記的數(shù)據(jù)進(jìn)行訓(xùn)練。因此GPT提出了新的自然語言訓(xùn)練范式就是通過海量的文本數(shù)據(jù)來進(jìn)行無監(jiān)督學(xué)習(xí)從而能實(shí)現(xiàn)模型訓(xùn)練。這也是GPT采用了Pre-training + Fine-tuning的訓(xùn)練模式的原因。GPT的模型結(jié)構(gòu)如下,它的訓(xùn)練目標(biāo)就是根據(jù)上文來預(yù)測下文。
而GPT-2實(shí)際在模型結(jié)構(gòu)上并沒有大的改變,只是進(jìn)行了簡單的調(diào)整,主要是GPT-2使用了更多的模型參數(shù)以及更多的訓(xùn)練數(shù)據(jù)。它的目標(biāo)就是訓(xùn)練出一個(gè)泛化能力更強(qiáng)的語言模型,所謂泛化就是應(yīng)對沒有遇到過的問題的能力。
GPT-3
2020年OpenAI在論文《Language Models are Few-Shot Learners》中提出了GPT-3模型,它使用的模型參數(shù)兩以及訓(xùn)練數(shù)據(jù)量都非常大。它主要提出了LLM的上下文學(xué)習(xí)的能力。
GPT-3探討了模型在Zero-shot、One-shot、Few-shot三種不同輸入形式下的效果。它主要考慮如何讓通過已有問題預(yù)測可能的回答,這里稍微解釋下Zero-shot、One-shot、Few-shot,Zero-shot意味著只給提示,One-shot會給一個(gè)范例,F(xiàn)ew-shot意味著給多個(gè)范例。但是它是沒有考慮回答的內(nèi)容是不是符合人類的預(yù)期的,這也是后期InstructGTP最主要的優(yōu)化方向。
通過下表可以看的出來GPT訓(xùn)練的參數(shù)量級以及數(shù)據(jù)量級爆發(fā)性增長,當(dāng)模型迭代到GPT-3的時(shí)候,參數(shù)量已經(jīng)過千億,預(yù)訓(xùn)練數(shù)據(jù)量達(dá)到45TB,可以說是一個(gè)實(shí)打?qū)嵉某塋LM模型了。巨大的模型參數(shù)量以及預(yù)訓(xùn)練數(shù)據(jù)量也帶來了訓(xùn)練成本的不斷攀升,GPT-3的訓(xùn)練成本高達(dá)1200美元。
ChatGPT關(guān)鍵能力
目前OpenAI還尚未就ChatGPT公開對應(yīng)的論文,但是實(shí)際上的它的核心思想和OpenAI在2022年發(fā)表的論文《Training language models to follow instructions with human feedback》基本是一致的,InstructGPT最重要的優(yōu)化就是引入了RLHF(Reinforcement Learning from Human Feedback,基于人類反饋的強(qiáng)化學(xué)習(xí) )技術(shù)。通過讓模型學(xué)習(xí)人類對話的過程以及讓人類標(biāo)注評價(jià)排序模型回答的結(jié)果來微調(diào)原始模型,使得收斂后的模型在回答問題的時(shí)候能夠更加符合人類的意圖。
另外這篇論文中提出來的InstructGPT訓(xùn)練方法實(shí)際和ChatGPT也基本是一樣的,只是在獲取數(shù)據(jù)的方式上稍有差別,因此InstructGPT可以說和ChatGPT是一對兄弟模型。我們具體來看下ChatGPT是怎么被訓(xùn)練出來的,以及ChatGPT如何解決讓模型回答的答案更加符合人類的意圖或者說偏好。?
上面的訓(xùn)練過程可能看起來有點(diǎn)復(fù)雜,經(jīng)過簡化之后如下圖所示,這樣應(yīng)該更加便于同學(xué)理解ChatGPT模型是怎么被訓(xùn)練出來的。根據(jù)官網(wǎng)給出的步驟,它的核心訓(xùn)練思想就是收集反饋數(shù)據(jù)-》訓(xùn)練獎(jiǎng)勵(lì)模型-》PPO強(qiáng)化學(xué)習(xí)。
ChatGPT訓(xùn)練過程主要分為三個(gè)階段:
階段一:通過監(jiān)督學(xué)習(xí),微調(diào)GPT-3.5初始模型
其實(shí)對于LLM(Large Language Model,大語言模型)來說,并不是說訓(xùn)練的樣本數(shù)據(jù)越多越好,為什么這么說呢?因?yàn)橄馛hatGPT這種大語言預(yù)訓(xùn)練模型都是在超大參數(shù)以及海量數(shù)據(jù)中被訓(xùn)練出來的,這些海量樣本數(shù)據(jù)實(shí)際上對于人工智能專家來說時(shí)透明的,也是無法控制的。因此如果樣本數(shù)據(jù)中帶有一些種族歧視、暴力等不良的數(shù)據(jù)的時(shí)候,可能預(yù)訓(xùn)練出來的模型就會帶有這些不好的內(nèi)容屬性。但是對于人工智能專家來說,必須要保證人工智能的客觀公正不帶有任何的偏見,而ChatGPT也正是朝著這個(gè)方面來進(jìn)行訓(xùn)練。
因此ChatGPT通過監(jiān)督學(xué)習(xí)的方式來進(jìn)行模型訓(xùn)練,所謂監(jiān)督學(xué)習(xí)就是要在“有答案”的dataset上進(jìn)行學(xué)習(xí)。為此,OpenAI雇傭了40家承包商來進(jìn)行數(shù)據(jù)標(biāo)記工作,首先讓這些標(biāo)記人員模擬人機(jī)交互進(jìn)行多輪的語言交互,在這個(gè)過程中會產(chǎn)生對應(yīng)的人工精標(biāo)數(shù)據(jù),這些精標(biāo)數(shù)據(jù)用來對GPT-3.5模型來進(jìn)行微調(diào)以便于獲得SFT(Supervised Fine-Tuning)模型。
階段二:構(gòu)建Reward Model
隨機(jī)抽取一批prompt數(shù)據(jù)后,使用第一階段微調(diào)后的模型進(jìn)行不同問題的自動回復(fù),然后讓標(biāo)記人員對回答出來的結(jié)果進(jìn)行從好到壞排序,排序出來的結(jié)果數(shù)據(jù)用來訓(xùn)練Reward Model,在此過程中,對排序的結(jié)果繼續(xù)進(jìn)行兩兩組合形成排序訓(xùn)練數(shù)據(jù)對,Reward Model接受數(shù)據(jù)對輸入來給出回答質(zhì)量的分?jǐn)?shù)。這個(gè)Reward Model從本質(zhì)上來講就是抽象出來的人類真實(shí)意圖。因?yàn)橛辛诉@關(guān)鍵的一步,Reward Model可以不斷引導(dǎo)模型朝著符合人類意圖的方向去產(chǎn)生對應(yīng)的回答結(jié)果。
階段三:PPO(Proximal Policy Optimization,近端策略優(yōu)化)強(qiáng)化學(xué)習(xí)微調(diào)模型
PPO 是一種信賴域優(yōu)化算法,它使用梯度約束來確保更新步驟不會破壞學(xué)習(xí)過程的穩(wěn)定性。在這個(gè)階段繼續(xù)抽取一批prompt數(shù)據(jù)之后,使用階段二構(gòu)造出來的Reward Model來對微調(diào)后的訓(xùn)練模型的回答進(jìn)行打分來更新預(yù)訓(xùn)練的參數(shù)。通過Reward Model對產(chǎn)生高分回答進(jìn)行獎(jiǎng)勵(lì),由此產(chǎn)生的策略梯度可以更新PPO模型參數(shù)。不斷循環(huán)迭代直至最終收斂模型。
可以看的出來實(shí)際上ChatGPT訓(xùn)練的過程實(shí)際就監(jiān)督學(xué)習(xí)結(jié)合RLHF技術(shù)應(yīng)用落地的過程,ChatGPT實(shí)際上就是靠RLHF技術(shù)來實(shí)現(xiàn)生成一個(gè)比較符合人類預(yù)期的回答。
通過上面的模型訓(xùn)練過程,我們總結(jié)下來ChatGPT之所以具備強(qiáng)大的上下文理解能力,主要得益于三個(gè)方面的關(guān)鍵能力,分別是強(qiáng)大的基礎(chǔ)模型、高質(zhì)量的樣本數(shù)據(jù)以及基于人類反饋的強(qiáng)化學(xué)習(xí)。
最核心的還是RLHF技術(shù),通過訓(xùn)練來找到最能解釋人類判斷的reward函數(shù),然后不斷訓(xùn)練進(jìn)行強(qiáng)化認(rèn)知。
ChatGPT帶來哪些變革
取代搜索引擎
當(dāng)前的搜索引擎只能根據(jù)我們搜索的關(guān)鍵字,在搜索引擎的數(shù)據(jù)庫中匹配索引對應(yīng)的網(wǎng)頁進(jìn)行結(jié)果反饋,像百度這樣的搜索引擎還動不動給你塞點(diǎn)廣告。用戶仍然需要在返回的信息中找到自己最想要的。但是ChatGPT則不同,所答就是所問,省去了用戶大量自己過濾無效搜索結(jié)果的時(shí)間和精力。ChatGPT能夠非常準(zhǔn)確的把握用戶實(shí)際意圖的理解,而傳統(tǒng)的搜索引擎還是關(guān)鍵字匹配的搜索方式,實(shí)際上并不理解用戶輸入搜索語句的真實(shí)含義,但是ChatGPT做到可以理解用戶輸入的真實(shí)意圖。另外他還會創(chuàng)造性地回答,幫助用戶從繁雜的工作中解脫出來。
PS:微軟的Bing搜索引擎開始接入ChatGPT。
取代人工客服?
現(xiàn)在所謂的智能客服不過是預(yù)設(shè)了一些常見的問題進(jìn)行自動回答,遠(yuǎn)遠(yuǎn)稱不上所謂的智能的程度,但是在一定程度上可以降低公司在客服人員方面的投入成本。但是如果有了ChatGPT之后,由于它可以理解用戶的真實(shí)意圖,而不是機(jī)械地回答預(yù)設(shè)問題,因此更能夠幫助用戶解決實(shí)際客服問題,最大程度將客服人工成本降到最低。
取代內(nèi)容創(chuàng)作
ChatGPT不僅可以回答問題,它還可以進(jìn)行內(nèi)容創(chuàng)作,比如寫一首歌,作一首詩以及寫一篇活動策劃等等。所以很多關(guān)于文字內(nèi)容創(chuàng)作的從業(yè)同學(xué)都感覺到了深深的危機(jī),以前一直覺得機(jī)器人最先取代的應(yīng)該是體力勞動工作者,但是誰能想到ChatGPT的出現(xiàn)直接把很多腦力工作者的工作干沒了。
ChatGPT局限性
訓(xùn)練數(shù)據(jù)偏差?
ChatGPT的訓(xùn)練數(shù)據(jù)是基于互聯(lián)網(wǎng)世界海量文本數(shù)據(jù)的,如果這些文本數(shù)據(jù)本身不準(zhǔn)確或者帶有某種偏見,目前的ChatGPT是無法進(jìn)行分辨的,因此在回答問題的時(shí)候會不可避免的將這種不準(zhǔn)確以及偏見傳遞出來。
適用場景有限
目前ChatGPT主要可以處理自然語言方面的問答以及任務(wù),在其他領(lǐng)域比如圖像識別、語音識別等還不局必然相應(yīng)的處理能力,但是相信在不遠(yuǎn)的將來可能會有VoiceGPT、ViewGPT,大家拭目以待。
高昂訓(xùn)練成本
ChatGPT屬于NPL領(lǐng)域中的非常大的深度學(xué)習(xí)模型,其訓(xùn)練參數(shù)以及訓(xùn)練數(shù)據(jù)都非常巨大,因此如果想訓(xùn)練ChatGPT就需要使用大型數(shù)據(jù)中心以及云計(jì)算資源,以及大量的算力和存儲空間來處理海量的訓(xùn)練數(shù)據(jù),簡單來說訓(xùn)練和使用ChatGPT的成本還是非常高的。
總結(jié)
AI人工智能已經(jīng)說了很多年了,一直處于發(fā)展階段,在一些特定領(lǐng)域已經(jīng)取得應(yīng)用成果。但是面對C端用戶,基本沒有可以拿得出手的真真意義上的人工智能應(yīng)用產(chǎn)品。但是這次ChatGPT的發(fā)布卻是一個(gè)里程碑式的節(jié)點(diǎn)事件,因?yàn)閷τ谄胀ㄈ藖碚fAI人工智能不再是遙不可及的技術(shù)名詞,而是觸手可及實(shí)實(shí)在在的智能應(yīng)用工具,可以讓普通人真切地感受到AI人工智能的威力。另外我想說的是也許ChatGPT只是個(gè)開始,目前它只是按照人類的指令去完成對應(yīng)的任務(wù),但是在未來隨著人工智能自我學(xué)習(xí)的不斷迭代,可能會有意識,可能會自主的去做事情,到那個(gè)時(shí)候人類面對的到底是一個(gè)無所不能的好幫手還是無法控制的惡龍就不得而知了。