5天用戶破百萬,ChatGPT背后有何玄機(jī)?
譯文譯者 | 李睿
審校 | 孫淑娟
OpenAI又火了!近期許多人的朋友圈里都混進(jìn)了一個(gè)讓人既愛又怕的狠角色,以至于StackOverflow不得不急忙下架。
近日,OpenAI發(fā)布了聊天AI ChatGPT,短短幾天,其用戶量直沖百萬級(jí),甚至服務(wù)器一度被注冊(cè)用戶擠爆了。
這種被網(wǎng)友驚嘆“超越谷歌搜索”的神器究竟怎么做到的?到底靠譜嗎?
1、事件回顧
OpenAI公司日前發(fā)布了ChatGPT,這是另一個(gè)基于旗艦GPT系列的大型語言模型(LLM),是一個(gè)專門用于對(duì)話交互的模型。用戶可以下載該公司的免費(fèi)演示版本。
與發(fā)布的大多數(shù)大型語言模型(LLM)一樣,ChatGPT的發(fā)布也引發(fā)了一些爭議。在發(fā)布之后的短短幾個(gè)小時(shí)內(nèi),這個(gè)新的語言模型就在Twitter上引起了轟動(dòng),用戶紛紛上傳ChatGPT令人印象深刻的成就或者遭遇災(zāi)難性失敗的截圖。
然而,從大型語言模型的廣泛角度來看,ChatGPT反映了該領(lǐng)域短暫而豐富的歷史,代表了在短短幾年內(nèi)取得了多大的進(jìn)展,以及還有哪些基本問題有待解決。
2、無監(jiān)督學(xué)習(xí)的夢想
無監(jiān)督學(xué)習(xí)仍然是人工智能社區(qū)追求的目標(biāo)之一,而互聯(lián)網(wǎng)上有大量寶貴的知識(shí)和信息。但直到最近,其中大部分的信息都無法用于機(jī)器學(xué)習(xí)系統(tǒng)。大多數(shù)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)應(yīng)用程序都是被監(jiān)督的,這意味著人類必須采集大量數(shù)據(jù)樣本并對(duì)每個(gè)樣本進(jìn)行注釋,以訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)。
隨著Transformer架構(gòu)(大型語言模型的關(guān)鍵組件)的出現(xiàn),這種情況發(fā)生了變化??梢允褂么罅康臒o標(biāo)記文本語料庫來訓(xùn)練Transformer模型。它們隨機(jī)屏蔽文本的部分,并試圖預(yù)測缺失的部分。通過反復(fù)執(zhí)行這一操作,Transformer調(diào)整其參數(shù),以表示大序列中不同單詞之間的關(guān)系。
這已被證明是一種非常有效和可擴(kuò)展的策略。不需要人工標(biāo)記,就可以收集非常大的訓(xùn)練語料庫,從而允許創(chuàng)建和訓(xùn)練越來越大的Transformer模型。研究和實(shí)驗(yàn)表明,隨著Transformer模型和大型語言模型(LLM)的規(guī)模增大,它們可以生成更長的連貫文本序列。大型語言模型(LLM)還展示了大規(guī)模的應(yīng)急能力。
3、回歸監(jiān)督學(xué)習(xí)?
大型語言模型(LLM)通常只有文本,這意味著它們?nèi)狈υ噲D模仿的人類豐富的多感官體驗(yàn)。盡管GPT-3等大型語言模型(LLM)取得了令人印象深刻的成果,但它們存在一些基本缺陷,使得它們?cè)谛枰WR(shí)、邏輯、規(guī)劃、推理和其他知識(shí)的任務(wù)中無法預(yù)測,而這些知識(shí)通常在文本中被省略。大型語言模型(LLM)以產(chǎn)生幻覺反應(yīng)、生成連貫但事實(shí)上虛假的文本以及經(jīng)常誤解用戶提示的明顯意圖而聞名。
通過加大模型及其訓(xùn)練語料庫的規(guī)模,科學(xué)家們已經(jīng)能夠減少大型語言模型中明顯錯(cuò)誤的頻率。但根本的問題并沒有消失,即使是最大的大型語言模型(LLM)也會(huì)在很小的推動(dòng)下犯愚蠢的錯(cuò)誤。
如果大型語言模型(LLM)只在科學(xué)研究實(shí)驗(yàn)室中用于跟蹤基準(zhǔn)測試的表現(xiàn),這可能不會(huì)是一個(gè)大問題。然而,隨著人們對(duì)在現(xiàn)實(shí)應(yīng)用中使用大型語言模型(LLM)越來越感興趣,解決這些問題和其他問題變得更加重要。工程師必須確保他們的機(jī)器學(xué)習(xí)模型在不同的條件下保持健壯,并滿足用戶的需求和要求。
為了解決這一問題,OpenAI使用了來自人類反饋強(qiáng)化學(xué)習(xí)(RLHF)技術(shù),該技術(shù)此前開發(fā)用于優(yōu)化強(qiáng)化學(xué)習(xí)模型。人類反饋強(qiáng)化學(xué)習(xí)(RLHF)不是讓強(qiáng)化學(xué)習(xí)模型隨機(jī)探索其環(huán)境和行為,而是使用來自人類主管的偶爾反饋來引導(dǎo)代理朝正確的方向前進(jìn)。人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)的好處是,它能夠以極小的人為反饋改善強(qiáng)化學(xué)習(xí)代理的訓(xùn)練。
OpenAI后來將人類反饋強(qiáng)化學(xué)習(xí)(RLHF)應(yīng)用于InstructGPT,這是一個(gè)大型語言模型(LLM)系列,旨在更好地理解和響應(yīng)用戶提示中的指令。InstructGPT是一個(gè)GPT-3模型,它根據(jù)人類反饋進(jìn)行了微調(diào)。
這顯然是一種權(quán)衡。人工注釋可能成為可擴(kuò)展訓(xùn)練過程中的瓶頸。但通過在無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)之間找到正確的平衡,OpenAI能夠獲得重要的好處,包括更好地響應(yīng)指令、減少有害輸出和資源優(yōu)化。根據(jù)OpenAI的研究結(jié)果,13億個(gè)參數(shù)的InstructionGPT在指令跟隨方面通常優(yōu)于1750億個(gè)參數(shù)GPT-3模型。
ChatGPT的訓(xùn)練過程
ChatGPT建立在從InstructGPT模型中獲得的經(jīng)驗(yàn)之上。人工注釋器創(chuàng)建一組示例對(duì)話,其中包括用戶提示和模型響應(yīng)。這些數(shù)據(jù)用于微調(diào)構(gòu)建ChatGPT所基于的GPT-3.5模型。在下一步中,將為經(jīng)過微調(diào)的模型提供新的提示,并為其提供若干響應(yīng)。標(biāo)注人員對(duì)這些反應(yīng)進(jìn)行排名。然后,從這些交互中生成的數(shù)據(jù)被用于訓(xùn)練獎(jiǎng)勵(lì)模型,這有助于在強(qiáng)化學(xué)習(xí)管道中進(jìn)一步微調(diào)大型語言模型(LLM)。
OpenAI尚未披露強(qiáng)化學(xué)習(xí)過程的全部細(xì)節(jié),但人們很想知道這個(gè)過程的“不可擴(kuò)展的成本”,也就是需要多少人力。
4、能在多大程度上信任ChatGPT?
ChatGPT的結(jié)果令人印象深刻。該模型已經(jīng)完成了各種各樣的任務(wù),包括提供代碼反饋、寫詩、用不同的音調(diào)解釋技術(shù)概念、為生成人工智能模型生成提示。
然而,該模型也容易出現(xiàn)類似大型語言模型(LLM)所犯的那種錯(cuò)誤,例如引用不存在的論文和書籍,誤解直觀的物理學(xué),以及在組合性方面失敗。
人們對(duì)這些失敗并不感到驚訝。ChatGPT并沒有發(fā)揮什么神奇的作用,它應(yīng)該遇到與它的前一代同樣的問題。然而,在現(xiàn)實(shí)世界的應(yīng)用中,可以在哪里以及在多大程度上信任它?顯然,這里有一些有價(jià)值的內(nèi)容,正如人們?cè)贑odex和GitHubCopilot中所看到的,大型語言模型(LLM)可以被非常有效地使用。
在這里,決定ChatGPT是否有用的是與它一起實(shí)現(xiàn)的工具和保護(hù)的種類。例如,ChatGPT可能成為為企業(yè)創(chuàng)建聊天機(jī)器人的一個(gè)非常好的平臺(tái),例如編碼和圖形設(shè)計(jì)的數(shù)字伴侶。首先,如果它遵循InstructGPT的示例,那么應(yīng)該能夠以更少的參數(shù)獲得復(fù)雜模型的性能,這將使它具有成本效益。此外,如果OpenAI提供了工具,使企業(yè)能夠?qū)崿F(xiàn)自己的人類反饋強(qiáng)化學(xué)習(xí)(RLHF)的微調(diào),那么它可以進(jìn)一步針對(duì)特定應(yīng)用程序進(jìn)行優(yōu)化,在大多數(shù)情況下,這比聊天機(jī)器人更有用,聊天機(jī)器人可以隨意談?wù)撊魏问虑?。最后,如果為?yīng)用程序開發(fā)人員提供了將ChatGPT與應(yīng)用程序場景集成,并將其輸入和輸出映射到特定應(yīng)用程序事件和操作的工具,他們將能夠設(shè)置正確的護(hù)欄,以防止模型采取不穩(wěn)定的操作。
基本上,OpenAI創(chuàng)造了一個(gè)強(qiáng)大的人工智能工具,但具有明顯的缺陷。它現(xiàn)在需要?jiǎng)?chuàng)建正確的開發(fā)工具生態(tài)系統(tǒng),以確保產(chǎn)品團(tuán)隊(duì)能夠利用ChatGPT的力量。GPT-3為許多不可預(yù)測的應(yīng)用開辟了道路,因此了解ChatGPT的庫存會(huì)很有趣。
原文鏈接:https://bdtechtalks.com/2022/12/05/openai-chatgpt/