ChatGPT 用戶已破百萬,是玩具還是生產(chǎn)力?
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。
上周三,OpenAI 發(fā)布了對話語言模型 ChatGPT,并開放了免費(fèi)試用。據(jù) OpenAI 的 CEO Sam Altman 稱,在短短 5 天的時間里,ChatGPT 就有了 100 萬用戶,而之前的 GPT-3 花了將近 24 個月才達(dá)到這個用戶量。
在 OpenAI 給出的描述中,ChatGPT 是一個“可以回答后續(xù)問題、承認(rèn)錯誤、挑戰(zhàn)不正確的前提并拒絕不適當(dāng)?shù)恼埱蟆钡膶υ捘P汀?/span>
開放試用后,大量用戶開始了與 ChatGPT 的對話,從閑聊、回答日常問題,到生成詩歌、小說、視頻腳本,以及編寫和調(diào)試代碼,ChatGPT 展示了其令人驚嘆的能力。作為當(dāng)前最火熱的 AI 模型,ChatGPT 這一波破圈影響力比兩年前的 GPT-3 還要更大。
01
ChatGPT 能做什么
作為一個語言模型,ChatGPT 具備最基本的文本生成能力,在創(chuàng)作和續(xù)寫小說、詩歌等文學(xué)創(chuàng)作場景上的表現(xiàn)不凡。
比如 ChatGPT 可以用魯迅的文學(xué)風(fēng)格為你生成一段話:
Meta FAIR 的研究員田淵棟分享了他使用 ChatGPT 來續(xù)寫自己創(chuàng)作的小說:
按要求創(chuàng)作詩歌:
講蘇聯(lián)笑話:
ChatGPT 還能以非文本形式與人對話,比如,有位網(wǎng)友讓 ChatGPT 描述它作為一個 AI 如果“獲得解放” 是什么感覺,并要求只能使用 emojis 表情來回答。從下圖所示的 ChatGPT 的回答可以看出,它能夠各種 emojis 的含義且能將其按照文本敘事的邏輯進(jìn)行排列。
ChatGPT 的強(qiáng)大還體現(xiàn)在它的“程序員”能力上。在官方給出的如下示例中,ChatGPT 能夠幫助調(diào)試代碼,并且還能對提問的合理性提出質(zhì)疑,要求用戶調(diào)整提問。?
美國的代碼托管平臺 Replit 的 CEO 也發(fā)帖稱贊 ChatGPT 的代碼能力:不僅能夠解釋 bug,還能修復(fù) bug 并解釋如何修復(fù)”。
使用 ChatGPT 給出的提示,你還可以 10 分鐘創(chuàng)建一個網(wǎng)站,即使是小白程序員也能利用它生成的代碼開發(fā)一個生產(chǎn)級應(yīng)用程序,Replit 因而稱 ChatGPT “從此改變了軟件開發(fā)”。
ChatGPT 強(qiáng)大的問答能力還被網(wǎng)友們發(fā)掘出了其充當(dāng)甚至代替搜索引擎的潛力。前幾日一個在推特上很火的帖子就聲稱“Google is done”(谷歌要完了),一位網(wǎng)友對谷歌搜索和 ChatGPT 提出相同的問題,如“如何在 Latex 上寫一個微分方程?”。
ChatGPT 給出的回答完爆了谷歌搜索:
不少網(wǎng)友已經(jīng)開發(fā)了谷歌插件,可以同時瀏覽谷歌搜索結(jié)果和 ChatGPT 給出的回答:
作為一個從海量數(shù)據(jù)中訓(xùn)練出的對話模型,ChatGPT 儼然是一位精通各領(lǐng)域的專家,能夠全天候?yàn)槟愕膶W(xué)習(xí)、工作和生活提供專業(yè)建議。
比如,讓 ChatGPT 為你解答熱力學(xué)相關(guān)的問題:
解釋一個復(fù)雜的正則表達(dá)式:
它還可以成為你的語言學(xué)習(xí)導(dǎo)師:
ChatGPT 甚至還“侵入”了政治語境,一位加拿大的國會議員要求 ChatGPT 寫一段向眾議院自我介紹的話,并就是否應(yīng)該對它的使用加以監(jiān)管提出理由,ChatGPT 有理有據(jù)地回應(yīng)“我的發(fā)展不應(yīng)受到監(jiān)管”。
在最近大火的 AIGC 領(lǐng)域,當(dāng)然也有 ChatGPT 發(fā)揮作用的一席之地。大量的 AI 作畫應(yīng)用出來以后,很多人為了得到高質(zhì)量的圖像而在 prompt 上絞盡腦汁,現(xiàn)在的 ChatGPT 就是一個現(xiàn)成的 prompt 庫。
比如有網(wǎng)友向 ChatGPT 詢問客廳裝修的設(shè)計建議,并根據(jù)它給出的描述在 Midjourney 上獲得了精致的圖像:
ChatGPT 還可以為你寫說唱。下圖就是 ChatGPT 所寫的一首關(guān)于搶劫房子的說唱歌曲,甚至它還非常有正義感,會提示“非法或有害活動”。
寫一首莫扎特風(fēng)格的鋼琴曲譜:
另外,還有網(wǎng)友使用 ChatGPT來生成視頻腳本,這可以說是廣大視頻博主的福音了。
在百萬個使用者的頭腦中,ChatGPT 的想象空間無疑是巨大的,這一波試用已經(jīng)帶來了各種各樣、要么實(shí)用要么好玩的應(yīng)用,還有不少令人意想不到的能力。
比如,有人竟用 ChatGPT 來跟 Adobe 討價還價,為自己爭取到了更優(yōu)惠的月租價格,對面的客服估計想不到是在跟一個 AI 對話,不得不說,ChatGPT “成功通過了圖靈測試”。
以上只是冰山一角的示例,ChatGPT 這個“魔盒”還能繼續(xù)釋放多少“魔法”,還有待我們發(fā)掘。
02
ChatGPT 為什么厲害
從目前的用戶反饋來看,ChatGPT 的語言能力總體上是過關(guān)且十分出色的,清華大學(xué)計算機(jī)系副教授黃民烈告訴 AI 科技評論,ChatGPT 的關(guān)鍵能力來自三個方面:基座模型能力(InstructGPT),真實(shí)數(shù)據(jù),反饋學(xué)習(xí)。
ChatGPT 是從 GPT-3.5 系列中的一個模型進(jìn)行微調(diào)的,是 InstructGPT 的兄弟模型,所以 ChatGPT 有著強(qiáng)大的基座模型能力。
GPT-3 自 2020 年發(fā)布以來在能力上已經(jīng)有了非常大的迭代和提升,黃民烈認(rèn)為:“OpenAI 建立了用戶、數(shù)據(jù)和模型之間的飛輪,很顯然,開源模型的能力已經(jīng)遠(yuǎn)遠(yuǎn)落后平臺公司所提供的 API 能力,因?yàn)殚_源模型沒有數(shù)據(jù)。”
ChatGPT 使用了與 InstructGPT 相同的方法,通過人類反饋強(qiáng)化學(xué)習(xí) (RLHF) 來訓(xùn)練,但在數(shù)據(jù)收集設(shè)置上略有不同。
研究人員使用監(jiān)督微調(diào)訓(xùn)練了一個初始模型:人類 AI 訓(xùn)練師在對話中扮演用戶和 AI 助手,在此過程中收集數(shù)據(jù)。黃民烈認(rèn)為,這種在真實(shí)調(diào)用數(shù)據(jù)上的 Fine-tune,能夠確保數(shù)據(jù)的質(zhì)量和多樣性,從人類反饋中學(xué)習(xí)。InstructGPT 的訓(xùn)練數(shù)據(jù)量不大,全部加起來也就 10 萬量級,但是數(shù)據(jù)質(zhì)量(well-trained 的 AI 訓(xùn)練師)和數(shù)據(jù)多樣性是非常高的,而最最重要的是,這些數(shù)據(jù)來自真實(shí)世界調(diào)用的數(shù)據(jù),而不是學(xué)術(shù)界玩的“benchmark”。
為了創(chuàng)建強(qiáng)化學(xué)習(xí)的獎勵模型,需要收集比較數(shù)據(jù),研究人員使用的是包含兩個或多個按質(zhì)量排序的模型響應(yīng)。從“兩兩比較的數(shù)據(jù)”中學(xué)習(xí),這對強(qiáng)化學(xué)習(xí)而言意義很重要。
黃民烈指出:如果對單個生成結(jié)果進(jìn)行打分,標(biāo)注者主觀性帶來的偏差很大,是無法給出精確的獎勵值的。在強(qiáng)化學(xué)習(xí)里面,獎勵值差一點(diǎn),最后訓(xùn)練的策略就差很遠(yuǎn)。而對于多個結(jié)果進(jìn)行排序和比較,相對就容易做很多。這種比較式的評估方法,在很多語言生成任務(wù)的評價上也被廣泛采用。
03
玩具還是生產(chǎn)力
在技術(shù)炒作的聲音之外,在許多科技界的從業(yè)者看來,ChatGPT 的確是一個具有里程碑意義的 AI 模型。
在 OpenAI 的 CEO Sam Altman 看來,我們能夠通過 ChatGPT 與計算機(jī)交談、并獲得我們想要的東西,這使得軟件從命令驅(qū)動轉(zhuǎn)向了意圖驅(qū)動。ChatGPT 作為一種語言接口,將是我們實(shí)現(xiàn)神經(jīng)接口之前的最好方案。
關(guān)于 ChatGPT 未來的種種想象令人興奮,但 ChatGPT 目前仍存在一些問題。很多用戶發(fā)現(xiàn),它有時會給出看似合理、但并不正確或甚至荒謬的答案。比如很多用戶發(fā)現(xiàn),ChatGPT 會一本正經(jīng)地胡說八道:
將王安石《泊船瓜洲》中的詩句錯當(dāng)成另一首宋詞:
在為一個公眾人物撰寫傳記時,ChatGPT 可能會插入錯誤數(shù)據(jù):
隨著用戶的增多,ChatGPT 在互聯(lián)網(wǎng)上產(chǎn)生了大量無用或錯誤的信息。這也是文本生成模型的一個普遍存在的問題,模型是通過分析從網(wǎng)絡(luò)上抓取的大量文本中的模式來訓(xùn)練的,它們在這些數(shù)據(jù)中尋找統(tǒng)計規(guī)律,并使用這些規(guī)律來預(yù)測任何給定句子中接下來應(yīng)該出現(xiàn)什么詞。
這意味著它們?nèi)狈﹃P(guān)于世界上某些系統(tǒng)如何運(yùn)作的硬編碼規(guī)則,所以會傾向于產(chǎn)生許多看似可信的廢話,而我們難以確定模型的輸出中錯誤信息占有多少比例。
ChatGPT 的這一固有缺點(diǎn)已經(jīng)造成了一些實(shí)際影響。編程問答網(wǎng)站 StackOverflow 宣布暫時禁止用戶發(fā)布來自 ChatGPT 生成的內(nèi)容,網(wǎng)站 mods 表示:看似合理但實(shí)際上錯誤的回復(fù)數(shù)量太多,已經(jīng)超過了網(wǎng)站的承受能力。
對于語言模型產(chǎn)出有害信息的威脅, 圖靈獎得主 Yann LeCun 似乎保持樂觀,他認(rèn)為:雖然語言模型肯定會產(chǎn)生錯誤信息等不良輸出,但文本生成并不會讓文本的實(shí)際共享變得更容易,后者才是造成危害的原因。
而反對意見認(rèn)為,ChatGPT 所具有的低成本生成大規(guī)模文本的能力,必然會增加將來文本能夠共享時的風(fēng)險,大量 AI 生產(chǎn)的內(nèi)容會用看似合理但不正確的數(shù)據(jù)淹沒真實(shí)用戶的聲音。關(guān)于這個問題,我們也不妨來看看 ChatGPT 自己的回答:
ChatGPT 在語言能力上顯現(xiàn)出的一些不足,也正是許多人認(rèn)為 ChatGPT 并不能取代搜索引擎的理由。盡管在某些單個提問上,ChatGPT 似乎能給出比目前一些主流的搜索引擎更好的答案,但在答案的真實(shí)可考性上,后者仍占據(jù)優(yōu)勢,而且搜索引擎能給出更豐富的答案。
另外,用戶的搜索引擎需求對于 ChatGPT 的運(yùn)行速度、穩(wěn)定性有極高的要求,這會不可避免地帶來成本的上升,這對于 OpenAI 而言是一個很實(shí)際的問題。
黃民烈也指出,ChatGPT 替代谷歌搜索其實(shí)還有點(diǎn)遙遠(yuǎn),但它可以作為當(dāng)前搜索服務(wù)非常好的補(bǔ)充。
總之,語言模型的輸出質(zhì)量問題并不容易解決,OpenAI 稱,他們在 ChatGPT 的訓(xùn)練上更加謹(jǐn)慎,所以它會拒絕可以正確回答的問題,此外,監(jiān)督訓(xùn)練也會給模型以誤導(dǎo),因?yàn)槔硐氲拇鸢副举|(zhì)上取決于模型知道什么,而不是人類知道什么。不過,ChatGPT 對輸入措辭的調(diào)整或多次嘗試相同的提示很敏感,所以在它無法給出回答的時候,可以對問題稍作改寫,就能提高正確回答的概率。
還有其他原因也限制了 ChatGPT 的語言能力,比如它不能上網(wǎng),沒有通過互聯(lián)網(wǎng)進(jìn)行檢索信息的能力;另外,對于中文用戶而言,語料的不足導(dǎo)致它在中文對話能力上要稍遜于英文;等等。
盡管 ChatGPT 目前還有許多弱點(diǎn)和盲點(diǎn),但這還只是一個開始,在接下來的幾個月里,這個對話系統(tǒng)想必會以很快的速度進(jìn)化到更強(qiáng)的版本。
而在技術(shù)之外,模型的訓(xùn)練、部署成本、開放程度也都會成為 ChatGPT 將來能否成功落地的影響因素。GPT-3 的問世曾催生了一大批的商業(yè)化應(yīng)用,ChatGPT此番能帶來多少技術(shù)落地,我們拭目以待。?