譯者 | 崔皓
審校 | 孫淑娟
開篇
AIGC 行業(yè)最大的兩個競爭對手:ChatGPT vs Google Bard! 本文介紹這兩個人工智能引擎之間的技術(shù)差異。
截至目前Google Bard和ChatGPT之間最大的區(qū)別是:Bard知道ChatGPT,但ChatGPT卻對Bard懵然不知。雖然我們可以玩轉(zhuǎn)ChatGPT,而Bard對我們大多數(shù)人來說仍然遙不可及。?
ChatGPT與Google Bard之戰(zhàn)的開始
ChatGPT和Google Bard都是人工智能聊天機器人。人工智能的簡易版本已經(jīng)可以在手機上使用了,當(dāng)你輸入 "good"時,手機就可以預(yù)測下一個詞是 "morning"。?
ChatGPT最初是由OpenAI開發(fā)的,然后由微軟以令人瞠目結(jié)舌的100億美元(除了早先的10億美元投資外)進行投資。谷歌方面,對他們的搜索壟斷可能要結(jié)束而略感恐慌,因此推出了Bard,但這個版本仍然存在一些缺陷。在第一次現(xiàn)場演示中,Bard犯了幾個事實性錯誤,讓谷歌感到很尷尬。?
ChatGPT和Google Bard比智能手機的預(yù)測文本功能要更加復(fù)雜,如果說要了解這兩款智能機器人之間的差異,下面的內(nèi)容你就不能錯過了。?
這里我們會深入描述兩個人工智能引擎之間的技術(shù)差異。?
ChatGPT與Bard:內(nèi)藏玄機?
我們可以通過如下表格快速了解它們之間的技術(shù)差異,通過表格可以看到很多細節(jié)。
ChatGPT? | Bard? | |
模型? | GPT-3.5? | LaMDA,即對話應(yīng)用的語言模型? |
神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)? | Transformer? | Transformer? |
訓(xùn)練數(shù)據(jù)? | 網(wǎng)絡(luò)文本,主要是被稱為 "common?crawl"的數(shù)據(jù)集,在2021年中期截止。? | 156萬字的公共對話數(shù)據(jù)和網(wǎng)絡(luò)文本? |
目的? | 成為一個多用途的文本生成聊天機器人? | 專門協(xié)助搜索? |
參數(shù)? | 1750億參數(shù)? | 1370億參數(shù)? |
創(chuàng)建者? | OpenAI? | Google? |
優(yōu)勢? | - 對所有人開放? - 更加靈活,能夠處理開放式文本? - 訓(xùn)練數(shù)據(jù)截止到2021年? | - 訓(xùn)練數(shù)據(jù)截止到當(dāng)前? - 專門為對話而訓(xùn)練,所以當(dāng)你和它對話的時候,聽起來更像人。? |
劣勢? | - 對話沒有那么有說服力? - 沒有那么仔細的微調(diào)? | - 目前還沒有? - 可能不那么適合一般的文本創(chuàng)作? |
通過上面的表格了解了兩者之間的差異,接下來讓我們深入了解一下其他指標(biāo)。
什么是ChatGPT?
ChatGPT于2022年11月30日突然出現(xiàn)在舞臺上。到2022年12月4日,該服務(wù)每天有超過一百萬的用戶。2023年1月,這個數(shù)字膨脹到1億多用戶。?
它突然這么受歡迎其基本原因是,它能以一種聽起來幾乎是人類的方式,為你提供許多主題的靠譜回答,而且任何能夠上網(wǎng)的人都可以使用它。?
ChatGPT是OpenAI創(chuàng)建的,OpenAI是一家位于舊金山的人工智能實驗室,專注于創(chuàng)造友好的人工智能方案。該聊天機器人是基于GPT-3.5開發(fā)的,GPT-3.5是一個大型語言模型,當(dāng)給定文本時,可以持續(xù)給請求者提供回復(fù)。?
ChatGPT在此基礎(chǔ)上增加了一些額外的訓(xùn)練--人類培訓(xùn)師通過與模型的互動改進了模型,并通過"獎勵 "的方式讓模型具備提供高質(zhì)量答案的能力。?
訓(xùn)練數(shù)據(jù)
GPT-3.5是在一個巨大的網(wǎng)絡(luò)文本數(shù)據(jù)集上訓(xùn)練的,包括一個叫做Common Crawl的流行數(shù)據(jù)集。Common Crawl包含PB級的網(wǎng)絡(luò)數(shù)據(jù),包括原始網(wǎng)頁數(shù)據(jù)、元數(shù)據(jù)提取和文本提取。例如,它包括來自StrataScratch的URLs集合。想想ChatGPT使用訓(xùn)練的數(shù)據(jù)來自網(wǎng)友在ChatGPT的輸入,這是不是很瘋狂??
Common Crawl負責(zé)60%的訓(xùn)練數(shù)據(jù),但GPT-3.5也有其他數(shù)據(jù)來源。?
什么是Google Bard?
Google Bard 是在ChatGPT大受追捧的情況下,由Google推出的智能聊天機器人。與ChatGPT不同,Bard是由Google自己的模型LaMDA驅(qū)動。LaMDA是對話應(yīng)用語言模型的簡稱,與ChatGPT不同的是,它沒有那么驚艷,原因很簡單,大多數(shù)人還不能訪問它。盡管Google在2月初確實搞了一個充滿尷尬的Bard演示,但目前Bard只對少數(shù)人開放。?
Google Bard的主要優(yōu)勢是它對互聯(lián)網(wǎng)開放。問ChatGPT“現(xiàn)在誰是總統(tǒng)?”,它是不知道的。這是因為訓(xùn)練數(shù)據(jù)在2021年中期左右被切斷了。而Bard則是借鑒了今天互聯(lián)網(wǎng)上的信息。從理論上講,Bard應(yīng)該能夠從今天互聯(lián)網(wǎng)上的數(shù)據(jù)中提取,告訴你現(xiàn)在誰是總統(tǒng)。?
很容易看出Bard在幾個關(guān)鍵方面是如何從ChatGPT中脫穎而出的。?
訓(xùn)練數(shù)據(jù)
首先,LaMDA是在對話中訓(xùn)練的,專門用于對話,而不是像GPT-n模型那樣只產(chǎn)生文本。雖然ChatGPT對其訓(xùn)練數(shù)據(jù)不加掩飾,但我們對Bard所訓(xùn)練的數(shù)據(jù)還不甚了解,可以通過查看LaMDA的研究論文來推斷。谷歌的研究人員說,12.5%的訓(xùn)練數(shù)據(jù)來自Common Crawl,比如GPT-n模型。另外12.5%來自維基百科。而根據(jù)研究論文,他們使用了1.56萬億字的 "公共對話數(shù)據(jù)和網(wǎng)絡(luò)文本"。?
以下是完整的分類:?
- 12.5%基于C4的數(shù)據(jù)(Common Crawl數(shù)據(jù)的衍生品)。?
- 12.5%的英語維基百科?
- 12.5%來自編程問答網(wǎng)站、教程和其他的代碼文檔?
- 6.25%的英文網(wǎng)絡(luò)文檔?
- 6.25%的非英語網(wǎng)絡(luò)文檔?
- 50%來自公共論壇的對話數(shù)據(jù)?
從上面的信息可以知道兩者共同利用的數(shù)據(jù),顯然有維基百科。其余的數(shù)據(jù)明顯是Google故意隱藏的,大概是為了保護Bard(和LaMDA)不被模仿。?
LaMDA是通過微調(diào)Transformer的神經(jīng)語言模型而形成的,它是一個最初由谷歌開發(fā)的開源神經(jīng)網(wǎng)絡(luò)架構(gòu)。(GPT也是建立在Transformer的基礎(chǔ)上)。
ChatGPT存在一些壁壘,以防止它讓人生厭或者說一些廢話,但谷歌強調(diào)如何保證質(zhì)量,以使Bard變成更好、更安全的聊天機器人。Bard經(jīng)過微調(diào),變得"高質(zhì)量、接地氣和安全"。?
谷歌對此有很多說法,我建議閱讀他們的相關(guān)博文,但如果你時間不多,基本上可以分成如下幾個方面:?
- Bard應(yīng)該給出有意義的回應(yīng)--沒有荒謬的內(nèi)容,沒有矛盾的內(nèi)容?
- Bard應(yīng)作出有見地、詼諧或出人意料的回應(yīng)。?
- Bard應(yīng)該避免任何有可能對用戶造成傷害的東西--血腥、偏見、可憎的刻板印象等?
- Bard不胡編亂造?
眾所周知,由于一次錯誤的發(fā)布,谷歌還沒有完全弄清楚底層需求。但值得注意的是,谷歌對設(shè)計要求說得很清楚,而ChatGPT沒有說的那么清楚--至少目前是這樣。?
ChatGPT與Google Bard對比:模型參數(shù)為什么很重要?
ChatGPT確實比Bard擁有更多的模型參數(shù)--1750億對1370億。你可以把參數(shù)看作是模型調(diào)整的旋鈕或杠桿,以適應(yīng)它所訓(xùn)練的數(shù)據(jù)。更多的參數(shù)通常意味著模型有更多的能力來捕捉語言中的復(fù)雜關(guān)系,但也有過度擬合的風(fēng)險。與ChatGPT相比,Google Bard可能不那么靈活,但也可能因為新的語言用例使其更加強大。?
ChatGPT與Google Bard:共同點?
值得強調(diào)的是,Bard和ChatGPT的模型(分別是LaMDA和GPT-3.5)都位于基于Transformer的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。?
例如,Transformer可以使一個經(jīng)過訓(xùn)練的模型來閱讀一個句子或段落,注意這些詞之間的關(guān)系,然后預(yù)測它認(rèn)為接下來會出現(xiàn)什么詞--類似前面提到的智能手機預(yù)測性文本的功能。?
這里就不展開討論了,但你需要知道的是,這意味著在其核心部分,Bard和ChatGPT彼此之間沒有太大區(qū)別。?
ChatGPT與Google Bard:所有權(quán)
雖然所有權(quán)并不完全是一個技術(shù)上的差異,但它是值得記住的。?
Google Bard是由Google制作并完全擁有的,在LaMDA之上,LaMDA也是由Google創(chuàng)建的。?
ChatGPT是由OpenAI開發(fā)的,這是一家位于舊金山的人工智能研究實驗室。OpenAI最初是非營利性的,但它在2019年創(chuàng)建了一個營利性的子公司。OpenAI也是Dall-E的幕后推手,你可能玩過的人工智能文本到圖像的生成。?
雖然微軟在OpenAI上投入了大量資金,但就目前而言,它是一個獨立的研究機構(gòu)。
ChatGPT和谷歌 Bard哪個好?
這個問題很難給出公平的回答,因為兩者相似的地方很多,但也有不同的地方。首先,現(xiàn)在幾乎沒有人可以訪問Google Bard。另外,ChatGPT的訓(xùn)練數(shù)據(jù)幾乎在兩年前就被切斷了。?
兩者都是文本生成器--你提供一個提示,Google Bard和ChatGPT都能回答。兩者都有數(shù)十億的參數(shù)來微調(diào)模型。兩者都有重疊的訓(xùn)練數(shù)據(jù)源,并且都建立在Transformer上,即同一個神經(jīng)網(wǎng)絡(luò)模型。?
它們的設(shè)計目的也不同,Bard將幫助你瀏覽谷歌搜索,它被設(shè)計為對話式的。ChatGPT可以生成整個博客文章。它的設(shè)計是為了輸出有意義的文本。?
即便說了ChatGPT和Google Bard之間的差異,那也只能證明人工智能驅(qū)動的文本生成技術(shù)已經(jīng)取得了多大進展。雖然它們都有一段路要走,而且都面臨著版權(quán)和道德方面的爭議,但這兩個生成器都是現(xiàn)代人工智能模型發(fā)展的有力證明。?
譯者介紹
崔皓,51CTO社區(qū)編輯,資深架構(gòu)師,擁有18年的軟件開發(fā)和架構(gòu)經(jīng)驗,10年分布式架構(gòu)經(jīng)驗。
原文標(biāo)題:??ChatGPT vs Google Bard: A Comparison of the Technical Differences??,作者:Nate Rosidi