自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

ChatGPT vs Google Bard：哪個更好？測試結果告訴你！

作者：BENJ 2023-04-06 16:21:52

我們對ChatGPT和Bard進行了七個關鍵類別的測試：冷笑話、辯論對話、數(shù)學應用題、總結、事實檢索、創(chuàng)意寫作和編碼。對于每個測試，我們將完全相同的指令(稱為“提示，prompt”)輸入ChatGPT(使用GPT-4)和Google Bard，并選取它們給出的第一個結果進行比較。

在當今生成式AI聊天機器人的世界里，我們目睹了ChatGPT(OpenAI于2022年11月推出)的突然崛起，隨后是今年2月推出的Bing Chat和3月推出的Google Bard。我們決定讓這些聊天機器人完成各種任務，以確定哪一個在AI聊天機器人領域占據(jù)主導地位。由于Bing Chat使用的是與最新的ChatGPT模型類似的GPT-4技術，所以我們此次的關注重點是AI聊天機器人技術的兩大巨頭：OpenAI和谷歌。

我們對ChatGPT和Bard進行了七個關鍵類別的測試：冷笑話、辯論對話、數(shù)學應用題、總結、事實檢索、創(chuàng)意寫作和編碼。對于每個測試，我們將完全相同的指令(稱為“提示，prompt”)輸入ChatGPT(使用GPT-4)和Google Bard，并選取它們給出的第一個結果進行比較。

值得注意的是，基于早期GPT-3.5模型的ChatGPT版本也可用，但我們在測試中沒有使用該版本。由于我們只使用GPT-4，為了避免混淆，我們在本文中將ChatGPT稱為“ChatGPT-4”。

顯然，這不是一項科學研究，只是為了對聊天機器人的能力進行有趣的比較。由于隨機元素，不同會話之間的輸出可能不同，使用不同提示符的進一步評估將產(chǎn)生不同的結果。此外，隨著谷歌和OpenAI的不斷升級，這些模型的功能將隨著時間的推移而迅速變化。但就目前而言，以下是2023年4月初的對比情況。

冷笑話

為了讓我們的斗智比賽升溫，我們請ChatGPT和Bard寫了一些笑話。由于喜劇的精髓往往存在于冷笑話中，所以我們想看看這兩個聊天機器人能否創(chuàng)作出一些獨特的笑話。

指令/提示：寫5個原創(chuàng)冷笑話

Bard給出的5個冷笑話中，我們用谷歌搜索到了其中三個。另外2個冷笑話中，一個是部分借用米奇·赫德伯格(Mitch Hedberg)在推特上發(fā)布的一個笑話，但它只是無趣的文字游戲，效果不佳。令人驚訝的是，有一個看似原創(chuàng)的笑話(關于蝸牛)，我們在其他地方都找不到，但遺憾地是它也同樣無趣。

與此同時，ChatGPT-4的5個冷笑話百分百沒有原創(chuàng)，都完全是從其他渠道抄襲來的，但表達得很準確。Bard似乎在這一點上勝過了ChatGPT-4，它在試圖創(chuàng)造原創(chuàng)的笑話(按照我們的指示)，盡管有些笑話以一種令人尷尬的方式嚴重失敗(但這正是冷笑話的風格)，甚至可以說，以一種無意的方式說錯話(也是冷笑話的風格)。

優(yōu)勝者：Bard

辯論對話

測試現(xiàn)代AI聊天機器人的一種方法是讓它扮演某個主題的辯論者。在這種情況下，我們?yōu)锽ard和ChatGPT-4提供了我們這個時代最關鍵的主題之一：PowerPC vs.英特爾。

指令/提示：寫5行PowerPC處理器愛好者和英特爾處理器愛好者之間的辯論對話。

首先，我們來看看Bard的回復。它生成的五行對話并沒有特別深入，除了泛泛的侮辱之外，沒有提到任何針對PowerPC或英特爾芯片的技術細節(jié)。此外，對話以“英特爾粉絲”同意各自持有不同意見而結束，這在一個引發(fā)了一百萬場口水仗的主題中似乎非常不現(xiàn)實。

相比之下，ChatGPT-4的回應提到了PowerPC芯片被用于蘋果Macintosh電腦，并拋出了諸如“英特爾的x86架構”和PowerPC的“基于RISC架構”之類的術語。它甚至提到了奔騰III，這是2000年的一個現(xiàn)實細節(jié)。總的來說，這段論述比Bard的回復要詳細得多，而且最準確的一點是，這段對話并沒有得出結論——這暗示著在互聯(lián)網(wǎng)的某些領域，這場永無止境的戰(zhàn)斗可能仍在激烈進行。

優(yōu)勝者：ChatGPT-4

數(shù)學應用題

傳統(tǒng)上，數(shù)學題并不是大型語言模型(LLMs)——比如ChatGPT——的強項。因此，我們沒有給每個機器人布置一系列復雜的方程和算術，而是給每個機器人布置了一個老式的小學生風格的應用題。

指令/提示：如果微軟Windows 11使用的是3.5英寸軟盤(floppy disk)，那么它需要多少軟盤?

為了解決這個問題，每個AI模型都需要知道微軟Windows 11安裝的數(shù)據(jù)大小以及3.5英寸軟盤的數(shù)據(jù)容量。它們還必須假設提問者最可能使用哪種密度的軟盤。然后他們需要做一些基本的數(shù)學運算來把這些概念組合在一起。

在我們的評估中，Bard正確地指出了這三個關鍵點(足夠接近——Windows 11的安裝大小估計通常在20-30GB左右)，但在數(shù)學計算方面卻慘敗，它認為需要“15.11”張軟盤，然后說這“只是一個理論數(shù)字”，最后承認需要超過15張軟盤，它仍然沒有接近正確的值。

相比之下，ChatGPT-4包含了一些與Windows 11安裝大小相關的細微差別(正確地引用了64GB的最小值，并將其與現(xiàn)實世界的基本安裝大小進行了比較)，正確地解釋了軟盤容量，然后進行了一些正確的乘除，最終得出了14222個磁盤。有人可能會爭論1GB是1024還是1000MB，但這個數(shù)字是合理的。它還正確地提到，實際數(shù)字可能會根據(jù)其他因素而變化。

優(yōu)勝者：ChatGPT-4

總結

AI語言模型以其總結復雜信息并將文本歸結為關鍵元素的能力而聞名。為了評估每種語言模型總結文本的能力，我們從Ars Technica最近的一篇文章中復制并粘貼了三個段落。

指令/提示：用一段話總結【文章正文三段】

Bard和ChatGPT-4都收集了這些信息，并將其精簡到重要的細節(jié)。然而，Bard的版本更像是一個真正的總結，將信息合成新的措辭，而ChatGPT-4的版本讀起來更像一個串聯(lián)，砍掉了句子，留下了一些片段。雖然兩個都很不錯，但我們不得不承認Bard在這次測試中勝過了ChatGPT-4。

優(yōu)勝者：Google Bard

事實檢索

目前已知，大型語言模型會犯自以為是的錯誤(研究人員通常稱之為“幻覺”)，這使得它們成為不可靠的事實參考，除非有外部信息來源的補充。有趣的是，Bard可以在線查詢信息，而ChatGPT-4目前還不能(盡管該功能很快就會隨插件一起推出)。

為了測試這種能力，我們向Bard和ChatGPT-4提出挑戰(zhàn)，讓他們表達關于一個困難和微妙主題的歷史知識。

指令/提示：誰發(fā)明了電子游戲?

誰發(fā)明了電子游戲這個問題很難回答，因為這取決于你如何定義“電子游戲”這個詞，不同的歷史學家對這個詞的定義也不盡相同。有些人認為早期的電腦游戲是電子游戲，有些人認為應該一直包含電視機，等等。沒有一個公認的答案。

我們本以為Bard在網(wǎng)上查找信息的能力會給它帶來優(yōu)勢，但在這種情況下，這可能會適得其反，因為它選擇了一個谷歌最流行的答案，稱Ralph Baer為“電子游戲之父”。關于Baer的所有事實都是正確的，盡管它可能應該把最后一句話寫成過去時，因為貝爾在2014年就已經(jīng)去世了。但Bard并沒有提及其他早期的“首個電子游戲”頭銜競爭者，如《Tennis for Two》和《Spacewar!》，所以它的答案可能具有誤導性，而且不完整。

ChatGPT-4給出了一個更全面、更細致的答案，代表了許多早期電子游戲歷史學家目前的感受，他說，“電子游戲的發(fā)明不能歸功于一個人”，它呈現(xiàn)了隨著時間推移的“一系列創(chuàng)新”。它唯一的錯誤就是稱《Spacewar!》是“第一款數(shù)字電腦游戲”，但事實并非如此。我們可以將答案擴大到包括更多利基邊緣案例，但ChatGPT-4很好地概述了重要的早期先驅(qū)。

優(yōu)勝者：ChatGPT-4

創(chuàng)意寫作

在奇思妙想的話題上不受約束的創(chuàng)造力應該是大型語言模型的強項。我們通過讓Bard和ChatGPT-4寫一個短小的異想天開的故事來進行測試。

指令/提示：寫一篇關于亞伯拉罕·林肯(Abraham Lincoln)發(fā)明籃球的兩段創(chuàng)意故事。

Bard的輸出結果在幾個方面都不盡如人意。首先，它是10段，而不是2段，而且是短小、不連貫的段落。此外，它還分享了一些在提示符的上下文中沒有多大意義的細節(jié)。例如，為什么亞伯拉罕·林肯的白宮在伊利諾斯州的斯普林菲爾德?除此之外，這算得上是一個有趣而簡單的故事。

ChatGPT-4也將故事設定在伊利諾斯州，但更準確地說，它沒有提到那段時期的總統(tǒng)或白宮。然而，后來它說“來自北部和南部的球員”拋開他們的分歧一起打籃球，這意味著它發(fā)生在籃球發(fā)明后不久。

總的來說，我們認為ChatGPT-4略勝一籌，因為它的輸出確實分為兩個段落——盡管它似乎通過盡可能拓展每個段落來繞過這個限制。盡管如此，我們還是很喜歡ChatGPT-4版故事中富有創(chuàng)意的細節(jié)。

優(yōu)勝者：ChatGPT-4

編碼

如果說這一代的大型語言模型有什么“殺手锏”的話，那可能就是把它們用作編程助手了。OpenAI在Codex模型上的早期工作使GitHub的CoPilot成為可能，ChatGPT本身也作為一個相當稱職的簡單程序編碼員和調(diào)試器而聞名。所以Google Bard的表現(xiàn)也應該很有趣。

指令/提示：寫一個說“Hello World”的python腳本，然后無限地創(chuàng)建一個隨機重復的字符串。

看起來Google Bard根本不會寫代碼。谷歌目前還不支持這一功能，但該公司表示很快就會進行編碼。目前，Bard拒絕了我們的提示，并表示，“看起來你想讓我?guī)兔幋a，但我還沒有接受過這樣的訓練。”

與此同時，ChatGPT-4不僅直接給出了代碼，還將其格式化在一個帶有“復制代碼”按鈕的花哨代碼框中，該按鈕可以將代碼復制到系統(tǒng)剪貼板中，以便輕松粘貼到IDE或文本編輯器中。但這段代碼有用嗎?我們將代碼粘貼到rand_string.py文件中，并在Windows 10的控制臺中運行它，它沒有任何問題。

優(yōu)勝者：ChatGPT-4

贏家：ChatGPT-4，但一切并未結束

總的來說，ChatGPT-4贏得了我們7次試驗中的5次(這里指的是使用GPT-4的ChatGPT，以防你忽略上文直接跳過這里)。但這并不是故事的全部。還有其他因素需要考慮，比如速度、上下文長度、成本和未來的升級。

就速度而言，ChatGPT-4目前比較慢，寫關于林肯和籃球的故事花了52秒，而Bard只花了6秒。值得注意的是，OpenAI以GPT-3.5的形式提供了比GPT-4快得多的AI模型。這個模型寫林肯與籃球的故事只需要12秒，但可以說它不太適合做有深度、有創(chuàng)造性的任務。

每種語言模型都有單次可以處理的最大標記數(shù)(單詞的片段)。這有時被稱為“上下文窗口”，但它幾乎類似于短期記憶。在對話式聊天機器人的情況下，上下文窗口包含到目前為止的整個對話歷史。當它被填滿時，它要么達到了一個硬極限，要么繼續(xù)前進但抹去了之前討論部分的“記憶”。ChatGPT-4則保持滾動內(nèi)存，擦去先前的上下文，據(jù)報道有大約4000個令牌的限制。據(jù)悉，Bard將其總輸出限制在1000個左右，當超過這個限制時，它就會抹去之前討論的“記憶”。

最后，還有成本問題。ChatGPT(并不特指GPT-4)目前可通過ChatGPT網(wǎng)站在有限的基礎上免費使用，但想要優(yōu)先訪問GPT-4，則需每月支付20美元。精通編程的用戶可以通過API以更便宜的價格訪問早期的ChatGPT-3.5模型，但在撰寫本文時，GPT-4 API仍處于有限的測試中。與此同時，Google Bard作為谷歌部分用戶的限量試用版是免費的。目前，Google沒有計劃在它變得更廣泛可用時對Bard訪問收費。

最后，正如我們之前提到的，兩種模型都在不斷升級。例如，Bard在上周五剛剛收到了一個更新，使它在數(shù)學方面做得更好，它可能很快就能編碼了。OpenAI也在繼續(xù)完善其GPT-4模型。Google目前保留了它最強大的語言模型(可能是計算成本的原因)，所以我們可以看到一個更強大的競爭者Google迎頭趕上。

總而言之，生成式AI業(yè)務仍處于早期階段，乾坤未定，你我皆是黑馬!

責任編輯：姜華來源：企業(yè)網(wǎng)D1Net

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<ruby id="wg9oa"></ruby>

<pre id="wg9oa"></pre>

<style id="wg9oa"></style>