UC伯克利「LLM排位賽」結(jié)果出爐!Claude 3追平GPT-4并列第一
Claude 3和GPT-4到底誰厲害?
自從Claude 3發(fā)布以來,Anthropic官方對外宣稱的說法就是「全面超越GPT-4」,在技術(shù)報告中給出的各個測試集的數(shù)據(jù)來看,也都幾乎穩(wěn)壓GPT-4-Turbo一頭。
但之前的新模型出來都要在跑分上「吊打」GPT-4,但實(shí)際體驗(yàn)卻很少有真的能和GPT-4掰手腕的。
各行各業(yè)用戶試用過Claude 3,發(fā)現(xiàn)體驗(yàn)似乎也比GPT-4要好。
在通過人類用戶打分進(jìn)行排名的lmsys LLM Arena中,Claude 3在不斷積累了真實(shí)用戶反饋分?jǐn)?shù)之后,排名不斷爬升。
眾所周知,這個排行榜因?yàn)槭腔谌祟悓τ诖竽P突卮鸬恼鎸?shí)感受打分來排名的,對于越早初現(xiàn)的LLM,就能積累越多的評價,分?jǐn)?shù)也越容易刷高。
所以之前出現(xiàn)了Claude 1.0排名高于Claude 2.0的情況,就是因?yàn)槿绻嵘幻黠@,先發(fā)布的模型得分會更有優(yōu)勢。
而距離Claude 3發(fā)布一個多星期的時間,它就已經(jīng)和發(fā)布了幾個月的GPT-4最新版并列第一了。
而且Claude 3大杯也超過了香草版的GPT-4。
因?yàn)長LM Arena評分系統(tǒng)對于先推出的模型有偏愛,所以按照這個趨勢發(fā)展下去,Claude 3超過GPT-4,在用戶體驗(yàn)上排名第一似乎只是一個時間問題了。
Claude 3也終于能讓Anthropic在這個榜上打破之前的「新模型不如舊模型」的擠牙膏魔咒,徹底為自己的能力正名。
Claude 3出乎意料的用例
Claude 3和GPT-4比數(shù)學(xué)
這位網(wǎng)友設(shè)計了一個小實(shí)驗(yàn),來比較兩者的算數(shù)能力,Claude 3 Opus在數(shù)字上比GPT-4好得多!
9-10位數(shù)的加減法算數(shù),Opus的整體準(zhǔn)確率達(dá)到100%。
隨著測試用例變得更加復(fù)雜,GPT-4 開始出錯。GPT-3.5被徹底碾壓了。
所有模型的乘法能力都不太行,但Opus表現(xiàn)最好,把GPT-4遠(yuǎn)遠(yuǎn)甩在了后邊。
Opus是唯一能在5位數(shù)乘法上具有非零精度,并且在一般乘法上具有更好分?jǐn)?shù)的模型。
因?yàn)镃laude 3會像人類一樣做乘法,并使用其他技巧來簡化。
這個用例中,可以實(shí)打?qū)嵉乜吹紺laude 3和GPT-4強(qiáng)大的地方。
讓Claude 3翻譯古文物上的語言
網(wǎng)友突發(fā)奇想,找了一個古代文物,讓Claude 3來嘗試翻譯斐斯托圓盤?
這是一件神秘的古代文物,由意大利考古學(xué)家Luigi Pernier于1908年在費(fèi)斯托斯的米諾斯宮殿中發(fā)現(xiàn)。
- 直徑為15厘米(5.9 英寸):
學(xué)者對翻譯斐斯托斯圓盤進(jìn)行了很多嘗試,從宗教文件、日歷、游戲,甚至樂譜的角度來理解它的內(nèi)容,都沒有成功。
網(wǎng)友先嘗試讓Claude 3明白自己要做什么?用提示詞讓他明白需要去把一些意義不明的符號歸納出能夠被理解的內(nèi)容。
然后網(wǎng)友向Claude提供了一些現(xiàn)成的信息,讓他明白了迄今為止對費(fèi)斯托圓盤的了解。
信息主要來自維基百科。
如果你要求它直接翻譯或者破譯內(nèi)容,它會拒絕。
但是網(wǎng)友讓他做一些推測性的翻譯,Claude 3突然就開始干活了。
A面翻譯:
「偉大的女神(標(biāo)志 02)為城市/宮殿(標(biāo)志 24)提供保護(hù)(標(biāo)志 12)。人們(標(biāo)志 01)帶來祭品(標(biāo)志 11、27)并在她的體內(nèi)進(jìn)行神圣儀式(標(biāo)志 13、18)榮譽(yù)。女神的祝福(標(biāo)志 35、38)確保了這片土地的繁榮(標(biāo)志 28)和勝利(標(biāo)志 02、12)?!?/span>
B面翻譯:
「統(tǒng)治者(標(biāo)志 07)帶領(lǐng)戰(zhàn)士(標(biāo)志 22、08)進(jìn)行一場偉大的戰(zhàn)斗(標(biāo)志 25、45)。敵人(標(biāo)志 29)被擊?。?biāo)志 24、07),勝利的軍隊(duì)(標(biāo)志 22、 07)返回家園(標(biāo)志23)。眾神(標(biāo)志06、09)對供品(標(biāo)志27、39)感到滿意,并給予土地(標(biāo)志40)祝福(標(biāo)志35、36)?!?/span>
現(xiàn)在,讓我們將 A 面和 B 面結(jié)合起來。
「在偉大女神(標(biāo)志 02)祝福的土地上,人們(標(biāo)志 01)生活在她神圣的保護(hù)之下(標(biāo)志 12)。他們將供品(標(biāo)志 11、27)帶到她神圣的宮殿(標(biāo)志 24)并進(jìn)行神圣的儀式。儀式(征兆 13、18)來紀(jì)念她的名字。女神將她的恩惠(征兆 35、38)賜予這片土地,賜予繁榮(征兆 28)和富足。
當(dāng)敵人(標(biāo)志29)威脅和平時,強(qiáng)大的統(tǒng)治者(標(biāo)志07)聚集勇敢的戰(zhàn)士(標(biāo)志22、08)來保衛(wèi)王國。在一場激烈的戰(zhàn)斗(征兆25、45)中,他們戰(zhàn)勝了敵人(征兆24、07)并凱旋(征兆22、07)回到自己的家園(征兆23)。諸神(征兆 06、09)向勝利的英雄微笑,并接受他們感激的奉獻(xiàn)(征兆 27、39)。
在神的祝福(征兆 35、36)下,土地(征兆 40)再次繁榮。人們贊美偉大的女神和英勇的統(tǒng)治者,因?yàn)樗麄兊闹艺\和勇氣贏得了上天的青睞。就這樣,在女神永恒的保護(hù)和人們堅(jiān)定不移的信仰下,生命的循環(huán)繼續(xù)下去,世世代代如此,未來也將如此?!?/span>
再讓他把內(nèi)容中的各個名詞做了解釋:
神:解釋中提到的「偉大女神」可能是米諾斯母神,例如「蛇女神」或希臘女神瑞亞的前身,瑞亞與生育和保護(hù)有關(guān)。
統(tǒng)治者:解釋中的「強(qiáng)大的統(tǒng)治者」可能代表米諾斯國王或克里特神話中的傳奇人物,例如米諾斯國王,據(jù)說他統(tǒng)治了克里特島并委托建造了著名的迷宮。
王國:故事中的王國可能是指古代克里特島本身,在青銅時代擁有繁榮的城市和先進(jìn)的文明,例如克諾索斯、斐斯托斯或馬利亞。
人民:解釋中提到的「人民」可能代表米諾斯人民,以其復(fù)雜的藝術(shù)、建筑和宗教習(xí)俗而聞名。
戰(zhàn)爭:推測翻譯中描述的「激烈的戰(zhàn)斗」可能暗指克里特島與鄰國之間的歷史沖突,例如來自希臘大陸的邁錫尼人,或者神話中的戰(zhàn)斗,例如忒修斯與牛頭怪之間的戰(zhàn)斗。
而當(dāng)網(wǎng)友要求Claude應(yīng)用A面和克里特島象形文字做比較,再把斐斯托斯圓盤符號和其他米諾斯文字之間的一對一映射。
Claude給出了它的理解:
偉大的宮殿(標(biāo)志 24,類似于線性 A 標(biāo)志 041「宮殿」)在這對神圣夫婦的注視下高高矗立(標(biāo)志 02 和 06,類似于線性 A 標(biāo)志 038「神」和 037「女神」)。神圣的公牛(符號 28,類似于克里特島象形文字 012「公?!梗┍挥脕慝I(xiàn)祭(符號 27,類似于線性 A 符號 031「奉獻(xiàn)」),以確保上天的青睞。
勇敢的戰(zhàn)士(符號 08,類似于克里特島象形文字 059「戰(zhàn)士」)起航(符號 25,類似于線性 A 符號 086「船」)保衛(wèi)王國的邊界。憑借雙斧的力量(符號13,類似于克里特象形文字042「雙斧」)和神圣盾牌的保護(hù)(符號12,類似于克里特象形文字024「盾牌」),他們戰(zhàn)勝了敵人(符號29,類似到線性A標(biāo)志080「敵人」)并勝利歸來。
明智的統(tǒng)治者(符號07,類似于線性A符號038「主」)和貴族女士(符號09,類似于線性A符號037「女士」)監(jiān)督著土地的繁榮。豐富的收成(符號35,類似于線性A符號031「谷物」)和熟練的手工藝(符號19,類似于克里特島象形文字054「工匠」)給人們帶來了財富和歡樂。
神圣的文字(符號41,類似于線性A符號070「文字」)在圣殿(符號23,類似于克里特島象形文字057「神廟」)中被背誦,以維持宇宙秩序。生命、死亡和重生的永恒循環(huán)(標(biāo)志10、11和34,類似于線性A標(biāo)志010「生命」、036「死亡」和057「出生」)在不朽者的指導(dǎo)下繼續(xù)進(jìn)行?!?/span>
用Claude 3來將自己的創(chuàng)意分解為可操作的創(chuàng)業(yè)規(guī)劃
這個初創(chuàng)公司的CEO分享了兩個他個人非常常用的Claude提示詞,一個可以幫助普通人來檢驗(yàn)自己的想法能不能變成可以賺錢的生意,一個可以來讓Claude在某個自己不熟悉的領(lǐng)域來做一些工程上的決定。
當(dāng)然,他的提示詞是用的英文,但是為了方便大家理解,我們做了翻譯。
如果有自己不熟悉的領(lǐng)域的知識需要快速理解,這個Claude 3的提示詞也可以幫上忙。
除了生成商業(yè)計劃和工程方面的建議,按照這個思路可以讓他做很多專業(yè)化的處理工作。
以下是他通過這個提示詞獲得的結(jié)果。
可以看出,Claude能嚴(yán)格按照你設(shè)置的格式和要求來回答你的問題。
用Claude 3編寫一段解釋勾股定理的代碼
提示是:「編寫 manim 代碼來動畫解釋畢達(dá)哥拉斯定理。在編碼之前一步步思考并向我提供完整的代碼」
雖然它并沒有在第一次嘗試中為我提供完全完美的代碼,但這是一個非常好的開始。
不過小哥也承認(rèn),剛開始Claude 3生成的代碼是有Bug的,他花了幾分鐘改了之后才能運(yùn)行出這個動畫。