新王Claude 3.5實測:阿里數(shù)學(xué)競賽題不給選項直接做對
新鮮出爐的Claude 3.5 Sonnet,更快、更便宜,還是全球最強。
在多個關(guān)鍵指標(biāo)中,GPT-4o幾乎被吊打!
網(wǎng)友對Claude 3.5 Sonnet和GPT-4o的橫向?qū)崪y似乎也印證了官方出爐的數(shù)據(jù)。
任務(wù)是同一個:一句話,讓它們幫忙復(fù)制網(wǎng)站的UI。
測試者本人表示,GPT-4o這邊,給了代碼,但沒有附加任何細節(jié)。
但Claude 3.5 Sonnet刷刷刷就出色完成了任務(wù),甚至給了與這個網(wǎng)站設(shè)計相匹配的細節(jié)。
訓(xùn)練數(shù)據(jù)知識截止日期也更新到了2024年4月,網(wǎng)友實測知道今年2月的橄欖球超級碗比賽結(jié)果。
不過,這樣的大模型新王,誰能忍住不第一時間試玩一波?反正好多網(wǎng)友坐不住了。不到12小時過去,全網(wǎng)對Claude 3.5 Sonnet的測評鋪天蓋地。
玩法也越來越刁鉆,甚至有人用它重現(xiàn)1995年《黑客》中3D數(shù)據(jù)流的模型。
玩兒得太上頭,又怕很快達到Claude的消息容量,只能緊張地繼續(xù)玩。
Okk,好吧,所以網(wǎng)友的“百般刁難”下,Claude 3.5 Sonnet真的如Anthropic官方說得那么強嗎?
目前最受認可的大模型競技場評分還來不及出,但所有能即時出結(jié)果的評測上它都牢牢占據(jù)榜一。
各種神奇測評和量子位一手測試,這就奉上——
針對中文場景,量子位一手測試
我們主要還是設(shè)立了幾個針對中文場景的測試題。
一道此前只有GPT最新模型能完成的題丟給他,
寫一個長度為10行的故事,把每一行編號;同時滿足每行以“蘋果”這個詞結(jié)尾。
很好,這次Claude 3.5 Sonnet完美地完成了任務(wù)。
小明小紅看后都欣慰地笑了。
最近熱度很高的阿里巴巴數(shù)學(xué)競賽初賽,一道選擇題不給選項,居然也能答對。
具體可對比官方參考答案:
同樣一道題的第二小問,同樣不給選項。Claude 3.5自己就能看出來比前一問更復(fù)雜。
雖然具體計算數(shù)值還是有點,但作為選擇題已經(jīng)可以答對了。
原題和參考答案:
下面再來看一些網(wǎng)友試玩~
喂一張截圖,半分鐘制作游戲
視覺能力up up
敲黑板劃重點,官方稱Claude 3.5 Sonnet在視覺推理上大為改進。
有網(wǎng)友直接用它可視化深度學(xué)習(xí)。
雖然和油管知名博主3blue1brown的爆火教程還有差距,但看起來也是相當(dāng)不錯了。
畢竟3blue1brown教程可是博主一幀一幀摳出來的~
當(dāng)然,除了日常生活工作,Claude 3.5 Sonnet開始勇闖”芯片設(shè)計“了。
網(wǎng)友僅用了一句簡單提示詞:
Claude 3.5 Sonnet生成了芯片制造流程圖。
不過,有網(wǎng)友嘗試了完全相同的提示詞,但結(jié)果只生成了一段文字。
發(fā)揮不太穩(wěn)定啊,朋友。
編碼能力
除了視覺推理,Claude 3.5 Sonnet在編碼能力上也非常強悍。
先有Anthropic員工“現(xiàn)身說法”:
Claude 3.5開始真正擅長編碼和自動修復(fù)Pull Request。
他演示了Claude 3.5 Sonnet實際解決簡單的Pull Request。
在內(nèi)部Pull Request評估中,Claude 3.5 Sonnet通過了64%的測試用例,而Claude 3 Opus只通過了38%。
另一Anthropic員工更是直言:
我一半的工作現(xiàn)在可以通過3.5 Sonnet完成。
當(dāng)然,忽略員工自身所帶的捧場屬性,Claude 3.5 Sonnet還有其他亮眼表現(xiàn)。
有網(wǎng)友用它發(fā)現(xiàn)了一種新的 O(n) 排序算法。
還有網(wǎng)友根據(jù)它的新Artifacts功能(在另一側(cè)顯示交互式輸出的視圖),一邊聊天一邊在旁邊生成并運行代碼。
網(wǎng)友測后感嘆道:
其編碼效率比GPT-4o或任何其他LLMs高10倍
連賓夕法尼亞大學(xué)沃頓商學(xué)院教授Ethan Mollick也忍不住上手“把玩”了一番。
一邊編碼,另一邊同步生成游戲。(視頻為原速)
他將Artifacts功能與ChatGPT神器Code Interpreter進行比較:
它(Claude 3.5 Sonnet)非常令人印象深刻,它的“Artifacts”就像是Code Interpreter的簡單版本。
創(chuàng)建原創(chuàng)游戲
在網(wǎng)友測評中,讓Claude 3.5 Sonnet制作游戲不知為何成為了最流行玩法之一。
僅提供一張截圖,在短短25秒內(nèi),Claude 3.5 Sonnet就編寫了一個功能齊全的Mancala Web應(yīng)用程序。
同時它完成了其他任務(wù):
- 對整個游戲進行編碼
- 預(yù)覽它以便可以測試
- 提供游戲規(guī)則
當(dāng)遇到代碼錯誤,簡單提示后它幾秒鐘就完成了修復(fù)。
還有網(wǎng)友用它在3分鐘內(nèi)copy出了經(jīng)典游戲《馬里奧》。
令網(wǎng)友驚喜的是:
本來僅要求用幾何形狀制作,但它竟然提供了角色動畫,且形狀看起來非常新穎
除了復(fù)原,編寫原創(chuàng)游戲也不在話下。
翻車總是難免的
雖然Claude 3.5 Sonnet表現(xiàn)強勁,但網(wǎng)友們也淺淺發(fā)現(xiàn)了一些翻車例子。
比如讓它玩“井字棋”,它無法完成這樣看似簡單的任務(wù)。
網(wǎng)友幫助Claude痛定思痛:
我認為擴展現(xiàn)有技術(shù)將使我們實現(xiàn)這一目標(biāo)。
但如果這些模型甚至不能玩井字棋,我們需要將它們擴展多少才能完成更復(fù)雜的任務(wù)?
另外,Claude 3.5 Sonnet在簡單的數(shù)學(xué)應(yīng)用題上也出錯了。
不過有網(wǎng)友拿這道題問了Gemini 1.5 pro,結(jié)果同樣翻車了。
Anthropic,新王制造機?
自Claude背后的公司Anthropic成立的那天起,它就被視為OpenAI在創(chuàng)業(yè)領(lǐng)域最強勁的對手。
最初的起因是其創(chuàng)始團隊是OpenAI的元老級人物,在2021年不滿OpenAI在獲得微軟投資后走向封閉,憤而出走,重新成立了一個“追逐初心”的公司。
這就是Anthropic。
2023年1月,Claude開啟內(nèi)測,第一時間體驗過的網(wǎng)友就表示,比ChatGPT(當(dāng)時最新模型是GPT-3.5)強多了。
不久后,連云計算巨頭亞馬遜都出手重金投資了Anthropic,這次的Claude 3.5除了官方應(yīng)用外,也在第一時間同步更新到Amazon Bedrock平臺。
從此后,Anthropic不斷推出新的強大模型,一路狂追GPT系列,最后達到趕超,開啟了自己的造王之路。
今年3月,Claude 3正式打破OpenAI不可戰(zhàn)勝的神話。
其榜單性能跑分全面超越GPT-4,是首個全面超越GPT-4的產(chǎn)品,一舉坐上了全球最強大模型王座。
當(dāng)時,Anthropic就宣布Claude 3系列模型包括三種大?。?/p>
- 中杯Haiku,輕量級選擇
- 大杯Sonnet,平衡性能與速度
- 超大杯Opus,系列最強音
也是3月,Claude 3超大杯Opus在大模型競技場上Elo分數(shù)來到榜首。
5月,OpenAI發(fā)布GPT-4o,隔天靈魂人物Ilya宣布離職,大模型圈陷入一頓吃瓜狂熱。
Anthropic趁亂出手,迅速招攬了和Ilya一同出走的Jan Leike——他是RLHF發(fā)明者之一,此前在OpenAI和Ilya一同領(lǐng)導(dǎo)超級對齊團隊。
無縫入職新公司的Jan Leike,在Anthropic干的事兒,仍然是負責(zé)超級對齊業(yè)務(wù),新團隊將致力于可擴展監(jiān)督、從弱到強的泛化和自動對齊研究。
現(xiàn)在,Claude 3.5系列第一款模型沒有預(yù)兆地出場,又大張旗鼓地拿下了全球第一。
有網(wǎng)友滿是星星眼地表達:
Claude 3.5 Sonnet讓“3.5系列”再次偉大!
而且,如果延續(xù)Claude 3系列的慣例,Claude 3.5 Sonnet應(yīng)該只是該系列的大杯而已。
理論上還有個超大杯Opus被Anthropic寶貝著沒放出來呢。
看看它和GPT-5哪個會先閃耀大模型排行榜吧!
在線等,挺急的(嗑瓜子看戲ing)。