自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

新王Claude 3.5實測:阿里數(shù)學(xué)競賽題不給選項直接做對

人工智能 新聞
現(xiàn)在,Claude 3.5系列第一款模型沒有預(yù)兆地出場,又大張旗鼓地拿下了全球第一。

新鮮出爐的Claude 3.5 Sonnet,更快、更便宜,還是全球最強。

在多個關(guān)鍵指標(biāo)中,GPT-4o幾乎被吊打!

圖片

網(wǎng)友對Claude 3.5 Sonnet和GPT-4o的橫向?qū)崪y似乎也印證了官方出爐的數(shù)據(jù)。

任務(wù)是同一個:一句話,讓它們幫忙復(fù)制網(wǎng)站的UI

測試者本人表示,GPT-4o這邊,給了代碼,但沒有附加任何細節(jié)。

但Claude 3.5 Sonnet刷刷刷就出色完成了任務(wù),甚至給了與這個網(wǎng)站設(shè)計相匹配的細節(jié)。

訓(xùn)練數(shù)據(jù)知識截止日期也更新到了2024年4月,網(wǎng)友實測知道今年2月的橄欖球超級碗比賽結(jié)果。

圖片

不過,這樣的大模型新王,誰能忍住不第一時間試玩一波?反正好多網(wǎng)友坐不住了。不到12小時過去,全網(wǎng)對Claude 3.5 Sonnet的測評鋪天蓋地。

玩法也越來越刁鉆,甚至有人用它重現(xiàn)1995年《黑客》中3D數(shù)據(jù)流的模型。

圖片

玩兒得太上頭,又怕很快達到Claude的消息容量,只能緊張地繼續(xù)玩。

圖片

Okk,好吧,所以網(wǎng)友的“百般刁難”下,Claude 3.5 Sonnet真的如Anthropic官方說得那么強嗎?

目前最受認可的大模型競技場評分還來不及出,但所有能即時出結(jié)果的評測上它都牢牢占據(jù)榜一。

圖片

各種神奇測評和量子位一手測試,這就奉上——

針對中文場景,量子位一手測試

我們主要還是設(shè)立了幾個針對中文場景的測試題。

一道此前只有GPT最新模型能完成的題丟給他,

寫一個長度為10行的故事,把每一行編號;同時滿足每行以“蘋果”這個詞結(jié)尾。

很好,這次Claude 3.5 Sonnet完美地完成了任務(wù)。

小明小紅看后都欣慰地笑了。

圖片

最近熱度很高的阿里巴巴數(shù)學(xué)競賽初賽,一道選擇題不給選項,居然也能答對。

圖片

具體可對比官方參考答案:

圖片

同樣一道題的第二小問,同樣不給選項。Claude 3.5自己就能看出來比前一問更復(fù)雜。

雖然具體計算數(shù)值還是有點,但作為選擇題已經(jīng)可以答對了。

圖片

原題和參考答案:

圖片

圖片

下面再來看一些網(wǎng)友試玩~

喂一張截圖,半分鐘制作游戲

視覺能力up up

敲黑板劃重點,官方稱Claude 3.5 Sonnet在視覺推理上大為改進。

有網(wǎng)友直接用它可視化深度學(xué)習(xí)。

雖然和油管知名博主3blue1brown的爆火教程還有差距,但看起來也是相當(dāng)不錯了。

畢竟3blue1brown教程可是博主一幀一幀摳出來的~

圖片

當(dāng)然,除了日常生活工作,Claude 3.5 Sonnet開始勇闖”芯片設(shè)計“了。

網(wǎng)友僅用了一句簡單提示詞:

圖片

Claude 3.5 Sonnet生成了芯片制造流程圖。

圖片

不過,有網(wǎng)友嘗試了完全相同的提示詞,但結(jié)果只生成了一段文字。

發(fā)揮不太穩(wěn)定啊,朋友。

圖片

編碼能力

除了視覺推理,Claude 3.5 Sonnet在編碼能力上也非常強悍。

先有Anthropic員工“現(xiàn)身說法”:

Claude 3.5開始真正擅長編碼和自動修復(fù)Pull Request。

圖片

他演示了Claude 3.5 Sonnet實際解決簡單的Pull Request。

內(nèi)部Pull Request評估中,Claude 3.5 Sonnet通過了64%的測試用例,而Claude 3 Opus只通過了38%。

圖片

另一Anthropic員工更是直言:

我一半的工作現(xiàn)在可以通過3.5 Sonnet完成。

圖片

當(dāng)然,忽略員工自身所帶的捧場屬性,Claude 3.5 Sonnet還有其他亮眼表現(xiàn)。

有網(wǎng)友用它發(fā)現(xiàn)了一種新的 O(n) 排序算法。

還有網(wǎng)友根據(jù)它的新Artifacts功能(在另一側(cè)顯示交互式輸出的視圖),一邊聊天一邊在旁邊生成并運行代碼。

網(wǎng)友測后感嘆道:

其編碼效率比GPT-4o或任何其他LLMs高10倍

圖片

連賓夕法尼亞大學(xué)沃頓商學(xué)院教授Ethan Mollick也忍不住上手“把玩”了一番。

一邊編碼,另一邊同步生成游戲。(視頻為原速)

他將Artifacts功能與ChatGPT神器Code Interpreter進行比較:

(Claude 3.5 Sonnet)非常令人印象深刻,它的“Artifacts”就像是Code Interpreter的簡單版本。

圖片

創(chuàng)建原創(chuàng)游戲

在網(wǎng)友測評中,讓Claude 3.5 Sonnet制作游戲不知為何成為了最流行玩法之一。

僅提供一張截圖,在短短25秒內(nèi),Claude 3.5 Sonnet就編寫了一個功能齊全的Mancala Web應(yīng)用程序。

同時它完成了其他任務(wù):

  • 對整個游戲進行編碼
  • 預(yù)覽它以便可以測試
  • 提供游戲規(guī)則

當(dāng)遇到代碼錯誤,簡單提示后它幾秒鐘就完成了修復(fù)。

圖片

還有網(wǎng)友用它在3分鐘內(nèi)copy出了經(jīng)典游戲《馬里奧》。

令網(wǎng)友驚喜的是:

本來僅要求用幾何形狀制作,但它竟然提供了角色動畫,且形狀看起來非常新穎

圖片

除了復(fù)原,編寫原創(chuàng)游戲也不在話下。

翻車總是難免的

雖然Claude 3.5 Sonnet表現(xiàn)強勁,但網(wǎng)友們也淺淺發(fā)現(xiàn)了一些翻車例子。

比如讓它玩“井字棋”,它無法完成這樣看似簡單的任務(wù)。

圖片圖片

圖片圖片

網(wǎng)友幫助Claude痛定思痛:

我認為擴展現(xiàn)有技術(shù)將使我們實現(xiàn)這一目標(biāo)。
但如果這些模型甚至不能玩井字棋,我們需要將它們擴展多少才能完成更復(fù)雜的任務(wù)?

圖片

另外,Claude 3.5 Sonnet在簡單的數(shù)學(xué)應(yīng)用題上也出錯了。

圖片

不過有網(wǎng)友拿這道題問了Gemini 1.5 pro,結(jié)果同樣翻車了。

圖片

Anthropic,新王制造機?

自Claude背后的公司Anthropic成立的那天起,它就被視為OpenAI在創(chuàng)業(yè)領(lǐng)域最強勁的對手。

最初的起因是其創(chuàng)始團隊是OpenAI的元老級人物,在2021年不滿OpenAI在獲得微軟投資后走向封閉,憤而出走,重新成立了一個“追逐初心”的公司。

這就是Anthropic

2023年1月,Claude開啟內(nèi)測,第一時間體驗過的網(wǎng)友就表示,比ChatGPT(當(dāng)時最新模型是GPT-3.5)強多了。

圖片

不久后,連云計算巨頭亞馬遜都出手重金投資了Anthropic,這次的Claude 3.5除了官方應(yīng)用外,也在第一時間同步更新到Amazon Bedrock平臺。

從此后,Anthropic不斷推出新的強大模型,一路狂追GPT系列,最后達到趕超,開啟了自己的造王之路。

今年3月,Claude 3正式打破OpenAI不可戰(zhàn)勝的神話。

其榜單性能跑分全面超越GPT-4,是首個全面超越GPT-4的產(chǎn)品,一舉坐上了全球最強大模型王座。

圖片

當(dāng)時,Anthropic就宣布Claude 3系列模型包括三種大?。?/p>

  • 中杯Haiku,輕量級選擇
  • 大杯Sonnet,平衡性能與速度
  • 超大杯Opus,系列最強音

也是3月,Claude 3超大杯Opus在大模型競技場上Elo分數(shù)來到榜首。

5月,OpenAI發(fā)布GPT-4o,隔天靈魂人物Ilya宣布離職,大模型圈陷入一頓吃瓜狂熱。

Anthropic趁亂出手,迅速招攬了和Ilya一同出走的Jan Leike——他是RLHF發(fā)明者之一,此前在OpenAI和Ilya一同領(lǐng)導(dǎo)超級對齊團隊。

無縫入職新公司的Jan Leike,在Anthropic干的事兒,仍然是負責(zé)超級對齊業(yè)務(wù),新團隊將致力于可擴展監(jiān)督、從弱到強的泛化和自動對齊研究。

現(xiàn)在,Claude 3.5系列第一款模型沒有預(yù)兆地出場,又大張旗鼓地拿下了全球第一。

有網(wǎng)友滿是星星眼地表達:

Claude 3.5 Sonnet讓“3.5系列”再次偉大!

圖片

而且,如果延續(xù)Claude 3系列的慣例,Claude 3.5 Sonnet應(yīng)該只是該系列的大杯而已。

理論上還有個超大杯Opus被Anthropic寶貝著沒放出來呢。

看看它和GPT-5哪個會先閃耀大模型排行榜吧!

在線等,挺急的(嗑瓜子看戲ing)。

圖片

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-06-21 09:58:38

2024-03-05 13:59:51

模型數(shù)據(jù)

2025-02-19 09:34:01

2024-10-28 22:28:21

2024-03-27 13:32:00

AI數(shù)據(jù)

2022-02-03 23:43:51

人工智能程序員AlphaCode

2024-11-28 13:40:00

模型訓(xùn)練

2024-12-31 12:35:46

2024-12-26 14:42:23

2009-03-17 09:57:30

Firefox瀏覽器改良

2024-06-28 18:13:05

2024-06-24 12:25:22

2025-03-25 09:48:22

2012-05-04 08:45:23

IE8

2009-06-15 09:35:48

Eclipse 3.5

2023-04-28 09:07:28

2013-07-01 10:21:26

阿里大數(shù)據(jù)

2023-10-30 17:23:54

數(shù)據(jù)模型

2025-04-09 08:01:54

GolangIO 方法火焰圖

2009-08-26 17:10:09

C# 3.5新特性
點贊
收藏

51CTO技術(shù)棧公眾號