自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

新王Claude 3.5實測：阿里數(shù)學(xué)競賽題不給選項直接做對

作者：量子位 2024-06-21 13:11:30

人工智能新聞

現(xiàn)在，Claude 3.5系列第一款模型沒有預(yù)兆地出場，又大張旗鼓地拿下了全球第一。

新鮮出爐的Claude 3.5 Sonnet，更快、更便宜，還是全球最強。

在多個關(guān)鍵指標(biāo)中，GPT-4o幾乎被吊打！

網(wǎng)友對Claude 3.5 Sonnet和GPT-4o的橫向?qū)崪y似乎也印證了官方出爐的數(shù)據(jù)。

任務(wù)是同一個：一句話，讓它們幫忙復(fù)制網(wǎng)站的UI。

測試者本人表示，GPT-4o這邊，給了代碼，但沒有附加任何細節(jié)。

但Claude 3.5 Sonnet刷刷刷就出色完成了任務(wù)，甚至給了與這個網(wǎng)站設(shè)計相匹配的細節(jié)。

訓(xùn)練數(shù)據(jù)知識截止日期也更新到了2024年4月，網(wǎng)友實測知道今年2月的橄欖球超級碗比賽結(jié)果。

不過，這樣的大模型新王，誰能忍住不第一時間試玩一波？反正好多網(wǎng)友坐不住了。不到12小時過去，全網(wǎng)對Claude 3.5 Sonnet的測評鋪天蓋地。

玩法也越來越刁鉆，甚至有人用它重現(xiàn)1995年《黑客》中3D數(shù)據(jù)流的模型。

玩兒得太上頭，又怕很快達到Claude的消息容量，只能緊張地繼續(xù)玩。

Okk，好吧，所以網(wǎng)友的“百般刁難”下，Claude 3.5 Sonnet真的如Anthropic官方說得那么強嗎？

目前最受認可的大模型競技場評分還來不及出，但所有能即時出結(jié)果的評測上它都牢牢占據(jù)榜一。

各種神奇測評和量子位一手測試，這就奉上——

針對中文場景，量子位一手測試

我們主要還是設(shè)立了幾個針對中文場景的測試題。

一道此前只有GPT最新模型能完成的題丟給他，

寫一個長度為10行的故事，把每一行編號；同時滿足每行以“蘋果”這個詞結(jié)尾。

很好，這次Claude 3.5 Sonnet完美地完成了任務(wù)。

小明小紅看后都欣慰地笑了。

最近熱度很高的阿里巴巴數(shù)學(xué)競賽初賽，一道選擇題不給選項，居然也能答對。

具體可對比官方參考答案：

同樣一道題的第二小問，同樣不給選項。Claude 3.5自己就能看出來比前一問更復(fù)雜。

雖然具體計算數(shù)值還是有點，但作為選擇題已經(jīng)可以答對了。

原題和參考答案：

下面再來看一些網(wǎng)友試玩~

喂一張截圖，半分鐘制作游戲

視覺能力up up

敲黑板劃重點，官方稱Claude 3.5 Sonnet在視覺推理上大為改進。

有網(wǎng)友直接用它可視化深度學(xué)習(xí)。

雖然和油管知名博主3blue1brown的爆火教程還有差距，但看起來也是相當(dāng)不錯了。

畢竟3blue1brown教程可是博主一幀一幀摳出來的~

當(dāng)然，除了日常生活工作，Claude 3.5 Sonnet開始勇闖”芯片設(shè)計“了。

網(wǎng)友僅用了一句簡單提示詞：

Claude 3.5 Sonnet生成了芯片制造流程圖。

不過，有網(wǎng)友嘗試了完全相同的提示詞，但結(jié)果只生成了一段文字。

發(fā)揮不太穩(wěn)定啊，朋友。

編碼能力

除了視覺推理，Claude 3.5 Sonnet在編碼能力上也非常強悍。

先有Anthropic員工“現(xiàn)身說法”：

Claude 3.5開始真正擅長編碼和自動修復(fù)Pull Request。

他演示了Claude 3.5 Sonnet實際解決簡單的Pull Request。

在內(nèi)部Pull Request評估中，Claude 3.5 Sonnet通過了64%的測試用例，而Claude 3 Opus只通過了38%。

另一Anthropic員工更是直言：

我一半的工作現(xiàn)在可以通過3.5 Sonnet完成。

當(dāng)然，忽略員工自身所帶的捧場屬性，Claude 3.5 Sonnet還有其他亮眼表現(xiàn)。

有網(wǎng)友用它發(fā)現(xiàn)了一種新的 O(n) 排序算法。

還有網(wǎng)友根據(jù)它的新Artifacts功能（在另一側(cè)顯示交互式輸出的視圖），一邊聊天一邊在旁邊生成并運行代碼。

網(wǎng)友測后感嘆道：

其編碼效率比GPT-4o或任何其他LLMs高10倍

連賓夕法尼亞大學(xué)沃頓商學(xué)院教授Ethan Mollick也忍不住上手“把玩”了一番。

一邊編碼，另一邊同步生成游戲。（視頻為原速）

他將Artifacts功能與ChatGPT神器Code Interpreter進行比較：

它（Claude 3.5 Sonnet）非常令人印象深刻，它的“Artifacts”就像是Code Interpreter的簡單版本。

創(chuàng)建原創(chuàng)游戲

在網(wǎng)友測評中，讓Claude 3.5 Sonnet制作游戲不知為何成為了最流行玩法之一。

僅提供一張截圖，在短短25秒內(nèi)，Claude 3.5 Sonnet就編寫了一個功能齊全的Mancala Web應(yīng)用程序。

同時它完成了其他任務(wù)：

對整個游戲進行編碼
預(yù)覽它以便可以測試
提供游戲規(guī)則

當(dāng)遇到代碼錯誤，簡單提示后它幾秒鐘就完成了修復(fù)。

還有網(wǎng)友用它在3分鐘內(nèi)copy出了經(jīng)典游戲《馬里奧》。

令網(wǎng)友驚喜的是：

本來僅要求用幾何形狀制作，但它竟然提供了角色動畫，且形狀看起來非常新穎

除了復(fù)原，編寫原創(chuàng)游戲也不在話下。

翻車總是難免的

雖然Claude 3.5 Sonnet表現(xiàn)強勁，但網(wǎng)友們也淺淺發(fā)現(xiàn)了一些翻車例子。

比如讓它玩“井字棋”，它無法完成這樣看似簡單的任務(wù)。

網(wǎng)友幫助Claude痛定思痛：

我認為擴展現(xiàn)有技術(shù)將使我們實現(xiàn)這一目標(biāo)。
但如果這些模型甚至不能玩井字棋，我們需要將它們擴展多少才能完成更復(fù)雜的任務(wù)？

另外，Claude 3.5 Sonnet在簡單的數(shù)學(xué)應(yīng)用題上也出錯了。

不過有網(wǎng)友拿這道題問了Gemini 1.5 pro，結(jié)果同樣翻車了。

Anthropic，新王制造機？

自Claude背后的公司Anthropic成立的那天起，它就被視為OpenAI在創(chuàng)業(yè)領(lǐng)域最強勁的對手。

最初的起因是其創(chuàng)始團隊是OpenAI的元老級人物，在2021年不滿OpenAI在獲得微軟投資后走向封閉，憤而出走，重新成立了一個“追逐初心”的公司。

這就是Anthropic。

2023年1月，Claude開啟內(nèi)測，第一時間體驗過的網(wǎng)友就表示，比ChatGPT（當(dāng)時最新模型是GPT-3.5）強多了。

不久后，連云計算巨頭亞馬遜都出手重金投資了Anthropic，這次的Claude 3.5除了官方應(yīng)用外，也在第一時間同步更新到Amazon Bedrock平臺。

從此后，Anthropic不斷推出新的強大模型，一路狂追GPT系列，最后達到趕超，開啟了自己的造王之路。

今年3月，Claude 3正式打破OpenAI不可戰(zhàn)勝的神話。

其榜單性能跑分全面超越GPT-4，是首個全面超越GPT-4的產(chǎn)品，一舉坐上了全球最強大模型王座。

當(dāng)時，Anthropic就宣布Claude 3系列模型包括三種大?。?/p>

中杯Haiku，輕量級選擇
大杯Sonnet，平衡性能與速度
超大杯Opus，系列最強音

也是3月，Claude 3超大杯Opus在大模型競技場上Elo分數(shù)來到榜首。

5月，OpenAI發(fā)布GPT-4o，隔天靈魂人物Ilya宣布離職，大模型圈陷入一頓吃瓜狂熱。

Anthropic趁亂出手，迅速招攬了和Ilya一同出走的Jan Leike——他是RLHF發(fā)明者之一，此前在OpenAI和Ilya一同領(lǐng)導(dǎo)超級對齊團隊。

無縫入職新公司的Jan Leike，在Anthropic干的事兒，仍然是負責(zé)超級對齊業(yè)務(wù)，新團隊將致力于可擴展監(jiān)督、從弱到強的泛化和自動對齊研究。

現(xiàn)在，Claude 3.5系列第一款模型沒有預(yù)兆地出場，又大張旗鼓地拿下了全球第一。

有網(wǎng)友滿是星星眼地表達：

Claude 3.5 Sonnet讓“3.5系列”再次偉大！

而且，如果延續(xù)Claude 3系列的慣例，Claude 3.5 Sonnet應(yīng)該只是該系列的大杯而已。

理論上還有個超大杯Opus被Anthropic寶貝著沒放出來呢。

看看它和GPT-5哪個會先閃耀大模型排行榜吧！

在線等，挺急的（嗑瓜子看戲ing）。

責(zé)任編輯：張燕妮來源：量子位

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="wqzns"><p id="wqzns"></p></sub>