Claude 3.7狂飆物理引擎碾壓Grok 3,高考數(shù)學(xué)題被秒成渣!瘋狂融資35億Transformer女神加盟
除了編程界,Claude 3.7 Sonnet的出世,好像并沒有在AI圈掀起巨大的風(fēng)浪。
與DeepSeek R1、o3-mini推理模型不同的是,它是世界首個(gè)混合推理模型,即「原生」推理。
正如Anthropic介紹,「一個(gè)模型,兩種思考方式」。它能夠擴(kuò)展、逐步思考過程,幾乎做到及時(shí)響應(yīng)。
僅從軟件工程基準(zhǔn)SWE-bench Verified來看,Claude 3.7 Sonnet編碼能力直接刷到70.3%,整整拉高了20%。
在Devin編碼基準(zhǔn)測(cè)試中,Claude 3.7同樣拿下了67%高分
上線不過幾小時(shí),Claude 3.7 Sonnet被開發(fā)者們玩瘋了。
僅用5個(gè)提示,直接定制一款A(yù)pple Watch隨心率變化的貪吃蛇游戲。
你越緊張,蛇移動(dòng)得越快;你越冷靜,游戲就越容易
亦或是,讓它生成一個(gè)動(dòng)畫天氣卡片,去創(chuàng)建一個(gè)包含CSS和JavaScript的單個(gè)HTML文件,這效果就得服Claude 3.7。
提示:Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions (e.g., a function or a set of buttons) to demonstrate the animations for each.
不僅如此,Claude 3.7在物理模擬測(cè)試中,擊敗了Grok 3和o1 pro。
網(wǎng)友Deedy給了一段提示詞:你能用p5.js編寫一個(gè)最復(fù)雜精細(xì)的布料模擬嗎?
如下,AI隨即用p5.js渲染了出來,布料運(yùn)動(dòng)的特性被完美地展現(xiàn)了出來。
Prompt:Can you write the most intricate cloth simulation in p5js.
緊接著,Deedy再次對(duì)這個(gè)「精美的布料」做出了升級(jí),使其變得更加像一塊布料了,而且更加精美。
他表示,「這才是真正最棒的靈感編程模型,這東西在高級(jí)圖形學(xué)課程中都很少講授」。
對(duì)于這個(gè)結(jié)果,評(píng)論紛紛表示驚嘆!
一手發(fā)著最新的模型,一手拿到新一輪融資。
WSJ獨(dú)家爆料稱,Anthropic已經(jīng)完成35億美元新一輪融資,估值達(dá)到了615億美元(約合4465億人民幣)。
Transformer唯一女性作者,加入Anthropic
同一天,Transformer八子Niki Parmar也在今天官宣了——去年12月就已加入Anthropic。
值得一提的是,在Transformers論文中,Niki Parmar是唯一的女性作者。
論文地址:https://arxiv.org/abs/1706.03762v7
Niki Parmar先后在谷歌研究院和谷歌大腦工作了近7年的時(shí)間。
她于2021年11月離開谷歌,和另一位作者Ashish Vaswani,一起創(chuàng)立了Adept AI Labs。
短短一年之后,她和Ashish Vaswani同時(shí)離職,并于2023年1月共同創(chuàng)辦了Essential AI。
不到兩年,她再次離開了自己創(chuàng)辦的公司,并于25年1月正式入職Anthropic,擔(dān)任技術(shù)研究員。
此前,她在印度浦那計(jì)算機(jī)技術(shù)學(xué)院獲得了信息技術(shù)工程學(xué)學(xué)士學(xué)位,隨后在南加州大學(xué)以GPA 4.0的優(yōu)異成績(jī)獲得了計(jì)算機(jī)科學(xué)碩士學(xué)位。
網(wǎng)友實(shí)測(cè)
很快,許多網(wǎng)友跟風(fēng)測(cè)試。
物理模擬細(xì)節(jié)驚人
網(wǎng)友Djamel Kramcha表示,他也一次性生成了一塊復(fù)雜的布料。
可以看出,3.7 Sonnet生成的布料不僅拖拽起來十分絲滑,在下面還可以對(duì)它進(jìn)行各種設(shè)置。
網(wǎng)友AK使用Claude 3.7 Sonnet編寫了一個(gè)球在四維超立方體內(nèi)彈跳的腳本 。
效果非常驚艷!
超立方體里的小球不僅很大,而且運(yùn)動(dòng)速度也很快,關(guān)鍵是也沒有超出超立方體的范圍。
對(duì)于這個(gè)效果,有網(wǎng)友評(píng)論說,「我簡(jiǎn)直不敢相信竟然在一個(gè)4D立方體里!出口在哪里?!」
他又使用Claude 3.7 Sonnet寫了一個(gè)25個(gè)粒子在真空容器邊界內(nèi)彈跳的p5.js腳本。效果同樣驚艷。
它使用的提示詞如下:
prompt: Write a p5.js script that simulates 25 particles in a vacuum space of a cylindrical container, bouncing within its boundaries. Use different colors for each ball and ensure they leave a trail showing their movement. Add a slow rotation of the container to give better view of what's going on in the scene. Make sure to create proper collision detection and physic rules to ensure particles remain in the container. Add an external spherical container. Add a slow zoom in and zoom out effect to the whole scene.
還有網(wǎng)友僅用3個(gè)提示,就讓Claude 3.7實(shí)現(xiàn)了流體模擬。
另一個(gè)使用p5js,Claude 3.7創(chuàng)建動(dòng)畫模擬,簡(jiǎn)直太神了。
超級(jí)馬里奧、寶可夢(mèng)游戲完美復(fù)刻
接下來,他還接連做了多個(gè)嘗試。
比如用Claude 3.7 Sonnet做了一個(gè)單次挑戰(zhàn)平臺(tái)跳躍游戲。
提示詞為「使用Phaser.js做一個(gè)橫版卷軸平臺(tái)游戲,游戲玩法僅使用箭頭鍵」。
另外,他還用Claude Sonnet 3.7創(chuàng)建了一個(gè)白色背景的ragdoll模擬。
而下面這個(gè),是Grok 3創(chuàng)建的黑色背景版本。
讓Claude Sonnet 3.7復(fù)刻一個(gè)寶可夢(mèng)游戲也不在話下,一氣呵成。
Claude 3.7 Sonnet還能用Matter.js,在一個(gè)HTML文件中制作多米諾骨牌連鎖游戲。
生成「我的世界」,Claude 3.7也是強(qiáng)的一批。
這位網(wǎng)友用它一鍵就生成了一個(gè)令人驚嘆的3D城市。
畫面中的陰影和白天過渡的效果,簡(jiǎn)直驚人。
生產(chǎn)力大提升,辦公室神器來了
這位開發(fā)者表示,Claude 3.7 Sonnet可以說是全球代碼領(lǐng)域的最佳模型了,仿佛一個(gè)品味非凡的世界級(jí)開發(fā)者一樣。
他讓模型構(gòu)建一個(gè)Next.js SaaS營銷模板,結(jié)果它一次性就給出了26個(gè)漂亮的代碼文件!
感覺非常不可思議。
高考題也不在話下
Claude 3.7 Sonnet的「Extended」模式擅長(zhǎng)數(shù)學(xué)和編碼的挑戰(zhàn),我們找來了一道高考數(shù)學(xué)題測(cè)驗(yàn)一下它。
你還會(huì)能做出來嗎?可以自己先試一下。
Claude 3.7 Sonnet經(jīng)過1分14秒的推理過程,成功解出了答案。
解題過程和結(jié)果都沒啥毛病。
再給它一道理綜題試試。
結(jié)果也是沒有懸念,這道題對(duì)Claude 3.7 Sonnet的「Extended」模式毫無壓力。
經(jīng)過1分38秒的推理后,它給出了正確答案。
「草莓」測(cè)試,過了
更有趣的是,strawberry數(shù)r挑戰(zhàn),Claude 3.7一次拿下。網(wǎng)友讓其創(chuàng)建了一個(gè)React小程序,高亮r。
另一個(gè)網(wǎng)友的復(fù)現(xiàn)過程,同樣數(shù)對(duì)了。
是AGI,沒錯(cuò)了。
模擬注意力機(jī)制,人人一個(gè)「Karpathy」
Claude 3.7推理和編程能力,真不是開玩笑的!
另一位網(wǎng)友,用模型一次性創(chuàng)建了一個(gè)「注意力機(jī)制」工作原理的快速模擬器。
他激動(dòng)地表示,「如果我們每個(gè)人都能獲得一個(gè)Karpathy這樣的個(gè)人導(dǎo)師,來為我們解釋復(fù)雜的概念,那將會(huì)很棒」。
提示:Can you help me explain attention mechanisms in Transformers to college students? Think deeply about clever ways to explain the concepts without focusing too much on maths. Now create a simulator that could students understand it better.