沸騰了!新的推理模型編碼能力爆表!是的,那個(gè)王,他又回來(lái)了! 精華
圣誕節(jié)在二月,Claude扔了個(gè)王炸!
看來(lái)爆料者的信息還挺準(zhǔn)的:
明天:Claude 4沒(méi)等到,Claude 3.7 要來(lái)了?
不是嘛,哈哈哈。
Anthropic 官方有個(gè)毛病,他們通常不會(huì)做任何的預(yù)發(fā)布,大半夜他給你扔出來(lái)了個(gè)王炸:
這次的新模型叫:Claude 3.7 Sonnet,它帶來(lái)了一種新的思維方式。它不再把快速回答和深度思考割裂開(kāi)來(lái),而是像人類(lèi)大腦一樣,在同一個(gè)模型中實(shí)現(xiàn)兩種能力。
Claude 3.7 Sonnet既能快速回答問(wèn)題,也能在需要時(shí)進(jìn)行深度思考,給用戶帶來(lái)更流暢的體驗(yàn)。
這種統(tǒng)一的設(shè)計(jì)讓用戶在使用時(shí)感受到更自然的互動(dòng),兩種模式下的提示詞方式基本相同,仿佛在與一個(gè)真正的助手對(duì)話。
你可以選擇標(biāo)準(zhǔn)模式,快速得到答案;也可以切換到擴(kuò)展思考模式,讓Claude在回答前自我反思,這樣在數(shù)學(xué)、物理、編碼等任務(wù)上表現(xiàn)會(huì)更好。在擴(kuò)展思考模式下,Claude會(huì)花更多時(shí)間分析問(wèn)題,從而提供更準(zhǔn)確和深入的回答,特別是在復(fù)雜的學(xué)科領(lǐng)域。
如果你通過(guò)API使用Claude,還可以控制思考的預(yù)算,決定Claude可以思考多少個(gè)token,最高128K。這意味著你可以根據(jù)任務(wù)重要性,精確設(shè)定模型思考的深度。在速度、成本和答案質(zhì)量之間找到最佳平衡點(diǎn)。與其他模型不同,Claude更注重實(shí)際商業(yè)應(yīng)用,而非競(jìng)賽題目。
Claude編程能力直接起飛!
看看這張圖,Claude 3.7 Sonnet在編程測(cè)試中拿到了70.3%的高分,把其他大模型全部甩在身后。
OpenAI的o1、o3-mini和DeepSeek R1都擠在49%左右打轉(zhuǎn),Claude直接領(lǐng)先20個(gè)百分點(diǎn)。
Sonnet 3.7顯然將重點(diǎn)放在編碼能力上,其他領(lǐng)域似乎并不是他們的主要關(guān)注點(diǎn)(你可以看到 Grok3 在MMMLU、AIME2024上是超過(guò)他的)。
雖然在其他知識(shí)測(cè)試上Claude只是小幅提升,但編程能力這一下子就上了一個(gè)臺(tái)階。
這表明,Anthropic希望將Sonnet定位為一款強(qiáng)大的編碼AI。
Anthropic這是明擺著要把Claude打造成編程專(zhuān)家啊。畢竟它本來(lái)就已經(jīng)很擅長(zhǎng)寫(xiě)代碼了,現(xiàn)在更是實(shí)力大增。
它絕對(duì)適合程序員。它將有助于創(chuàng)建應(yīng)用程序和游戲。
使用 API,128K最大輸出(VIBE 編碼萬(wàn)歲)
這次的更新特別加強(qiáng)了編碼和前端開(kāi)發(fā)的能力。
Claude 3.7 Sonnet現(xiàn)在在所有計(jì)劃中都可以使用,包括免費(fèi)版、專(zhuān)業(yè)版、團(tuán)隊(duì)版和企業(yè)版。
也能在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上使用。不過(guò)免費(fèi)用戶不提供擴(kuò)展思維模式。
定價(jià)方面,與前代模型相同:每百萬(wàn)輸入token 3美元,每百萬(wàn)輸出token 15美元(包括思考token)。
所以,還有個(gè)3.5超大大大杯呢?
此外,我們很早知道Claude 能夠處理復(fù)雜的代碼庫(kù)和高級(jí)工具使用。許多開(kāi)發(fā)者發(fā)現(xiàn),Claude在規(guī)劃代碼變更和處理全棧更新時(shí),表現(xiàn)得比其他模型更為出色,極大地提高了工作效率。
在實(shí)際測(cè)試中,它的編程能力全面領(lǐng)先:Cursor發(fā)現(xiàn)它處理復(fù)雜代碼庫(kù)的能力顯著提升;Cognition認(rèn)為它在規(guī)劃代碼變更和全棧更新方面遠(yuǎn)超其他模型;Vercel強(qiáng)調(diào)了它在復(fù)雜工作流程中的精確性;Replit成功用它構(gòu)建了其他模型無(wú)法完成的復(fù)雜應(yīng)用;Canva則證實(shí)它能生成具有設(shè)計(jì)品味的生產(chǎn)級(jí)代碼。
所以?,F(xiàn)在Sonnet 3.7 這個(gè)代碼提升。。。刷卡吧 ~
網(wǎng)友:“ 感謝@cursor_ai提供所有訓(xùn)練數(shù)據(jù)... ”
這一點(diǎn)確實(shí)需要關(guān)注,當(dāng)一個(gè)LLM被作為主流模型用在最真實(shí)開(kāi)發(fā)場(chǎng)景中時(shí),這種珍貴數(shù)據(jù)帶來(lái)的能力提升可想而知。。。
就在Sonnet 3.7 凌晨2:30發(fā)布之后,有網(wǎng)友馬上催Cursor官方:該上號(hào)了!
而僅僅過(guò)了4分鐘。
凌晨 2:34 我就看到我的Cursor它更新了,集成了Sonnet 3.7。。。
并且官方更新了推文:
他們肯定是串通好的。。。
官方建議啟用代理模式使用Sonnet 3.7。
我還看到了Cursor UI大更新,比較清爽簡(jiǎn)潔了。
是覆蓋各個(gè)小操作細(xì)節(jié)的清爽簡(jiǎn)潔。
上次還在夸Trae的界面,這次Cursor似乎也往這個(gè)方向優(yōu)化了。
還有現(xiàn)在跨聊天對(duì)話,你不需要通過(guò)復(fù)制上一個(gè)聊天窗口的內(nèi)容作為上下文加入新窗口。
他現(xiàn)在有一個(gè)功能是總結(jié)整個(gè)聊天的摘要然后直接繼承到新開(kāi)的聊天窗口中,所以這又是一個(gè)痛點(diǎn)被解決。
。
還有網(wǎng)友建議Cursor 后續(xù)把 Sonnet 3.7 思維動(dòng)態(tài)選擇加上,畢竟現(xiàn)在只更新了模型。
好了,繼續(xù)看基準(zhǔn)測(cè)試。
TAU-bench零售場(chǎng)景達(dá)81.2%,航空?qǐng)鼍斑_(dá)58.4%,全面領(lǐng)先其他模型。
TAU-bench 是一個(gè)框架,用于測(cè)試 AI 代理在復(fù)雜的現(xiàn)實(shí)任務(wù)中與用戶和工具交互。
Claude 3.7 Sonnet幾乎是全能選手,它在指令理解、推理能力、多模態(tài)處理和代碼編寫(xiě)上都表現(xiàn)出色。開(kāi)啟擴(kuò)展思考模式后,在數(shù)學(xué)和科學(xué)問(wèn)題上更是突飛猛進(jìn)。
Claude也玩起了寶可夢(mèng),還玩得挺溜!
有意思的是,它不僅在傳統(tǒng)測(cè)試中表現(xiàn)優(yōu)秀,連玩寶可夢(mèng)游戲都比之前的所有模型強(qiáng):
看看這張圖,太有意思了。Anthropic讓Claude玩起了經(jīng)典的Game Boy游戲《寶可夢(mèng)紅版》,還把不同版本的Claude放在一起比賽。
最老的Claude 3.0連主角家門(mén)都出不去,卡在游戲最開(kāi)始的小鎮(zhèn)上。Claude 3.5稍微好點(diǎn),能到達(dá)森林和第一個(gè)城市。
但Claude 3.7 Sonnet簡(jiǎn)直是開(kāi)掛,它不僅能探索多個(gè)城市,還打敗了三個(gè)道館館主,拿到了三個(gè)徽章。
秘訣在哪?研究人員給了Claude基本的記憶能力、屏幕像素輸入和按鍵功能,讓它能持續(xù)游戲數(shù)萬(wàn)次交互。Claude 3.7會(huì)嘗試不同策略,質(zhì)疑自己之前的假設(shè),隨著游戲進(jìn)行不斷提升自己的能力。
這不僅是個(gè)有趣的測(cè)試,也展示了Claude在復(fù)雜任務(wù)中的學(xué)習(xí)和適應(yīng)能力。
長(zhǎng)時(shí)間保持專(zhuān)注,完成沒(méi)有明確終點(diǎn)的任務(wù)。
這種能力放到實(shí)際工作中有多強(qiáng)?開(kāi)發(fā)者可以用它來(lái)打造各種高級(jí)AI助手,處理那些需要持續(xù)思考和靈活應(yīng)對(duì)的復(fù)雜任務(wù)。
游戲只是測(cè)試場(chǎng),真正的價(jià)值在于現(xiàn)實(shí)世界的應(yīng)用。
看看網(wǎng)友們的評(píng)價(jià):
關(guān)于為什么會(huì)有寶可夢(mèng)這個(gè)基準(zhǔn)測(cè)試,官方說(shuō)的很清楚,想要詳細(xì)了解的看這里:
https://www.anthropic.com/research/visible-extended-thinking
網(wǎng)上已經(jīng)有了關(guān)于Sonnet 3.7的實(shí)際測(cè)試?yán)樱?/p>
你在開(kāi)玩笑吧,哥們? 之 測(cè)試非標(biāo)準(zhǔn)草莓單詞計(jì)數(shù):
網(wǎng)友辣評(píng):
這可真是真正的硬編碼種子選手啊。。。
還有解決復(fù)雜的3d布料模擬:
三維可視化微分音樂(lè):
最好看的網(wǎng)站登陸頁(yè):
Sparks of AGI paper:
UI很好看的心率綁定Snake 游戲:
C語(yǔ)言流體模擬器
同時(shí),Anthropic還發(fā)布了智能編碼工具:Claude Code。專(zhuān)為開(kāi)發(fā)者設(shè)計(jì)。
自2024年6月以來(lái),Sonnet已成為全球開(kāi)發(fā)者的首選模型。Claude Code是首個(gè)主動(dòng)協(xié)作的編碼工具,能夠搜索和閱讀代碼、編輯文件、編寫(xiě)和運(yùn)行測(cè)試、提交代碼到GitHub,并使用命令行工具。
你可以直接在終端里把工程任務(wù)交給Claude,省時(shí)省力。(你應(yīng)該知道Aider)
在實(shí)際應(yīng)用中,Claude Code在測(cè)試驅(qū)動(dòng)開(kāi)發(fā)、調(diào)試復(fù)雜問(wèn)題和大規(guī)模重構(gòu)中表現(xiàn)出色,完成任務(wù)的時(shí)間從45分鐘縮短到一次性完成。
未來(lái),Anthropic 將持續(xù)改進(jìn)Claude Code,增強(qiáng)工具調(diào)用的可靠性,支持長(zhǎng)時(shí)間運(yùn)行的命令,改進(jìn)應(yīng)用內(nèi)渲染,并擴(kuò)展Claude對(duì)自身能力的理解。
限量預(yù)覽:https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview
And 。。。
我們這三天的時(shí)間線,可能是這樣的。
以及Grok。。。
關(guān)于Claude3.7 這個(gè)命名。。。claude-3-7-sonnet-20250219。
One More Thing
根據(jù)圖表,Claude的發(fā)展路線圖顯示到2024年,它將幫助個(gè)人更好地完成當(dāng)前工作,提升每個(gè)人的能力。
到2025年,Claude將開(kāi)始與專(zhuān)家進(jìn)行深入合作,獨(dú)立完成大量工作,擴(kuò)展個(gè)人和團(tuán)隊(duì)的能力。
而到了2027年,Claude將能夠找到突破性解決方案,解決那些需要團(tuán)隊(duì)多年才能完成的復(fù)雜問(wèn)題。
這意味著我們可能在接下來(lái)的幾年里,見(jiàn)證一個(gè)“幾乎”快速起飛的階段,朝著超人工智能(ASI)邁進(jìn)。
這樣的進(jìn)展確實(shí)令人興奮,未來(lái)的可能性似乎越來(lái)越近了!
大家如此深?lèi)?ài)的一個(gè)模型,可能叫Claude吧。
參考鏈接:[1] https://x.com/AnthropicAI/status/1894092430560965029
本文轉(zhuǎn)載自??AI進(jìn)修生??,作者: Aitrainee ????
