中文比R1絲滑、玩寶可夢還賊溜?全球首個混合推理模型Claude 3.7 Sonnet太驚艷,網(wǎng)友直呼“孤獨求敗”
當(dāng)?shù)貢r間 2 月 25 日,Anthropic 正式發(fā)布了 Claude 3.7 Sonnet,“這是迄今為止我們最智能的模型,也是市場上首個混合推理模型?!盇nthropic 官方表示。
簡單來說,Claude 3.7 Sonnet 既能提供近乎即時的響應(yīng)(標(biāo)準(zhǔn)模式,standard),也可以向用戶直觀展示其長時間的逐步思考過程(擴展思考模式,extended thinking)。API 用戶還可以對模型的思考時長進行細粒度控制。
簡而言之,該模型最大的特點就是用戶能控制模型在做出反應(yīng)前“思考”的時間,這是一項前所未有的技術(shù)創(chuàng)新。
Claude 3.7 Sonnet 現(xiàn)已全面登陸所有 Claude 訂閱服務(wù),包括免費版、專業(yè)版、團隊版和企業(yè)版——以及 Anthropic API、Amazon Bedrock 和谷歌云 Vertex AI 平臺。除免費版 Claude 外,擴展思考模式在所有版本中均可使用。
無論是標(biāo)準(zhǔn)模式還是擴展思考模式,Claude 3.7 Sonnet 都保持了與之前版本相同的定價標(biāo)準(zhǔn):3 美元/每百萬輸入 token,15 美元/每百萬輸出 token——該費用已包含思考 token 的消耗成本。
Anthropic 表示,自己開發(fā) Claude 3.7 Sonnet 的核心理念與市場上其他推理模型截然不同?!罢缛祟愑猛粋€大腦既進行快速反應(yīng)又進行深度思考,我們認為推理能力應(yīng)該是前沿模型的集成能力,而非完全獨立的模型。這種統(tǒng)一方法也為用戶創(chuàng)造了更無縫的體驗?!?/span>
而 Claude 3.7 Sonnet 則通過以下方式體現(xiàn)這一理念:
- 首先,該模型集普通大型語言模型與推理模型于一體。用戶可以選擇何時需要模型即時響應(yīng)、何時需要它經(jīng)過更長時間思考后再作答。在標(biāo)準(zhǔn)模式下,Claude 3.7 Sonnet 代表著 Claude 3.5 Sonnet 的升級版本;而在擴展思考模式下,它會在回答前進行自我反思,從而顯著提升在數(shù)學(xué)、物理、指令遵循、編程等多領(lǐng)域的表現(xiàn)。Anthropic 發(fā)現(xiàn),模型的提示方式在兩種模式下基本通用。
- 其次,通過 API 使用 Claude 3.7 Sonnet 時,用戶可自主控制模型的“思考預(yù)算(budget for thinking)”:用戶可指定 Claude 的思考過程不超過 N 個 token(N 最高可達 128K token 的輸出上限)。這一機制允許用戶在回答質(zhì)量與推理速度(及成本)之間進行靈活權(quán)衡。
- 最后,在開發(fā)推理模型的過程中,Anthropic 戰(zhàn)略性地略微減少了對數(shù)學(xué)/計算機科學(xué)競賽類題目的專項優(yōu)化,轉(zhuǎn)而將研發(fā)重點投向更能體現(xiàn)企業(yè)實際需求的現(xiàn)實任務(wù),這些任務(wù)更能真實地反映大模型在業(yè)務(wù)場景中的應(yīng)用方式。
Claude 3.7 Sonnet 在編碼和前端網(wǎng)頁開發(fā)領(lǐng)域展現(xiàn)出尤為突出的改進。同步推出的還有專為代理式編碼設(shè)計的命令行工具 Claude Code。Claude Code 現(xiàn)以限時研究預(yù)覽版形式開放,使開發(fā)者能夠直接在終端界面上將大量工程任務(wù)委派給 Claude 來完成。
Anthropic 如何進行推理
Anthropic 的擴展思考模式不是通過切換到不同策略模型上實現(xiàn)的,而是讓同一個模型有更多思考時間和計算資源。
Claude 3.7 Sonnet 受益于 Anthropic 稱之為“動作擴展(action scaling)”的增強能力,這種改進使其能夠迭代式調(diào)用函數(shù)、響應(yīng)環(huán)境變化并持續(xù)執(zhí)行直到完成開放式任務(wù)。此類任務(wù)的典型案例是計算機操作:Claude 可發(fā)出虛擬鼠標(biāo)點擊和鍵盤敲擊指令來代替用戶解決問題。相較于前代版本,Claude 3.7 Sonnet 在計算機使用任務(wù)中可分配更多操作輪次(以及更長時間與算力資源),其執(zhí)行結(jié)果通常也會更出色。
圖片
OSWorld 評估(該基準(zhǔn)用于衡量多模態(tài) AI 代理的能力),Claude 3.7 Sonnet 初始表現(xiàn)略有優(yōu)勢,但隨著模型持續(xù)與虛擬計算機的交互,其性能差距會隨時間逐漸擴大
此外,Anthropic 將 Claude 的擴展思考模式與智能體訓(xùn)練協(xié)同作用,意外地在場景應(yīng)用中實現(xiàn)了突破性提升。
以運行 Game Boy 經(jīng)典游戲《Pokémon Red》為例:Anthropic 為 Claude 配置基礎(chǔ)記憶模塊、屏幕像素輸入接口及按鈕操作函數(shù)調(diào)用,使其突破常規(guī)上下文限制,通過數(shù)萬次交互維持游戲進程。
下圖對比顯示,未搭載擴展思考模式的 Claude Sonnet 舊版本(如 Claude 3.0 Sonnet)在游戲初期即陷入停滯,甚至未能走出故事開始所在的 Pallet Town。然而,Claude 3.7 Sonnet 改進后的智能體大大推進了游戲進程,成功挑戰(zhàn)了三位寶可夢道館館主(游戲中的首領(lǐng))并贏得徽章。Claude 3.7 Sonnet 善于通過多策略驗證與預(yù)設(shè)條件動態(tài)修正機制,在游戲進程中持續(xù)優(yōu)化自身行為能力。
圖片
Claude 3.7 Sonnet 啟用推理能力時會采用“串行測試時計算(serial test-time compute)”機制,即在生成最終輸出前,執(zhí)行多個連續(xù)的推理步驟,通過動態(tài)疊加計算資源方式來實現(xiàn)深度思考。這種機制通常以可預(yù)測的方式提升性能:例如數(shù)學(xué)問題的準(zhǔn)確率與允許采樣的“思維令牌(thinking tokens)”數(shù)量呈對數(shù)增長關(guān)系。
Anthropic 研究團隊還在探索通過“并行測試時計算(parallel test-time compute)”來提升模型性能。該方法核心機制為:并行采樣多個獨立思維鏈,在未知正確答案的前提下選取最優(yōu)解。典型實現(xiàn)路徑包括:多數(shù)/共識投票機制:將高頻出現(xiàn)的結(jié)果判定為最優(yōu)解;自檢優(yōu)化機制:調(diào)用輔助語言模型(如第二個 Claude)進行工作校驗,或通過訓(xùn)練評分函數(shù)實現(xiàn)質(zhì)量評估。
圖片
在 GPQA 評估中通過使用并行測試時計算拓展取得了顯著改進
與各大主流模型對比,性能如何?
基準(zhǔn)數(shù)據(jù)支持了 Anthropic 的雄心壯志。在擴展思考模式下,Claude 3.7 Sonnet 在研究生級推理任務(wù)上實現(xiàn)了 78.2% 的準(zhǔn)確率,挑戰(zhàn)了 OpenAI 的最新模型,并超越了 DeepSeek-R1。
圖片
人工智能模型對比顯示,Claude 3.7 Sonnet 在各項任務(wù)中的表現(xiàn)均優(yōu)于其前代產(chǎn)品,其擴展思考能力顯著提升。(來源:Anthropic)
在數(shù)學(xué)解題(MATH 500)方面,Claude 3.7 Sonnet 64K 擴展思考模型表現(xiàn)優(yōu)異,及格率較上代模型有了很大提升,但仍不及 OpenAI o1、OpenAI o3-mini High、DeepSeek R1 32K Extended Thinking。
圖片
值得一提的是,Claude 3.7 Sonnet 在編程領(lǐng)域的表現(xiàn)尤為突出。Claude 3.7 Sonnet 只借助 bash 編輯器工具和 “思維工具” 進行單次嘗試修補,不額外花時間計算時,通過率能達到 62.3%。要是用上內(nèi)部評分和自定義框架這些 “特殊手段”,通過率直接漲到 70.3% 。
OpenAI 的 o1 模型通過率是 48.9%,o3-mini (high) 通過率為 49.3%,但和 Claude 3.7 Sonnet 比還有一些差距。DeepSeek R1 的通過率是 49.2% ,表現(xiàn)同樣不如 Claude 3.7 Sonnet。
這么一對比就能發(fā)現(xiàn),在這次 SWE-bench Verified 編程測試?yán)?,不論是正常測試,還是用了優(yōu)化方法之后,Claude 3.7 Sonnet 的成績都優(yōu)于其他模型。這就說明它在處理軟件工程項目相關(guān)的編程任務(wù)時,能力更強,能滿足更多的編程需求。
網(wǎng)友怎么看?
Claude 3.7 的發(fā)布在 Hacker News 上引發(fā)了熱議。有用戶贊揚 Claude 的簡潔易用,為其工作和學(xué)習(xí)提供了很多幫助。只是服務(wù)的穩(wěn)定性較差,希望可以改進服務(wù)。
“Claude 是我在學(xué)習(xí)大模型課程時的首選工具。雖然聽起來可能有點老套,但它確實極大地擴展了我的學(xué)習(xí)范圍?,F(xiàn)在,我正在嘗試閱讀一些古老的哲學(xué)文本(我沒有任何相關(guān)背景),如果沒有 Claude 的幫助,我早就放棄了。它能夠用簡單的語言解釋那些晦澀難懂的內(nèi)容,和我討論其中的思想,提供歷史背景,解釋作者的寫作意圖,并將這些古老的思想與現(xiàn)代觀點進行對比。
在工作中,我每天都會多次使用 Claude 來輔助開發(fā)。與其他大模型相比,它的簡潔模式讓我感到非常舒適。它幫助我在外部代碼庫中發(fā)現(xiàn)錯誤,向我解釋技術(shù)棧,編寫 Bash 腳本,為我節(jié)省了大量的時間和精力。它讓我能夠完成那些因為時間緊張而無法完成的任務(wù)。
唯一的缺點是它的服務(wù)穩(wěn)定性比其他工具稍差一些,有時我不得不切換到其他服務(wù)。這個問題可能不太好解決,但我還是想問:是否有計劃改進這一點?”
還有用戶稱 Claude 在編程方面優(yōu)勢太明顯了,甚至改變了自己的生活和工作方式。
“在編碼方面,Claude 的一個顯著優(yōu)勢是,當(dāng)你通過網(wǎng)頁界面使用它時,它不依賴于檢索增強生成(RAG)。雖然這會消耗更多的 token,但模型能夠直接看到所有內(nèi)容,從而以更高質(zhì)量的方式回復(fù)。
我想知道,Claude Code 是否也采用了類似的方式,只是改用了文檔級別的 RAG?也就是說,如果一個文檔是相關(guān)的,并且適合上下文窗口,那么整個文檔都會被加載進去。如果是這樣,那就太棒了!這也意味著將大型代碼庫拆分為更小的、可管理的文件會變得越來越有意義。
最后,我想對 Claude Sonnet 表達由衷的感謝。在過去的幾個月里,它徹底改變了我的工作方式,讓我能夠完成更多的事情。非常感謝!”
Claude Code 團隊的 Boris 在 Hacker News 上在線給網(wǎng)友答疑,他表示:“Claude Code 目前不使用 RAG。我們在測試中發(fā)現(xiàn),對于人們使用 Code 進行的事情,Agentic Search 的表現(xiàn)優(yōu)于 RAG?!?/span>
阿里不經(jīng)意間“接招”了?
恰巧,阿里云 Qwen 團隊也在今天推出了全新推理模型系統(tǒng)"深度思考(QwQ)",該系統(tǒng)由處于測試階段的 QwQ-Max-Preview 驅(qū)動。據(jù)介紹,該 AI 架構(gòu)基于 Qwen2.5-Max 模型進行深度優(yōu)化,也在在數(shù)學(xué)解析、代碼生成和智能體開發(fā)等領(lǐng)域展現(xiàn)出顯著提升的認知能力與創(chuàng)新思維。
圖片
該預(yù)覽版本整合了雙重功能模塊:一方面構(gòu)建了深度推理引擎,另一方面接入了實時網(wǎng)絡(luò)信息檢索接口。在交互設(shè)計上,系統(tǒng)采用了類似 Claude Artifacts 的多窗口界面方案,通過獨立內(nèi)容展示區(qū)實現(xiàn)創(chuàng)作過程與主對話流的分離式呈現(xiàn)。
在功能擴展性方面,QwQ 系統(tǒng)實現(xiàn)了模塊化工具調(diào)用機制,現(xiàn)已支持圖像合成、動態(tài)二維碼生成、實時氣象數(shù)據(jù)獲取等多樣化服務(wù),并具備多工具并行調(diào)用能力。開發(fā)團隊透露,正式版 QwQ-Max 將同步推出移動端應(yīng)用程序(涵蓋 Android/iOS 平臺),且計劃依據(jù) Apache 2.0 開源協(xié)議向技術(shù)社區(qū)開放 QwQ-Max 及 Qwen2.5-Max 的模型參數(shù)。
值得關(guān)注的是,該系列還將推出面向邊緣計算場景的輕量化版本,其中 QwQ-32B 模型專為本地化部署設(shè)計,可在終端設(shè)備實現(xiàn)高效運行。
圖片
消息發(fā)布后迅速引起了社區(qū)關(guān)注,網(wǎng)友們紛紛表示期待正式版發(fā)布和開源。Qwen 推理模型發(fā)布時機“撞車”Anthropic,不經(jīng)意間再次上演了一次“隔空對狙”。不過,大家依然期待 OpenAI 和谷歌將如何應(yīng)對當(dāng)前局勢。
參考鏈接:
https://www.anthropic.com/news/claude-3-7-sonnet
https://www.anthropic.com/research/visible-extended-thinking