自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

中文比R1絲滑、玩寶可夢還賊溜？全球首個混合推理模型Claude 3.7 Sonnet太驚艷，網(wǎng)友直呼“孤獨求敗”

作者：架構(gòu)師秋天 2025-02-26 10:10:12

Claude 3.7 Sonnet 既能提供近乎即時的響應(yīng)（標(biāo)準(zhǔn)模式，standard），也可以向用戶直觀展示其長時間的逐步思考過程（擴展思考模式，extended thinking）。API 用戶還可以對模型的思考時長進行細粒度控制。

當(dāng)?shù)貢r間 2 月 25 日，Anthropic 正式發(fā)布了 Claude 3.7 Sonnet，“這是迄今為止我們最智能的模型，也是市場上首個混合推理模型?！盇nthropic 官方表示。

簡單來說，Claude 3.7 Sonnet 既能提供近乎即時的響應(yīng)（標(biāo)準(zhǔn)模式，standard），也可以向用戶直觀展示其長時間的逐步思考過程（擴展思考模式，extended thinking）。API 用戶還可以對模型的思考時長進行細粒度控制。

簡而言之，該模型最大的特點就是用戶能控制模型在做出反應(yīng)前“思考”的時間，這是一項前所未有的技術(shù)創(chuàng)新。

Claude 3.7 Sonnet 現(xiàn)已全面登陸所有 Claude 訂閱服務(wù)，包括免費版、專業(yè)版、團隊版和企業(yè)版——以及 Anthropic API、Amazon Bedrock 和谷歌云 Vertex AI 平臺。除免費版 Claude 外，擴展思考模式在所有版本中均可使用。

無論是標(biāo)準(zhǔn)模式還是擴展思考模式，Claude 3.7 Sonnet 都保持了與之前版本相同的定價標(biāo)準(zhǔn)：3 美元/每百萬輸入 token，15 美元/每百萬輸出 token——該費用已包含思考 token 的消耗成本。

Anthropic 表示，自己開發(fā) Claude 3.7 Sonnet 的核心理念與市場上其他推理模型截然不同?！罢缛祟愑猛粋€大腦既進行快速反應(yīng)又進行深度思考，我們認為推理能力應(yīng)該是前沿模型的集成能力，而非完全獨立的模型。這種統(tǒng)一方法也為用戶創(chuàng)造了更無縫的體驗?！?/span>

而 Claude 3.7 Sonnet 則通過以下方式體現(xiàn)這一理念：

首先，該模型集普通大型語言模型與推理模型于一體。用戶可以選擇何時需要模型即時響應(yīng)、何時需要它經(jīng)過更長時間思考后再作答。在標(biāo)準(zhǔn)模式下，Claude 3.7 Sonnet 代表著 Claude 3.5 Sonnet 的升級版本；而在擴展思考模式下，它會在回答前進行自我反思，從而顯著提升在數(shù)學(xué)、物理、指令遵循、編程等多領(lǐng)域的表現(xiàn)。Anthropic 發(fā)現(xiàn)，模型的提示方式在兩種模式下基本通用。
其次，通過 API 使用 Claude 3.7 Sonnet 時，用戶可自主控制模型的“思考預(yù)算（budget for thinking）”：用戶可指定 Claude 的思考過程不超過 N 個 token（N 最高可達 128K token 的輸出上限）。這一機制允許用戶在回答質(zhì)量與推理速度（及成本）之間進行靈活權(quán)衡。
最后，在開發(fā)推理模型的過程中，Anthropic 戰(zhàn)略性地略微減少了對數(shù)學(xué)/計算機科學(xué)競賽類題目的專項優(yōu)化，轉(zhuǎn)而將研發(fā)重點投向更能體現(xiàn)企業(yè)實際需求的現(xiàn)實任務(wù)，這些任務(wù)更能真實地反映大模型在業(yè)務(wù)場景中的應(yīng)用方式。

Claude 3.7 Sonnet 在編碼和前端網(wǎng)頁開發(fā)領(lǐng)域展現(xiàn)出尤為突出的改進。同步推出的還有專為代理式編碼設(shè)計的命令行工具 Claude Code。Claude Code 現(xiàn)以限時研究預(yù)覽版形式開放，使開發(fā)者能夠直接在終端界面上將大量工程任務(wù)委派給 Claude 來完成。

Anthropic 如何進行推理

Anthropic 的擴展思考模式不是通過切換到不同策略模型上實現(xiàn)的，而是讓同一個模型有更多思考時間和計算資源。

Claude 3.7 Sonnet 受益于 Anthropic 稱之為“動作擴展（action scaling）”的增強能力，這種改進使其能夠迭代式調(diào)用函數(shù)、響應(yīng)環(huán)境變化并持續(xù)執(zhí)行直到完成開放式任務(wù)。此類任務(wù)的典型案例是計算機操作：Claude 可發(fā)出虛擬鼠標(biāo)點擊和鍵盤敲擊指令來代替用戶解決問題。相較于前代版本，Claude 3.7 Sonnet 在計算機使用任務(wù)中可分配更多操作輪次（以及更長時間與算力資源），其執(zhí)行結(jié)果通常也會更出色。

圖片

OSWorld 評估（該基準(zhǔn)用于衡量多模態(tài) AI 代理的能力），Claude 3.7 Sonnet 初始表現(xiàn)略有優(yōu)勢，但隨著模型持續(xù)與虛擬計算機的交互，其性能差距會隨時間逐漸擴大

此外，Anthropic 將 Claude 的擴展思考模式與智能體訓(xùn)練協(xié)同作用，意外地在場景應(yīng)用中實現(xiàn)了突破性提升。

以運行 Game Boy 經(jīng)典游戲《Pokémon Red》為例：Anthropic 為 Claude 配置基礎(chǔ)記憶模塊、屏幕像素輸入接口及按鈕操作函數(shù)調(diào)用，使其突破常規(guī)上下文限制，通過數(shù)萬次交互維持游戲進程。

下圖對比顯示，未搭載擴展思考模式的 Claude Sonnet 舊版本（如 Claude 3.0 Sonnet）在游戲初期即陷入停滯，甚至未能走出故事開始所在的 Pallet Town。然而，Claude 3.7 Sonnet 改進后的智能體大大推進了游戲進程，成功挑戰(zhàn)了三位寶可夢道館館主（游戲中的首領(lǐng)）并贏得徽章。Claude 3.7 Sonnet 善于通過多策略驗證與預(yù)設(shè)條件動態(tài)修正機制，在游戲進程中持續(xù)優(yōu)化自身行為能力。

圖片

Claude 3.7 Sonnet 啟用推理能力時會采用“串行測試時計算（serial test-time compute）”機制，即在生成最終輸出前，執(zhí)行多個連續(xù)的推理步驟，通過動態(tài)疊加計算資源方式來實現(xiàn)深度思考。這種機制通常以可預(yù)測的方式提升性能：例如數(shù)學(xué)問題的準(zhǔn)確率與允許采樣的“思維令牌（thinking tokens）”數(shù)量呈對數(shù)增長關(guān)系。

Anthropic 研究團隊還在探索通過“并行測試時計算（parallel test-time compute）”來提升模型性能。該方法核心機制為：并行采樣多個獨立思維鏈，在未知正確答案的前提下選取最優(yōu)解。典型實現(xiàn)路徑包括：多數(shù)/共識投票機制：將高頻出現(xiàn)的結(jié)果判定為最優(yōu)解；自檢優(yōu)化機制：調(diào)用輔助語言模型（如第二個 Claude）進行工作校驗，或通過訓(xùn)練評分函數(shù)實現(xiàn)質(zhì)量評估。

圖片

在 GPQA 評估中通過使用并行測試時計算拓展取得了顯著改進

與各大主流模型對比，性能如何？

基準(zhǔn)數(shù)據(jù)支持了 Anthropic 的雄心壯志。在擴展思考模式下，Claude 3.7 Sonnet 在研究生級推理任務(wù)上實現(xiàn)了 78.2% 的準(zhǔn)確率，挑戰(zhàn)了 OpenAI 的最新模型，并超越了 DeepSeek-R1。

圖片

人工智能模型對比顯示，Claude 3.7 Sonnet 在各項任務(wù)中的表現(xiàn)均優(yōu)于其前代產(chǎn)品，其擴展思考能力顯著提升。（來源：Anthropic）

在數(shù)學(xué)解題（MATH 500）方面，Claude 3.7 Sonnet 64K 擴展思考模型表現(xiàn)優(yōu)異，及格率較上代模型有了很大提升，但仍不及 OpenAI o1、OpenAI o3-mini High、DeepSeek R1 32K Extended Thinking。

圖片

值得一提的是，Claude 3.7 Sonnet 在編程領(lǐng)域的表現(xiàn)尤為突出。Claude 3.7 Sonnet 只借助 bash 編輯器工具和 “思維工具” 進行單次嘗試修補，不額外花時間計算時，通過率能達到 62.3%。要是用上內(nèi)部評分和自定義框架這些 “特殊手段”，通過率直接漲到 70.3% 。

OpenAI 的 o1 模型通過率是 48.9%，o3-mini (high) 通過率為 49.3%，但和 Claude 3.7 Sonnet 比還有一些差距。DeepSeek R1 的通過率是 49.2% ，表現(xiàn)同樣不如 Claude 3.7 Sonnet。

這么一對比就能發(fā)現(xiàn)，在這次 SWE-bench Verified 編程測試?yán)?，不論是正常測試，還是用了優(yōu)化方法之后，Claude 3.7 Sonnet 的成績都優(yōu)于其他模型。這就說明它在處理軟件工程項目相關(guān)的編程任務(wù)時，能力更強，能滿足更多的編程需求。

網(wǎng)友怎么看？

Claude 3.7 的發(fā)布在 Hacker News 上引發(fā)了熱議。有用戶贊揚 Claude 的簡潔易用，為其工作和學(xué)習(xí)提供了很多幫助。只是服務(wù)的穩(wěn)定性較差，希望可以改進服務(wù)。

“Claude 是我在學(xué)習(xí)大模型課程時的首選工具。雖然聽起來可能有點老套，但它確實極大地擴展了我的學(xué)習(xí)范圍?，F(xiàn)在，我正在嘗試閱讀一些古老的哲學(xué)文本（我沒有任何相關(guān)背景），如果沒有 Claude 的幫助，我早就放棄了。它能夠用簡單的語言解釋那些晦澀難懂的內(nèi)容，和我討論其中的思想，提供歷史背景，解釋作者的寫作意圖，并將這些古老的思想與現(xiàn)代觀點進行對比。
在工作中，我每天都會多次使用 Claude 來輔助開發(fā)。與其他大模型相比，它的簡潔模式讓我感到非常舒適。它幫助我在外部代碼庫中發(fā)現(xiàn)錯誤，向我解釋技術(shù)棧，編寫 Bash 腳本，為我節(jié)省了大量的時間和精力。它讓我能夠完成那些因為時間緊張而無法完成的任務(wù)。
唯一的缺點是它的服務(wù)穩(wěn)定性比其他工具稍差一些，有時我不得不切換到其他服務(wù)。這個問題可能不太好解決，但我還是想問：是否有計劃改進這一點？”

還有用戶稱 Claude 在編程方面優(yōu)勢太明顯了，甚至改變了自己的生活和工作方式。

“在編碼方面，Claude 的一個顯著優(yōu)勢是，當(dāng)你通過網(wǎng)頁界面使用它時，它不依賴于檢索增強生成（RAG）。雖然這會消耗更多的 token，但模型能夠直接看到所有內(nèi)容，從而以更高質(zhì)量的方式回復(fù)。
我想知道，Claude Code 是否也采用了類似的方式，只是改用了文檔級別的 RAG？也就是說，如果一個文檔是相關(guān)的，并且適合上下文窗口，那么整個文檔都會被加載進去。如果是這樣，那就太棒了！這也意味著將大型代碼庫拆分為更小的、可管理的文件會變得越來越有意義。
最后，我想對 Claude Sonnet 表達由衷的感謝。在過去的幾個月里，它徹底改變了我的工作方式，讓我能夠完成更多的事情。非常感謝！”

Claude Code 團隊的 Boris 在 Hacker News 上在線給網(wǎng)友答疑，他表示：“Claude Code 目前不使用 RAG。我們在測試中發(fā)現(xiàn)，對于人們使用 Code 進行的事情，Agentic Search 的表現(xiàn)優(yōu)于 RAG?！?/span>

阿里不經(jīng)意間“接招”了？

恰巧，阿里云 Qwen 團隊也在今天推出了全新推理模型系統(tǒng)"深度思考（QwQ）"，該系統(tǒng)由處于測試階段的 QwQ-Max-Preview 驅(qū)動。據(jù)介紹，該 AI 架構(gòu)基于 Qwen2.5-Max 模型進行深度優(yōu)化，也在在數(shù)學(xué)解析、代碼生成和智能體開發(fā)等領(lǐng)域展現(xiàn)出顯著提升的認知能力與創(chuàng)新思維。

圖片

該預(yù)覽版本整合了雙重功能模塊：一方面構(gòu)建了深度推理引擎，另一方面接入了實時網(wǎng)絡(luò)信息檢索接口。在交互設(shè)計上，系統(tǒng)采用了類似 Claude Artifacts 的多窗口界面方案，通過獨立內(nèi)容展示區(qū)實現(xiàn)創(chuàng)作過程與主對話流的分離式呈現(xiàn)。

在功能擴展性方面，QwQ 系統(tǒng)實現(xiàn)了模塊化工具調(diào)用機制，現(xiàn)已支持圖像合成、動態(tài)二維碼生成、實時氣象數(shù)據(jù)獲取等多樣化服務(wù)，并具備多工具并行調(diào)用能力。開發(fā)團隊透露，正式版 QwQ-Max 將同步推出移動端應(yīng)用程序（涵蓋 Android/iOS 平臺），且計劃依據(jù) Apache 2.0 開源協(xié)議向技術(shù)社區(qū)開放 QwQ-Max 及 Qwen2.5-Max 的模型參數(shù)。

值得關(guān)注的是，該系列還將推出面向邊緣計算場景的輕量化版本，其中 QwQ-32B 模型專為本地化部署設(shè)計，可在終端設(shè)備實現(xiàn)高效運行。

圖片

消息發(fā)布后迅速引起了社區(qū)關(guān)注，網(wǎng)友們紛紛表示期待正式版發(fā)布和開源。Qwen 推理模型發(fā)布時機“撞車”Anthropic，不經(jīng)意間再次上演了一次“隔空對狙”。不過，大家依然期待 OpenAI 和谷歌將如何應(yīng)對當(dāng)前局勢。

參考鏈接：

https://www.anthropic.com/news/claude-3-7-sonnet

https://www.anthropic.com/research/visible-extended-thinking

https://qwenlm.github.io/blog/qwq-max-preview/

責(zé)任編輯：武曉燕來源：架構(gòu)師秋天

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營