自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="2dtgn"></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

深夜王炸！剛剛Anthropic發(fā)布全球首個混合推理模型與全新代碼“神器”：雙面王牌組合

作者：AI寒武紀 2025-02-25 10:08:38

人工智能新聞

Anthropic毫不掩飾對Claude 3.7 Sonnet的自信，直接稱其為?“迄今為止最智能的模型”。

剛剛Anthropic公司正式發(fā)布了他們最新的AI王牌組合—— Claude 3.7 Sonnet 和 Claude Code！各種能力超群，只是數學能力還是不及DeepSeek等，感覺Claude所有重點都在代碼能力。

第一時間（熬夜??）給大家劃個重點

Claude 3.7 Sonnet：混合推理架構登場，打造前所未有的智能巔峰！

Anthropic毫不掩飾對Claude 3.7 Sonnet的自信，直接稱其為 “迄今為止最智能的模型”，更重要的是，它還開創(chuàng)性地成為了 “市場上首個混合推理模型”！

與以往模型不同，Claude 3.7 Sonnet 的獨特之處在于其 “混合” 能力：

? 極速響應與深度思考并存： 它既能像獵豹一樣 “即時響應”，滿足對速度有極致要求的場景；又能進行 “擴展的、逐步思考”，處理需要復雜推理的任務。深度思考的過程不再是黑箱操作，而是 “對用戶可見的”！

? 思考時長由你掌控： 對于API開發(fā)者而言，Anthropic 開放了 “思考預算 (budget for thinking)” 的精細控制權。你可以根據任務的復雜程度和對結果質量的要求，設定模型思考的tokens上限 (最高可達 128K tokens 輸出限制)。這意味著開發(fā)者可以根據實際需求，在 速度、成本和答案質量 之間自由調優(yōu)，實現真正的 “按需定制”！?? 這種靈活性是前所未有的，也體現了Anthropic對開發(fā)者需求的深刻理解。

? 標準模式與擴展思考模式： Claude 3.7 Sonnet 在 標準模式 下，是 Claude 3.5 Sonnet 的升級版，性能已經非常出色。而在 擴展思考模式 下，它會進行 “自我反思 (self-reflects)” 后再給出答案，這使得它在 數學、物理、指令跟隨、編碼 等多個領域的性能都得到顯著提升。更棒的是，無論在哪種模式下，prompt的編寫方式都基本一致，降低了用戶的學習成本。

?? 代碼能力史詩級躍升！Claude Code橫空出世，賦能智能體編碼新范式！

如果你是一名開發(fā)者，尤其是專注于 編程和前端Web開發(fā)，那么Claude 3.7 Sonnet 和 Claude Code 的組合絕對會不失所望！ Anthropic 明確指出，新模型在 “編碼和前端Web開發(fā)” 領域取得了 “特別強勁的改進”。

更重要的是“Claude Code” —— 一個跨時代的 “智能體編碼命令行工具”！這不僅是 Claude 系列的首款代碼工具，更預示著AI輔助編程進入了一個全新的階段。目前 Claude Code 以 “限量研究預覽版” 的形式推出。

Claude Code 的強大之處在于，它將 AI 的代碼智能直接融入開發(fā)者的工作流中，讓你能夠在熟悉的 終端環(huán)境 下，“直接委托實質性的工程任務給 Claude”。想象一下，你只需在命令行輸入指令，就能讓 AI 智能體完成代碼搜索、文件編輯、測試編寫和運行、代碼提交和推送等一系列復雜的編程任務。

Claude Code 的核心能力包括：

? 代碼檢索與閱讀： 快速搜索和理解代碼庫，不再需要在海量代碼中手動翻找。
? 文件編輯： 智能修改代碼文件，無論是簡單的bug修復還是復雜的重構，都能輕松應對。
? 測試編寫與運行： 自動生成和執(zhí)行測試用例，確保代碼質量，提升軟件可靠性。
? 代碼提交與推送 (GitHub 集成)： 無縫集成 GitHub，方便代碼的版本控制和協作。
? 命令行工具集成： 靈活使用各種命令行工具，擴展功能，滿足更復雜的需求。
Anthropic 強調，Claude Code 在 測試驅動開發(fā)、復雜問題調試和大規(guī)模重構 等場景中尤其得心應手。在早期測試中，Claude Code 能夠在 “單次操作中完成通常需要 45 分鐘以上的手動工作”，顯著縮短開發(fā)時間和成本。

Claude Code 目前處于研究預覽的 beta 階段：

https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview

權威評測數據震撼發(fā)布：實力碾壓，問鼎多項榜單！

性能是檢驗 AI 模型實力的硬指標。Anthropic 在公告中展示了 Claude 3.7 Sonnet 在多個權威基準測試上的卓越表現，用數據說話，實力盡顯：

?SWE-bench Verified (軟件工程基準測試): Claude 3.7 Sonnet 以 70.3% (使用定制 scaffold) 和 62.3% (標準 scaffold) 的驚人成績，再次成為該榜單的王者，遠超 OpenAI 的 GPT-4 和 DeepSeek R1 等強勁對手。 SWE-bench Verified 專注于評估 AI 模型解決真實世界軟件問題的能力，Claude 3.7 Sonnet 的優(yōu)異表現充分證明了其在實際編碼場景中的強大實力。值得注意的是，70.3% 的高分使用了 “定制 scaffold”，并在問題子集上進行了內部評分，而 62.3% 的分數則使用了 bash/editor 工具和一個 “思考工具”，在 500 個問題上進行了單次嘗試，沒有額外的測試時計算。

TAU-bench (智能體工具使用基準測試): Claude 3.7 Sonnet 在 TAU-bench 的 零售 (retail) 和 航空 (airline) 兩個場景中，分別取得了 81.2% 和 58.4% 的領先成績。 TAU-bench 考察的是 AI 智能體在復雜的真實世界任務中，與用戶和各種工具進行有效交互的能力。Claude 3.7 Sonnet 在此項測試中再次拔得頭籌，印證了其作為智能體工具的卓越性能。為了獲得這些分數，Anthropic 使用了 prompt addendum 指導 Claude 更好地利用 “planning” tool，鼓勵模型寫下思考過程。

通用benchmark測試

總而言之，Claude 3.7 Sonnet 在 指令跟隨、通用推理、多模態(tài)能力和智能體編碼 等多個關鍵領域都展現出了卓越的性能，在 數學和科學 方面，擴展思考模式帶來了顯著的提升但是沒有超越deepseek等模型。在 Anthropic 內部的 Pokémon gameplay tests (寶可夢游戲測試) 中，Claude 3.7 Sonnet 也超越了以往的所有模型。

寫在最后：

按照Anthropic的說法：Claude 3.7 Sonnet 和 Claude Code 的發(fā)布，是在 “構建真正增強人類能力的 AI 系統(tǒng)” 道路上邁出的重要一步。 Anthropic 堅信，憑借其強大的 “深度推理、自主工作和有效協作” 能力，AI 將把我們帶向一個更加美好的未來，在那里，AI 將 “豐富和擴展人類所能成就的一切”。

Anthropic 也在公告中展望了 Claude 的發(fā)展藍圖，描繪了 Claude 從 “助手 (assists)” 到 “合作者 (collaborates)” 再到 “先鋒 (pioneers)” 的進化路徑，預示著 AI 在未來將扮演越來越重要的角色，最終將能夠 “找到突破性的解決方案，解決需要團隊數年才能完成的挑戰(zhàn)性問題”。

責任編輯：張燕妮來源： AI寒武紀

AI 模型開發(fā)

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sup id="k1fek"><rt id="k1fek"></rt></sup>