全球首個混合推理模型:Claude 3.7 Sonnet來襲,真實編碼力壓一切對手
就在昨晚,Anthropic 要發(fā)新模型的消息開始在 AI 社區(qū)廣泛發(fā)酵,不過并不是期待中的 Claude 4.0,而是 3.7 Sonnet 版本。
圖源:https://x.com/btibor91/status/1893970824484581825
今天凌晨,Anthropic 的新旗艦?zāi)P腿缂s而至,正式發(fā)布了其迄今為止最智能的模型以及市面上首款混合推理模型 —— Claude 3.7 Sonnet。
Claude 3.7 Sonnet 可以產(chǎn)生近乎即時的響應(yīng)或者向用戶展示擴展的、逐步的思考。按照 Anthropic 的說法,「一個模型,兩種思考方式」(One model, two ways to think.),即標(biāo)準和擴展思考模式。另外 API 用戶還可以對模型的思考時間進行細粒度控制。
在發(fā)布 Claude 3.7 Sonnet 之外,Anthropic 還推出了用于智能編碼的命令行工具 Claude Code。它目前作為有限的研究預(yù)覽版本使用,使開發(fā)人員能夠直接從他們的終端將大量工程任務(wù)委托給 Claude。
在編碼方面,Anthropic 還改進了 Claude.ai 上的編碼體驗,其 GitHub 集成現(xiàn)已在所有 Claude 計劃中提供,使開發(fā)人員能夠?qū)⑺麄兊拇a存儲庫直接連接到 Claude。通過更深入地了解個人、工作和開源項目,Claude 將成為用戶在 GitHub 項目中修復(fù)錯誤、開發(fā)功能和構(gòu)建文檔的更強大合作伙伴。
因此,得益于編碼和前端 web 開發(fā)方面的功能與改進,Claude 3.7 Sonnet 成為 Anthropic 迄今為止最好的編碼模型。
目前,新模型 Claude 3.7 Sonnet 可以通過所有 Claude 計劃(包括 Free、Pro、Team 和 Enterprise)以及 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 使用。除了免費用戶之外,所有其他用戶均可體驗擴展思考模式。
在標(biāo)準和擴展思考模式下,Claude 3.7 Sonnet 的價格與其前代(Claude 3.5 Sonnet)相同,每百萬輸入 token 3 美元,每百萬輸出 token 15 美元(包括思考 token)。
正如一位網(wǎng)友所評價的那樣,「Anthropic 的每次發(fā)布都能讓人微笑并感到興奮!」
最強 Claude 3.7 Sonnet,讓前沿推理觸手可及
Anthropic 表示,其開發(fā) Claude 3.7 Sonnet 的理念與市面上其他推理模型不同。正如人類使用單個大腦進行快速反應(yīng)和深度思考一樣,Anthropic 認為推理應(yīng)該體現(xiàn)前沿模型的綜合能力,而不再是完全獨立的模型。這種統(tǒng)一的方法將為用戶創(chuàng)造更無縫的體驗。
遵循上述理念,Claude 3.7 Sonnet 形成了很多獨有優(yōu)勢。
首先,Claude 3.7 Sonnet 既是普通的 LLM,又是推理模型。你可以選擇何時希望模型正?;卮?,何時希望它在回答之前思考更長時間。在標(biāo)準模式下,Claude 3.7 Sonnet 是前代 Claude 3.5 Sonnet 的升級版。在擴展思維模式下,它會在回答之前進行自我反思,從而提高其在數(shù)學(xué)、物理、指令遵循、編碼和許多其他任務(wù)上的表現(xiàn)。Anthropic 發(fā)現(xiàn),兩種模式下,模型的提示詞工作方式類似。
其次,當(dāng)通過 API 使用 Claude 3.7 Sonnet 時,用戶還可以控制思考預(yù)算。你可以告訴 Claude 思考不超過 N 個 token。對于任何 N 值,其輸出限制為 128K 個 token。這允許用戶在速度(和成本)和答案質(zhì)量之間進行權(quán)衡。
第三,在開發(fā)自家的推理模型時,Anthropic 對數(shù)學(xué)和計算機科學(xué)競賽問題的優(yōu)化較少,而是將重點轉(zhuǎn)向更能反映企業(yè)實際使用 LLM 方式的現(xiàn)實任務(wù)。
我們來看下 Claude 3.7 Sonnet 的基準測試結(jié)果,其中在 SWE-bench Verified(評估 LLM 解決 GitHub 上真實軟件問題能力的基準測試數(shù)據(jù)集)上,Claude 3.7 Sonnet 實現(xiàn)了 SOTA 性能,遠遠超過了 Claude 3.5 Sonnet、OpenAI 的 o3-mini (high) 和 o1 以及 DeepSeek R1。
在 TAU-bench(評估 LLM 在復(fù)雜真實場景中用戶與工具交互能力的基準測試平臺)上,Claude 3.7 Sonnet 同樣實現(xiàn)了 SOTA 性能,超過了 Claude 3.5 Sonnet 和 OpenAI 的 o1。
Claude 3.7 Sonnet 在指令遵循、通用推理、多模態(tài)能力和智能編碼方面表現(xiàn)出色,擴展思考在數(shù)學(xué)和科學(xué)方面實現(xiàn)了顯著提升,但在一些方面依然不及 OpenAI 的 o3-mini (high)、Grok-3 Beta 等。
可以看到,對于 Claude Sonnet 3.7,Anthropic 將重點放在了編碼能力上,其他領(lǐng)域似乎并不特別重要。很明顯,Anthropic 想將 Sonnet 定位為編碼 AI(已經(jīng)是了)。
圖源:https://x.com/kimmonismus/status/1894098443859079609
另外,除了傳統(tǒng)基準之外,Claude 3.7 Sonnet 甚至可以在寶可夢(Pokémon)游戲測試中超越所有以前的模型。
Anthropic 已經(jīng)與合作伙伴進行了非常多的早期測試,證明了 Claude 在編碼能力方面的全面領(lǐng)先地位。
其中,Cursor 指出 Claude 再次成為現(xiàn)實世界編碼任務(wù)的最佳選擇,從處理復(fù)雜代碼庫到高級工具使用都有顯著改進。Cognition 發(fā)現(xiàn),Claude 在規(guī)劃代碼更改和處理全棧更新方面遠遠優(yōu)于任何其他模型。
Vercel 強調(diào)了 Claude 在復(fù)雜代理工作流程中的出色精確度,而 Replit 已成功部署 Claude 從頭開始構(gòu)建復(fù)雜的 Web 應(yīng)用程序和儀表板,而其他模型則停滯不前。在 Canva 的評估中,Claude 始終如一地編寫出具有卓越設(shè)計品味且可投入生產(chǎn)的代碼,并大幅減少了錯誤。
Claude Code:智能編碼讓開發(fā)更便捷
自 2024 年 6 月以來,Sonnet 一直是全球開發(fā)者的首選模型。今天,Anthropic 推出了其首款智能編碼工具 Claude Code(有限的研究預(yù)覽版本),進一步增強開發(fā)者的能力。
在功能上,Claude Code 是一個積極的協(xié)作者,可以搜索和閱讀代碼、編輯文件、編寫和運行測試、提交和推送代碼到 GitHub,以及使用命令行工具。
我們來看下它的幾個使用示例,比如解釋項目結(jié)構(gòu):
編寫測試:
構(gòu)建應(yīng)用:
雖然是一款早期產(chǎn)品,Claude Code 對于 Anthropic 團隊來說已經(jīng)變得不可或缺,尤其是用于測試驅(qū)動開發(fā)、調(diào)試復(fù)雜問題和大規(guī)模重構(gòu)。
在早期測試中,Claude Code 可以一次性完成通常需要 45 分鐘以上手動工作才能完成的任務(wù),從而減少了開發(fā)時間和開銷。
在接下來的幾周內(nèi),Anthropic 計劃根據(jù)自身的使用情況不斷改進 Claude Code,包括增強工具調(diào)用可靠性、增加對長時間運行命令的支持、改進應(yīng)用內(nèi)渲染以及擴展 Claude 對其功能的理解。
Claude Code 的目標(biāo)是更好地了解開發(fā)人員如何使用 Claude 進行編碼,以便為未來的模型改進提供參考。通過加入此預(yù)覽版,用戶將可以使用 Anthropic 用于構(gòu)建和改進 Claude 的相同強大工具。
負責(zé)任構(gòu)建與未來展望
Anthropic 對 Claude 3.7 Sonnet 進行了廣泛的測試和評估,并與外部專家合作,以確保其符合其安全性和可靠性標(biāo)準。
同時,Claude 3.7 Sonnet 還對有害請求和良性請求進行了更細微的區(qū)分。與前代相比,不必要的拒絕減少了 45%。
CoT 忠實度評估結(jié)果
在 Claude 3.7 Sonnet 的模型卡中,Anthropic 詳細細分了自身的負責(zé)任擴展策略評估以及其他 AI 實驗室和研究人員應(yīng)用于他們工作的情況。另外,模型卡中還概覽了計算機使用帶來的新風(fēng)險,特別是快速注入攻擊,并解釋了 Anthropic 如何評估這些漏洞并訓(xùn)練 Claude 抵御和緩解這些漏洞。
此外,模型卡中還研究了推理模型的潛在安全優(yōu)勢,以及理解模型如何做出決策、模型推理是否真正值得信賴和可靠。
系統(tǒng)卡地址:https://assets.anthropic.com/m/785e231869ea8b3b/original/claude-3-7-sonnet-system-card.pdf
對于此次發(fā)布的 Claude 3.7 Sonnet 和 Claude Code,Anthropic 認為它們標(biāo)志著 AI 系統(tǒng)邁出了重要一步,開始向著真正增強人類能力邁進。憑借著深度推理、自主工作和有效協(xié)作的能力,我們更接近了 AI 豐富和擴展人類能力的未來。
Anthropic 還展示了一個真正令人興奮的發(fā)展圖景,希望在 2025 年 Claude 可以成為獨立自主工作數(shù)小時的專家級智能體;到 2027 年,希望 Claude 能夠解決人工團隊花費數(shù)年才能解決的挑戰(zhàn)性難題。
博客地址:https://www.anthropic.com/news/claude-3-7-sonnet