自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<s id="h2zke"><li id="h2zke"></li></s>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

全球首個混合推理模型：Claude 3.7 Sonnet來襲，真實編碼力壓一切對手

作者：機器之心 2025-02-25 09:02:26

今天凌晨，Anthropic 的新旗艦?zāi)Ｐ腿缂s而至，正式發(fā)布了其迄今為止最智能的模型以及市面上首款混合推理模型 —— Claude 3.7 Sonnet。

就在昨晚，Anthropic 要發(fā)新模型的消息開始在 AI 社區(qū)廣泛發(fā)酵，不過并不是期待中的 Claude 4.0，而是 3.7 Sonnet 版本。

圖源：https://x.com/btibor91/status/1893970824484581825

今天凌晨，Anthropic 的新旗艦?zāi)Ｐ腿缂s而至，正式發(fā)布了其迄今為止最智能的模型以及市面上首款混合推理模型 —— Claude 3.7 Sonnet。

Claude 3.7 Sonnet 可以產(chǎn)生近乎即時的響應(yīng)或者向用戶展示擴展的、逐步的思考。按照 Anthropic 的說法，「一個模型，兩種思考方式」（One model, two ways to think.），即標(biāo)準和擴展思考模式。另外 API 用戶還可以對模型的思考時間進行細粒度控制。

在發(fā)布 Claude 3.7 Sonnet 之外，Anthropic 還推出了用于智能編碼的命令行工具 Claude Code。它目前作為有限的研究預(yù)覽版本使用，使開發(fā)人員能夠直接從他們的終端將大量工程任務(wù)委托給 Claude。

在編碼方面，Anthropic 還改進了 Claude.ai 上的編碼體驗，其 GitHub 集成現(xiàn)已在所有 Claude 計劃中提供，使開發(fā)人員能夠?qū)⑺麄兊拇a存儲庫直接連接到 Claude。通過更深入地了解個人、工作和開源項目，Claude 將成為用戶在 GitHub 項目中修復(fù)錯誤、開發(fā)功能和構(gòu)建文檔的更強大合作伙伴。

因此，得益于編碼和前端 web 開發(fā)方面的功能與改進，Claude 3.7 Sonnet 成為 Anthropic 迄今為止最好的編碼模型。

目前，新模型 Claude 3.7 Sonnet 可以通過所有 Claude 計劃（包括 Free、Pro、Team 和 Enterprise）以及 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 使用。除了免費用戶之外，所有其他用戶均可體驗擴展思考模式。

在標(biāo)準和擴展思考模式下，Claude 3.7 Sonnet 的價格與其前代（Claude 3.5 Sonnet）相同，每百萬輸入 token 3 美元，每百萬輸出 token 15 美元（包括思考 token）。

正如一位網(wǎng)友所評價的那樣，「Anthropic 的每次發(fā)布都能讓人微笑并感到興奮！」

最強 Claude 3.7 Sonnet，讓前沿推理觸手可及

Anthropic 表示，其開發(fā) Claude 3.7 Sonnet 的理念與市面上其他推理模型不同。正如人類使用單個大腦進行快速反應(yīng)和深度思考一樣，Anthropic 認為推理應(yīng)該體現(xiàn)前沿模型的綜合能力，而不再是完全獨立的模型。這種統(tǒng)一的方法將為用戶創(chuàng)造更無縫的體驗。

遵循上述理念，Claude 3.7 Sonnet 形成了很多獨有優(yōu)勢。

首先，Claude 3.7 Sonnet 既是普通的 LLM，又是推理模型。你可以選擇何時希望模型正?；卮?，何時希望它在回答之前思考更長時間。在標(biāo)準模式下，Claude 3.7 Sonnet 是前代 Claude 3.5 Sonnet 的升級版。在擴展思維模式下，它會在回答之前進行自我反思，從而提高其在數(shù)學(xué)、物理、指令遵循、編碼和許多其他任務(wù)上的表現(xiàn)。Anthropic 發(fā)現(xiàn)，兩種模式下，模型的提示詞工作方式類似。

其次，當(dāng)通過 API 使用 Claude 3.7 Sonnet 時，用戶還可以控制思考預(yù)算。你可以告訴 Claude 思考不超過 N 個 token。對于任何 N 值，其輸出限制為 128K 個 token。這允許用戶在速度（和成本）和答案質(zhì)量之間進行權(quán)衡。

第三，在開發(fā)自家的推理模型時，Anthropic 對數(shù)學(xué)和計算機科學(xué)競賽問題的優(yōu)化較少，而是將重點轉(zhuǎn)向更能反映企業(yè)實際使用 LLM 方式的現(xiàn)實任務(wù)。

我們來看下 Claude 3.7 Sonnet 的基準測試結(jié)果，其中在 SWE-bench Verified（評估 LLM 解決 GitHub 上真實軟件問題能力的基準測試數(shù)據(jù)集）上，Claude 3.7 Sonnet 實現(xiàn)了 SOTA 性能，遠遠超過了 Claude 3.5 Sonnet、OpenAI 的 o3-mini (high) 和 o1 以及 DeepSeek R1。

在 TAU-bench（評估 LLM 在復(fù)雜真實場景中用戶與工具交互能力的基準測試平臺）上，Claude 3.7 Sonnet 同樣實現(xiàn)了 SOTA 性能，超過了 Claude 3.5 Sonnet 和 OpenAI 的 o1。

Claude 3.7 Sonnet 在指令遵循、通用推理、多模態(tài)能力和智能編碼方面表現(xiàn)出色，擴展思考在數(shù)學(xué)和科學(xué)方面實現(xiàn)了顯著提升，但在一些方面依然不及 OpenAI 的 o3-mini (high)、Grok-3 Beta 等。

可以看到，對于 Claude Sonnet 3.7，Anthropic 將重點放在了編碼能力上，其他領(lǐng)域似乎并不特別重要。很明顯，Anthropic 想將 Sonnet 定位為編碼 AI（已經(jīng)是了）。

圖源：https://x.com/kimmonismus/status/1894098443859079609

另外，除了傳統(tǒng)基準之外，Claude 3.7 Sonnet 甚至可以在寶可夢（Pokémon）游戲測試中超越所有以前的模型。

Anthropic 已經(jīng)與合作伙伴進行了非常多的早期測試，證明了 Claude 在編碼能力方面的全面領(lǐng)先地位。

其中，Cursor 指出 Claude 再次成為現(xiàn)實世界編碼任務(wù)的最佳選擇，從處理復(fù)雜代碼庫到高級工具使用都有顯著改進。Cognition 發(fā)現(xiàn)，Claude 在規(guī)劃代碼更改和處理全棧更新方面遠遠優(yōu)于任何其他模型。

Vercel 強調(diào)了 Claude 在復(fù)雜代理工作流程中的出色精確度，而 Replit 已成功部署 Claude 從頭開始構(gòu)建復(fù)雜的 Web 應(yīng)用程序和儀表板，而其他模型則停滯不前。在 Canva 的評估中，Claude 始終如一地編寫出具有卓越設(shè)計品味且可投入生產(chǎn)的代碼，并大幅減少了錯誤。

Claude Code：智能編碼讓開發(fā)更便捷

自 2024 年 6 月以來，Sonnet 一直是全球開發(fā)者的首選模型。今天，Anthropic 推出了其首款智能編碼工具 Claude Code（有限的研究預(yù)覽版本），進一步增強開發(fā)者的能力。

在功能上，Claude Code 是一個積極的協(xié)作者，可以搜索和閱讀代碼、編輯文件、編寫和運行測試、提交和推送代碼到 GitHub，以及使用命令行工具。

我們來看下它的幾個使用示例，比如解釋項目結(jié)構(gòu)：

編寫測試：

構(gòu)建應(yīng)用：

雖然是一款早期產(chǎn)品，Claude Code 對于 Anthropic 團隊來說已經(jīng)變得不可或缺，尤其是用于測試驅(qū)動開發(fā)、調(diào)試復(fù)雜問題和大規(guī)模重構(gòu)。

在早期測試中，Claude Code 可以一次性完成通常需要 45 分鐘以上手動工作才能完成的任務(wù)，從而減少了開發(fā)時間和開銷。

在接下來的幾周內(nèi)，Anthropic 計劃根據(jù)自身的使用情況不斷改進 Claude Code，包括增強工具調(diào)用可靠性、增加對長時間運行命令的支持、改進應(yīng)用內(nèi)渲染以及擴展 Claude 對其功能的理解。

Claude Code 的目標(biāo)是更好地了解開發(fā)人員如何使用 Claude 進行編碼，以便為未來的模型改進提供參考。通過加入此預(yù)覽版，用戶將可以使用 Anthropic 用于構(gòu)建和改進 Claude 的相同強大工具。

負責(zé)任構(gòu)建與未來展望

Anthropic 對 Claude 3.7 Sonnet 進行了廣泛的測試和評估，并與外部專家合作，以確保其符合其安全性和可靠性標(biāo)準。

同時，Claude 3.7 Sonnet 還對有害請求和良性請求進行了更細微的區(qū)分。與前代相比，不必要的拒絕減少了 45%。

CoT 忠實度評估結(jié)果

在 Claude 3.7 Sonnet 的模型卡中，Anthropic 詳細細分了自身的負責(zé)任擴展策略評估以及其他 AI 實驗室和研究人員應(yīng)用于他們工作的情況。另外，模型卡中還概覽了計算機使用帶來的新風(fēng)險，特別是快速注入攻擊，并解釋了 Anthropic 如何評估這些漏洞并訓(xùn)練 Claude 抵御和緩解這些漏洞。

此外，模型卡中還研究了推理模型的潛在安全優(yōu)勢，以及理解模型如何做出決策、模型推理是否真正值得信賴和可靠。

系統(tǒng)卡地址：https://assets.anthropic.com/m/785e231869ea8b3b/original/claude-3-7-sonnet-system-card.pdf

對于此次發(fā)布的 Claude 3.7 Sonnet 和 Claude Code，Anthropic 認為它們標(biāo)志著 AI 系統(tǒng)邁出了重要一步，開始向著真正增強人類能力邁進。憑借著深度推理、自主工作和有效協(xié)作的能力，我們更接近了 AI 豐富和擴展人類能力的未來。

Anthropic 還展示了一個真正令人興奮的發(fā)展圖景，希望在 2025 年 Claude 可以成為獨立自主工作數(shù)小時的專家級智能體；到 2027 年，希望 Claude 能夠解決人工團隊花費數(shù)年才能解決的挑戰(zhàn)性難題。

博客地址：https://www.anthropic.com/news/claude-3-7-sonnet

責(zé)任編輯：趙寧寧來源：機器之心

編碼模型 AI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="qlfal"></cite>