自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

深夜王炸!剛剛Anthropic發(fā)布全球首個混合推理模型與全新代碼“神器”:雙面王牌組合

人工智能 新聞
Anthropic毫不掩飾對Claude 3.7 Sonnet的自信,直接稱其為?“迄今為止最智能的模型”。

剛剛Anthropic公司正式發(fā)布了他們最新的AI王牌組合—— Claude 3.7 Sonnet 和 Claude Code!各種能力超群,只是數學能力還是不及DeepSeek等,感覺Claude所有重點都在代碼能力。

第一時間(熬夜??)給大家劃個重點

Claude 3.7 Sonnet:混合推理架構登場,打造前所未有的智能巔峰!

Anthropic毫不掩飾對Claude 3.7 Sonnet的自信,直接稱其為 “迄今為止最智能的模型”,更重要的是,它還開創(chuàng)性地成為了 “市場上首個混合推理模型”!

與以往模型不同,Claude 3.7 Sonnet 的獨特之處在于其 “混合” 能力:

極速響應與深度思考并存: 它既能像獵豹一樣 “即時響應”,滿足對速度有極致要求的場景;又能進行 “擴展的、逐步思考”,處理需要復雜推理的任務。深度思考的過程不再是黑箱操作,而是 “對用戶可見的”

思考時長由你掌控: 對于API開發(fā)者而言,Anthropic 開放了 “思考預算 (budget for thinking)” 的精細控制權。你可以根據任務的復雜程度和對結果質量的要求,設定模型思考的tokens上限 (最高可達 128K tokens 輸出限制)。 這意味著開發(fā)者可以根據實際需求,在 速度、成本和答案質量 之間自由調優(yōu),實現真正的 “按需定制”!?? 這種靈活性是前所未有的,也體現了Anthropic對開發(fā)者需求的深刻理解。

標準模式與擴展思考模式: Claude 3.7 Sonnet 在 標準模式 下,是 Claude 3.5 Sonnet 的升級版,性能已經非常出色。 而在 擴展思考模式 下,它會進行 “自我反思 (self-reflects)” 后再給出答案,這使得它在 數學、物理、指令跟隨、編碼 等多個領域的性能都得到顯著提升。更棒的是,無論在哪種模式下,prompt的編寫方式都基本一致,降低了用戶的學習成本。

?? 代碼能力史詩級躍升!Claude Code橫空出世,賦能智能體編碼新范式!

如果你是一名開發(fā)者,尤其是專注于 編程和前端Web開發(fā),那么Claude 3.7 Sonnet 和 Claude Code 的組合絕對會不失所望! Anthropic 明確指出,新模型在 “編碼和前端Web開發(fā)” 領域取得了 “特別強勁的改進”。

更重要的是“Claude Code” —— 一個跨時代的 “智能體編碼命令行工具”! 這不僅是 Claude 系列的首款代碼工具,更預示著AI輔助編程進入了一個全新的階段。 目前 Claude Code 以 “限量研究預覽版” 的形式推出。

Claude Code 的強大之處在于,它將 AI 的代碼智能直接融入開發(fā)者的工作流中,讓你能夠在熟悉的 終端環(huán)境 下,“直接委托實質性的工程任務給 Claude”。 想象一下,你只需在命令行輸入指令,就能讓 AI 智能體完成代碼搜索、文件編輯、測試編寫和運行、代碼提交和推送等一系列復雜的編程任務。

Claude Code 的核心能力包括:

  • 代碼檢索與閱讀: 快速搜索和理解代碼庫,不再需要在海量代碼中手動翻找。
  • 文件編輯: 智能修改代碼文件,無論是簡單的bug修復還是復雜的重構,都能輕松應對。
  • 測試編寫與運行: 自動生成和執(zhí)行測試用例,確保代碼質量,提升軟件可靠性。
  • 代碼提交與推送 (GitHub 集成): 無縫集成 GitHub,方便代碼的版本控制和協作。
  • 命令行工具集成: 靈活使用各種命令行工具,擴展功能,滿足更復雜的需求。
  • Anthropic 強調,Claude Code 在 測試驅動開發(fā)、復雜問題調試和大規(guī)模重構 等場景中尤其得心應手。 在早期測試中,Claude Code 能夠在 “單次操作中完成通常需要 45 分鐘以上的手動工作”,顯著縮短開發(fā)時間和成本。

Claude Code 目前處于研究預覽的 beta 階段:

https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview

權威評測數據震撼發(fā)布:實力碾壓,問鼎多項榜單!

性能是檢驗 AI 模型實力的硬指標。Anthropic 在公告中展示了 Claude 3.7 Sonnet 在多個權威基準測試上的卓越表現,用數據說話,實力盡顯:

?SWE-bench Verified (軟件工程基準測試): Claude 3.7 Sonnet 以 70.3% (使用定制 scaffold) 和 62.3% (標準 scaffold) 的驚人成績,再次成為該榜單的王者,遠超 OpenAI 的 GPT-4 和 DeepSeek R1 等強勁對手。 SWE-bench Verified 專注于評估 AI 模型解決真實世界軟件問題的能力,Claude 3.7 Sonnet 的優(yōu)異表現充分證明了其在實際編碼場景中的強大實力。值得注意的是,70.3% 的高分使用了 “定制 scaffold”,并在問題子集上進行了內部評分,而 62.3% 的分數則使用了 bash/editor 工具和一個 “思考工具”,在 500 個問題上進行了單次嘗試,沒有額外的測試時計算。

  • TAU-bench (智能體工具使用基準測試): Claude 3.7 Sonnet 在 TAU-bench 的 零售 (retail) 和 航空 (airline) 兩個場景中,分別取得了 81.2% 和 58.4% 的領先成績。 TAU-bench 考察的是 AI 智能體在復雜的真實世界任務中,與用戶和各種工具進行有效交互的能力。Claude 3.7 Sonnet 在此項測試中再次拔得頭籌,印證了其作為智能體工具的卓越性能。為了獲得這些分數,Anthropic 使用了 prompt addendum 指導 Claude 更好地利用 “planning” tool,鼓勵模型寫下思考過程。

通用benchmark測試

總而言之,Claude 3.7 Sonnet 在 指令跟隨、通用推理、多模態(tài)能力和智能體編碼 等多個關鍵領域都展現出了卓越的性能,在 數學和科學 方面,擴展思考模式帶來了顯著的提升但是沒有超越deepseek等模型。 在 Anthropic 內部的 Pokémon gameplay tests (寶可夢游戲測試) 中,Claude 3.7 Sonnet 也超越了以往的所有模型。

寫在最后:

按照Anthropic的說法:Claude 3.7 Sonnet 和 Claude Code 的發(fā)布,是在 “構建真正增強人類能力的 AI 系統(tǒng)” 道路上邁出的重要一步。 Anthropic 堅信,憑借其強大的 “深度推理、自主工作和有效協作” 能力,AI 將把我們帶向一個更加美好的未來,在那里,AI 將 “豐富和擴展人類所能成就的一切”。

Anthropic 也在公告中展望了 Claude 的發(fā)展藍圖,描繪了 Claude 從 “助手 (assists)” 到 “合作者 (collaborates)” 再到 “先鋒 (pioneers)” 的進化路徑,預示著 AI 在未來將扮演越來越重要的角色,最終將能夠 “找到突破性的解決方案,解決需要團隊數年才能完成的挑戰(zhàn)性問題”。

責任編輯:張燕妮 來源: AI寒武紀
相關推薦

2025-02-25 09:13:16

2023-05-11 07:06:07

谷歌人工智能

2025-02-25 09:02:26

2025-02-14 11:18:57

2025-03-06 09:55:49

2025-02-25 11:59:44

2025-02-25 08:15:09

2022-09-29 13:52:55

WindowsPython代碼

2025-02-26 09:24:03

2025-03-05 00:22:00

2023-08-30 19:06:58

2018-03-21 13:34:15

混合云SD-WAN

2025-02-26 10:10:12

2025-03-06 10:14:39

2024-09-24 11:01:03

2024-12-26 07:10:00

2025-03-26 06:56:56

2025-03-07 08:30:00

2025-03-19 09:20:00

點贊
收藏

51CTO技術棧公眾號