自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<tt id="24q75"><b id="24q75"><nobr id="24q75"></nobr></b></tt>

<button id="24q75"></button>

<center id="24q75"></center><blockquote id="24q75"><p id="24q75"><th id="24q75"></th></p></blockquote><cite id="24q75"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

首個混合推理模型Claude 3.7發(fā)布！編程能力全面領(lǐng)先，還能精準控制思考時間

2025-02-25 08:15:09

GPQA是一組常用的具有挑戰(zhàn)性的生物、化學(xué)和物理問題。 Claude 3.7 Sonnet 使用 256 個獨立樣本的等效計算、學(xué)習(xí)的評分模型和最大64 token的思維成本之下，取得了 84.8% 的 GPQA 分數(shù)（包括 96.5% 的物理子分數(shù)）。

Claude深夜重磅發(fā)布新模型——

Claude 3.7 Sonnet，首個混合推理模型問世，在編碼和前端Web開發(fā)方面顯著提升，實現(xiàn)了全面領(lǐng)先。

圖片

與o3-mini實際對比，相同的提示詞下，Claude 3.7 Sonnet的表現(xiàn)。

o3-mini：

Claude 3.7 Sonnet：

（提示詞：編寫一個 p5.js 腳本，模擬 100 個彩球在球體內(nèi)彈跳。每個球都應(yīng)留下一條逐漸消失的軌跡，顯示其最近的運動軌跡。容器球體應(yīng)緩慢旋轉(zhuǎn)。確保實現(xiàn)適當(dāng)?shù)呐鲎矙z測，使球保持在球體內(nèi)。）

還有用它來做視頻游戲。

作為混合推理模型，它有兩種思考模式：

近乎實時地反應(yīng)&擴展地、循序漸進（step-by-step）地思考。

擴展思維模式下，它在數(shù)學(xué)、物理、指令遵循、編碼等多個任務(wù)中有額外的提升。

圖片

API用戶甚至還可以精準控制模型的思考時間。目前已經(jīng)在全平臺上線，包括亞馬遜云服務(wù)Bedrock平臺、谷歌云，而要想要擴展思考模式，除免費版外其他都可以用。

圖片

模型升級，價格不變——

與前代產(chǎn)品相同，每百萬輸入token 3 美元，每百萬輸出token 15 美元（其中包括思考代幣）。

除此之外，他們還發(fā)布了他們首個編碼工具Claude Code：

它能夠一次性完成原本需要45分鐘以上手動才能完成的工作。

圖片

網(wǎng)友們紛紛表示，已經(jīng)迫不及待地想用上了。

圖片

不過，為什么是3.7版本呢？

圖片

Claude 3.7 Sonnet：首個混合推理模型

官方此次首先表示，他們開發(fā)Claude 3.7 Sonnet這個的理念與市場上其他推理模型不同。

類比于人類大腦有快速反應(yīng)和深度思考兩種一樣，他們認為推理應(yīng)該是前沿模型的綜合能力，而不是完全獨立的模型。

由此，Claude 3.7 Sonnet在多個方面都有體現(xiàn)這個理念。

首先，Claude 3.7 Sonnet 既是普通的 LLM 模型，又是推理模型：

您可以選擇何時讓模型正?；卮?，何時讓模型在回答前思考更長時間。

在標準模式下，Claude 3.7 Sonnet 是 Claude 3.5 Sonnet 的升級版。在擴展思維模式下，它會在回答前進行自我反思，從而提高其在數(shù)學(xué)、物理、遵循指令、編碼和許多其他任務(wù)上的表現(xiàn)。

圖片

在兩種模式下，對模型的提示方式類似。

這是代碼生成任務(wù)下，兩種思維模式回答之間的區(qū)別。

圖片

其次，控制思考預(yù)算，用速度和成本來換取答案的質(zhì)量。

API用戶可以告訴Claude思考的數(shù)量不超過 N 個token，N 的值可以是任何值，但輸出上限不能超過 128K個token。

模型能力的表現(xiàn)，也就取決于允許思考的token數(shù)量。例如以下在AIME 2024的成績圖。

圖片

第三，優(yōu)化重點轉(zhuǎn)向更能反映用戶需求的現(xiàn)實世界任務(wù)，對數(shù)學(xué)和計算機競賽問題優(yōu)化較少。

圖片

△解決實際的概率問題

編碼任務(wù)，網(wǎng)友們對它這種「vibe coding」（面對非開發(fā)人員的AI輔助編碼）印象深刻。

有網(wǎng)友實測發(fā)現(xiàn)，確實能解決其他模型無法解決的問題。>你能用 p5js 編寫最復(fù)雜的布料模擬嗎？

結(jié)果Grok 3 和o1 pro沒有可用的結(jié)果。而Claude 3.7 Sonnet的表現(xiàn)是：

在代理工具使用上面，實現(xiàn)了SOTA。

圖片

Claude 3.7 Sonnet 在指令遵循、一般推理、多模態(tài)能力和代理編碼方面表現(xiàn)出色，擴展思維在數(shù)學(xué)和科學(xué)方面提供了顯著的提升。

圖片

除了傳統(tǒng)的基準測試之外，它甚至在寶可夢游戲測試中超越了所有以前的模型——

團隊為Claude配備了基本內(nèi)存、屏幕像素輸入以及按鍵和屏幕導(dǎo)航的功能調(diào)用，使其能夠超越通常的上下文限制，持續(xù)玩游戲，并通過數(shù)以萬計的交互進行游戲。

最終實驗表明，它是迄今所有Sonnet模型中表現(xiàn)最好的，它成功與三個寶可夢道館館主（游戲的 Boss）戰(zhàn)斗并贏得他們的徽章。相比之下，Claude 3.0 Sonnet 甚至無法離開故事開始的地方Pallet Town 的房子。

x 軸表示 Claude 在玩游戲時完成的互動次數(shù)；y 軸表示游戲中的重要里程碑，包括收集某些物品、導(dǎo)航到某些區(qū)域以及擊敗某些Boss。

圖片

此次，研究人員使用了并行測試時間計算來提高模型的性能。

他們的方法是對多個獨立思考過程進行采樣，并在事先不知道真實答案的情況下選出最佳答案。其中一種方法是使用多數(shù)投票；選擇最常見的答案作為 “最佳 ”答案。另一種方法是使用另一個語言模型（比如Claude的第二個副本），要求它檢查自己的工作或?qū)W習(xí)的評分函數(shù)，然后選出它認為最好的答案。

結(jié)果在GPQA評估中，這一方法讓模型取得了驚人的改進。

GPQA是一組常用的具有挑戰(zhàn)性的生物、化學(xué)和物理問題。 Claude 3.7 Sonnet 使用 256 個獨立樣本的等效計算、學(xué)習(xí)的評分模型和最大64 token的思維成本之下，取得了 84.8% 的 GPQA 分數(shù)（包括 96.5% 的物理子分數(shù)）。

圖片

此外，Claude 3.7 Sonnet 還對有害請求和良性請求進行了更細致的區(qū)分，與前代版本相比，不必要的拒絕次數(shù)減少了 45% 。

圖片

Claude首個編碼工具面世

Claude Code，從官方透露的功能看，它可以搜索和讀取代碼、編輯文件、編寫和運行測試、提交和推送代碼到 GitHub以及使用命令行工具。

圖片

目前還只是早期的預(yù)覽版，可直接在終端運行。

圖片

早期測試中，Claude Code可以一次性完成了通常需要 45 分鐘以上手動操作才能完成的任務(wù)，從而減少了開發(fā)時間和開銷。

在接下來的幾周內(nèi)，他們計劃結(jié)合他們使用情況不斷改進它——

比如增強工具調(diào)用的可靠性，增加對長時間運行的命令的支持，改進應(yīng)用內(nèi)渲染，并擴展 Claude 對其功能的理解。

除此之外，他們還改進了 Claude.ai 上的編碼體驗。GitHub 集成現(xiàn)已在所有Claude使用平臺中提供，開發(fā)人員可以將其代碼存儲庫直接連接到 Claude。

參考鏈接：
[1]https://www.anthropic.com/news/claude-3-7-sonnet
[2]https://www.anthropic.com/research/visible-extended-thinking
[3]https://docs.anthropic.com/en/docs/build-with-claude/extended-thinking
[4]https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview
[5]https://x.com/deedydas/status/1894110678027571412
[6]https://x.com/_akhaliq/status/1894106278185898489

責(zé)任編輯：武曉燕來源：量子位

Claude 3.7 GPQA 模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營