自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

業(yè)界首個“混合AI推理模型”!快OpenAI一步Anthropic跳版本發(fā)布:Claude3.7 Sonnet可自行決定思考時長

原創(chuàng) 精選
人工智能
Anthropic 在 AI 實驗室以極快速度推出新 AI 模型的時期發(fā)布了 Claude 3.7 Sonnet。Anthropic 歷來采取更為系統(tǒng)化、注重安全性的方法。但這一次,該公司希望引領(lǐng)潮流。

整理 | 星璇

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

就在OpenAI還在吊胃口之際,最強(qiáng)競對 Anthropic 深夜開大了!

Anthropic 直接把自家的“通用+推理”二合一的模型發(fā)布了,并把自家內(nèi)部在用的AI編程工具也上線,直接可以終端執(zhí)行任務(wù)的那種!

這就帶大家看看這家公司在大模型以及AI產(chǎn)品上的不同打法!

用戶不用再選擇模型了,業(yè)界首個混合AI模型

Anthropic 正在發(fā)布一款名為 Claude 3.7 Sonnet 的新型前沿 AI 模型,該模型被設(shè)計為能夠根據(jù)用戶的需求“思考”問題任意長的時間。  

圖片圖片

Anthropic 的新思維模式Anthropic 的新思維模式

Anthropic 將 Claude 3.7 Sonnet 稱為業(yè)界首個“混合 AI 推理模型”,因為它是一款既能提供實時回答,又能給出經(jīng)過深思熟慮、更加“推敲”的答案的單一模型。用戶可以選擇是否激活 AI 模型的“推理”能力,這會促使 Claude 3.7 Sonnet 在短時間內(nèi)或較長時間內(nèi)進(jìn)行“思考”。  

這款模型代表了 Anthropic 在簡化其 AI 產(chǎn)品用戶體驗方面的更廣泛努力。如今,大多數(shù) AI 聊天機(jī)器人都有一個令人頭疼的模型選擇器,迫使用戶從幾種不同選項中進(jìn)行選擇,這些選項在成本和功能上各有差異。像 Anthropic 這樣的實驗室希望用戶不必為此操心——理想情況下,一個模型就能完成所有任務(wù)。  

Anthropic 表示,Claude 3.7 Sonnet 已經(jīng)于周二凌晨面向所有用戶和開發(fā)者推出,但只有付費訂閱 Anthropic 高級版 Claude 聊天機(jī)器人的用戶才能訪問模型的推理功能。免費版用戶將獲得標(biāo)準(zhǔn)版的 Claude 3.7 Sonnet,Anthropic 聲稱其性能優(yōu)于之前的前沿 AI 模型 Claude 3.5 Sonnet。(是的,這家公司跳過了一個數(shù)字。)  

Claude 3.7 Sonnet 的價格為每百萬輸入令牌 3 美元(意味著你可以以 3 美元的價格輸入大約 75 萬詞,比整個《指環(huán)王》系列的字?jǐn)?shù)還多),以及每百萬輸出令牌 15 美元。這使得它比 OpenAI 的 o3-mini(每百萬輸入令牌 1.10 美元/每百萬輸出令牌 4.40 美元)和 DeepSeek 的 R1(每百萬輸入令牌 0.55 美元/每百萬輸出令牌 2.19 美元)更昂貴,但需要注意的是,o3-mini 和 R1 是純粹的推理模型——不像 Claude 3.7 Sonnet 是混合模型

Claude 3.7 Sonnet 比其前代產(chǎn)品有了重大升級。擴(kuò)展思維模式使該模型在數(shù)學(xué)、物理、指令遵循、編碼和許多其他任務(wù)方面獲得了額外的提升。此外,API 用戶可以精確控制模型的思考時間。

圖片圖片

模型廠商的新趨勢:讓模型自行決定思考多久,減少回答問題的等待時間

Claude 3.7 Sonnet 是 Anthropic 第一款能夠“推理”的 AI 模型,這是許多 AI 實驗室在傳統(tǒng)提升 AI 性能的方法逐漸失效時轉(zhuǎn)向的一種技術(shù)。  

像 o3-mini、R1、谷歌的 Gemini 2.0 Flash Thinking 和 xAI 的 Grok 3(Think)這樣的推理模型,在回答問題之前會花費更多時間和計算資源。這些模型將問題分解為更小的步驟,這通常會提高最終答案的準(zhǔn)確性。推理模型并不一定像人類那樣真正“思考”或“推理”,但它們的過程是基于演繹法建模的。  

Anthropic 的產(chǎn)品與研究主管 Dianne Penn 在接受采訪時透露,最終,Anthropic 希望 Claude 能夠自行決定需要“思考”多久來回答問題,而無需用戶提前選擇控制選項。  

Anthropic 在一篇分享的博客文章中寫道:“類似于人類不會為可以立即回答的問題和需要深思熟慮的問題配備兩個不同的大腦,我們認(rèn)為推理只是前沿模型應(yīng)具備的能力之一,并應(yīng)與其他能力無縫集成,而不是通過單獨的模型提供?!?nbsp; 

Anthropic 表示,它允許 Claude 3.7 Sonnet 通過“可見草稿板”展示其內(nèi)部規(guī)劃階段。用戶可以看到 Claude 對大多數(shù)提示的完整思考過程,但出于信任和安全原因,部分內(nèi)容可能會被隱藏。

Claude 在 claude 應(yīng)用中的思考過程Claude 在 claude 應(yīng)用中的思考過程

重點聚焦于現(xiàn)實世界中的任務(wù),而非各種競賽

Anthropic 表示,它優(yōu)化了 Claude 的思維模式以應(yīng)對現(xiàn)實世界中的任務(wù),例如復(fù)雜的編碼問題或代理任務(wù)。使用 Anthropic API 的開發(fā)者可以控制“思考預(yù)算”,在速度和成本之間權(quán)衡答案的質(zhì)量。  

在一項衡量真實世界編碼任務(wù)的測試 SWE-Bench 中,Claude 3.7 Sonnet 的準(zhǔn)確率為 62.3%,而 OpenAI 的 o3-mini 模型得分為 49.3%。在另一項測試 TAU-Bench 中,該測試衡量 AI 模型在零售環(huán)境中與模擬用戶和外部 API 交互的能力,Claude 3.7 Sonnet 得分為 81.2%,而 OpenAI 的 o1 模型得分為 73.5%。  

圖片圖片

Anthropic 指出,Claude 3.7 Sonnet 是用于編碼和代理工具使用的最先進(jìn)的模型?!?nbsp;在開發(fā)它的過程中,我們針對數(shù)學(xué)和計算機(jī)科學(xué)競賽問題的優(yōu)化較少,而是將重點轉(zhuǎn)向更能反映用戶需求的現(xiàn)實任務(wù)。”

Anthropic 還表示,Claude 3.7 Sonnet 拒絕回答問題的頻率將低于其之前的模型,聲稱該模型能夠更細(xì)致地區(qū)分有害和無害的提示。Anthropic 表示,與 Claude 3.5 Sonnet 相比,它減少了 45% 的不必要拒絕。這正值一些其他 AI 實驗室重新考慮限制其 AI 聊天機(jī)器人回答的方式之際。  

Claude Code:開發(fā)者直接可執(zhí)行特定任務(wù)

除了 Claude 3.7 Sonnet,Anthropic 還發(fā)布了一款名為 Claude Code 的代理編碼工具。作為研究預(yù)覽版發(fā)布的這款工具,允許開發(fā)者直接從終端通過 Claude 執(zhí)行特定任務(wù)。  

在一次演示中,Anthropic 員工展示了如何通過簡單的命令(如“解釋這個項目結(jié)構(gòu)”)讓 Claude Code 分析一個編碼項目。開發(fā)者可以使用命令行中的普通英語修改代碼庫。Claude Code 會在更改時描述其編輯內(nèi)容,甚至可以測試項目錯誤或?qū)㈨椖客扑偷?GitHub 倉庫。  

圖片圖片

甚至Anthropic內(nèi)部也在用這款“提效神器”。Anthropic海外媒體官方賬號上稱:

“Claude Code 已經(jīng)成為我們團(tuán)隊不可或缺的工具。在早期測試中,Claude 一次性完成了通常需要 45 分鐘以上手動操作才能完成的任務(wù)?!?/span>

Anthropic 發(fā)言人日前表示,Claude Code 最初將以“先到先得”的方式向有限數(shù)量的用戶開放。  

寫在最后

Anthropic 在 AI 實驗室以極快速度推出新 AI 模型的時期發(fā)布了 Claude 3.7 Sonnet。Anthropic 歷來采取更為系統(tǒng)化、注重安全性的方法。但這一次,該公司希望引領(lǐng)潮流。  

“我們的合伙伙伴正在努力為他們的客戶取得成果,”Anthropic 的平臺負(fù)責(zé)人 Michael Gerstenhaber 解釋說。“使用相同的模型并以不同的方式提示相同的模型可以讓像 Thompson Reuters 這樣的人進(jìn)行法律研究,讓我們的編碼合作伙伴(如 Cursor 或 GitHub)能夠開發(fā)應(yīng)用程序并實現(xiàn)這些目標(biāo)?!?/span>

Anthropic 的混合方法既代表了技術(shù)演變,也代表了戰(zhàn)略博弈。OpenAI 為不同的功能維護(hù)單獨的模型,而 DeepSeek 專注于成本效益,而 Anthropic 正在尋求能夠處理日常任務(wù)和復(fù)雜推理的統(tǒng)一系統(tǒng)。這種理念可以重塑企業(yè)部署 AI 的方式,并消除處理多個專業(yè)模型的需要。

不過問題是,這種領(lǐng)先能持續(xù)多久?OpenAI 可能即將發(fā)布自己的混合 AI 模型;該公司的首席執(zhí)行官 Sam Altman 表示,這一模型將在“幾個月內(nèi)”推出。

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2025-02-25 09:02:26

2025-02-25 08:15:09

2025-04-18 10:36:42

2025-02-25 09:13:16

2025-02-25 09:43:19

2025-02-26 09:24:03

2025-02-26 10:10:12

2025-02-25 10:08:38

2025-03-12 12:07:07

2025-02-14 11:18:57

2025-01-15 13:01:07

2015-02-04 11:04:18

VMware

2024-07-17 13:41:47

2025-03-10 06:10:00

2024-06-21 09:58:38

2009-02-03 09:44:00

服務(wù)器虛擬化Arkeia Soft

2015-07-30 10:46:50

2024-09-24 11:01:03

2024-03-05 11:17:40

AI模型
點贊
收藏

51CTO技術(shù)棧公眾號