業(yè)界首個(gè)“混合AI推理模型”!快OpenAI一步Anthropic跳版本發(fā)布:Claude3.7 Sonnet可自行決定思考時(shí)長 原創(chuàng)
整理 | 星璇
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
就在OpenAI還在吊胃口之際,最強(qiáng)競對(duì) Anthropic 深夜開大了!
Anthropic 直接把自家的“通用+推理”二合一的模型發(fā)布了,并把自家內(nèi)部在用的AI編程工具也上線,直接可以終端執(zhí)行任務(wù)的那種!
這就帶大家看看這家公司在大模型以及AI產(chǎn)品上的不同打法!
用戶不用再選擇模型了,業(yè)界首個(gè)混合AI模型
Anthropic 正在發(fā)布一款名為 Claude 3.7 Sonnet 的新型前沿 AI 模型,該模型被設(shè)計(jì)為能夠根據(jù)用戶的需求“思考”問題任意長的時(shí)間。
圖片
Anthropic 的新思維模式
Anthropic 將 Claude 3.7 Sonnet 稱為業(yè)界首個(gè)“混合 AI 推理模型”,因?yàn)樗且豢罴饶芴峁?shí)時(shí)回答,又能給出經(jīng)過深思熟慮、更加“推敲”的答案的單一模型。用戶可以選擇是否激活 AI 模型的“推理”能力,這會(huì)促使 Claude 3.7 Sonnet 在短時(shí)間內(nèi)或較長時(shí)間內(nèi)進(jìn)行“思考”。
這款模型代表了 Anthropic 在簡化其 AI 產(chǎn)品用戶體驗(yàn)方面的更廣泛努力。如今,大多數(shù) AI 聊天機(jī)器人都有一個(gè)令人頭疼的模型選擇器,迫使用戶從幾種不同選項(xiàng)中進(jìn)行選擇,這些選項(xiàng)在成本和功能上各有差異。像 Anthropic 這樣的實(shí)驗(yàn)室希望用戶不必為此操心——理想情況下,一個(gè)模型就能完成所有任務(wù)。
Anthropic 表示,Claude 3.7 Sonnet 已經(jīng)于周二凌晨面向所有用戶和開發(fā)者推出,但只有付費(fèi)訂閱 Anthropic 高級(jí)版 Claude 聊天機(jī)器人的用戶才能訪問模型的推理功能。免費(fèi)版用戶將獲得標(biāo)準(zhǔn)版的 Claude 3.7 Sonnet,Anthropic 聲稱其性能優(yōu)于之前的前沿 AI 模型 Claude 3.5 Sonnet。(是的,這家公司跳過了一個(gè)數(shù)字。)
Claude 3.7 Sonnet 的價(jià)格為每百萬輸入令牌 3 美元(意味著你可以以 3 美元的價(jià)格輸入大約 75 萬詞,比整個(gè)《指環(huán)王》系列的字?jǐn)?shù)還多),以及每百萬輸出令牌 15 美元。這使得它比 OpenAI 的 o3-mini(每百萬輸入令牌 1.10 美元/每百萬輸出令牌 4.40 美元)和 DeepSeek 的 R1(每百萬輸入令牌 0.55 美元/每百萬輸出令牌 2.19 美元)更昂貴,但需要注意的是,o3-mini 和 R1 是純粹的推理模型——不像 Claude 3.7 Sonnet 是混合模型。
Claude 3.7 Sonnet 比其前代產(chǎn)品有了重大升級(jí)。擴(kuò)展思維模式使該模型在數(shù)學(xué)、物理、指令遵循、編碼和許多其他任務(wù)方面獲得了額外的提升。此外,API 用戶可以精確控制模型的思考時(shí)間。
圖片
模型廠商的新趨勢(shì):讓模型自行決定思考多久,減少回答問題的等待時(shí)間
Claude 3.7 Sonnet 是 Anthropic 第一款能夠“推理”的 AI 模型,這是許多 AI 實(shí)驗(yàn)室在傳統(tǒng)提升 AI 性能的方法逐漸失效時(shí)轉(zhuǎn)向的一種技術(shù)。
像 o3-mini、R1、谷歌的 Gemini 2.0 Flash Thinking 和 xAI 的 Grok 3(Think)這樣的推理模型,在回答問題之前會(huì)花費(fèi)更多時(shí)間和計(jì)算資源。這些模型將問題分解為更小的步驟,這通常會(huì)提高最終答案的準(zhǔn)確性。推理模型并不一定像人類那樣真正“思考”或“推理”,但它們的過程是基于演繹法建模的。
Anthropic 的產(chǎn)品與研究主管 Dianne Penn 在接受采訪時(shí)透露,最終,Anthropic 希望 Claude 能夠自行決定需要“思考”多久來回答問題,而無需用戶提前選擇控制選項(xiàng)。
Anthropic 在一篇分享的博客文章中寫道:“類似于人類不會(huì)為可以立即回答的問題和需要深思熟慮的問題配備兩個(gè)不同的大腦,我們認(rèn)為推理只是前沿模型應(yīng)具備的能力之一,并應(yīng)與其他能力無縫集成,而不是通過單獨(dú)的模型提供?!?nbsp;
Anthropic 表示,它允許 Claude 3.7 Sonnet 通過“可見草稿板”展示其內(nèi)部規(guī)劃階段。用戶可以看到 Claude 對(duì)大多數(shù)提示的完整思考過程,但出于信任和安全原因,部分內(nèi)容可能會(huì)被隱藏。
Claude 在 claude 應(yīng)用中的思考過程
重點(diǎn)聚焦于現(xiàn)實(shí)世界中的任務(wù),而非各種競賽
Anthropic 表示,它優(yōu)化了 Claude 的思維模式以應(yīng)對(duì)現(xiàn)實(shí)世界中的任務(wù),例如復(fù)雜的編碼問題或代理任務(wù)。使用 Anthropic API 的開發(fā)者可以控制“思考預(yù)算”,在速度和成本之間權(quán)衡答案的質(zhì)量。
在一項(xiàng)衡量真實(shí)世界編碼任務(wù)的測(cè)試 SWE-Bench 中,Claude 3.7 Sonnet 的準(zhǔn)確率為 62.3%,而 OpenAI 的 o3-mini 模型得分為 49.3%。在另一項(xiàng)測(cè)試 TAU-Bench 中,該測(cè)試衡量 AI 模型在零售環(huán)境中與模擬用戶和外部 API 交互的能力,Claude 3.7 Sonnet 得分為 81.2%,而 OpenAI 的 o1 模型得分為 73.5%。
圖片
Anthropic 指出,Claude 3.7 Sonnet 是用于編碼和代理工具使用的最先進(jìn)的模型?!?nbsp;在開發(fā)它的過程中,我們針對(duì)數(shù)學(xué)和計(jì)算機(jī)科學(xué)競賽問題的優(yōu)化較少,而是將重點(diǎn)轉(zhuǎn)向更能反映用戶需求的現(xiàn)實(shí)任務(wù)。”
Anthropic 還表示,Claude 3.7 Sonnet 拒絕回答問題的頻率將低于其之前的模型,聲稱該模型能夠更細(xì)致地區(qū)分有害和無害的提示。Anthropic 表示,與 Claude 3.5 Sonnet 相比,它減少了 45% 的不必要拒絕。這正值一些其他 AI 實(shí)驗(yàn)室重新考慮限制其 AI 聊天機(jī)器人回答的方式之際。
Claude Code:開發(fā)者直接可執(zhí)行特定任務(wù)
除了 Claude 3.7 Sonnet,Anthropic 還發(fā)布了一款名為 Claude Code 的代理編碼工具。作為研究預(yù)覽版發(fā)布的這款工具,允許開發(fā)者直接從終端通過 Claude 執(zhí)行特定任務(wù)。
在一次演示中,Anthropic 員工展示了如何通過簡單的命令(如“解釋這個(gè)項(xiàng)目結(jié)構(gòu)”)讓 Claude Code 分析一個(gè)編碼項(xiàng)目。開發(fā)者可以使用命令行中的普通英語修改代碼庫。Claude Code 會(huì)在更改時(shí)描述其編輯內(nèi)容,甚至可以測(cè)試項(xiàng)目錯(cuò)誤或?qū)㈨?xiàng)目推送到 GitHub 倉庫。
圖片
甚至Anthropic內(nèi)部也在用這款“提效神器”。Anthropic海外媒體官方賬號(hào)上稱:
“Claude Code 已經(jīng)成為我們團(tuán)隊(duì)不可或缺的工具。在早期測(cè)試中,Claude 一次性完成了通常需要 45 分鐘以上手動(dòng)操作才能完成的任務(wù)?!?/p>
Anthropic 發(fā)言人日前表示,Claude Code 最初將以“先到先得”的方式向有限數(shù)量的用戶開放。
寫在最后
Anthropic 在 AI 實(shí)驗(yàn)室以極快速度推出新 AI 模型的時(shí)期發(fā)布了 Claude 3.7 Sonnet。Anthropic 歷來采取更為系統(tǒng)化、注重安全性的方法。但這一次,該公司希望引領(lǐng)潮流。
“我們的合伙伙伴正在努力為他們的客戶取得成果,”Anthropic 的平臺(tái)負(fù)責(zé)人 Michael Gerstenhaber 解釋說。“使用相同的模型并以不同的方式提示相同的模型可以讓像 Thompson Reuters 這樣的人進(jìn)行法律研究,讓我們的編碼合作伙伴(如 Cursor 或 GitHub)能夠開發(fā)應(yīng)用程序并實(shí)現(xiàn)這些目標(biāo)?!?/p>
Anthropic 的混合方法既代表了技術(shù)演變,也代表了戰(zhàn)略博弈。OpenAI 為不同的功能維護(hù)單獨(dú)的模型,而 DeepSeek 專注于成本效益,而 Anthropic 正在尋求能夠處理日常任務(wù)和復(fù)雜推理的統(tǒng)一系統(tǒng)。這種理念可以重塑企業(yè)部署 AI 的方式,并消除處理多個(gè)專業(yè)模型的需要。
不過問題是,這種領(lǐng)先能持續(xù)多久?OpenAI 可能即將發(fā)布自己的混合 AI 模型;該公司的首席執(zhí)行官 Sam Altman 表示,這一模型將在“幾個(gè)月內(nèi)”推出。
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:星璇
