自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一夜之間,大模型像人一樣操控電腦了!Claude 3.5重磅升級,搶先OpenAI

人工智能 新聞
Claude 3.5 Haiku 是 Anthropic 最快的模型的下一代。與 Claude 3 Haiku 的成本相同,速度相似,Claude 3.5 Haiku 在每項技能上都有改進(jìn),并且在許多智能基準(zhǔn)測試上甚至超過了 Anthropic 上一代最大的模型 ——Claude 3 Opus。

幾個小時前,Claude 3.5 模型迎來了一波大更新。Anthropic 推出了升級版的 Claude 3.5 Sonnet 以及一款新模型 Claude 3.5 Haiku。

其中,升級版 Claude 3.5 Sonnet 的各項能力全面勝過之前版本,其中代碼能力提升顯著。Claude 3.5 Haiku 的性能則與之前最大模型 Claude 3 Opus 的性能相當(dāng),同時在成本和速度上與上一代 Haiku 相近。

最值得關(guān)注的是,Claude 3.5 Sonnet 版本號雖未提升,但卻迎來了史詩級大更新:能像人一樣使用計算機了!

最新版本的 Claude 3.5 Sonnet 能夠根據(jù)用戶指令移動光標(biāo)、點擊相應(yīng)位置以及通過虛擬鍵盤輸入信息,模仿人類與計算機的交互方式。

Anthropic 表示,Claude 3.5 Sonnet 是首個提供「計算機使用」能力公開 beta 測試的前沿 AI 模型,不過其也指出目前該工具還處于實驗階段 —— 有時候會很麻煩且容易出錯。目前這個功能更多地是面向開發(fā)者,以便獲得他們的使用反饋。

圖片

目前,「使用計算機」功能已經(jīng)有了公開測試版,大家可以申請試用。申請表單:https://docs.google.com/forms/d/e/1FAIpQLSeD3IqITWsuepB19SEv889HsBvN9WOi6HRblPrJNyA9G7q02w/viewform

該功能發(fā)布后,網(wǎng)友紛紛點贊,都表示迫不及待想要嘗試這個功能;當(dāng)然也有網(wǎng)友對 Claude 3.5 Sonnet 依然使用原來的名稱表達(dá)了深深地不解:「為什么這么大的更新卻連模型版本號都不改一下?」

圖片

并且發(fā)布不過幾個小時,就已經(jīng)有開發(fā)者嘗試了 Claude 3.5 Sonnet 的這項新能力。網(wǎng)友 Mckay Wrigley 表示通過 API 使用這項新功能,設(shè)置時間不超過 10 分鐘,而這項能力卻能為 AI 開啟無限可能,堪稱 game changer。

圖片

順帶一提,在 Anthropic 更新 Claude 3.5 的同時,熱門 AI 編程工具 Cursor 也已經(jīng)成功接入 Claude 系列模型。根據(jù)許多網(wǎng)友分享的截圖,接入 Cursor 的 Claude 3.5 Sonnet 正是最新的 20241022 版本!

另外,對于官方博客中缺少的與 OpenAI ο1 模型的性能對比,也已經(jīng)有研究者搶先完成了。根據(jù)研究者 Austin Starks 的實驗,最新版 Claude 3.5 Sonnet 的性能表現(xiàn)優(yōu)于 OpenAI ο1-mini。他自己也對這一結(jié)果深表震驚。

圖片

詳細(xì)報告請訪問:https://medium.com/@austin-starks/claudes-new-3-5-sonnet-outperformed-openai-s-o1-mini-i-m-shocked-58c9ee1993ea

讓 AI 使用計算機有什么用?

為什么說這個功能很重要?我們知道,現(xiàn)代的大量工作都是通過計算機完成的。如果能讓 AI 像人類一樣直接與計算機軟件交互,將解鎖大量當(dāng)前一代 AI 助手無法實現(xiàn)的應(yīng)用。

過去幾年,強 AI 已經(jīng)實現(xiàn)了一個又一個里程碑,舉個例子,現(xiàn)在的強 AI 已經(jīng)有能力執(zhí)行復(fù)雜的邏輯推理和理解圖像內(nèi)容。下一個前沿就是使用計算機,AI 模型不必通過定制工具進(jìn)行交互,而是能夠遵照指示使用幾乎任何軟件。

Anthropic 表示,他們之前在工具使用和多模態(tài)方面的工作為這些新的計算機使用技能奠定了基礎(chǔ)。

操作計算機需要查看和解釋圖像的能力 —— 這里的圖像就是指計算機屏幕。它還需要推理能力,以了解以怎樣的方式在什么時間執(zhí)行特定的操作。整合這些能力后,Claude 便可具備解讀屏幕內(nèi)容并使用軟件工具執(zhí)行任務(wù)的能力。

該公司舉了個例子:如果用戶是一名開發(fā)者,使用的軟件有好幾個,同時也已經(jīng)給予了 Claude 適當(dāng)?shù)臋?quán)限,那么 Claude 就可以查看用戶能看到的屏幕,然后統(tǒng)計其所要移動的垂直和水平像素的數(shù)量,從而點擊到正確位置。因此,準(zhǔn)確統(tǒng)計像素數(shù)量的能力對 Claude 而言至關(guān)重要。沒有這項技能,模型就難以發(fā)出鼠標(biāo)指令 —— 類似于模型難以解決「banana 中有多少個 A?」 這樣的問題。

Anthropic 表示,在訓(xùn)練 Claude 使用計算機方面,僅使用少量簡單軟件(比如一個計算器和一個文本編輯器)進(jìn)行的訓(xùn)練就讓 Claude 可以泛化這種能力。這一點讓開發(fā)團隊自己都深感驚訝。至于為何使用這樣的簡單軟件,該團隊表示:「出于安全原因,我們并不允許模型在訓(xùn)練時訪問互聯(lián)網(wǎng)?!?/span>

再結(jié)合 Claude 的其它能力,這種訓(xùn)練賦予了它非凡的能力,可以將用戶的文本提示詞轉(zhuǎn)化為一系列邏輯步驟,然后在計算機上采取行動。開發(fā)團隊觀察到,如果遇阻,該模型甚至還能自我糾錯并重試任務(wù)。

他們表示:「雖然我們在取得初步突破后很快就取得了后續(xù)進(jìn)展,但達(dá)到這一目標(biāo)的過程經(jīng)歷了大量反復(fù)試驗?!乖摴镜囊恍┭芯空咧赋?,讓 Claude 具備使用計算機的能力接近他們剛開始從事該領(lǐng)域時所描繪的 AI 研究的「理想化」過程:不斷迭代和反復(fù)回到繪圖板,直到取得進(jìn)展。

終于,研究獲得了回報。目前,Claude 可以說是當(dāng)之無愧的 SOTA 模型,其使用計算機的方式與人類相同 —— 即查看屏幕再采取行動。在 OSWorld 這項測試模型使用計算機的能力的評估基準(zhǔn)上,Claude 當(dāng)前的準(zhǔn)確度為 14.9%,雖然遠(yuǎn)遠(yuǎn)不及人類水平(通常為 70-75%),但卻遠(yuǎn)高于在此基準(zhǔn)上排名第二的 AI 模型(7.8%)。當(dāng)給予更多的步驟來完成任務(wù)時,Claude 得分為 22.0%。

圖片

OSWorld 基準(zhǔn)上當(dāng)前排名前十的模型

確保計算機使用安全

人工智能的每一次進(jìn)步都會帶來新的安全挑戰(zhàn)。計算機的使用主要是降低人工智能系統(tǒng)應(yīng)用現(xiàn)有認(rèn)知技能的障礙,而不是從根本上提高這些技能,因此 Anthropic 對計算機使用的主要關(guān)注點是當(dāng)前的危害,而不是未來的危害。

Anthropic 通過評估計算機的使用是否會增加其《負(fù)責(zé)任擴展政策》中列出的前沿威脅(frontier threats)的風(fēng)險來證實這一點。更新后的 Claude 3.5 Sonnet,包括其新的計算機使用技能,仍處于 AI Safety Level 2,也就是說,它不需要比 Anthropic 目前采取的安全措施更高標(biāo)準(zhǔn)的安全措施。

未來的模型可能會帶來災(zāi)難性的風(fēng)險,計算機的使用可能會加劇這些風(fēng)險,因此需要 AI Safety Level 3 或 4 的保障措施。Anthropic 認(rèn)為現(xiàn)在引入計算機使用可能會更好,而模型仍然只需要 AI Safety Level 2 的保障。這意味著可以在風(fēng)險過高之前開始解決任何安全問題。

因此,Anthropic 的信任與安全團隊對計算機使用模型進(jìn)行了廣泛的分析,以識別潛在的漏洞。他們發(fā)現(xiàn)的一個問題是「提示詞注入」—— 一種網(wǎng)絡(luò)攻擊,會輸入惡意指令到人工智能模型,導(dǎo)致其要么覆蓋先前的指令,要么執(zhí)行偏離用戶原始意圖的意外操作。由于 Claude 可以解讀連接到互聯(lián)網(wǎng)的計算機的屏幕截圖,因此它可能會暴露于包含提示詞注入攻擊的內(nèi)容。

默認(rèn)情況下,Anthropic 不會使用用戶提交的數(shù)據(jù)(包括 Claude 收到的任何屏幕截圖)來訓(xùn)練其生成式 AI 模型。

「計算機使用」的未來

計算機的使用是一種完全不同的人工智能開發(fā)方法。到目前為止,LLM 開發(fā)人員已經(jīng)制作了適合模型的工具,生成了自定義環(huán)境,人工智能可以使用專門設(shè)計的工具來完成各種任務(wù)。

現(xiàn)在,Anthropic 的研究者可以讓模型適應(yīng)工具 —— Claude 可以融入我們?nèi)粘J褂玫挠嬎銠C環(huán)境中。他們的目標(biāo)是讓 Claude 能夠利用現(xiàn)有的計算機軟件,并像人類一樣簡單地使用它們。

研究者構(gòu)建了一個 API,使 Claude 能夠感知計算機界面并與之交互。該 API 使 Claude 能夠?qū)⑻崾驹~翻譯成計算機命令。開發(fā)人員可以使用它來自動執(zhí)行重復(fù)性任務(wù)、進(jìn)行測試和 QA 以及進(jìn)行開放式研究。


研究者并沒有制作專門的工具來幫助 Claude 完成個別任務(wù),而是教它通用的計算機技能,讓它能夠使用為人類設(shè)計的各種標(biāo)準(zhǔn)工具和軟件程序。

不過,Anthropic 還有很多工作要做。盡管目前 Claude 處于技術(shù)的最前沿,但它使用計算機的速度仍然緩慢且經(jīng)常出錯。人們在計算機上常規(guī)進(jìn)行的許多操作(如拖動、縮放等)Claude 還無法完成。

對于 Claude 來說,它觀察到的屏幕「翻頁」方式 —— 是通過拍攝屏幕截圖并將它們拼接起來的方式,而不是觀察更細(xì)粒度的視頻流。這種方式意味著 Claude 可能會錯過那些短暫的操作或通知。 

甚至在錄制計算機使用演示時,研究者也遇到了一些有趣的錯誤。其中一個錯誤是,Claude 不小心點擊停止了長時間的屏幕錄制,導(dǎo)致所有鏡頭都丟失。另一個錯誤是,Claude 突然中斷了現(xiàn)場的編碼演示,開始瀏覽黃石國家公園的照片。

圖片

圖片

研究者預(yù)期對計算機的使用將迅速改進(jìn),變得更快、更可靠,并更有助于用戶完成他們想要完成的任務(wù)。對于那些軟件開發(fā)經(jīng)驗較少的人來說,實施起來也將變得更加容易。并且在每一個階段,研究人員都將與安全團隊緊密合作,確保 Claude 的新功能更加安全。

Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已經(jīng)開始探索「計算機使用」的各種可能性,執(zhí)行那些需要幾十個、有時甚至幾百個步驟才能完成的任務(wù)。例如,Replit 正在利用 Claude 3.5 Sonnet 的計算機使用和 UI 導(dǎo)航能力,為其 Replit Agent 產(chǎn)品開發(fā)一個關(guān)鍵功能,該功能可以在構(gòu)建應(yīng)用程序時評估這些應(yīng)用程序。

升級版的 Claude 3.5 Sonnet 現(xiàn)在對所有用戶開放。從今天開始,開發(fā)者可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用「計算機使用」的測試版進(jìn)行構(gòu)建。新的 Claude 3.5 Haiku 將在本月晚些時候發(fā)布。

圖片

Claude 3.5 Sonnet:行業(yè)領(lǐng)先的軟件工程技能

更新版的 Claude 3.5 Sonnet 在行業(yè)基準(zhǔn)測試中顯示出廣泛的改進(jìn),特別是在智能體編碼和工具使用任務(wù)上取得了顯著的提升。在編碼方面,其在 SWE-bench Verified 上的性能從 33.4% 提高到 49.0%,得分高于所有公開可用的模型 —— 包括像 OpenAI o1-preview 這樣的推理模型和專為智能體編碼設(shè)計的專門系統(tǒng)。它在 TAU-bench 上的表現(xiàn)也有所提升,這是一個智能體工具使用任務(wù),在零售領(lǐng)域的得分從 62.6% 提高到了 69.2%,在更具挑戰(zhàn)性的航空領(lǐng)域則從 36.0% 提高到了 46.0%。新的 Claude 3.5 Sonnet 以與其前代相同的價格和速度提供了這些改進(jìn)。

早期客戶反饋表明,升級版的 Claude 3.5 Sonnet 代表了 AI 驅(qū)動編碼的重大飛躍。GitLab 針對 DevSecOps 任務(wù)對該模型進(jìn)行了測試,發(fā)現(xiàn)它提供了更強的推理能力(在用例中高達(dá) 10%),并且沒有增加延遲,這使其成為驅(qū)動多步驟軟件開發(fā)流程的理想選擇。Cognition 使用新的 Claude 3.5 Sonnet 進(jìn)行自主 AI 評估,與前一版本相比,它在編碼、規(guī)劃和問題解決方面經(jīng)歷了顯著的改進(jìn)。The Browser Company 在用于自動化基于 Web 的工作流程時,注意到 Claude 3.5 Sonnet 的表現(xiàn)超過了他們之前測試過的每一個模型。

Claude 3.5 Haiku:SOTA 技術(shù)與性價比和速度的結(jié)合

Claude 3.5 Haiku 是 Anthropic 最快的模型的下一代。與 Claude 3 Haiku 的成本相同,速度相似,Claude 3.5 Haiku 在每項技能上都有改進(jìn),并且在許多智能基準(zhǔn)測試上甚至超過了 Anthropic 上一代最大的模型 ——Claude 3 Opus。Claude 3.5 Haiku 在編碼任務(wù)上尤其強大。例如,它在 SWE-bench Verified 上的得分為 40.6%,超過了使用公開可用的 SOTA 模型的許多智能體 —— 包括原始的 Claude 3.5 Sonnet 和 GPT-4o。

憑借低延遲、改進(jìn)的指令遵循和更準(zhǔn)確的工具使用,Claude 3.5 Haiku 非常適合面向用戶的產(chǎn)品、專門的 sub-agent 任務(wù)以及從大量數(shù)據(jù)(如購買歷史、定價或庫存記錄)中生成個性化體驗。

Claude 3.5 Haiku 將于本月晚些時候通過 Anthropic 的第一方 API、Amazon Bedrock, 和谷歌云的 Vertex AI 提供 —— 最初作為僅限文本的模型,隨后將支持圖像輸入。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-05-26 17:15:40

AI搜索

2015-03-10 10:32:21

蘋果2015MacBook Air

2023-07-19 09:00:00

模型AI

2018-08-08 11:11:28

2021-08-21 15:13:59

手機面板屏幕

2024-01-15 06:14:05

2018-05-31 21:07:14

工業(yè)4.0工業(yè)物聯(lián)網(wǎng)IIoT

2024-04-03 13:50:00

開源模型

2020-11-19 14:30:26

iOSSafari翻譯

2017-10-17 14:18:45

2019-03-05 10:03:17

阿里云云廠商硬盤

2018-03-29 13:33:45

2024-10-23 09:20:00

2023-12-05 09:59:42

人工智能

2009-11-26 13:31:56

2025-03-25 10:17:55

2021-04-23 15:13:16

算法模型技術(shù)

2018-11-27 10:25:05

2024-10-30 13:40:00

點贊
收藏

51CTO技術(shù)棧公眾號