自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Claude 3.5深夜覺醒,學(xué)會模仿人類用電腦!編程干翻o1,Agent一夜變天

人工智能 新聞
太科幻了,深夜上線的Claude,可以像人類一樣使用計算機(jī)了?查看屏幕、移動光標(biāo)、點擊按鈕、輸入文本,還能查找代碼錯誤、自動搜集信息填表。AI推理已至瓶頸,下一個爆破點,就是AI操作電腦!

Claude 3.5深夜迎來重磅升級!

不出所料,Anthropic AI這周終于有了大動作——首發(fā)Claude 3.5 Haiku,全新升級版Claude 3.5 Sonnet也來了。

圖片

不過,「超大杯」Opus依然沒有亮相。

讓人驚艷的是,進(jìn)化后的Claude 3.5 Sonnet一舉擊潰OpenAI o1,堪稱最強(qiáng)推理模型。

它在各個方面得到了全面顯著的提升,尤其是業(yè)界領(lǐng)先的編碼能力。

圖片

而Claude 3.5 Haiku與上一代最強(qiáng)Claude 3 Opus性能相當(dāng),成本、速度與上一代Haiku相近。

甚至,Claude現(xiàn)在能夠像人類一樣操作計算機(jī),不僅可以查看屏幕、移動光標(biāo),還可以單機(jī)按鈕、鍵入文本!

Anthropic開發(fā)者關(guān)系主管表示,「計算機(jī)使用」是全新人機(jī)交互范式的第一步。同時也是,AI模型應(yīng)該具備的全新基礎(chǔ)能力。

圖片

圖片

許多做瀏覽器智能體的初創(chuàng)公司,一夜之間過時了。

圖片

網(wǎng)友們紛紛感嘆:Agent和工作流都要變天了……

會自己用電腦的AI來了?

在公測中,Anthropic引入一項突破性的新功能:計算機(jī)使用能力。從今天起,開發(fā)者可以通過API,指導(dǎo)Claude像人類一樣使用計算機(jī)了。

Claude 3.5 Sonnet是首個在公測中提供此功能的模型。

當(dāng)然,這項功能仍處于實驗階段,使用起來還有些笨拙,可能出錯。而Anthropic選擇提前發(fā)布此功能,也是為了獲得開發(fā)者反饋,將之快速改進(jìn)。

為什么要訓(xùn)練AI操作電腦?

Anthropic表示,在過去幾年里,強(qiáng)大的AI開發(fā)已經(jīng)達(dá)到了許多里程碑,比如執(zhí)行復(fù)雜邏輯推理,以及識別和理解圖像的能力。

而下一個突破點,就是AI操作電腦了!如果模型不必通過專門定制的工具進(jìn)行交互,而是按指示就能使用所有軟件,這一定代表著未來的方向。

基本電腦操作

在這個demo中,Anthropic研究員給Claude提出了一個極有難度的挑戰(zhàn):

我的朋友要來舊金山,我想明天早上和他一起在金門大橋看日出。我們將從太平洋高地出發(fā)。你能幫我們找到一個絕佳的觀賞地點,查看一下開車時間和日出時間,然后安排一個日歷活動,讓我們有足夠的時間到達(dá)那里嗎?

Claude自行打開了Google,開始了搜索。

圖片

金門大橋和用戶居住地有多遠(yuǎn)呢?Claude會自己打開地圖查找距離。

圖片

了解所需信息之后,它打開了日歷,為主人安排好了日程。

自動編碼寫網(wǎng)站

開發(fā)者展示出Claude如何操控了自己的筆記本電腦,絲滑地完成了一個網(wǎng)站編程任務(wù)。

首先,Claude在小哥的Chrome瀏覽器中導(dǎo)航到了Claude.ai,并且讓Claude為自己創(chuàng)造了一個90年代主題的個人主頁。

只見它自己輸入網(wǎng)址,鍵入提示,向另一個Claude發(fā)出請求。

圖片

Claude.ai返回了一些代碼,渲染出來的畫面看起來很不錯,但小哥希望在自己的電腦本地上對網(wǎng)站做一些修改。

于是他讓Claude下載文件,然后在VS Code中將其打開。Claude成功完成了這些指令。

然后小哥讓Claude啟動了一個服務(wù)器,然后就可以在瀏覽器中實際查看這個文件了。

Claude打開了VS Code終端,嘗試啟動一個服務(wù)器,然后卻遇到了錯誤:機(jī)子上并沒有安裝Python。

結(jié)果,通過查看終端輸出,Claude自己發(fā)現(xiàn)了這個問題!它用Python 3再次嘗試,成功運(yùn)行起了服務(wù)器。

圖片

不過,終端輸出中有個錯誤,頂部還缺少了一個文件圖標(biāo)。開發(fā)者小哥請Claude來識別這個錯誤,在文件中修復(fù)它。

令人驚喜的是,Claude在VS Code中找到了引發(fā)錯誤的行,刪除了整行,然后保存文件、重新運(yùn)行網(wǎng)站。

圖片

這次,網(wǎng)站完全正確!

自動尋找數(shù)據(jù)填表

假設(shè)我們需要填寫一份來自「螞蟻設(shè)備公司」的供應(yīng)商請求表,但需要填寫的數(shù)據(jù)散步在電腦的各個角落,Claude能幫我們完成嗎?

只見它開始截取小哥的屏幕截圖,并且很快發(fā)現(xiàn):螞蟻設(shè)備公司并不在表格中。

圖片

這時,它立刻切換到CRM系統(tǒng)中,去搜索這個公司。找到后,它開始滾動頁面,查找填表所需的所有信息,然后提交了表格。

這也就意味著,我們工作中許多不得不做的繁瑣事項,都可以交由Claude代勞了!

圖片

現(xiàn)在,這個功能已經(jīng)在API中可用了。

現(xiàn)在,Asana、Canva、Cognition、DoorDash、Replit和The Browser Company等多家知名公司,已經(jīng)在探索Claude的新潛能,讓它們執(zhí)行數(shù)十步甚至數(shù)百步的復(fù)雜任務(wù)了。

比如,Replit正在利用Claude 3.5 Sonnet的計算機(jī)使用和用戶界面導(dǎo)航能力,為Replit Agent開發(fā)功能,在構(gòu)建應(yīng)用程序過程中對其實時評估。

遠(yuǎn)低于人類,但未來可期

新升級后的Claude 3.5 Sonnet,電腦使用能力究竟如何?

在 OSWorld測試中,它在僅基于屏幕截圖的任務(wù)類別中得分為14.9%,明顯超越了排名第二的AI系統(tǒng)(7.8%)。

當(dāng)允許更多操作步驟來完成任務(wù)時,Claude得分提高到了22.0%。

這表明模型與環(huán)境的多次交互,能夠優(yōu)化任務(wù)性能。

雖然這一結(jié)果比之前有了大幅提升,但仍然遠(yuǎn)低于人類72.36%的表現(xiàn)。

這也暗示了,Claude 3.5 Sonnet未來還有很大的改進(jìn)空間。

圖片

畢竟,人類毫不費力完成的一些操作(滾動、拖動、縮放),目前對于Claude來說極具挑戰(zhàn)。

升級版Claude 3.5 Sonnet,編碼王者干翻o1

在各項行業(yè)基準(zhǔn)測試中,升級版Claude 3.5 Sonnet性能得到了全方位提升。

特別是,智能體編碼、工具使用任務(wù)中取得顯著突破。

圖片

論文地址:https://assets.anthropic.com/m/1cd9d098ac3e6467/original/Claude-3-Model-Card-October-Addendum.pdf

在編碼能力方面,它在SWE-bench Verified測試中,性能從33.4%大幅提升至49.0%。

這超越了所有公開可用的模型——包括OpenAI o1-preview等推理模型和專為智能體編碼設(shè)計的專門系統(tǒng)。

圖片

此外,在TAU-bench(一項評估智能體工具使用能力的基準(zhǔn)測試)中,Claude 3.5 Sonnet也表現(xiàn)出色:

在零售領(lǐng)域的得分從62.6%提高到69.2%,在更具挑戰(zhàn)性的航空領(lǐng)域則從36.0%躍升至46.0%。

圖片

從下表中,可以看出推理測試基準(zhǔn)GPQA(Diamond)上,新版Claude 3.5 Sonnet大幅超越GPT-4o。

圖片

在視覺QA、數(shù)學(xué)推理、文檔視覺問答、圖表問答、科學(xué)表格基準(zhǔn)測試中,Claude 3.5 Sonnet性能成為業(yè)界新標(biāo)桿。

圖片

值得一提的是,新版Claude 3.5 Sonnet性能突破同時,仍保持了與前代模型相同的價格和運(yùn)行速度。

一些早期測試用戶的反饋,進(jìn)一步印證了升級后Claude 3.5 Sonnet,在AI驅(qū)動編碼領(lǐng)域?qū)崿F(xiàn)「質(zhì)」的飛躍。

  1. GitLab:在DevSecOps任務(wù)測試中,發(fā)現(xiàn)Claude 3.5 Sonnet在不增加延遲的前提下,推理能力顯著提升(各用例最高提升10%),使其成為驅(qū)動復(fù)雜軟件開發(fā)流程的理想選擇
  2. Cognition:將新版Claude 3.5 Sonnet應(yīng)用于自主AI評估,在編碼、規(guī)劃和問題解決等方面,相較前代模型均取得了實質(zhì)性進(jìn)步
  3. The Browser Company:在使用該模型自動化網(wǎng)絡(luò)工作流程時發(fā)現(xiàn),Claude 3.5 Sonnet的表現(xiàn)超越了他們此前測試過的所有模型

此外,在安全部署前,Claude 3.5 Sonnet已經(jīng)在美國AI安全研究所(US AISI)和英國安全研究所(UK AISI)進(jìn)行了聯(lián)合測試。

而且,經(jīng)過自身評估,Anthorpic在「Responsible Scaling Policy」中制定的ASL-2標(biāo)準(zhǔn)仍然適用于新模型。

如前所述,升級版的Claude 3.5 Sonnet現(xiàn)在已經(jīng)可以在網(wǎng)頁、終端APP上使用了。

圖片

API的定價起始為每百萬輸入Token 3美元每百萬輸出Token 15美元。

通過使用智能緩存技術(shù)可節(jié)省高達(dá)90%的成本,而使用批處理API則可節(jié)省50%成本。

應(yīng)用場景

Claude 3.5 Sonnet能夠理解細(xì)微的指令和上下文,識別并糾正自身錯誤,還能從復(fù)雜數(shù)據(jù)中生成深入的分析和洞察。結(jié)合最先進(jìn)的編碼、視覺識別和寫作能力,Claude 3.5 Sonnet可以被應(yīng)用于各種場景。

- 模擬人類操作電腦

通過API集成Claude,開發(fā)者可以指導(dǎo)Claude像人類一樣使用電腦——通過觀察屏幕、移動鼠標(biāo)、點擊按鈕和鍵入文字。Claude 3.5 Sonnet是首個能夠以這種方式可靠使用電腦的前沿AI模型,雖然目前在公開測試階段仍具實驗性質(zhì),但其能力會隨時間持續(xù)提升。

- 代碼自動生成

Claude 3.5 Sonnet可以協(xié)助整個軟件開發(fā)生命周期——從初始設(shè)計到錯誤修復(fù),從系統(tǒng)維護(hù)到性能優(yōu)化??梢灾苯訉⑺患傻疆a(chǎn)品中,或通過Claude.ai平臺將其用作智能編碼助手。

- 智能對話系統(tǒng)

憑借增強(qiáng)的推理能力和親和、自然的語氣,Claude 3.5 Sonnet非常適合開發(fā)需要跨系統(tǒng)連接數(shù)據(jù)并執(zhí)行操作的智能對話系統(tǒng)。

- 智能知識問答

Claude 3.5 Sonnet具有大規(guī)模上下文處理能力和極低的幻覺率,使其成為處理大型知識庫、文檔和代碼庫問答任務(wù)的理想選擇。

- 視覺信息提取

Claude 3.5 Sonnet能夠輕松從圖表、圖形和復(fù)雜示意圖等視覺材料中提取信息——這使其成為數(shù)據(jù)分析和數(shù)據(jù)科學(xué)任務(wù)的理想人工智能模型。

- 流程自動化

Claude 3.5 Sonnet能夠?qū)崿F(xiàn)重復(fù)性任務(wù)或流程的自動化。它具備業(yè)界領(lǐng)先的指令執(zhí)行能力,能夠處理復(fù)雜的流程和操作。

全新Claude 3.5 Haiku,智能超越上代老大哥

從上一代對標(biāo)來看,Claude 3.5 Haiku稱得上是「最小杯」。

這是Anthropic速度最快的模型。

它不僅保持樂了與Claude 3 Haiku相同的運(yùn)行成本和相近的處理速度,還在各項技能全面提升。

甚至,在多項智能基準(zhǔn)測試中,Claude 3.5 Haiku超越了上一代最強(qiáng)大的模型Claude 3 Opus。

同樣,Claude 3.5 Haiku在編碼任務(wù)上的表現(xiàn)尤為卓越。

比如,在SWE-bench Verified測試中,它取得了40.6%的高分,超越了許多使用公開可用的最先進(jìn)模型的AI智能體——包括原始版本的Claude 3.5 Sonnet和GPT-4o。

圖片

Claude 3.5 Haiku具備了三點突出優(yōu)勢:

1. 低延遲響應(yīng)

2. 更精準(zhǔn)的指令執(zhí)行能力

3. 更準(zhǔn)確的工具使用

這些特性使得模型特別適用于,面向用戶的產(chǎn)品開發(fā)、專門的子智能體任務(wù)處理、基于海量數(shù)據(jù)(如購買記錄、價格信息或庫存數(shù)據(jù))生成個性化體驗。

本月末,Claude 3.5 Haiku將在多個平臺上推出,包括Anthropic API、Amazon Bedrock和谷歌云的Vertex AI。(最初會以純文本模型形式推出,隨后會加入圖像輸入功能)

Claude 3.5 Haiku的定價起始為每百萬輸入Token 0.25美元,每百萬輸出Token 1.25美元。

通過使用提示詞緩存技術(shù)可節(jié)省高達(dá)90%的成本,而使用消息批處理API則可節(jié)省50%的成本。

應(yīng)用場景

憑借快速的處理速度、改進(jìn)的指令執(zhí)行能力和更準(zhǔn)確的工具使用,Claude 3.5 Haiku非常適合面向用戶的產(chǎn)品、專門的輔助任務(wù),以及從海量數(shù)據(jù)中生成個性化體驗。

- 代碼自動補(bǔ)全

Claude 3.5 Haiku能夠提供快速、準(zhǔn)確的代碼建議和補(bǔ)全,有效加速開發(fā)工作流程。特別適合那些希望簡化編碼過程并提高生產(chǎn)力的軟件開發(fā)團(tuán)隊。

- 智能聊天機(jī)器人

借助增強(qiáng)的對話能力和快速的響應(yīng)時間,Claude 3.5 Haiku在驅(qū)動能處理大量用戶互動的響應(yīng)式聊天機(jī)器人方面表現(xiàn)出色。對于需要可擴(kuò)展互動能力的客戶服務(wù)、電子商務(wù)和教育平臺來說,它尤其有價值。

- 數(shù)據(jù)提取和自動標(biāo)注

Claude 3.5 Haiku能高效處理和分類信息,在快速數(shù)據(jù)提取和自動標(biāo)注任務(wù)中表現(xiàn)優(yōu)異。這一能力對于需要處理金融、醫(yī)療保健和研究領(lǐng)域大量非結(jié)構(gòu)化數(shù)據(jù)的組織特別有用。

- 自動實時內(nèi)容審核

Claude 3.5 Haiku通過其改進(jìn)的推理和內(nèi)容理解能力,提供可靠、即時的內(nèi)容審核服務(wù)。這對于那些需要大規(guī)模維護(hù)安全、適當(dāng)內(nèi)容的社交平臺、在線社區(qū)和媒體組織來說極具價值。

如何教會Claude操作電腦

Anthropic表示,人類輕松執(zhí)行的操作——滾動、拖拽、縮放,目前對Claude來說仍然很有挑戰(zhàn)性。

而對于垃圾郵件、虛假信息、欺詐這類風(fēng)險,公司正在尋找安全部署的策略,比如開發(fā)了識別系統(tǒng),檢測是否發(fā)生危害。

研究過程

Anthropic在工具使用和多模態(tài)的工作,為AI識別和解釋圖像奠定了基礎(chǔ)。

在此基礎(chǔ)上,Claude還需要推理如何以及何時根據(jù)屏幕內(nèi)容執(zhí)行操作。

為此,研究者訓(xùn)練Claude準(zhǔn)確計算像素,從而完成命令,因為它必須計算出需要垂直或水平移動鼠標(biāo)指針多少像素,才能點擊正確的位置。

在此期間,Claude迅速將學(xué)習(xí)成功從計算器和文本編輯器這類簡單軟件的訓(xùn)練中,遷移到了其他應(yīng)用(注意,期間它不允許聯(lián)網(wǎng))。

這種訓(xùn)練讓它能將用戶指令轉(zhuǎn)化為一系列邏輯步驟,執(zhí)行操作。遇到障礙時,甚至還能自我糾正、重試任務(wù)。

小插曲

Anthropic開發(fā)者關(guān)系主管Alex Albert還分享了,團(tuán)隊在開發(fā)計算機(jī)使用功能時的一個有趣故事。

當(dāng)時,他們舉行了一場工程師的bug bash(漏洞排查活動),以確保發(fā)現(xiàn)API所有潛在的問題。

這意味著,要把一群工程師關(guān)在一個房間里幾個小時。

當(dāng)時,恰好大家都餓了。其中一位工程師靈機(jī)一閃,「不如讓Claude來個實戰(zhàn)演習(xí),自主打開DoorDash幫我們訂餐」。

沒想到,大約一分鐘后,Claude為工程師們定來了披薩。

圖片

展望未來

AI操作電腦能力代表了一種全新的人工智能開發(fā)方法。

迄今為止,LLM開發(fā)者一直在努力使工具適應(yīng)模型,創(chuàng)造特殊的環(huán)境,讓AI使用專門設(shè)計的工具來完成各種任務(wù)。

現(xiàn)在,Anthropic「反其道而行之」——他們選擇讓模型去適應(yīng)工具。也就是,Claude能像人類一樣,融入我們?nèi)粘J褂玫挠嬎銠C(jī)環(huán)境,直接使用現(xiàn)有的軟件。

雖然Claude已經(jīng)達(dá)到了當(dāng)前的最高水平,但它的操作仍然相對緩慢且容易出錯。我們?nèi)粘J褂秒娔X時的許多操作,如拖拽、縮放等,Claude都還無法做到。

此外,Claude目前觀察屏幕的方式類似于快速翻閱一本「畫冊」——通過連續(xù)截圖并拼接在一起,而不是觀察連續(xù)的視頻流。這意味著它可能會錯過一些短暫的動作或通知。

有趣的是,Anthropic在錄制Demo時,還遇到了一些有趣的小插曲。

比如,在一次演示中,Claude不小心點擊停止了一個長時間運(yùn)行的屏幕錄制,導(dǎo)致所有錄像都付諸東流。

而在另一次編碼演示中,Claude則突然「走神」,開始饒有興趣地瀏覽起黃石國家公園的照片。

圖片

總之,Claude如今的表現(xiàn)讓人對未來充滿期待:AI操作電腦的能力將神速進(jìn)步,那一天,軟件開發(fā)小白都能輕松使用它。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-10-24 14:02:43

2024-11-07 15:40:00

2024-11-25 12:50:14

2024-12-26 17:13:17

AI模型訓(xùn)練

2024-10-23 08:54:07

2024-07-24 11:30:04

2024-05-21 13:07:38

2024-12-09 08:00:00

AI大模型人工智能

2025-04-17 06:10:57

2024-10-30 13:40:00

2021-04-06 09:19:33

自動駕駛數(shù)據(jù)人工智能

2024-12-16 09:00:00

AI架構(gòu)訓(xùn)練

2023-05-26 17:15:40

AI搜索

2024-10-30 14:25:00

GitHub模型

2025-04-03 13:35:49

2024-12-23 07:40:00

AI模型數(shù)學(xué)

2024-09-13 14:01:12

2024-02-20 12:50:51

GPT-4人工智能芯片

2024-12-12 11:29:51

點贊
收藏

51CTO技術(shù)棧公眾號