自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Claude 3.5深夜覺醒，學(xué)會模仿人類用電腦！編程干翻o1，Agent一夜變天

作者：新智元 2024-10-23 09:20:00

人工智能新聞

太科幻了，深夜上線的Claude，可以像人類一樣使用計算機(jī)了？查看屏幕、移動光標(biāo)、點擊按鈕、輸入文本，還能查找代碼錯誤、自動搜集信息填表。AI推理已至瓶頸，下一個爆破點，就是AI操作電腦！

Claude 3.5深夜迎來重磅升級！

不出所料，Anthropic AI這周終于有了大動作——首發(fā)Claude 3.5 Haiku，全新升級版Claude 3.5 Sonnet也來了。

不過，「超大杯」Opus依然沒有亮相。

讓人驚艷的是，進(jìn)化后的Claude 3.5 Sonnet一舉擊潰OpenAI o1，堪稱最強(qiáng)推理模型。

它在各個方面得到了全面顯著的提升，尤其是業(yè)界領(lǐng)先的編碼能力。

而Claude 3.5 Haiku與上一代最強(qiáng)Claude 3 Opus性能相當(dāng)，成本、速度與上一代Haiku相近。

甚至，Claude現(xiàn)在能夠像人類一樣操作計算機(jī)，不僅可以查看屏幕、移動光標(biāo)，還可以單機(jī)按鈕、鍵入文本！

Anthropic開發(fā)者關(guān)系主管表示，「計算機(jī)使用」是全新人機(jī)交互范式的第一步。同時也是，AI模型應(yīng)該具備的全新基礎(chǔ)能力。

許多做瀏覽器智能體的初創(chuàng)公司，一夜之間過時了。

網(wǎng)友們紛紛感嘆：Agent和工作流都要變天了……

會自己用電腦的AI來了？

在公測中，Anthropic引入一項突破性的新功能：計算機(jī)使用能力。從今天起，開發(fā)者可以通過API，指導(dǎo)Claude像人類一樣使用計算機(jī)了。

Claude 3.5 Sonnet是首個在公測中提供此功能的模型。

當(dāng)然，這項功能仍處于實驗階段，使用起來還有些笨拙，可能出錯。而Anthropic選擇提前發(fā)布此功能，也是為了獲得開發(fā)者反饋，將之快速改進(jìn)。

為什么要訓(xùn)練AI操作電腦？

Anthropic表示，在過去幾年里，強(qiáng)大的AI開發(fā)已經(jīng)達(dá)到了許多里程碑，比如執(zhí)行復(fù)雜邏輯推理，以及識別和理解圖像的能力。

而下一個突破點，就是AI操作電腦了！如果模型不必通過專門定制的工具進(jìn)行交互，而是按指示就能使用所有軟件，這一定代表著未來的方向。

基本電腦操作

在這個demo中，Anthropic研究員給Claude提出了一個極有難度的挑戰(zhàn)：

我的朋友要來舊金山，我想明天早上和他一起在金門大橋看日出。我們將從太平洋高地出發(fā)。你能幫我們找到一個絕佳的觀賞地點，查看一下開車時間和日出時間，然后安排一個日歷活動，讓我們有足夠的時間到達(dá)那里嗎？

Claude自行打開了Google，開始了搜索。

金門大橋和用戶居住地有多遠(yuǎn)呢？Claude會自己打開地圖查找距離。

了解所需信息之后，它打開了日歷，為主人安排好了日程。

自動編碼寫網(wǎng)站

開發(fā)者展示出Claude如何操控了自己的筆記本電腦，絲滑地完成了一個網(wǎng)站編程任務(wù)。

首先，Claude在小哥的Chrome瀏覽器中導(dǎo)航到了Claude.ai，并且讓Claude為自己創(chuàng)造了一個90年代主題的個人主頁。

只見它自己輸入網(wǎng)址，鍵入提示，向另一個Claude發(fā)出請求。

Claude.ai返回了一些代碼，渲染出來的畫面看起來很不錯，但小哥希望在自己的電腦本地上對網(wǎng)站做一些修改。

于是他讓Claude下載文件，然后在VS Code中將其打開。Claude成功完成了這些指令。

然后小哥讓Claude啟動了一個服務(wù)器，然后就可以在瀏覽器中實際查看這個文件了。

Claude打開了VS Code終端，嘗試啟動一個服務(wù)器，然后卻遇到了錯誤：機(jī)子上并沒有安裝Python。

結(jié)果，通過查看終端輸出，Claude自己發(fā)現(xiàn)了這個問題！它用Python 3再次嘗試，成功運(yùn)行起了服務(wù)器。

不過，終端輸出中有個錯誤，頂部還缺少了一個文件圖標(biāo)。開發(fā)者小哥請Claude來識別這個錯誤，在文件中修復(fù)它。

令人驚喜的是，Claude在VS Code中找到了引發(fā)錯誤的行，刪除了整行，然后保存文件、重新運(yùn)行網(wǎng)站。

這次，網(wǎng)站完全正確！

自動尋找數(shù)據(jù)填表

假設(shè)我們需要填寫一份來自「螞蟻設(shè)備公司」的供應(yīng)商請求表，但需要填寫的數(shù)據(jù)散步在電腦的各個角落，Claude能幫我們完成嗎？

只見它開始截取小哥的屏幕截圖，并且很快發(fā)現(xiàn)：螞蟻設(shè)備公司并不在表格中。

這時，它立刻切換到CRM系統(tǒng)中，去搜索這個公司。找到后，它開始滾動頁面，查找填表所需的所有信息，然后提交了表格。

這也就意味著，我們工作中許多不得不做的繁瑣事項，都可以交由Claude代勞了！

現(xiàn)在，這個功能已經(jīng)在API中可用了。

現(xiàn)在，Asana、Canva、Cognition、DoorDash、Replit和The Browser Company等多家知名公司，已經(jīng)在探索Claude的新潛能，讓它們執(zhí)行數(shù)十步甚至數(shù)百步的復(fù)雜任務(wù)了。

比如，Replit正在利用Claude 3.5 Sonnet的計算機(jī)使用和用戶界面導(dǎo)航能力，為Replit Agent開發(fā)功能，在構(gòu)建應(yīng)用程序過程中對其實時評估。

遠(yuǎn)低于人類，但未來可期

新升級后的Claude 3.5 Sonnet，電腦使用能力究竟如何？

在 OSWorld測試中，它在僅基于屏幕截圖的任務(wù)類別中得分為14.9%，明顯超越了排名第二的AI系統(tǒng)（7.8%）。

當(dāng)允許更多操作步驟來完成任務(wù)時，Claude得分提高到了22.0%。

這表明模型與環(huán)境的多次交互，能夠優(yōu)化任務(wù)性能。

雖然這一結(jié)果比之前有了大幅提升，但仍然遠(yuǎn)低于人類72.36%的表現(xiàn)。

這也暗示了，Claude 3.5 Sonnet未來還有很大的改進(jìn)空間。

畢竟，人類毫不費力完成的一些操作（滾動、拖動、縮放），目前對于Claude來說極具挑戰(zhàn)。

升級版Claude 3.5 Sonnet，編碼王者干翻o1

在各項行業(yè)基準(zhǔn)測試中，升級版Claude 3.5 Sonnet性能得到了全方位提升。

特別是，智能體編碼、工具使用任務(wù)中取得顯著突破。

論文地址：https://assets.anthropic.com/m/1cd9d098ac3e6467/original/Claude-3-Model-Card-October-Addendum.pdf

在編碼能力方面，它在SWE-bench Verified測試中，性能從33.4%大幅提升至49.0%。

這超越了所有公開可用的模型——包括OpenAI o1-preview等推理模型和專為智能體編碼設(shè)計的專門系統(tǒng)。

此外，在TAU-bench（一項評估智能體工具使用能力的基準(zhǔn)測試）中，Claude 3.5 Sonnet也表現(xiàn)出色：

在零售領(lǐng)域的得分從62.6%提高到69.2%，在更具挑戰(zhàn)性的航空領(lǐng)域則從36.0%躍升至46.0%。

從下表中，可以看出推理測試基準(zhǔn)GPQA（Diamond）上，新版Claude 3.5 Sonnet大幅超越GPT-4o。

在視覺QA、數(shù)學(xué)推理、文檔視覺問答、圖表問答、科學(xué)表格基準(zhǔn)測試中，Claude 3.5 Sonnet性能成為業(yè)界新標(biāo)桿。

值得一提的是，新版Claude 3.5 Sonnet性能突破同時，仍保持了與前代模型相同的價格和運(yùn)行速度。

一些早期測試用戶的反饋，進(jìn)一步印證了升級后Claude 3.5 Sonnet，在AI驅(qū)動編碼領(lǐng)域?qū)崿F(xiàn)「質(zhì)」的飛躍。

GitLab：在DevSecOps任務(wù)測試中，發(fā)現(xiàn)Claude 3.5 Sonnet在不增加延遲的前提下，推理能力顯著提升（各用例最高提升10%），使其成為驅(qū)動復(fù)雜軟件開發(fā)流程的理想選擇
Cognition：將新版Claude 3.5 Sonnet應(yīng)用于自主AI評估，在編碼、規(guī)劃和問題解決等方面，相較前代模型均取得了實質(zhì)性進(jìn)步
The Browser Company：在使用該模型自動化網(wǎng)絡(luò)工作流程時發(fā)現(xiàn)，Claude 3.5 Sonnet的表現(xiàn)超越了他們此前測試過的所有模型

此外，在安全部署前，Claude 3.5 Sonnet已經(jīng)在美國AI安全研究所（US AISI）和英國安全研究所（UK AISI）進(jìn)行了聯(lián)合測試。

而且，經(jīng)過自身評估，Anthorpic在「Responsible Scaling Policy」中制定的ASL-2標(biāo)準(zhǔn)仍然適用于新模型。

如前所述，升級版的Claude 3.5 Sonnet現(xiàn)在已經(jīng)可以在網(wǎng)頁、終端APP上使用了。

API的定價起始為每百萬輸入Token 3美元，每百萬輸出Token 15美元。

通過使用智能緩存技術(shù)可節(jié)省高達(dá)90%的成本，而使用批處理API則可節(jié)省50%成本。

應(yīng)用場景

Claude 3.5 Sonnet能夠理解細(xì)微的指令和上下文，識別并糾正自身錯誤，還能從復(fù)雜數(shù)據(jù)中生成深入的分析和洞察。結(jié)合最先進(jìn)的編碼、視覺識別和寫作能力，Claude 3.5 Sonnet可以被應(yīng)用于各種場景。

- 模擬人類操作電腦

通過API集成Claude，開發(fā)者可以指導(dǎo)Claude像人類一樣使用電腦——通過觀察屏幕、移動鼠標(biāo)、點擊按鈕和鍵入文字。Claude 3.5 Sonnet是首個能夠以這種方式可靠使用電腦的前沿AI模型，雖然目前在公開測試階段仍具實驗性質(zhì)，但其能力會隨時間持續(xù)提升。

- 代碼自動生成

Claude 3.5 Sonnet可以協(xié)助整個軟件開發(fā)生命周期——從初始設(shè)計到錯誤修復(fù)，從系統(tǒng)維護(hù)到性能優(yōu)化?？梢灾苯訉⑺患傻疆a(chǎn)品中，或通過Claude.ai平臺將其用作智能編碼助手。

- 智能對話系統(tǒng)

憑借增強(qiáng)的推理能力和親和、自然的語氣，Claude 3.5 Sonnet非常適合開發(fā)需要跨系統(tǒng)連接數(shù)據(jù)并執(zhí)行操作的智能對話系統(tǒng)。

- 智能知識問答

Claude 3.5 Sonnet具有大規(guī)模上下文處理能力和極低的幻覺率，使其成為處理大型知識庫、文檔和代碼庫問答任務(wù)的理想選擇。

- 視覺信息提取

Claude 3.5 Sonnet能夠輕松從圖表、圖形和復(fù)雜示意圖等視覺材料中提取信息——這使其成為數(shù)據(jù)分析和數(shù)據(jù)科學(xué)任務(wù)的理想人工智能模型。

- 流程自動化

Claude 3.5 Sonnet能夠?qū)崿F(xiàn)重復(fù)性任務(wù)或流程的自動化。它具備業(yè)界領(lǐng)先的指令執(zhí)行能力，能夠處理復(fù)雜的流程和操作。

全新Claude 3.5 Haiku，智能超越上代老大哥

從上一代對標(biāo)來看，Claude 3.5 Haiku稱得上是「最小杯」。

這是Anthropic速度最快的模型。

它不僅保持樂了與Claude 3 Haiku相同的運(yùn)行成本和相近的處理速度，還在各項技能全面提升。

甚至，在多項智能基準(zhǔn)測試中，Claude 3.5 Haiku超越了上一代最強(qiáng)大的模型Claude 3 Opus。

同樣，Claude 3.5 Haiku在編碼任務(wù)上的表現(xiàn)尤為卓越。

比如，在SWE-bench Verified測試中，它取得了40.6%的高分，超越了許多使用公開可用的最先進(jìn)模型的AI智能體——包括原始版本的Claude 3.5 Sonnet和GPT-4o。

Claude 3.5 Haiku具備了三點突出優(yōu)勢：

1. 低延遲響應(yīng)

2. 更精準(zhǔn)的指令執(zhí)行能力

3. 更準(zhǔn)確的工具使用

這些特性使得模型特別適用于，面向用戶的產(chǎn)品開發(fā)、專門的子智能體任務(wù)處理、基于海量數(shù)據(jù)（如購買記錄、價格信息或庫存數(shù)據(jù)）生成個性化體驗。

本月末，Claude 3.5 Haiku將在多個平臺上推出，包括Anthropic API、Amazon Bedrock和谷歌云的Vertex AI。（最初會以純文本模型形式推出，隨后會加入圖像輸入功能）

Claude 3.5 Haiku的定價起始為每百萬輸入Token 0.25美元，每百萬輸出Token 1.25美元。

通過使用提示詞緩存技術(shù)可節(jié)省高達(dá)90%的成本，而使用消息批處理API則可節(jié)省50%的成本。

應(yīng)用場景

憑借快速的處理速度、改進(jìn)的指令執(zhí)行能力和更準(zhǔn)確的工具使用，Claude 3.5 Haiku非常適合面向用戶的產(chǎn)品、專門的輔助任務(wù)，以及從海量數(shù)據(jù)中生成個性化體驗。

- 代碼自動補(bǔ)全

Claude 3.5 Haiku能夠提供快速、準(zhǔn)確的代碼建議和補(bǔ)全，有效加速開發(fā)工作流程。特別適合那些希望簡化編碼過程并提高生產(chǎn)力的軟件開發(fā)團(tuán)隊。

- 智能聊天機(jī)器人

借助增強(qiáng)的對話能力和快速的響應(yīng)時間，Claude 3.5 Haiku在驅(qū)動能處理大量用戶互動的響應(yīng)式聊天機(jī)器人方面表現(xiàn)出色。對于需要可擴(kuò)展互動能力的客戶服務(wù)、電子商務(wù)和教育平臺來說，它尤其有價值。

- 數(shù)據(jù)提取和自動標(biāo)注

Claude 3.5 Haiku能高效處理和分類信息，在快速數(shù)據(jù)提取和自動標(biāo)注任務(wù)中表現(xiàn)優(yōu)異。這一能力對于需要處理金融、醫(yī)療保健和研究領(lǐng)域大量非結(jié)構(gòu)化數(shù)據(jù)的組織特別有用。

- 自動實時內(nèi)容審核

Claude 3.5 Haiku通過其改進(jìn)的推理和內(nèi)容理解能力，提供可靠、即時的內(nèi)容審核服務(wù)。這對于那些需要大規(guī)模維護(hù)安全、適當(dāng)內(nèi)容的社交平臺、在線社區(qū)和媒體組織來說極具價值。

如何教會Claude操作電腦

Anthropic表示，人類輕松執(zhí)行的操作——滾動、拖拽、縮放，目前對Claude來說仍然很有挑戰(zhàn)性。

而對于垃圾郵件、虛假信息、欺詐這類風(fēng)險，公司正在尋找安全部署的策略，比如開發(fā)了識別系統(tǒng)，檢測是否發(fā)生危害。

研究過程

Anthropic在工具使用和多模態(tài)的工作，為AI識別和解釋圖像奠定了基礎(chǔ)。

在此基礎(chǔ)上，Claude還需要推理如何以及何時根據(jù)屏幕內(nèi)容執(zhí)行操作。

為此，研究者訓(xùn)練Claude準(zhǔn)確計算像素，從而完成命令，因為它必須計算出需要垂直或水平移動鼠標(biāo)指針多少像素，才能點擊正確的位置。

在此期間，Claude迅速將學(xué)習(xí)成功從計算器和文本編輯器這類簡單軟件的訓(xùn)練中，遷移到了其他應(yīng)用（注意，期間它不允許聯(lián)網(wǎng)）。

這種訓(xùn)練讓它能將用戶指令轉(zhuǎn)化為一系列邏輯步驟，執(zhí)行操作。遇到障礙時，甚至還能自我糾正、重試任務(wù)。

小插曲

Anthropic開發(fā)者關(guān)系主管Alex Albert還分享了，團(tuán)隊在開發(fā)計算機(jī)使用功能時的一個有趣故事。

當(dāng)時，他們舉行了一場工程師的bug bash（漏洞排查活動），以確保發(fā)現(xiàn)API所有潛在的問題。

這意味著，要把一群工程師關(guān)在一個房間里幾個小時。

當(dāng)時，恰好大家都餓了。其中一位工程師靈機(jī)一閃，「不如讓Claude來個實戰(zhàn)演習(xí)，自主打開DoorDash幫我們訂餐」。

沒想到，大約一分鐘后，Claude為工程師們定來了披薩。

展望未來

AI操作電腦能力代表了一種全新的人工智能開發(fā)方法。

迄今為止，LLM開發(fā)者一直在努力使工具適應(yīng)模型，創(chuàng)造特殊的環(huán)境，讓AI使用專門設(shè)計的工具來完成各種任務(wù)。

現(xiàn)在，Anthropic「反其道而行之」——他們選擇讓模型去適應(yīng)工具。也就是，Claude能像人類一樣，融入我們?nèi)粘Ｊ褂玫挠嬎銠C(jī)環(huán)境，直接使用現(xiàn)有的軟件。

雖然Claude已經(jīng)達(dá)到了當(dāng)前的最高水平，但它的操作仍然相對緩慢且容易出錯。我們?nèi)粘Ｊ褂秒娔X時的許多操作，如拖拽、縮放等，Claude都還無法做到。

此外，Claude目前觀察屏幕的方式類似于快速翻閱一本「畫冊」——通過連續(xù)截圖并拼接在一起，而不是觀察連續(xù)的視頻流。這意味著它可能會錯過一些短暫的動作或通知。

有趣的是，Anthropic在錄制Demo時，還遇到了一些有趣的小插曲。

比如，在一次演示中，Claude不小心點擊停止了一個長時間運(yùn)行的屏幕錄制，導(dǎo)致所有錄像都付諸東流。

而在另一次編碼演示中，Claude則突然「走神」，開始饒有興趣地瀏覽起黃石國家公園的照片。

總之，Claude如今的表現(xiàn)讓人對未來充滿期待：AI操作電腦的能力將神速進(jìn)步，那一天，軟件開發(fā)小白都能輕松使用它。

責(zé)任編輯：張燕妮來源：新智元

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<em id="kssmq"><big id="kssmq"><strong id="kssmq"></strong></big></em>

<em id="kssmq"><rt id="kssmq"></rt></em>