自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="vinqk"></blockquote>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

一夜之間，大模型像人一樣操控電腦了！Claude 3.5重磅升級，搶先OpenAI

作者：機器之心 2024-10-23 08:54:07

人工智能新聞

Claude 3.5 Haiku 是 Anthropic 最快的模型的下一代。與 Claude 3 Haiku 的成本相同，速度相似，Claude 3.5 Haiku 在每項技能上都有改進(jìn)，并且在許多智能基準(zhǔn)測試上甚至超過了 Anthropic 上一代最大的模型 ——Claude 3 Opus。

幾個小時前，Claude 3.5 模型迎來了一波大更新。Anthropic 推出了升級版的 Claude 3.5 Sonnet 以及一款新模型 Claude 3.5 Haiku。

其中，升級版 Claude 3.5 Sonnet 的各項能力全面勝過之前版本，其中代碼能力提升顯著。Claude 3.5 Haiku 的性能則與之前最大模型 Claude 3 Opus 的性能相當(dāng)，同時在成本和速度上與上一代 Haiku 相近。

最值得關(guān)注的是，Claude 3.5 Sonnet 版本號雖未提升，但卻迎來了史詩級大更新：能像人一樣使用計算機了！

最新版本的 Claude 3.5 Sonnet 能夠根據(jù)用戶指令移動光標(biāo)、點擊相應(yīng)位置以及通過虛擬鍵盤輸入信息，模仿人類與計算機的交互方式。

Anthropic 表示，Claude 3.5 Sonnet 是首個提供「計算機使用」能力公開 beta 測試的前沿 AI 模型，不過其也指出目前該工具還處于實驗階段 —— 有時候會很麻煩且容易出錯。目前這個功能更多地是面向開發(fā)者，以便獲得他們的使用反饋。

目前，「使用計算機」功能已經(jīng)有了公開測試版，大家可以申請試用。申請表單：https://docs.google.com/forms/d/e/1FAIpQLSeD3IqITWsuepB19SEv889HsBvN9WOi6HRblPrJNyA9G7q02w/viewform

該功能發(fā)布后，網(wǎng)友紛紛點贊，都表示迫不及待想要嘗試這個功能；當(dāng)然也有網(wǎng)友對 Claude 3.5 Sonnet 依然使用原來的名稱表達(dá)了深深地不解：「為什么這么大的更新卻連模型版本號都不改一下？」

并且發(fā)布不過幾個小時，就已經(jīng)有開發(fā)者嘗試了 Claude 3.5 Sonnet 的這項新能力。網(wǎng)友 Mckay Wrigley 表示通過 API 使用這項新功能，設(shè)置時間不超過 10 分鐘，而這項能力卻能為 AI 開啟無限可能，堪稱 game changer。

順帶一提，在 Anthropic 更新 Claude 3.5 的同時，熱門 AI 編程工具 Cursor 也已經(jīng)成功接入 Claude 系列模型。根據(jù)許多網(wǎng)友分享的截圖，接入 Cursor 的 Claude 3.5 Sonnet 正是最新的 20241022 版本！

另外，對于官方博客中缺少的與 OpenAI ο1 模型的性能對比，也已經(jīng)有研究者搶先完成了。根據(jù)研究者 Austin Starks 的實驗，最新版 Claude 3.5 Sonnet 的性能表現(xiàn)優(yōu)于 OpenAI ο1-mini。他自己也對這一結(jié)果深表震驚。

詳細(xì)報告請訪問：https://medium.com/@austin-starks/claudes-new-3-5-sonnet-outperformed-openai-s-o1-mini-i-m-shocked-58c9ee1993ea

讓 AI 使用計算機有什么用？

為什么說這個功能很重要？我們知道，現(xiàn)代的大量工作都是通過計算機完成的。如果能讓 AI 像人類一樣直接與計算機軟件交互，將解鎖大量當(dāng)前一代 AI 助手無法實現(xiàn)的應(yīng)用。

過去幾年，強 AI 已經(jīng)實現(xiàn)了一個又一個里程碑，舉個例子，現(xiàn)在的強 AI 已經(jīng)有能力執(zhí)行復(fù)雜的邏輯推理和理解圖像內(nèi)容。下一個前沿就是使用計算機，AI 模型不必通過定制工具進(jìn)行交互，而是能夠遵照指示使用幾乎任何軟件。

Anthropic 表示，他們之前在工具使用和多模態(tài)方面的工作為這些新的計算機使用技能奠定了基礎(chǔ)。

操作計算機需要查看和解釋圖像的能力 —— 這里的圖像就是指計算機屏幕。它還需要推理能力，以了解以怎樣的方式在什么時間執(zhí)行特定的操作。整合這些能力后，Claude 便可具備解讀屏幕內(nèi)容并使用軟件工具執(zhí)行任務(wù)的能力。

該公司舉了個例子：如果用戶是一名開發(fā)者，使用的軟件有好幾個，同時也已經(jīng)給予了 Claude 適當(dāng)?shù)臋?quán)限，那么 Claude 就可以查看用戶能看到的屏幕，然后統(tǒng)計其所要移動的垂直和水平像素的數(shù)量，從而點擊到正確位置。因此，準(zhǔn)確統(tǒng)計像素數(shù)量的能力對 Claude 而言至關(guān)重要。沒有這項技能，模型就難以發(fā)出鼠標(biāo)指令 —— 類似于模型難以解決「banana 中有多少個 A？」這樣的問題。

Anthropic 表示，在訓(xùn)練 Claude 使用計算機方面，僅使用少量簡單軟件（比如一個計算器和一個文本編輯器）進(jìn)行的訓(xùn)練就讓 Claude 可以泛化這種能力。這一點讓開發(fā)團隊自己都深感驚訝。至于為何使用這樣的簡單軟件，該團隊表示：「出于安全原因，我們并不允許模型在訓(xùn)練時訪問互聯(lián)網(wǎng)?！?/span>

再結(jié)合 Claude 的其它能力，這種訓(xùn)練賦予了它非凡的能力，可以將用戶的文本提示詞轉(zhuǎn)化為一系列邏輯步驟，然后在計算機上采取行動。開發(fā)團隊觀察到，如果遇阻，該模型甚至還能自我糾錯并重試任務(wù)。

他們表示：「雖然我們在取得初步突破后很快就取得了后續(xù)進(jìn)展，但達(dá)到這一目標(biāo)的過程經(jīng)歷了大量反復(fù)試驗?！乖摴镜囊恍┭芯空咧赋?，讓 Claude 具備使用計算機的能力接近他們剛開始從事該領(lǐng)域時所描繪的 AI 研究的「理想化」過程：不斷迭代和反復(fù)回到繪圖板，直到取得進(jìn)展。

終于，研究獲得了回報。目前，Claude 可以說是當(dāng)之無愧的 SOTA 模型，其使用計算機的方式與人類相同 —— 即查看屏幕再采取行動。在 OSWorld 這項測試模型使用計算機的能力的評估基準(zhǔn)上，Claude 當(dāng)前的準(zhǔn)確度為 14.9%，雖然遠(yuǎn)遠(yuǎn)不及人類水平（通常為 70-75%），但卻遠(yuǎn)高于在此基準(zhǔn)上排名第二的 AI 模型（7.8%）。當(dāng)給予更多的步驟來完成任務(wù)時，Claude 得分為 22.0%。

OSWorld 基準(zhǔn)上當(dāng)前排名前十的模型

確保計算機使用安全

人工智能的每一次進(jìn)步都會帶來新的安全挑戰(zhàn)。計算機的使用主要是降低人工智能系統(tǒng)應(yīng)用現(xiàn)有認(rèn)知技能的障礙，而不是從根本上提高這些技能，因此 Anthropic 對計算機使用的主要關(guān)注點是當(dāng)前的危害，而不是未來的危害。

Anthropic 通過評估計算機的使用是否會增加其《負(fù)責(zé)任擴展政策》中列出的前沿威脅（frontier threats）的風(fēng)險來證實這一點。更新后的 Claude 3.5 Sonnet，包括其新的計算機使用技能，仍處于 AI Safety Level 2，也就是說，它不需要比 Anthropic 目前采取的安全措施更高標(biāo)準(zhǔn)的安全措施。

未來的模型可能會帶來災(zāi)難性的風(fēng)險，計算機的使用可能會加劇這些風(fēng)險，因此需要 AI Safety Level 3 或 4 的保障措施。Anthropic 認(rèn)為現(xiàn)在引入計算機使用可能會更好，而模型仍然只需要 AI Safety Level 2 的保障。這意味著可以在風(fēng)險過高之前開始解決任何安全問題。

因此，Anthropic 的信任與安全團隊對計算機使用模型進(jìn)行了廣泛的分析，以識別潛在的漏洞。他們發(fā)現(xiàn)的一個問題是「提示詞注入」—— 一種網(wǎng)絡(luò)攻擊，會輸入惡意指令到人工智能模型，導(dǎo)致其要么覆蓋先前的指令，要么執(zhí)行偏離用戶原始意圖的意外操作。由于 Claude 可以解讀連接到互聯(lián)網(wǎng)的計算機的屏幕截圖，因此它可能會暴露于包含提示詞注入攻擊的內(nèi)容。

默認(rèn)情況下，Anthropic 不會使用用戶提交的數(shù)據(jù)（包括 Claude 收到的任何屏幕截圖）來訓(xùn)練其生成式 AI 模型。

「計算機使用」的未來

計算機的使用是一種完全不同的人工智能開發(fā)方法。到目前為止，LLM 開發(fā)人員已經(jīng)制作了適合模型的工具，生成了自定義環(huán)境，人工智能可以使用專門設(shè)計的工具來完成各種任務(wù)。

現(xiàn)在，Anthropic 的研究者可以讓模型適應(yīng)工具 —— Claude 可以融入我們?nèi)粘Ｊ褂玫挠嬎銠C環(huán)境中。他們的目標(biāo)是讓 Claude 能夠利用現(xiàn)有的計算機軟件，并像人類一樣簡單地使用它們。

研究者構(gòu)建了一個 API，使 Claude 能夠感知計算機界面并與之交互。該 API 使 Claude 能夠?qū)⑻崾驹~翻譯成計算機命令。開發(fā)人員可以使用它來自動執(zhí)行重復(fù)性任務(wù)、進(jìn)行測試和 QA 以及進(jìn)行開放式研究。

研究者并沒有制作專門的工具來幫助 Claude 完成個別任務(wù)，而是教它通用的計算機技能，讓它能夠使用為人類設(shè)計的各種標(biāo)準(zhǔn)工具和軟件程序。

不過，Anthropic 還有很多工作要做。盡管目前 Claude 處于技術(shù)的最前沿，但它使用計算機的速度仍然緩慢且經(jīng)常出錯。人們在計算機上常規(guī)進(jìn)行的許多操作（如拖動、縮放等）Claude 還無法完成。

對于 Claude 來說，它觀察到的屏幕「翻頁」方式 —— 是通過拍攝屏幕截圖并將它們拼接起來的方式，而不是觀察更細(xì)粒度的視頻流。這種方式意味著 Claude 可能會錯過那些短暫的操作或通知。

甚至在錄制計算機使用演示時，研究者也遇到了一些有趣的錯誤。其中一個錯誤是，Claude 不小心點擊停止了長時間的屏幕錄制，導(dǎo)致所有鏡頭都丟失。另一個錯誤是，Claude 突然中斷了現(xiàn)場的編碼演示，開始瀏覽黃石國家公園的照片。

研究者預(yù)期對計算機的使用將迅速改進(jìn)，變得更快、更可靠，并更有助于用戶完成他們想要完成的任務(wù)。對于那些軟件開發(fā)經(jīng)驗較少的人來說，實施起來也將變得更加容易。并且在每一個階段，研究人員都將與安全團隊緊密合作，確保 Claude 的新功能更加安全。

Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已經(jīng)開始探索「計算機使用」的各種可能性，執(zhí)行那些需要幾十個、有時甚至幾百個步驟才能完成的任務(wù)。例如，Replit 正在利用 Claude 3.5 Sonnet 的計算機使用和 UI 導(dǎo)航能力，為其 Replit Agent 產(chǎn)品開發(fā)一個關(guān)鍵功能，該功能可以在構(gòu)建應(yīng)用程序時評估這些應(yīng)用程序。

升級版的 Claude 3.5 Sonnet 現(xiàn)在對所有用戶開放。從今天開始，開發(fā)者可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用「計算機使用」的測試版進(jìn)行構(gòu)建。新的 Claude 3.5 Haiku 將在本月晚些時候發(fā)布。

Claude 3.5 Sonnet：行業(yè)領(lǐng)先的軟件工程技能

更新版的 Claude 3.5 Sonnet 在行業(yè)基準(zhǔn)測試中顯示出廣泛的改進(jìn)，特別是在智能體編碼和工具使用任務(wù)上取得了顯著的提升。在編碼方面，其在 SWE-bench Verified 上的性能從 33.4% 提高到 49.0%，得分高于所有公開可用的模型 —— 包括像 OpenAI o1-preview 這樣的推理模型和專為智能體編碼設(shè)計的專門系統(tǒng)。它在 TAU-bench 上的表現(xiàn)也有所提升，這是一個智能體工具使用任務(wù)，在零售領(lǐng)域的得分從 62.6% 提高到了 69.2%，在更具挑戰(zhàn)性的航空領(lǐng)域則從 36.0% 提高到了 46.0%。新的 Claude 3.5 Sonnet 以與其前代相同的價格和速度提供了這些改進(jìn)。

早期客戶反饋表明，升級版的 Claude 3.5 Sonnet 代表了 AI 驅(qū)動編碼的重大飛躍。GitLab 針對 DevSecOps 任務(wù)對該模型進(jìn)行了測試，發(fā)現(xiàn)它提供了更強的推理能力（在用例中高達(dá) 10%），并且沒有增加延遲，這使其成為驅(qū)動多步驟軟件開發(fā)流程的理想選擇。Cognition 使用新的 Claude 3.5 Sonnet 進(jìn)行自主 AI 評估，與前一版本相比，它在編碼、規(guī)劃和問題解決方面經(jīng)歷了顯著的改進(jìn)。The Browser Company 在用于自動化基于 Web 的工作流程時，注意到 Claude 3.5 Sonnet 的表現(xiàn)超過了他們之前測試過的每一個模型。

Claude 3.5 Haiku：SOTA 技術(shù)與性價比和速度的結(jié)合

Claude 3.5 Haiku 是 Anthropic 最快的模型的下一代。與 Claude 3 Haiku 的成本相同，速度相似，Claude 3.5 Haiku 在每項技能上都有改進(jìn)，并且在許多智能基準(zhǔn)測試上甚至超過了 Anthropic 上一代最大的模型 ——Claude 3 Opus。Claude 3.5 Haiku 在編碼任務(wù)上尤其強大。例如，它在 SWE-bench Verified 上的得分為 40.6%，超過了使用公開可用的 SOTA 模型的許多智能體 —— 包括原始的 Claude 3.5 Sonnet 和 GPT-4o。

憑借低延遲、改進(jìn)的指令遵循和更準(zhǔn)確的工具使用，Claude 3.5 Haiku 非常適合面向用戶的產(chǎn)品、專門的 sub-agent 任務(wù)以及從大量數(shù)據(jù)（如購買歷史、定價或庫存記錄）中生成個性化體驗。

Claude 3.5 Haiku 將于本月晚些時候通過 Anthropic 的第一方 API、Amazon Bedrock, 和谷歌云的 Vertex AI 提供 —— 最初作為僅限文本的模型，隨后將支持圖像輸入。

責(zé)任編輯：張燕妮來源：機器之心

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<tfoot id="1mqpu"><rt id="1mqpu"></rt></tfoot>

<pre id="1mqpu"><strike id="1mqpu"><input id="1mqpu"></input></strike></pre>

<blockquote id="1mqpu"><rt id="1mqpu"></rt></blockquote>

<style id="1mqpu"></style>

<blockquote id="1mqpu"><dfn id="1mqpu"></dfn></blockquote><s id="1mqpu"><li id="1mqpu"></li></s>