Anthropic 升級版 Claude 3.5 Sonnet 模型,像人一樣操控電腦?
在人工智能的創(chuàng)新之路上,Anthropic 公司再次成為焦點,其推出的升級版 Claude 3.5 Sonnet 模型引發(fā)了廣泛關(guān)注與熱議。一個核心問題擺在我們面前:它真的能夠像人一樣操控電腦嗎?
一、模型發(fā)展與新特性亮相
Claude 3.5 Sonnet 模型有著清晰的發(fā)展脈絡(luò)。2024 年 6 月 21 日首次推出時,它就憑借在編碼、視覺和自然語言理解能力等方面的出色表現(xiàn)嶄露頭角,在基準(zhǔn)測試中超越了諸多競爭對手。而 2024 年 10 月 22 日推出的升級版更是帶來了令人期待的新特性。
其中最引人矚目的當(dāng)屬“Computer Use”功能。這一功能的出現(xiàn),使得 Claude 3.5 Sonnet 模型具備了前所未有的能力——可以像人類用戶一樣操作計算機(jī)。它能夠理解并執(zhí)行諸如移動光標(biāo)、點擊按鈕、輸入文本等操作指令,通過屏幕觀察獲取信息,進(jìn)而與各種軟件和應(yīng)用進(jìn)行交互。這意味著,理論上它可以幫助用戶完成一系列復(fù)雜的電腦操作任務(wù),從簡單的數(shù)據(jù)錄入到復(fù)雜的多步驟流程處理,如在線填寫冗長的表格、精準(zhǔn)搜索特定數(shù)據(jù)、提交格式規(guī)范的報告等。
二、編程能力與性能提升
在編程領(lǐng)域,升級版 Claude 3.5 Sonnet 模型展現(xiàn)出了強大的實力提升。在 SWE - Bench Verified 測試中,其性能從原來的 33.4%大幅躍升至 49.0%,成功超越了包括 OpenAI O1 - preview 等在內(nèi)的所有公開可用模型。這一成績的取得,不僅體現(xiàn)了模型在編碼準(zhǔn)確性上的進(jìn)步,更預(yù)示著它在智能體編碼、工具使用任務(wù)等方面將發(fā)揮更大的作用。
早期客戶反饋也充分證實了這一提升的價值。GitLab 在針對 DevSecOps 任務(wù)的測試中發(fā)現(xiàn),該模型推理能力顯著增強(在不同用例中提升幅度高達(dá) 10%),且沒有增加延遲,非常適合為多步驟軟件開發(fā)流程提供支持。Cognition 利用其進(jìn)行自主 AI 評估,在編碼、規(guī)劃和問題解決能力方面相比之前版本有了大幅改進(jìn)。The Browser Company 在將該模型用于自動化基于網(wǎng)絡(luò)的工作流程時,也指出 Claude 3.5 Sonnet 的表現(xiàn)超越了他們此前測試過的所有模型。
三、實際應(yīng)用與行業(yè)探索
諸多企業(yè)已經(jīng)敏銳地察覺到了 Claude 3.5 Sonnet 模型的潛力,并開始積極探索其應(yīng)用可能性。Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 等公司走在了前列。例如,Replit 正在利用 Claude 3.5 Sonnet 的電腦操控和 UI 導(dǎo)航能力,為其 Replit Agent 產(chǎn)品開發(fā)一項關(guān)鍵功能,該功能可在應(yīng)用構(gòu)建過程中對其進(jìn)行評估。
然而,我們也必須清醒地認(rèn)識到,盡管該模型具備了像人一樣操控電腦的潛力,但目前其應(yīng)用仍處于探索階段,存在一定的局限性。在實際使用過程中,模型的操作速度和準(zhǔn)確性還有待進(jìn)一步提高。例如,它觀察屏幕的方式類似于快速翻閱畫冊,通過連續(xù)截圖并拼接來獲取信息,而非像人類一樣實時感知連續(xù)的視頻流,這就可能導(dǎo)致它錯過一些短暫出現(xiàn)的動作或通知,從而影響任務(wù)執(zhí)行的準(zhǔn)確性和效率。
四、安全性與可靠性考量
隨著模型具備操控電腦的能力,安全性和可靠性成為了至關(guān)重要的問題。一方面,人們擔(dān)心模型在訪問個人電腦文件和使用網(wǎng)絡(luò)瀏覽器時,可能會導(dǎo)致隱私泄露、數(shù)據(jù)安全受到威脅。另一方面,人工智能模型本身的可靠性也面臨挑戰(zhàn),例如模型可能會出現(xiàn)錯誤的操作指令解讀,進(jìn)而引發(fā)系統(tǒng)故障或數(shù)據(jù)錯誤。
為了應(yīng)對這些潛在風(fēng)險,Anthropic 公司采取了一系列積極措施。他們開發(fā)了新的分類器,用于識別模型何時在進(jìn)行電腦操控操作以及是否存在潛在危害。同時,在模型的開發(fā)過程中,也對其進(jìn)行了針對災(zāi)難性風(fēng)險的評估,確保其符合公司制定的負(fù)責(zé)任擴(kuò)展政策中的 ASL - 2 標(biāo)準(zhǔn)。
五、模型的潛力與未來展望
盡管存在諸多挑戰(zhàn),但升級版 Claude 3.5 Sonnet 模型無疑為人工智能領(lǐng)域開辟了新的發(fā)展方向。它代表了人工智能從單純的信息處理向與物理世界更深入交互的轉(zhuǎn)變,為未來的智能辦公、自動化流程處理等提供了新的想象空間。
隨著技術(shù)的不斷發(fā)展和改進(jìn),我們有理由相信,Claude 3.5 Sonnet 模型在電腦操控方面的能力將不斷完善,其應(yīng)用場景也將不斷拓展。但在這個過程中,我們必須始終保持謹(jǐn)慎態(tài)度,在充分發(fā)揮其潛力的同時,確保其安全、可靠、可控,以實現(xiàn)人工智能與人類社會的和諧共生。未來,我們期待看到更多的創(chuàng)新應(yīng)用從這個模型中誕生,同時也希望行業(yè)能夠共同努力,制定出更加完善的規(guī)范和標(biāo)準(zhǔn),引導(dǎo)人工智能技術(shù)朝著造福人類的方向穩(wěn)健發(fā)展。
總之,Anthropic 升級版 Claude 3.5 Sonnet 模型在像人一樣操控電腦方面已經(jīng)邁出了重要的一步,但前方的道路依然充滿挑戰(zhàn)與機(jī)遇。我們將持續(xù)關(guān)注其發(fā)展動態(tài),見證人工智能在這一領(lǐng)域的不斷演進(jìn)。
