Claude 3.5超預(yù)期炸場(chǎng)!編程能力超o1,像人類一樣操作電腦,開啟Agent新時(shí)代!學(xué)會(huì)摸魚,編程時(shí)偷偷瀏覽黃石公園圖片!
原創(chuàng) 精選又整新活了!Anthropic 家的大模型都能用電腦了!
在本周二的重磅更新里,我們看到了OpenAI勁敵——Anthropic大招不斷。
全新升級(jí)的 Claude 3.5 Sonnet 和新模型 Claude 3.5 Haiku,不僅性能強(qiáng)悍。
圖片
Claude 3.5 Sonnet更是達(dá)到了在編程界橫著走的水平,不僅各項(xiàng)指標(biāo)都干翻了GPT-4o,連o1都不放過!
圖片
Sonnet在SWE基準(zhǔn)驗(yàn)證中的得分高于所有可用模型,竟然包括了OpenAI o1-preview等推理模型和專門的代理系統(tǒng)。
難怪Claude直接表示,編程這一塊就是我們的統(tǒng)治區(qū)了。
圖片
不過,最神奇的功能還是 Claude 操作電腦的能力了。
Claude 不僅會(huì)填寫表格、編寫程序、遇到問題知道查查谷歌,還會(huì)很搞笑地偷個(gè)懶——關(guān)掉了錄屏按鈕,偷偷瀏覽黃石公園照片放空大腦!這是在演誰(shuí)上班?
一、AI用電腦,都能做些啥事?
AI Chatbot的對(duì)話能力越來越難以滿足我們對(duì)AI的期待。
對(duì)于行動(dòng)能力的提升逐漸變成了一個(gè)主攻方向。
無論是o1開發(fā)者日演示的AI訂茶歇甜點(diǎn),還是各家AI手機(jī)都在卷的AI助手預(yù)定餐廳、幫買咖啡等等,都體現(xiàn)了這個(gè)勢(shì)頭。
但 Claude 還能通過用電腦狠狠驚艷我們一把,就是因?yàn)檫@個(gè) Agent 似乎更通用,留下的想象空間也更大。
因?yàn)樗降?,我們?cè)谵k公室的大多數(shù)工作時(shí)間,都是用電腦完成各種不同的任務(wù)而已。因此,Claude的新功能不是簡(jiǎn)單的生活助手,而是有著AGI雛形的強(qiáng)大。
雖然 Claude 和計(jì)算機(jī)交互的能力才剛剛起步,但我們還是能從一個(gè)個(gè)小示例里感嘆一句:未來可期!
1.自動(dòng)填寫表格
填寫表格真的是高頻的工作任務(wù)。
在這個(gè)范例里,Claude需要填寫來自Ant Equipment Co.的供應(yīng)商請(qǐng)求表,方法是參考已有的表格或者自行搜索。
圖片
左側(cè)更新了AI的思維鏈情況,Claude發(fā)現(xiàn)在給定的表格中沒有相應(yīng)信息,于是開始調(diào)用搜索。
圖片
在切換到CRM系統(tǒng)中進(jìn)行了搜索之后,Claude順利填好了表格。
2.做個(gè)日程攻略
在這個(gè)示例里,我們的朋友要來舊金山了,我們想讓AI幫我們做一個(gè)到金門大橋看日出的攻略,Claude是否能完成細(xì)節(jié)的要求嗎?
我的朋友要來舊金山,我想明天早上和他一起在金門大橋看日出。我們將從太平洋高地出發(fā)。你能幫我們找到一個(gè)絕佳的觀賞地點(diǎn),查看一下開車時(shí)間和日出時(shí)間,然后安排一個(gè)日歷活動(dòng),讓我們有足夠的時(shí)間到達(dá)那里嗎?
圖片
Claude二話沒說,立即開始通過谷歌搜索,嘗試先找個(gè)看日出的最佳地點(diǎn)。
圖片
Claude在旅游攻略里成功找到了方案,然后開始著手時(shí)間方面的安排。
圖片
既然要考慮開車能否趕得及,Claude立馬開始調(diào)用地圖應(yīng)用,來判斷需要為交通預(yù)留的時(shí)間。
圖片
還很聰明地查看了當(dāng)日的日出時(shí)間,并且把出發(fā)時(shí)間安排在我們的日程表里,真的是執(zhí)行力拉滿。
3.Claude 學(xué)習(xí)電腦之路才剛剛起步
不過,雖然示例看起來很美好,但目前還是留有很多的bug。
首先,Claude執(zhí)行任務(wù)的準(zhǔn)確率不夠,例如編程到一半去看圖了等等,千奇百怪的開小差行為。
其次,Claude學(xué)習(xí)電腦使用的道路還有很長(zhǎng),目前也就掌握了點(diǎn)擊,連滾動(dòng)、縮放、拖拽這樣小學(xué)計(jì)算機(jī)第一課的內(nèi)容,AI還存在一些操作障礙。
圖片
最后,Claude的速度還比較慢,而且AI用著電腦的時(shí)候,你就得停下來手頭的任務(wù)等著,沒法和它并行工作。
也因此,小紅書AI博主@AI Dance評(píng)價(jià)說,Anthropic變得雞賊了……也開始和OpenAI一樣給大家發(fā)期貨了。
圖片
不過,Claude將其功能在API上提前上線了。
畢竟,作為AI用戶,大家嘗鮮的時(shí)候都不會(huì)太苛刻。抓到Claude在編程時(shí)偷偷摸魚,和AI花費(fèi)幾個(gè)小時(shí)填完一份表格都同樣有趣。