OpenAI發(fā)布新年目標(biāo),Agent智能體或?qū)⒂瓉戆倌4髴?zhàn)
2025年1月1日,OpenAI CEO 奧特曼公布了公司的新年目標(biāo),涵蓋AGI、智能體、4o升級(jí)、模型更好記憶、更長(zhǎng)上下文等等。
圖片
關(guān)于智能體,有網(wǎng)友爆料,OpenAI 可能在 1 月份發(fā)布一個(gè)名為 “operator” 的 Agent,這個(gè) Agent 將具備直接控制電腦的能力。
圖片
其實(shí)24年10月份的時(shí)候,Claude 就已經(jīng)發(fā)布了基于 Claude 3.5 Sonnet 多模態(tài)大模型,可操作電腦的智能體。
圖片
上圖左側(cè)是智能體的執(zhí)行過程,Claude 能夠感知計(jì)算機(jī)界面并與之交互,將用戶的指令(例如“使用我的計(jì)算機(jī)和在線數(shù)據(jù)填寫此表格”)轉(zhuǎn)換為計(jì)算機(jī)命令(例如,檢查電子表格;移動(dòng)光標(biāo)以打開 Web 瀏覽器;等等)。
要實(shí)現(xiàn)這種智能體至少依賴大模型的三項(xiàng)技術(shù)能力。
第一,用戶意圖理解能力,比如,用戶說“打開瀏覽器并搜索 AI 最新進(jìn)展”,大模型需要解析出“打開瀏覽器”和“搜索 AI 最新進(jìn)展”兩個(gè)子任務(wù)。
第二,任務(wù)規(guī)劃與執(zhí)行能力,需要將復(fù)雜的任務(wù)分解為一系列可執(zhí)行的子任務(wù)。例如,“發(fā)送一封郵件”分解為“打開郵箱應(yīng)用”、“點(diǎn)擊撰寫按鈕”、“輸入收件人”、“輸入內(nèi)容”、“點(diǎn)擊發(fā)送”等步驟。
第三,視覺理解能力(多模態(tài)大模型),例如,“打開網(wǎng)址”需要識(shí)別瀏覽器地址欄的位置并輸入 URL。
幾乎同一時(shí)間,微軟也開源了一款基于GPT-4V視覺大模型的屏幕解析工具——OmniParser,能夠?qū)⒂脩艚缑妫║I)截圖轉(zhuǎn)換為結(jié)構(gòu)化元素,幫助 AI 精準(zhǔn)理解屏幕內(nèi)容并生成操作指令。
圖片
當(dāng)然,國(guó)內(nèi)大模型也不甘示弱,智譜手機(jī)端 AutoGLM,通過語(yǔ)音指令模擬人操作,實(shí)現(xiàn)電商購(gòu)物、點(diǎn)外賣、微信回復(fù)等功能。
下面是這三款工具總結(jié)對(duì)比:
圖片
不過現(xiàn)階段,這類智能體還有瑕疵,能力并不完美。
但我覺得沒關(guān)系,我們不指望它能完成一個(gè)大型或者復(fù)雜的任務(wù),現(xiàn)階段能幫我們完成單一、重復(fù)性工作就挺好,嗯...自動(dòng)搶票?
哦,對(duì)了前幾天谷歌也發(fā)布了類似智能體,基于新版多模態(tài)大模型 Gemini 2.0 的瀏覽器智能體,可以自動(dòng)使用瀏覽器完成工作。
過去一年智能體話題一直保持很高熱度,10月份時(shí)候 OpenAI 還開源了一款多智能體Python開發(fā)框架——Swarm。
圖片
這次又將智能體列為新年目標(biāo),看起來是要大干一場(chǎng)。估計(jì)各大模型廠商也要在這一領(lǐng)域卷一卷了。
我們?nèi)匀贿x擇趴窗戶看。