自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="7k6yv"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

OpenAI發(fā)布新年目標(biāo)，Agent智能體或?qū)⒂瓉戆倌４髴?zhàn)

作者：渡碼 2025-01-03 11:02:38

關(guān)于智能體，有網(wǎng)友爆料，OpenAI 可能在 1 月份發(fā)布一個(gè)名為 “operator” 的 Agent，這個(gè) Agent 將具備直接控制電腦的能力。其實(shí)24年10月份的時(shí)候，Claude 就已經(jīng)發(fā)布了基于 Claude 3.5 Sonnet 多模態(tài)大模型，可操作電腦的智能體。

2025年1月1日，OpenAI CEO 奧特曼公布了公司的新年目標(biāo)，涵蓋AGI、智能體、4o升級(jí)、模型更好記憶、更長(zhǎng)上下文等等。

圖片

關(guān)于智能體，有網(wǎng)友爆料，OpenAI 可能在 1 月份發(fā)布一個(gè)名為 “operator” 的 Agent，這個(gè) Agent 將具備直接控制電腦的能力。

圖片

其實(shí)24年10月份的時(shí)候，Claude 就已經(jīng)發(fā)布了基于 Claude 3.5 Sonnet 多模態(tài)大模型，可操作電腦的智能體。

圖片

上圖左側(cè)是智能體的執(zhí)行過程，Claude 能夠感知計(jì)算機(jī)界面并與之交互，將用戶的指令（例如“使用我的計(jì)算機(jī)和在線數(shù)據(jù)填寫此表格”）轉(zhuǎn)換為計(jì)算機(jī)命令（例如，檢查電子表格；移動(dòng)光標(biāo)以打開 Web 瀏覽器；等等）。

要實(shí)現(xiàn)這種智能體至少依賴大模型的三項(xiàng)技術(shù)能力。

第一，用戶意圖理解能力，比如，用戶說“打開瀏覽器并搜索 AI 最新進(jìn)展”，大模型需要解析出“打開瀏覽器”和“搜索 AI 最新進(jìn)展”兩個(gè)子任務(wù)。

第二，任務(wù)規(guī)劃與執(zhí)行能力，需要將復(fù)雜的任務(wù)分解為一系列可執(zhí)行的子任務(wù)。例如，“發(fā)送一封郵件”分解為“打開郵箱應(yīng)用”、“點(diǎn)擊撰寫按鈕”、“輸入收件人”、“輸入內(nèi)容”、“點(diǎn)擊發(fā)送”等步驟。

第三，視覺理解能力（多模態(tài)大模型），例如，“打開網(wǎng)址”需要識(shí)別瀏覽器地址欄的位置并輸入 URL。

幾乎同一時(shí)間，微軟也開源了一款基于GPT-4V視覺大模型的屏幕解析工具——OmniParser，能夠?qū)⒂脩艚缑妫║I）截圖轉(zhuǎn)換為結(jié)構(gòu)化元素，幫助 AI 精準(zhǔn)理解屏幕內(nèi)容并生成操作指令。

圖片

當(dāng)然，國(guó)內(nèi)大模型也不甘示弱，智譜手機(jī)端 AutoGLM，通過語(yǔ)音指令模擬人操作，實(shí)現(xiàn)電商購(gòu)物、點(diǎn)外賣、微信回復(fù)等功能。

下面是這三款工具總結(jié)對(duì)比：

圖片

不過現(xiàn)階段，這類智能體還有瑕疵，能力并不完美。

但我覺得沒關(guān)系，我們不指望它能完成一個(gè)大型或者復(fù)雜的任務(wù)，現(xiàn)階段能幫我們完成單一、重復(fù)性工作就挺好，嗯...自動(dòng)搶票？

哦，對(duì)了前幾天谷歌也發(fā)布了類似智能體，基于新版多模態(tài)大模型 Gemini 2.0 的瀏覽器智能體，可以自動(dòng)使用瀏覽器完成工作。

過去一年智能體話題一直保持很高熱度，10月份時(shí)候 OpenAI 還開源了一款多智能體Python開發(fā)框架——Swarm。

圖片

這次又將智能體列為新年目標(biāo)，看起來是要大干一場(chǎng)。估計(jì)各大模型廠商也要在這一領(lǐng)域卷一卷了。

我們?nèi)匀贿x擇趴窗戶看。

責(zé)任編輯：武曉燕來源：渡碼

OpenAI Agent 大模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)