自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="86c3r"></sub>

<blockquote id="86c3r"></blockquote>

<cite id="86c3r"><track id="86c3r"></track></cite>

<pre id="86c3r"><big id="86c3r"></big></pre>

<kbd id="86c3r"></kbd>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

從文字模型到世界模型！Meta新研究讓AI Agent理解物理世界

發(fā)布于 2024-4-18 12:10

瀏覽

0收藏

LLM已經(jīng)可以理解文本和圖片了，也能夠根據(jù)它們的歷史知識回答各種問題，但它們或許對周圍世界當前發(fā)生的事情一無所知。

現(xiàn)在LLMs也開始逐步學(xué)習(xí)理解3D物理空間，通過增強LLMs的「看到」世界的能力，人們可以開發(fā)新的應(yīng)用，在更多場景去獲取LLMs的幫助。

AI Agent，比如機器人或是智能眼鏡，它們可以通過感知和理解環(huán)境來回答一些開放性問題，比如「我把鑰匙放哪里了？」

從文字模型到世界模型！Meta新研究讓AI Agent理解物理世界-AI.x社區(qū)

這樣的AI Agent需要利用視覺等感知模式來理解其周圍環(huán)境，并能夠用清晰的日常語言有效地與人交流。

這類似于構(gòu)建一個「世界模型」，即AI Agent可以對外部世界產(chǎn)生它自己的內(nèi)部理解方法，并能夠讓人類通過語言查詢。

這是一個長期的愿景和一個有挑戰(zhàn)的領(lǐng)域，也是實現(xiàn)人工通用智能的重要一步。

Meta的新研究OpenEQA（Embodied Question Answering）框架，即開放詞匯體驗問答框架，為我們探索這個領(lǐng)域提供了新的可能。

EQA是什么？

EQA（Embodied Question Answering）是一種工具，用于檢查AI Agent是否真正理解周圍世界發(fā)生的事情。

畢竟，當我們想要確定一個人對概念的理解程度時，我們會問他們問題，并根據(jù)他們的答案形成評估。我們也可以對實體AI Agent做同樣的事情。

比如下圖的一些問題實例：

[物體識別]

問：椅子上的紅色物體是什么？

答：一個背包

?

[屬性識別]

問：在所有的椅子中，這把椅子的獨特顏色是什么？

答：綠色

?

[空間理解]

問：這個房間可以容納10個人嗎？

答：可以

?

[物體狀態(tài)識別]

問：塑料水瓶是開著的嗎？

答：不是

?

[功能推理]

問：我可以用鉛筆在什么東西上寫？

答：紙

?

[世界知識]

問：最近有學(xué)生在這里嗎？

答：有

?

[物體定位]

問：我的未喝完的星巴克飲料在哪里？

答：在靠前的白板旁邊的桌子上

除此之外，EQA也更加有直接的應(yīng)用。

比如，當你準備出門卻找不到工卡時，就就可以問智能眼鏡它在哪里。而AI Agent則會通過利用其情節(jié)記憶回答說徽章在餐桌上。

從文字模型到世界模型！Meta新研究讓AI Agent理解物理世界-AI.x社區(qū)

或者如果你在回家的路上餓了，就可以問家庭機器人是否還剩下水果。根據(jù)其對環(huán)境的主動探索，它可能會回答說水果籃里有成熟的香蕉。

從文字模型到世界模型！Meta新研究讓AI Agent理解物理世界-AI.x社區(qū)

這些行為看上去很簡單，畢竟LLMs在許多人認為具有挑戰(zhàn)性的任務(wù)中表現(xiàn)出色，比如通過SAT或律師考試。

但現(xiàn)實是，即使是今天最先進的模型，在EQA方面也很難達到人類的表現(xiàn)水平。

這也是為什么Meta同時發(fā)布了OpenEQA基準測試，讓研究人員可以測試他們自己的模型，并了解它們與人類的表現(xiàn)相比如何。

OpenEQA：面向AI Agent的全新基準

開放詞匯體驗問答（OpenEQA）框架是一個新的基準測試，通過向AI Agent提出開放詞匯問題來衡量其對環(huán)境的理解。

該基準包含超過1600個非模板化的問題和答案對，這些問題和答案來自人類注釋者，代表了真實世界的使用情況，并提供了180多個物理環(huán)境的視頻和掃描指針。

OpenEQA包含兩個任務(wù)：

（1）情節(jié)記憶EQA，在這個任務(wù)中，一個實體的AI Agent根據(jù)其對過去經(jīng)歷的回憶回答問題。

（2）主動EQA，在這個任務(wù)中，AI Agent必須在環(huán)境中采取行動來收集必要的信息并回答問題。

OpenEQA還配備了LLM-Match，這是一種用于評分開放詞匯答案的自動評估指標。

下方是LLM-Match打分的流程，通過問題和場景的輸入，AI大模型會給出回答，該回答會去和人類的回答作對比，然后得到相應(yīng)的分數(shù)。

從文字模型到世界模型！Meta新研究讓AI Agent理解物理世界-AI.x社區(qū)

現(xiàn)階段VLM的表現(xiàn)

一般來說，AI Agent的視覺能力是借助于視覺+語言基礎(chǔ)模型（VLM）。

研究員使用OpenEQA來評估了幾種最先進的VLM，發(fā)現(xiàn)即使是性能最好的模型（如GPT-4V達到48.5%），與人類的表現(xiàn)（85.9%）之間也存在著顯著差距。

從文字模型到世界模型！Meta新研究讓AI Agent理解物理世界-AI.x社區(qū)

值得注意的是，對于需要空間理解的問題，即使是最好的VLM也幾乎是「盲目」的，即它們的表現(xiàn)幾乎不比僅文本模型更好。

例如，對于「我坐在客廳的沙發(fā)上看電視。我的身后是哪個房間？」這個問題，模型基本上是隨機猜測不同的房間，沒有從視覺情景記憶中獲得對空間的理解。

這說明VLM其實是回歸到文本中去捕捉關(guān)于世界的先驗知識，以此來回答視覺問題。視覺信息并沒有給它們帶來實質(zhì)性的好處。

這也說明，AI Agent在目前這個階段，還達不到能完全理解物理世界的能力。

但氣餒還為時過早，OpenEQA僅僅是第一個開放詞匯的EQA基準。

通過OpenEQA將具有挑戰(zhàn)性的開放詞匯問題與以自然語言回答的能力結(jié)合起來，可以激發(fā)更多的研究，幫助AI理解并交流關(guān)于它所看到的世界的信息，也有助于研究人員跟蹤多模態(tài)學(xué)習(xí)和場景理解的未來進展。

也不是沒有可能，突然哪天AI Agent又給我們帶來一個大驚喜呢？

本文轉(zhuǎn)自新智元，作者：新智元

原文鏈接:??https://mp.weixin.qq.com/s/Qeuq8v5-ruKGNlcw884RXg??

標簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

首個開源世界模型！百萬級上下文，長視頻理解吊打GPT-4，UC伯克利華人一作

duhorse ? 2943瀏覽 ? 0回復(fù)
Meta推出開放世界具身問答數(shù)據(jù)集OpenEQA：視覺大模型在具身智能上還有很長的路要走！

AIGC最前線 ? 3296瀏覽 ? 0回復(fù)
Sora的狂歡、世界模型和AGI

lintoms ? 2350瀏覽 ? 0回復(fù)
AI如何改變世界？智能化決策與預(yù)測讓企業(yè)輕松贏利！

jim3000 ? 2197瀏覽 ? 0回復(fù)
人工智能AI和數(shù)字化世界走向何方

數(shù)字化助推器 ? 2408瀏覽 ? 0回復(fù)
基于擴散模型的，開源世界模型DIAMOND

Aceryt ? 2691瀏覽 ? 0回復(fù)
北大天工等團隊圖像編輯新SOTA，可精準模擬物理世界場景

Crystalcxt ? 2715瀏覽 ? 0回復(fù)
這家世界模型公司發(fā)布中國版Sora級視頻生成大模型，走向世界模型打造新一代數(shù)據(jù)引擎

輕薄滴假象 ? 2953瀏覽 ? 0回復(fù)
GPT-4不是世界模型，LeCun雙手贊同！ACL力證LLM永遠無法模擬世界

duhorse ? 2067瀏覽 ? 0回復(fù)
PWM: 基于世界模型的策略學(xué)習(xí)

AIGC最前線 ? 2532瀏覽 ? 0回復(fù)
Meta發(fā)布Llama 3.2：AI大模型再升級，從云端到掌上

芝士AI吃魚 ? 2475瀏覽 ? 0回復(fù)
從數(shù)據(jù)集到模型：視頻和音頻情緒分析的綜合研究

xuxiangda ? 3344瀏覽 ? 0回復(fù)
英偉達開源世界大模型，完美模擬物理世界！

Aceryt ? 2461瀏覽 ? 0回復(fù)
Falcon 3：阿聯(lián)酋技術(shù)創(chuàng)新研究所推出世界上最小、最強大的人工智能模型

Halo咯咯 ? 1805瀏覽 ? 0回復(fù)
微軟發(fā)布Magma：跨越數(shù)字與物理世界的多模態(tài)AI基礎(chǔ)模型

Halo咯咯 ? 2006瀏覽 ? 0回復(fù)
物理世界的原生推理能力、靈活性讓人驚掉下巴！

51CTO技術(shù)棧 ? 1563瀏覽 ? 0回復(fù)
從大模型到智能體AI，邁向通用人工智能的新征程

十一月雨_55 ? 1357瀏覽 ? 0回復(fù)
AI的未來：Bill Dally與Yann LeCun談計算驅(qū)動與世界模型的突破

chengganfei ? 1131瀏覽 ? 0回復(fù)
從 MCP 到 A2A，AI Agent 應(yīng)用架構(gòu)設(shè)計演進之路

玄姐聊AGI ? 943瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速 2025-02-28 12:53:18發(fā)布
剛剛，DeepSeek開源DeepEP通信庫，千億MoE訓(xùn)推顛覆級創(chuàng)新！FP8狂飆，帶飛GPU 2025-02-25 12:24:42發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：看懂網(wǎng)飛版「三體」！Reka Core登場：挑戰(zhàn)GPT-4、Claude 3

下一篇： AI時代新風(fēng)口！吳恩達親授智能體四大設(shè)計模式

社區(qū)精華內(nèi)容

目錄