自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="fcmj3"><delect id="fcmj3"><del id="fcmj3"></del></delect></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

谷歌推出通用AI代理：能自動執(zhí)行600多種動作，游玩復(fù)雜3D游戲

發(fā)布于 2024-3-29 10:32

瀏覽

0收藏

谷歌DeepMind的研究人員推出了一種面向3D環(huán)境的通用AI代理——SIMA。

SIMA無需訪問游戲的源代碼，也不需要定制的API。只需要輸入圖像和用戶提供的簡單自然語言文本指令，SIMA就能像人類玩家一樣執(zhí)行走路、跑步、建造、打開地圖等各種游戲中的操作。

為了測試、訓(xùn)練SIMA的性能，研究人員與8個游戲工作室合作，在《無人深空》、《模擬山羊3》、《Teardown》、《挖礦模擬器》等知名復(fù)雜3D游戲上進(jìn)行了綜合測試。

結(jié)果顯示，用戶只需要在游戲中提供簡單的文本、圖像提示，SIMA就能執(zhí)行挖礦、開飛船、制作裝備、打開外骨骼、搜集任務(wù)、爬樓梯等600多種基本操作，每個動作可以在大約10秒內(nèi)完成。

技術(shù)報告：?https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/sima-generalist-ai-agent-for-3d-virtual-environments/Scaling Instructable Agents Across Many Simulated Worlds.pdf??

谷歌推出通用AI代理：能自動執(zhí)行600多種動作，游玩復(fù)雜3D游戲-AI.x社區(qū)

在游戲場景中測試AI代理是一個重要課題，與傳統(tǒng)的沙盒2D方法不同的是，SIMA選擇了操作、環(huán)境、視覺難度更高的3D游戲。

SIMA使用了大模型的訓(xùn)練方法，通過廣泛的數(shù)據(jù)分布來識別那些復(fù)雜的動作，同時無需為每個新游戲設(shè)計特定的控制、觀察模塊，就能理解人類的文本指令，并將其轉(zhuǎn)化為具體的行動。

多種大模型組成的“人體”

?

從SIMA的總體架構(gòu)來看，由多種大模型組合而成像是在模仿人體。視覺感知模型充當(dāng)“眼睛”、大語言模型充當(dāng)“大腦”、建模規(guī)劃模型充當(dāng)“思維”、控制和執(zhí)行模型充當(dāng)“四肢”。

也就是說SIMA在接收到指令后，會用人的方式去思考、規(guī)劃接收到的任務(wù)，然后再去執(zhí)行。

谷歌推出通用AI代理：能自動執(zhí)行600多種動作，游玩復(fù)雜3D游戲-AI.x社區(qū)

視覺感知模型：視覺感知模塊負(fù)責(zé)處理AI代理的圖像觀察，并提取關(guān)鍵信息以輔助語言指令的理解和環(huán)境的交互。該模塊使用卷積神經(jīng)網(wǎng)絡(luò)（CNN）等深度學(xué)習(xí)技術(shù)對輸入的圖像數(shù)據(jù)進(jìn)行處理和特征提取。

使得SIMA能夠識別和分析圖像中的物體、場景和空間位置等重要信息，以幫助AI代理更好地理解語言指令，并在虛擬世界中進(jìn)行準(zhǔn)確的交互和操作。

谷歌推出通用AI代理：能自動執(zhí)行600多種動作，游玩復(fù)雜3D游戲-AI.x社區(qū)

大語言模型：主要負(fù)責(zé)解析和理解輸入的自然語言指令。使用了NLP、詞嵌入、序列模型和注意力機(jī)制等技術(shù)，將語言指令轉(zhuǎn)化為機(jī)器可理解的表示。

使得AI代理能夠準(zhǔn)確地理解和解釋指令中的動作和目標(biāo)，為后續(xù)的建模和規(guī)劃提供基礎(chǔ)。

建模規(guī)劃模型：通過強(qiáng)化學(xué)習(xí)和規(guī)劃算法，與環(huán)境的交互和反饋來學(xué)習(xí)最佳的行動策略。AI代理通過不斷嘗試和優(yōu)化，逐漸掌握了在不同環(huán)境下執(zhí)行任務(wù)的能力。

可根據(jù)語言指令、視覺感知信息和當(dāng)前環(huán)境狀態(tài)，生成有效的動作序列，以實現(xiàn)任務(wù)的完成。

谷歌推出通用AI代理：能自動執(zhí)行600多種動作，游玩復(fù)雜3D游戲-AI.x社區(qū)

控制和執(zhí)行模型：主要負(fù)責(zé)將生成的動作序列轉(zhuǎn)化為實際的動作控制指令，并映射到鍵盤、鼠標(biāo)上，以驅(qū)動AI代理在3D游戲中執(zhí)行任務(wù)，例如，移動、跳躍、奔跑、挖礦等，同時可根據(jù)環(huán)境的反饋進(jìn)行自適應(yīng)調(diào)整和優(yōu)化。

數(shù)據(jù)收集和預(yù)處理

數(shù)據(jù)收集和預(yù)處理是SIMA的核心模塊之一，主要獲取、準(zhǔn)備和處理用于訓(xùn)練和評估AI代理的數(shù)據(jù)。

研究人員從商業(yè)游戲等環(huán)境搜集了海量數(shù)據(jù)，搜集完成后對數(shù)據(jù)進(jìn)行了清洗、轉(zhuǎn)換和標(biāo)準(zhǔn)化數(shù)據(jù)操作，方便后續(xù)的訓(xùn)練和分析。

谷歌推出通用AI代理：能自動執(zhí)行600多種動作，游玩復(fù)雜3D游戲-AI.x社區(qū)

數(shù)據(jù)清洗：對原始數(shù)據(jù)進(jìn)行去噪和異常值處理，可能會存在一些噪聲或異常數(shù)據(jù)，例如，圖像中的視覺干擾或語言指令中的錯誤字符。研究人員通過采用圖像去噪和文本糾錯的方式，來消除這些干擾因素。

數(shù)據(jù)轉(zhuǎn)換：在進(jìn)行訓(xùn)練之前，需要將原始數(shù)據(jù)轉(zhuǎn)換為機(jī)器可處理的格式。圖像數(shù)據(jù)，可以使用圖像處理技術(shù)進(jìn)行特征提取或縮放操作，以便于模型的訓(xùn)練和推理；

文本數(shù)據(jù)，可以進(jìn)行詞匯化、分詞和編碼等處理，將其轉(zhuǎn)換為數(shù)值表示形式輸入到深度學(xué)習(xí)模型中。

數(shù)據(jù)標(biāo)準(zhǔn)化：為了確保數(shù)據(jù)的一致性和可比性，需要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。包括對圖像進(jìn)行歸一化或標(biāo)準(zhǔn)化，以使其具有相似的亮度、對比度和顏色分布。對于文本數(shù)據(jù)，可以進(jìn)行詞干化、停用詞移除和詞向量化等操作。

谷歌推出通用AI代理：能自動執(zhí)行600多種動作，游玩復(fù)雜3D游戲-AI.x社區(qū)

經(jīng)過一系列數(shù)據(jù)清洗、轉(zhuǎn)換、標(biāo)準(zhǔn)化后，可以幫助SIMA更好地去學(xué)習(xí)游戲中的物體、動作、交互等，從而提升整體的動作指令準(zhǔn)確率。

研究人員表示，未來，會持續(xù)迭代SIMA的通用代理能力，希望可以在實際生活中幫助用戶做更多的事情。

本文轉(zhuǎn)自 AIGC開放社區(qū)，作者：AIGC開放社區(qū)

原文鏈接:??https://mp.weixin.qq.com/s/_VRuFCyk836Q9kmqpBHgLQ??

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

谷歌推出多模態(tài)視頻模型，自動生成豐富動作視頻

Aceryt ? 3105瀏覽 ? 0回復(fù)
谷歌重磅發(fā)布Gemini 1.5 Pro：能自動寫影評，理解視頻！

Aceryt ? 4222瀏覽 ? 0回復(fù)
文本直接生成多視角3D圖像，Meta推出創(chuàng)新模型

Aceryt ? 2216瀏覽 ? 0回復(fù)
谷歌重磅發(fā)布CAT3D：一分鐘搞定任意數(shù)量視圖到3D場景重建

angel ? 4053瀏覽 ? 0回復(fù)
無需3D數(shù)據(jù)也能訓(xùn)練，港科&港中文聯(lián)手華為推出3D自動駕駛場景生成模型

Crystalcxt ? 2705瀏覽 ? 0回復(fù)
2D頭像生成3D虛擬人開視頻會，谷歌新作讓人難繃

輕薄滴假象 ? 2131瀏覽 ? 0回復(fù)
浙大、螞蟻集團(tuán)推出MaPa：文本生成超真實3D模型

Aceryt ? 2873瀏覽 ? 0回復(fù)
谷歌推出V2A，可為視頻大模型自動匹配語音

Aceryt ? 3490瀏覽 ? 0回復(fù)
DreamTech聯(lián)合南大和牛津發(fā)布最強(qiáng)3D內(nèi)容生成大模型——Direct3D

angel ? 2819瀏覽 ? 0回復(fù)
3D版"裁縫"開源來襲！Tailor3D:自定義3D編輯和資產(chǎn)生成（港大&上海AI-Lab&港中文）

angel ? 2370瀏覽 ? 0回復(fù)
北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式！

angel ? 2246瀏覽 ? 0回復(fù)
隨意畫個草圖就能生成3D交互游戲場景！騰訊XR出品

angel ? 3266瀏覽 ? 0回復(fù)
ECCV 2024 | 引入DiT的原生3D通用框架，適用任意神經(jīng)場、秒級生成

輕薄滴假象 ? 2234瀏覽 ? 0回復(fù)
生成任意3D和4D場景！GenXD：通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟

angel ? 1983瀏覽 ? 0回復(fù)
3D任意部位分割：FIND 3D模型實現(xiàn)零樣本開放世界文本查詢分割

AIGC最前線 ? 1874瀏覽 ? 0回復(fù)
革新3D材質(zhì)生成！Material Anything：端到端打造任意3D物體的高質(zhì)量材質(zhì)！

angel ? 2434瀏覽 ? 0回復(fù)
讓 ChatGPT 自動執(zhí)行你的想法，向代理時代邁出的小小一步！

老蛀蟲 ? 2393瀏覽 ? 0回復(fù)
清華、中南開源3D交互實體AI Agent LEGENT

Aceryt ? 1798瀏覽 ? 0回復(fù)
CVPR 2025 | 英偉達(dá)重塑自動駕駛場景生成！3D點云賦能電影級特效：GEN3C效果炸裂??！

angel ? 2061瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

剛剛，OpenAI發(fā)布GPT-image-1模型，更強(qiáng)吉卜力版本來啦 6天前發(fā)布
字節(jié)跳動開源多模態(tài)AI Agent—UI-TARS-1.5 7天前發(fā)布

熱門推薦

微軟開源DeepSeek-R1魔改版：響應(yīng)99%敏感提示，風(fēng)險降50% 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

下一篇：文本直接生成2分鐘視頻，即將開源模型StreamingT2V

社區(qū)精華內(nèi)容

目錄

<dfn id="75u42"><strike id="75u42"><tfoot id="75u42"></tfoot></strike></dfn>

<cite id="75u42"><strike id="75u42"><dd id="75u42"></dd></strike></cite>

<rt id="75u42"></rt>