自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="5qvnq"></blockquote>}

^{<thead id="5qvnq"></thead>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

AR智能革命！Satori系統(tǒng)讀懂人類意圖，科幻電影場景成現(xiàn)實

作者：機器之心 2025-04-28 09:42:00

人工智能新聞

在 AI 與大語言模型快速發(fā)展的今天，無疑是 AR 技術邁向實用性的一次新的機遇。無論你是 AI、AR 的愛好者，或者是在學界，工業(yè)界的專業(yè)人士，都歡迎關注 AR 輔助這個正在覺醒的未來。

團隊由 IEEE 會士，紐約大學教授 Claudio Silva 和紐約大學研究助理教授錢靖共同指導。論文由Chenyi Li和Guande Wu共同第一作者。

在無數(shù)科幻電影中，增強現(xiàn)實（AR）通過在人們的眼前疊加動畫、文字、圖形等可視化信息，讓人獲得適時的、超越自身感知能力的信息。無論是手術醫(yī)生帶著 AR 眼鏡進行操作，還是智能工廠流水線前的例行檢查、或是面對書本時 AR 快速查找翻閱的超能力，是這一切只為一個最終目的——通過適時的信息輔助我們。

直到今日，大部分 AR 輔助依然停留在需要人工遠程接入輔助的層面，與我們期待的智能的、理解性的、可拓展的 AR 輔助相差甚遠。這也導致 AR 在重要產業(yè)和生活應用中的普及受到限制。如何能讓 AR 在生活中真正做到理解用戶、理解環(huán)境、并適時的輔助依然面臨巨大挑戰(zhàn)。

Satori 系統(tǒng)自動識別用戶稱重 11 g 咖啡的展示

這一切隨著 Satori 系統(tǒng)的誕生即將成為過去。來自紐約大學數(shù)據與可視化實驗室（NYU VIDA）聯(lián)合 Adobe 的研究人員融合多模態(tài)大語言模型（MLLM）與認知理論 BDI（Belief-desire-intention theory）讓 AI 首次真正意義的去理解使用者的行為、目標以及環(huán)境狀態(tài)，最終達到根據不同場景自動適配指示內容，指示步驟，與判斷輔助時機。讓 AR 輔助接入智慧核心，向泛化應用、智能交互邁進了里程碑的一步。

論文標題：Satori: Towards Proactive AR Assistant with Belief-Desire-Intention User Modeling
論文鏈接：https://arxiv.org/abs/2410.16668v2
Github：https://github.com/VIDA-NYU/satori-assistance

Satori 創(chuàng)新介紹

創(chuàng)新點一：結合 BDI 模型讓 AI 理解用戶行為和場景關系

通過 AR 眼鏡讓 AI 擁有跟用戶共同視角的「具身感知」，成功的讓 AI 通過認知模型 BDI 理解用戶的動作行為及其短期目的。BDI 把人的行為分解成對周圍世界的理解（Belief），對總體目標的判斷（Desire），和為達目標進行的動作行為（Intention）三個部分。

本質上，BDI 強調人是主動性體（agentive being），做出的行為是基于對環(huán)境的理解和內部目標的組合，因此我們使用 AI 以多模態(tài)數(shù)據的模擬人接受信息和應對目標的方式，適合短期以行為目標為主的的 AR 輔助。

這使得 AR 眼鏡可以通過 AI 加持實時判斷用戶行為背后的目的，不再是單純的對于行為本身的判斷。

創(chuàng)新點二：大語言模型結構認知

Satori 系統(tǒng)以模塊化組織 MLLM，將圖像識別、語義理解、用戶交互歷史上下文解耦處理，并統(tǒng)一納入 BDI 認知架構中。通過將視覺感知模塊（如 OWL-ViT 與 DETR）與語言推理模塊（MLLM）分層協(xié)作，系統(tǒng)能夠從用戶的行為動態(tài)構建 Belief 狀態(tài)、識別任務目標，推理出即時意圖。

該模塊化結構不僅增強了推理透明度與可解釋性，還顯著提升了系統(tǒng)的泛化性與跨任務適配能力，展示了多模態(tài)大模型在具身智能中的結構認知潛力。

自動生成帶有動作和箭頭方向的指示圖片

創(chuàng)新點三：AI 自動生成多模態(tài)指示

在輔助過程中，AI 生成了適時的、應景的、易理解的圖片以及文字。在圖像層面，Satori 使用 DALLE-3 與場景感知（Belief）模塊自動生成與當前任務階段精準匹配的視覺提示（如剪刀與花的動作關系，與花瓶的空間位置關系），給用戶直接的視覺指引、減少語義誤解。

這項技術同時也用在了文字生成中，在基礎文本上追加對場景物體，用戶交互關系的描述（如「把花插入花瓶」變?yōu)椤赴鸦ú迦胨{色花瓶」）。此創(chuàng)新讓 AI 更具備操作引導的即時性與可視化表達能力，大幅提升了 AR 輔助的清晰度與實用性。

創(chuàng)新點四：雙系統(tǒng)動作完成檢測方法減少用戶等待時間，增加提示準確率

AR 輔助中一大挑戰(zhàn)在于任務的復雜度影響了 AI 判斷成功率和速度。步驟越復雜、動作越多，AI 一次性判斷的噪音和不確定性越大。因此，Satori 團隊創(chuàng)新地將每個步驟分成多個更明確，易判斷的小目標（checkpoints），來完成對總體步驟的確認。例如：「剪花」任務中的「剪掉枯葉」步驟，會有「拿剪刀」，「對準枯葉」，和「完成剪切」三個小目標，系統(tǒng)判斷這些是否完成后便可觸發(fā)下一提示。

Satori 使用雙系統(tǒng)理論（Dual Process Theory）將 AI 的反饋分為「快速反應+理性結構」。動作識別由一個輕量 LLM 完成快速行為完成判斷，以高容量 LLM 補充結構性語義分析，通過交互設計機制將二者節(jié)奏對齊，確保系統(tǒng)既具響應性，又具智能表達力。

團隊所提出的模塊化多模態(tài)推理框架，不僅在技術層面上展示出對 AR 交互場景的高度適配性，更為未來跨平臺、多領域的智能輔助系統(tǒng)奠定了方法論基礎。系統(tǒng)核心可靈活部署于 HoloLens、Vision Pro、或者輕量級智能眼鏡如 Rokid、INMO、雷鳥、和 Nreal 等不同硬件平臺。

在 AI 與大語言模型快速發(fā)展的今天，無疑是 AR 技術邁向實用性的一次新的機遇。無論你是 AI、AR 的愛好者，或者是在學界，工業(yè)界的專業(yè)人士，都歡迎關注 AR 輔助這個正在覺醒的未來。

責任編輯：張燕妮來源：機器之心

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="ptoai"></sub>

<style id="ptoai"></style><sub id="ptoai"></sub>