自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AR智能革命!Satori系統(tǒng)讀懂人類意圖,科幻電影場景成現(xiàn)實

人工智能 新聞
在 AI 與大語言模型快速發(fā)展的今天,無疑是 AR 技術邁向實用性的一次新的機遇。無論你是 AI、AR 的愛好者,或者是在學界,工業(yè)界的專業(yè)人士,都歡迎關注 AR 輔助這個正在覺醒的未來。

團隊由 IEEE 會士,紐約大學教授 Claudio Silva 和紐約大學研究助理教授錢靖共同指導。 論文由Chenyi Li和Guande Wu共同第一作者。

在無數(shù)科幻電影中,增強現(xiàn)實(AR)通過在人們的眼前疊加動畫、文字、圖形等可視化信息,讓人獲得適時的、超越自身感知能力的信息。無論是手術醫(yī)生帶著 AR 眼鏡進行操作,還是智能工廠流水線前的例行檢查、或是面對書本時 AR 快速查找翻閱的超能力,是這一切只為一個最終目的——通過適時的信息輔助我們。

直到今日,大部分 AR 輔助依然停留在需要人工遠程接入輔助的層面,與我們期待的智能的、理解性的、可拓展的 AR 輔助相差甚遠。這也導致 AR 在重要產業(yè)和生活應用中的普及受到限制。如何能讓 AR 在生活中真正做到理解用戶、理解環(huán)境、并適時的輔助依然面臨巨大挑戰(zhàn)。

圖片

Satori 系統(tǒng)自動識別用戶稱重 11 g 咖啡的展示

這一切隨著 Satori 系統(tǒng)的誕生即將成為過去。來自紐約大學數(shù)據與可視化實驗室(NYU VIDA)聯(lián)合 Adobe 的研究人員融合多模態(tài)大語言模型(MLLM)與認知理論 BDI(Belief-desire-intention theory)讓 AI 首次真正意義的去理解使用者的行為、目標以及環(huán)境狀態(tài),最終達到根據不同場景自動適配指示內容,指示步驟,與判斷輔助時機。讓 AR 輔助接入智慧核心,向泛化應用、智能交互邁進了里程碑的一步。

圖片

  • 論文標題:Satori: Towards Proactive AR Assistant with Belief-Desire-Intention User Modeling
  • 論文鏈接:https://arxiv.org/abs/2410.16668v2
  • Github:https://github.com/VIDA-NYU/satori-assistance

Satori 創(chuàng)新介紹

創(chuàng)新點一:結合 BDI 模型讓 AI 理解用戶行為和場景關系

通過 AR 眼鏡讓 AI 擁有跟用戶共同視角的「具身感知」,成功的讓 AI 通過認知模型 BDI 理解用戶的動作行為及其短期目的。BDI 把人的行為分解成對周圍世界的理解(Belief),對總體目標的判斷(Desire),和為達目標進行的動作行為(Intention)三個部分。

本質上,BDI 強調人是主動性體(agentive being),做出的行為是基于對環(huán)境的理解和內部目標的組合,因此我們使用 AI 以多模態(tài)數(shù)據的模擬人接受信息和應對目標的方式,適合短期以行為目標為主的的 AR 輔助。

圖片

這使得 AR 眼鏡可以通過 AI 加持實時判斷用戶行為背后的目的,不再是單純的對于行為本身的判斷。

創(chuàng)新點二:大語言模型結構認知

Satori 系統(tǒng)以模塊化組織 MLLM,將圖像識別、語義理解、用戶交互歷史上下文解耦處理,并統(tǒng)一納入 BDI 認知架構中。通過將視覺感知模塊(如 OWL-ViT 與 DETR)與語言推理模塊(MLLM)分層協(xié)作,系統(tǒng)能夠從用戶的行為動態(tài)構建 Belief 狀態(tài)、識別任務目標,推理出即時意圖。

該模塊化結構不僅增強了推理透明度與可解釋性,還顯著提升了系統(tǒng)的泛化性與跨任務適配能力,展示了多模態(tài)大模型在具身智能中的結構認知潛力。

圖片

自動生成帶有動作和箭頭方向的指示圖片

創(chuàng)新點三:AI 自動生成多模態(tài)指示

在輔助過程中,AI 生成了適時的、應景的、易理解的圖片以及文字。在圖像層面,Satori 使用 DALLE-3 與場景感知(Belief)模塊自動生成與當前任務階段精準匹配的視覺提示(如剪刀與花的動作關系,與花瓶的空間位置關系),給用戶直接的視覺指引、減少語義誤解。

這項技術同時也用在了文字生成中,在基礎文本上追加對場景物體,用戶交互關系的描述(如「把花插入花瓶」變?yōu)椤赴鸦ú迦胨{色花瓶」)。此創(chuàng)新讓 AI 更具備操作引導的即時性與可視化表達能力,大幅提升了 AR 輔助的清晰度與實用性。

圖片

圖片

創(chuàng)新點四:雙系統(tǒng)動作完成檢測方法減少用戶等待時間,增加提示準確率

AR 輔助中一大挑戰(zhàn)在于任務的復雜度影響了 AI 判斷成功率和速度。步驟越復雜、動作越多,AI 一次性判斷的噪音和不確定性越大。因此,Satori 團隊創(chuàng)新地將每個步驟分成多個更明確,易判斷的小目標(checkpoints),來完成對總體步驟的確認。例如:「剪花」任務中的「剪掉枯葉」步驟,會有「拿剪刀」,「對準枯葉」,和「完成剪切」三個小目標,系統(tǒng)判斷這些是否完成后便可觸發(fā)下一提示。

圖片

Satori 使用雙系統(tǒng)理論(Dual Process Theory)將 AI 的反饋分為「快速反應+理性結構」。動作識別由一個輕量 LLM 完成快速行為完成判斷,以高容量 LLM 補充結構性語義分析,通過交互設計機制將二者節(jié)奏對齊,確保系統(tǒng)既具響應性,又具智能表達力。

圖片

團隊所提出的模塊化多模態(tài)推理框架,不僅在技術層面上展示出對 AR 交互場景的高度適配性,更為未來跨平臺、多領域的智能輔助系統(tǒng)奠定了方法論基礎。系統(tǒng)核心可靈活部署于 HoloLens、Vision Pro、或者輕量級智能眼鏡如 Rokid、INMO、雷鳥、和 Nreal 等不同硬件平臺。

在 AI 與大語言模型快速發(fā)展的今天,無疑是 AR 技術邁向實用性的一次新的機遇。無論你是 AI、AR 的愛好者,或者是在學界,工業(yè)界的專業(yè)人士,都歡迎關注 AR 輔助這個正在覺醒的未來。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2017-01-12 08:09:32

數(shù)據中心;微軟

2016-08-18 21:51:36

科幻電影人工智能

2020-12-10 19:21:42

機器人人工智能教練車

2019-01-17 11:00:28

ARAR手機AR眼鏡

2024-05-17 16:02:00

2013-09-17 10:04:26

2023-06-27 17:53:32

人工智能數(shù)字孿生

2020-11-10 16:18:58

機器學習人工智能AI

2020-04-22 10:29:13

外賣高科技裝備

2024-08-22 12:29:10

2017-04-06 10:10:16

2019-12-09 12:20:12

機器人物聯(lián)網安全

2016-11-16 16:04:27

2014-07-09 14:14:56

2021-08-04 09:18:34

人工智能AI

2011-09-28 10:06:56

Wi-Fi線纜

2016-06-12 16:04:03

機器人編劇
點贊
收藏

51CTO技術棧公眾號