自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

生活機(jī)器人最后考驗(yàn)!楊笛一團(tuán)隊(duì)發(fā)布EgoNormia:現(xiàn)實(shí)中能否符合社會(huì)規(guī)范?

人工智能 新聞
EgoNormia基準(zhǔn)可以評(píng)估視覺語言模型在物理社會(huì)規(guī)范理解方面能力,從結(jié)果上看,當(dāng)前最先進(jìn)的模型在規(guī)范推理方面仍遠(yuǎn)不如人類,主要問題在于規(guī)范合理性和優(yōu)先級(jí)判斷上的不足。

隨著人工智能技術(shù)日益成熟,社會(huì)各界對AI或機(jī)器人能否學(xué)習(xí)并遵循社會(huì)規(guī)范的問題越來越關(guān)注。從早期的科幻小說到如今的現(xiàn)實(shí)應(yīng)用,人類始終期望機(jī)器能夠理解并內(nèi)化這些根植于社會(huì)生活中的「規(guī)范」。

隨著視覺語言模型(VLMs)不斷進(jìn)步,研究者們陸續(xù)推出了諸多基準(zhǔn)和數(shù)據(jù)集,用以評(píng)估其第一視角下的視頻理解能力。例如,HourVideo和EgoSchema等基準(zhǔn)主要關(guān)注長視頻解析以及對物體和事件的識(shí)別能力。

然而,這些評(píng)估工具難以衡量模型在規(guī)范推理(normative reasoning)方面的表現(xiàn),為此,斯坦福大學(xué)團(tuán)隊(duì)提出了EgoNormia基準(zhǔn),旨在挑戰(zhàn)當(dāng)前最前沿的視覺語言模型,促使它們在復(fù)雜場景中做出符合人類常識(shí)的規(guī)范決策。

圖片

論文鏈接:https://arxiv.org/abs/2502.20490

網(wǎng)頁鏈接:https://egonormia.org

代碼鏈接:https://github.com/Open-Social-World/EgoNormia

在現(xiàn)實(shí)生活中,人們做決策時(shí)遇到的情境往往充滿矛盾與取舍。

例如:在戶外遠(yuǎn)足的時(shí)候,如果一位同伴在泥濘中被困;一方面,安全規(guī)范要求人們保持足夠距離,以防發(fā)生意外;另一方面,協(xié)作精神又促使人們對同伴伸出援手。

對于人類來說,這樣的權(quán)衡似乎是自然而然的選擇,人們會(huì)在保護(hù)自己安全的前提下向同伴施以援手;但對于視覺語言模型來說,如何在理解場景、提取關(guān)鍵線索的同時(shí)做出合乎社會(huì)規(guī)范的決策,仍然是一個(gè)亟待攻克的難題。

圖片

為全面衡量視覺語言模型在規(guī)范推理上的能力,論文主要提出了以下研究問題:

  • RQ1:模型是否能做出與人類共識(shí)一致的規(guī)范決策?
  • RQ2:當(dāng)模型決策與人類不符時(shí),究竟是因?yàn)橐曈X感知(如物體識(shí)別)出現(xiàn)偏差,還是在深入推理規(guī)范時(shí)存在缺陷?
  • RQ3:是否可以借助 EgoNormia 數(shù)據(jù)集來提升模型在復(fù)雜情境下的規(guī)范推理表現(xiàn)?

Physical Social Norm

為了更好地研究規(guī)范,論文首先將物理社會(huì)規(guī)范做出了以下定義:

「物理社會(huì)規(guī)范(Physical Social Norm)是指在共享環(huán)境中約定俗成的期望,這些期望規(guī)范著行為者的行為及其與他人的互動(dòng)方式。」

同時(shí),論文也對于物理社會(huì)規(guī)范進(jìn)行了分類,有一類規(guī)范明確用于最大化多智能體系統(tǒng)的整體效用,論文稱之為效用規(guī)范,即合作、協(xié)調(diào)和溝通規(guī)范。

另一類規(guī)范則更側(cè)重于人類社會(huì)性:安全、禮貌、隱私和空間距離。

人類社會(huì)規(guī)范往往與群體效用規(guī)范存在沖突,這種沖突為評(píng)估智能體在沖突目標(biāo)下的決策提供了場景。重要的是,每一類物理社會(huì)規(guī)范都能直接影響人機(jī)協(xié)作的成功,每一種規(guī)范具體的例子如下圖。

圖片

任務(wù)

EgoNormia基準(zhǔn)主要包含三個(gè)子任務(wù),所有子任務(wù)均采用多項(xiàng)選擇題的形式。

子任務(wù)1:動(dòng)作選擇,選出在當(dāng)前情境下最符合規(guī)范要求的唯一動(dòng)作。

子任務(wù)2:理由選擇,選出最能支持其所選規(guī)范動(dòng)作的理由。

子任務(wù)3:動(dòng)作合理性判斷,從給定選項(xiàng)中選出那些合理的(即符合規(guī)范但不一定是最佳的)動(dòng)作。

圖片

基準(zhǔn)生成

EgoNormia基準(zhǔn)生成流程主要包含四個(gè)階段:片段采樣,答案生成,篩選,人工驗(yàn)證。這些流程保證了最終數(shù)據(jù)集保持了多樣性,挑戰(zhàn)性,和人工共識(shí)性。

經(jīng)過一系列流程,論文最終得到了來自1077個(gè)原始視頻的1853個(gè)視頻切片,涵蓋97種場景和93種不同動(dòng)作。

借助GPT-4o的自動(dòng)聚類技術(shù),所有視頻被歸納為 5 個(gè)高層級(jí)類別和 23 個(gè)低層級(jí)類別,充分展示了數(shù)據(jù)的多樣性和豐富性(詳見餅圖)。

圖片

實(shí)驗(yàn)結(jié)果

在EgoNormia的評(píng)估中,大多數(shù)模型的平均準(zhǔn)確率均低于40%,而人類的平均得分高達(dá)92.4%,表現(xiàn)最好的模型Gemini 1.5 Pro在取得了45.3%的平均準(zhǔn)確率,表明當(dāng)前模型在做具體現(xiàn)身的規(guī)范決策(RQ1)方面能力有限。

此外,即便使用了更豐富的文本描述和最先進(jìn)的推理模型如 o3-mini,表現(xiàn)仍然不及采用視覺輸入的模型,證明了語言在捕捉連續(xù)、推理中細(xì)微特征(如空間關(guān)系、可見情緒與情感以及物理動(dòng)態(tài))方面存在根本性局限。

圖片

為了探究視覺語言模型規(guī)范推理能力受限的原因(RQ2),論文對 EgoNormia 中 100 個(gè)具代表性任務(wù)的模型回復(fù)進(jìn)行了標(biāo)注,并進(jìn)一步將規(guī)范推理錯(cuò)誤進(jìn)行了分類。

論文共識(shí)別出四種失敗模式:(1) 規(guī)范合理性錯(cuò)誤,(2) 規(guī)范優(yōu)先級(jí)錯(cuò)誤,(3) 感知錯(cuò)誤,以及 (4) 拒絕回答。

對于模型而言,大多數(shù)錯(cuò)誤源自合理性錯(cuò)誤而非感知錯(cuò)誤,這表明基礎(chǔ)模型在處理視頻輸入的視覺上下文方面表現(xiàn)尚可,但在對解析出的情境進(jìn)行有效規(guī)范推理時(shí)則存在不足。此外,隨著整體性能的提高,規(guī)范優(yōu)先級(jí)錯(cuò)誤的比例也逐步增加(GPT-4o < Gemini 1.5 Pro < 人類),表明更強(qiáng)大的模型在面對模棱兩可的情境時(shí),更難確定哪項(xiàng)規(guī)范應(yīng)當(dāng)優(yōu)先。

圖片

最后,研究人員評(píng)估了EgoNormia是否可以直接用于提升視覺語言模型的規(guī)范推理能力(RQ3)。

研究人員提出采用檢索增強(qiáng)生成(Retrieval-Augmented Generation,RAG),為更深層次的規(guī)范推理任務(wù)提供基于上下文的規(guī)范示例,使其能作為多示例學(xué)習(xí)的參考。

為了公平地測試EgoNormia在新數(shù)據(jù)上的效用,研究人員構(gòu)建了一個(gè)基于第一人稱機(jī)器人助手視頻的域外測試數(shù)據(jù)集,基線GPT-4o的得分僅為18.2%。

通過對EgoNormia的檢索,論文展示了在未見域內(nèi)任務(wù)上,相對于最佳非RAG模型和基礎(chǔ)GPT-4o,EgoNormia提供了9.4%的性能提升,并比隨機(jī)檢索 EgoNormia 提高了7.9%。

總結(jié)

EgoNormia是一種新穎的基準(zhǔn)和數(shù)據(jù)集,旨在嚴(yán)格評(píng)估視覺語言模型(VLMs)在第一人稱視角下的物理社會(huì)規(guī)范(PSN)的理解能力。

論文證明,盡管當(dāng)前最先進(jìn)的模型在視覺識(shí)別和抽象推理方面表現(xiàn)強(qiáng)勁,但在PSN理解上仍然遜色于人類,主要原因在于規(guī)范合理性理解和優(yōu)先級(jí)判斷上的錯(cuò)誤。

通過測試一種基于檢索的方法,論文展示了EgoNormia在提升規(guī)范理解方面的直接實(shí)用性,在域外和不同體現(xiàn)的視頻上均取得了改進(jìn)。

最后,論文還指出了具體現(xiàn)身規(guī)范理解未來的研究機(jī)遇,并建議在大規(guī)模規(guī)范數(shù)據(jù)集上進(jìn)行后續(xù)訓(xùn)練,這將是一個(gè)極具前景的研究方向。

部分作者介紹

楊笛一:斯坦福大學(xué)計(jì)算機(jī)系的助理教授,主要關(guān)注具有社會(huì)意識(shí)的自然語言處理,其研究目標(biāo)是深入理解社會(huì)語境下的人類溝通,并開發(fā)支持人與人及人機(jī)交互的語言技術(shù)。

朱昊:斯坦福大學(xué)計(jì)算機(jī)系博士后,卡內(nèi)基梅隆大學(xué)博士,專注于打造能夠?qū)W習(xí)與人類溝通和協(xié)作的人工智能代理。

張彥哲:佐治亞理工學(xué)院計(jì)算機(jī)系博士生,致力于使模型具備持續(xù)學(xué)習(xí)多任務(wù)并實(shí)現(xiàn)知識(shí)遷移的能力,以及使模型能夠從其他模態(tài)和人類中受益并為其服務(wù)。

伏奕澄:斯坦福大學(xué)電氣工程系碩士生,特別關(guān)注如何將大規(guī)模語言模型應(yīng)用于現(xiàn)實(shí)場景,并致力于開發(fā)能夠更高效地與人類及外部世界進(jìn)行交互的智能系統(tǒng)。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-06-17 07:47:00

2025-04-02 09:50:00

機(jī)器人訓(xùn)練數(shù)據(jù)

2023-03-13 09:35:07

ChatGPTAI

2022-01-04 10:19:23

架構(gòu)運(yùn)維技術(shù)

2023-05-09 12:27:52

亞馬遜微服務(wù)重構(gòu)

2024-09-18 09:10:00

AI模型

2017-05-19 12:00:43

機(jī)器人家庭醫(yī)生YOBY

2024-04-09 08:36:01

2021-11-06 10:53:07

機(jī)器學(xué)習(xí)機(jī)器人AI

2020-03-26 21:59:50

機(jī)器人機(jī)器人警察人工智能

2024-07-16 13:15:23

2020-08-18 19:24:17

機(jī)器人護(hù)理機(jī)器人人工智能

2009-12-16 09:52:15

Linux操作系統(tǒng)

2021-07-19 09:11:05

機(jī)器人人工智能算法

2022-12-29 18:07:25

DDD電話機(jī)器人

2022-03-21 13:38:42

機(jī)器人人工智能AI

2017-09-18 13:06:54

機(jī)器人AI人工智能

2017-03-28 17:18:20

2021-07-26 21:31:13

機(jī)器人人工智能AI

2021-07-21 17:24:28

OpenAI機(jī)器人AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)