自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

挑戰(zhàn)人類認(rèn)知推理新任務(wù),MIT等聯(lián)合提出新一代視覺推理數(shù)據(jù)集

新聞 人工智能
本文在這個數(shù)據(jù)集上檢驗(yàn)了幾個最先進(jìn)的視覺推理模型。研究者觀察到它們的表現(xiàn)遠(yuǎn)遠(yuǎn)不及人類表現(xiàn),特別是在一些較新的推理類型(例如幾何,物理問題)任務(wù)上。

 [[440343]]

來自MIT-IBM 沃森人工智能實(shí)驗(yàn)室首席科學(xué)家淦創(chuàng)團(tuán)隊(duì)提出了新一代視覺推理數(shù)據(jù)集,該數(shù)據(jù)集提出了基于局部(part)的視覺推理,并融合了五類人類認(rèn)知推理任務(wù):概念型推理,關(guān)系型推理,類比型推理,數(shù)學(xué)推理和物理推理。

人類視覺感知的一個關(guān)鍵點(diǎn)是將視覺場景解析為物體,并進(jìn)一步解析為物體的各個局部,從而形成部分 - 整體層次結(jié)構(gòu)。這種層級結(jié)構(gòu)可以誘導(dǎo)出豐富的語義概念和關(guān)系,從而在解釋和組織視覺信息方面,以及視覺感知和推理的泛化方面發(fā)揮著重要作用。然而,現(xiàn)有的視覺推理數(shù)據(jù)集主要關(guān)注整個物體,而不是物體中的局部。由于更細(xì)粒度的概念、更豐富的幾何關(guān)系和更復(fù)雜的物理關(guān)系,基于部分 - 整體層次結(jié)構(gòu)的視覺推理比以物體整體為中心的推理更具挑戰(zhàn)性。

因此,為了更好地闡釋和理解基于局部的概念和關(guān)系,本文引入了一個新的名為 PTR 的大規(guī)模診斷型視覺推理數(shù)據(jù)集。PTR 包含大約七萬 RGBD 合成圖像,帶有關(guān)于語義實(shí)例分割、顏色屬性、空間和幾何關(guān)系以及某些物理屬性(例如穩(wěn)定性)的物體和局部標(biāo)注。這些圖像配有五種類型的問題:概念型推理,關(guān)系型推理,類比型推理,數(shù)學(xué)推理和物理推理。這些類型均來自于人類認(rèn)知推理的重要方面,但在以往的工作中并沒有被充分探索過。

本文在這個數(shù)據(jù)集上檢驗(yàn)了幾個最先進(jìn)的視覺推理模型。研究者觀察到它們的表現(xiàn)遠(yuǎn)遠(yuǎn)不及人類表現(xiàn),特別是在一些較新的推理類型(例如幾何,物理問題)任務(wù)上。該研究期待這個數(shù)據(jù)集能夠促進(jìn)機(jī)器推理向更復(fù)雜的人類認(rèn)知推理推進(jìn)。

挑戰(zhàn)人類認(rèn)知推理新任務(wù),MIT等聯(lián)合提出新一代視覺推理數(shù)據(jù)集
  • 論文地址:http://ptr.csail.mit.edu/assets/ptr.pdf
  • 項(xiàng)目主頁:http://ptr.csail.mit.edu

1、背景介紹

視覺推理要求機(jī)器通過觀察給定的場景來回答推理問題。近年來,由于在自然數(shù)據(jù)中存在大量的噪聲和偏差,研究人員合成數(shù)據(jù)集。合成數(shù)據(jù)集的生成是完全可控的,因此研究者更容易診斷推理模型中的不足。CLEVR[1] 是這類數(shù)據(jù)集中的代表。然而,各類視覺推理模型在 CLEVR 上的準(zhǔn)確率已經(jīng)趨近飽和,這是因?yàn)?CLEVR 數(shù)據(jù)集的推理局限于感知層面,遠(yuǎn)遠(yuǎn)落后于人類在認(rèn)知層面的推理能力。因此,本文提出了新一代視覺推理數(shù)據(jù)集,專注于對人類來說相對容易,但在機(jī)器推理領(lǐng)域還沒有被充分發(fā)掘的新任務(wù)。

同時,之前的視覺推理數(shù)據(jù)集主要關(guān)注物體的整體特征,而不太強(qiáng)調(diào)詳細(xì)的局部理解。然而,心理學(xué)證據(jù)表明,人類會將視覺場景解析為部分 - 整體層次結(jié)構(gòu)。因此,本文提出的數(shù)據(jù)集主要專注于整體 - 部分關(guān)系的推理。

挑戰(zhàn)人類認(rèn)知推理新任務(wù),MIT等聯(lián)合提出新一代視覺推理數(shù)據(jù)集

圖二:PTR 數(shù)據(jù)集介紹

2、數(shù)據(jù)集介紹

PTR 數(shù)據(jù)集有七萬的 RGBD 圖片和 70 萬基于這些圖片的問題。本文作者提供了詳細(xì)的圖片標(biāo)注,包括語義實(shí)例分割、幾何、物理狀態(tài)的標(biāo)注。數(shù)據(jù)集的生成采取了精細(xì)的偏差和噪聲控制。

下圖總結(jié)了 PTR 數(shù)據(jù)集涵蓋的概念。

挑戰(zhàn)人類認(rèn)知推理新任務(wù),MIT等聯(lián)合提出新一代視覺推理數(shù)據(jù)集

圖三:PTR 數(shù)據(jù)集中的概念

可以看出,PTR 數(shù)據(jù)集具有豐富的認(rèn)知層面的概念和關(guān)系。在物體整體方面,具有空間關(guān)系、物理狀態(tài)等概念,在局部方面,有幾何關(guān)系等概念。整體 - 部分的加入大大增加了視覺推理的層次性和豐富性。

PTR 數(shù)據(jù)集包含了五類問題:概念型推理,關(guān)系型推理,類比型推理,數(shù)學(xué)推理和物理推理。

2.1 概念型推理

主要考察機(jī)器對于整體 - 部分的概念和關(guān)系的理解。挑戰(zhàn)人類認(rèn)知推理新任務(wù),MIT等聯(lián)合提出新一代視覺推理數(shù)據(jù)集

2.2 關(guān)系型推理

主要考察機(jī)器對于物體之間的空間關(guān)系,和局部之間的幾何關(guān)系的理解。

挑戰(zhàn)人類認(rèn)知推理新任務(wù),MIT等聯(lián)合提出新一代視覺推理數(shù)據(jù)集

2.3 類比型推理

主要考察機(jī)器能否將物體之間 / 局部之間的關(guān)系遷移到其他物體 / 局部上。

挑戰(zhàn)人類認(rèn)知推理新任務(wù),MIT等聯(lián)合提出新一代視覺推理數(shù)據(jù)集

2.4 數(shù)學(xué)推理

主要考察機(jī)器能否對場景進(jìn)行數(shù)學(xué)推理。

挑戰(zhàn)人類認(rèn)知推理新任務(wù),MIT等聯(lián)合提出新一代視覺推理數(shù)據(jù)集

2.5 物理推理

主要考察機(jī)器能否對物體的物理狀態(tài)作出判斷。

挑戰(zhàn)人類認(rèn)知推理新任務(wù),MIT等聯(lián)合提出新一代視覺推理數(shù)據(jù)集

3、實(shí)驗(yàn)部分

本文檢驗(yàn)了幾個 SOTA 視覺推理模型在該數(shù)據(jù)集上的效果,包括 NS-VQA[2], MDETR[3], MAC[4] 等。

挑戰(zhàn)人類認(rèn)知推理新任務(wù),MIT等聯(lián)合提出新一代視覺推理數(shù)據(jù)集

圖四:實(shí)驗(yàn)結(jié)果

從結(jié)果可以看出,視覺推理模型的效果要遠(yuǎn)遠(yuǎn)低于人類表現(xiàn)。其中 NS-VQA 用到了 ground-truth 分割、語義等訓(xùn)練模型。然而,在較難的問題例如物理、幾何上面效果仍然很差。

為進(jìn)一步研究該結(jié)果來源于感知上的不正確還是認(rèn)知推理上的能力欠缺,本文對 NS-VQA 模型進(jìn)行了消融研究。

挑戰(zhàn)人類認(rèn)知推理新任務(wù),MIT等聯(lián)合提出新一代視覺推理數(shù)據(jù)集

圖五:NS-VQA 模型的消融研究

結(jié)果表明,即便擁有完美的感知能力并給予該模型所有需要的物體、局部分割,模型在幾何、類比、物理問題上效果依舊不樂觀。

實(shí)驗(yàn)表明,該研究數(shù)據(jù)集對未來機(jī)器如何進(jìn)行和人類一樣的認(rèn)知推理,特別是在一些比較難的物理、集合問題上進(jìn)行推理,提出了非常重要的方向。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2012-11-01 09:32:34

數(shù)據(jù)中心

2012-10-12 09:44:09

AdobeAcrobat XI

2021-12-01 10:05:12

模型人工智能計(jì)算

2025-03-28 11:06:10

視覺推理模型阿里通義千問AI

2009-03-20 11:12:32

HX 路由器產(chǎn)品Hughes

2020-11-10 09:43:47

計(jì)算機(jī)圖像 技術(shù)

2012-08-30 09:34:08

VMware

2010-12-14 12:48:43

SafeNetPKI應(yīng)用程序虛擬環(huán)境

2015-02-04 11:06:39

VMware

2011-04-28 20:37:12

2023-09-12 14:59:00

AI訓(xùn)練

2025-02-10 13:00:00

模型訓(xùn)練AI

2011-08-19 13:26:54

IBM芯片

2015-11-23 17:58:25

疊云

2013-12-12 14:14:15

戴爾

2011-07-11 17:33:36

華為TP3106智真系統(tǒng)

2017-04-12 16:05:24

思科MDS存儲網(wǎng)絡(luò)導(dǎo)向器

2014-05-13 13:33:33

2013-12-03 10:18:13

CompuwareAPM
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號