自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

中山大學發(fā)布無偏視覺問答數(shù)據(jù)集,論文登上頂刊TNNLS

新聞 人工智能
近期,中山大學發(fā)布了基于常識的無偏視覺問答數(shù)據(jù)集 (Knowledge-Routed Visual Question Reasoning,KRVQA)。

 近期,中山大學發(fā)布了基于常識的無偏視覺問答數(shù)據(jù)集 (Knowledge-Routed Visual Question Reasoning,KRVQA)。由于自然語言與標注者中自然存在的偏差,現(xiàn)有的算法能夠通過擬合數(shù)據(jù)集內的這些偏差達到很好的效果,而不需要理解對應的文字和圖像信息。相關論文發(fā)表在國際知名頂級期刊 TNNLS 上。

在自然語言處理和計算機視覺領域,已經(jīng)有工作開始探索基于常識的閱讀理解和視覺問答問題。這類問題要求算法需要額外的常識才能給出答案。但現(xiàn)有的常識視覺問答數(shù)據(jù)集大多是人工標注的,并沒有基于合適的知識或情感表達進行構建。這不僅導致常識的分布相當稀疏,容易產(chǎn)生解釋的二義性,同時還容易引入標注者偏差,使得相關算法仍在關注于增加神經(jīng)網(wǎng)絡的表達能力以擬合問題和答案之間的表面聯(lián)系。

針對此問題,研究者提出了新的基于知識路由的視覺推理數(shù)據(jù)集 (Knowledge-Routed Visual Question Reasoning,KRVQA),該數(shù)據(jù)集基于現(xiàn)有的多個公開知識 / 常識圖譜中與現(xiàn)有圖像場景圖 (scene graph) 相關的部分,通過預先定義的規(guī)則搜索圖譜中的推理路徑,并生成大規(guī)模無偏差的問答和推理標注。如圖 1 所示,該數(shù)據(jù)集避免現(xiàn)有數(shù)據(jù)驅動的深度模型通過過擬合得到高準確率,推動視覺問答模型正確感知圖像中的視覺對象,理解問題并整合對象之間的關系和相應常識回答問題。

中山大學發(fā)布無偏視覺問答數(shù)據(jù)集,論文登上頂刊TNNLS

圖 1:KRVQA 測試基準的樣例示意。

具體而言,基于通過生成推理路徑,從圖像場景圖或知識庫中選擇一個或兩個三元組進行多步推理,并通過約束使用的三元組,將知識從其他偏差中分離出來,并平衡答案的分布,避免答案歧義。兩個主要的約束為:

1. 一個問題必須與知識庫中的多個三元組相關,但僅有一個三元組與圖像相關。

2. 所有的問題都基于不同的知識庫三元組,但訓練集和測試集擁有相同的候選答案集合。

約束 1 能強制視覺問答模型正確地感知圖像,而不能僅僅根據(jù)給定的問題猜測知識。約束 2 則能避免現(xiàn)有方法通過訓練集中的樣本來擬合知識庫,強制模型通過外部知識來處理未見過的問題,促進模型在泛化性上的研究。

研究者對各種知識庫編碼方法和最新視覺問答模型進行了大量實驗,結果表明,在給定知識庫的情況下,是否給定問題相關的三元組的兩張情況間仍然會存在較大的差距。這說明提出的 KRVQA 數(shù)據(jù)集能很好體現(xiàn)現(xiàn)有深度模型在知識推理問題上的不足。

KRVQA 數(shù)據(jù)集

該數(shù)據(jù)集基于從自然圖像場景圖和外部知識庫中提取的一個或兩個三元組,組成推理結構,并以該結構為基礎通過模板構建問題答案對。

給定一個圖像,研究者首先合并其場景圖和外部知識庫以形成和圖像相關的知識圖。該數(shù)據(jù)集利用現(xiàn)有的公開標注數(shù)據(jù)構建數(shù)據(jù)集,包括使用 Visual Genome 數(shù)據(jù)集中圖像場景圖標注以獲得圖像中的所有對象 / 關系三元組, 使用 WebChild、ConceptNet、DBpedia 等一般常識知識庫獲取圖像信息以外的常識三元組。場景圖和知識庫中的三元組都包含一個主語、一個關系和一個賓語共三個項。如果圖像場景圖中的物體和知識庫某個三元組中一項的名稱相同,這兩項就將合并。在合并所有名稱相同的項之后,可以得到一個與圖像相關的知識圖。研究者利用其中包含的三元組來生成復雜的問題——答案對。

然后從圖中提取一條路徑并根據(jù)路徑提出一階或二階問題。推理路徑的提取由一組層級化的基本查詢的構建。一個基本查詢將告知模型在已知主語 A,賓語 B 和關系 R 中的其中兩個時,需要去哪個信息源取出第三個信息。例如,表示需要模型從知識庫中找到包括主語 A 和賓語 B 的三元組,并將三元組的關系 R 取出作為輸出。有如下 6 個基本查詢:

中山大學發(fā)布無偏視覺問答數(shù)據(jù)集,論文登上頂刊TNNLS

:給定主語 A 和賓語 B,從圖像中獲得它們的關系 R。

中山大學發(fā)布無偏視覺問答數(shù)據(jù)集,論文登上頂刊TNNLS

:給定主語 A 和關系 R,從圖像中獲得賓語 B。

中山大學發(fā)布無偏視覺問答數(shù)據(jù)集,論文登上頂刊TNNLS

:給定賓語 B 和關系 R,從圖像中獲得主語 A。

中山大學發(fā)布無偏視覺問答數(shù)據(jù)集,論文登上頂刊TNNLS

:給定主語 A 和賓語 B,從知識庫中獲得它們的關系 R。

中山大學發(fā)布無偏視覺問答數(shù)據(jù)集,論文登上頂刊TNNLS

:給定主語 A 和關系 R,從知識庫中獲得賓語 B。

中山大學發(fā)布無偏視覺問答數(shù)據(jù)集,論文登上頂刊TNNLS

:給定賓語 B 和關系 R,從知識庫中獲得主語 A。

通過將每個基本查詢的輸出作為下個基本查詢的輸入,便可以組成問題的層次化推理結構,并作為標注信息。例如,“What is the object that is on the desk used for?”的需要從圖像中查詢得知是什么在桌子上,并在給定前一步查詢得到的物體 A 和關系 “UsedFor” 的情況下,從知識庫中得到桌子上的物體的用處。

最終,根據(jù)提取的三元組和模板,例如 “(man, holds, umbrella)” 和模板 “what is <A> <R>? <B>” 生成問題答案對“what is the man holding?Umbrella”。

中山大學發(fā)布無偏視覺問答數(shù)據(jù)集,論文登上頂刊TNNLS

表 2 不同問題類型及對應模板實例

數(shù)據(jù)集的統(tǒng)計特性

數(shù)據(jù)集總共包括 32910 個圖像,193449 個知識三元組和 157201 個問題答案對。其中包括 68448 個一步推理問題和 88753 個二步推理問題,以及 87193 個外部知識相關問題和 70008 個外部知識無關問題。

知識庫無關的問題中,候選答案的數(shù)量為 2378。候選答案出現(xiàn)的頻次在數(shù)據(jù)集中表現(xiàn)出了長尾分布。這使得模型必須準確解析圖像,找出物體和它們的關系以正確處理圖像中顯著性不高的物體。知識庫相關的問題中,候選答案的數(shù)量為 6536,研究者通過限制每個答案的最大出現(xiàn)次數(shù),使得知識庫相關的問題的答案分布均勻,避免模型擬合知識庫。驗證和測試集中 97% 的答案存在于訓練集中,使得之前基于分類的視覺問答方法也能應用在該數(shù)據(jù)集上。

中山大學發(fā)布無偏視覺問答數(shù)據(jù)集,論文登上頂刊TNNLS

圖 2 知識相關問題的答案分布

中山大學發(fā)布無偏視覺問答數(shù)據(jù)集,論文登上頂刊TNNLS

圖 3 知識無關問題的答案分布

實驗

研究者通過評估多個最新視覺問答模型的性能以及包括知識圖嵌入和問題編碼器預訓練等各種知識嵌入方法,以檢驗提出的 KRVQA 數(shù)據(jù)集的性質。其中視覺問答模型包括:

  • Q-type。對于每個問題,使用其問題類型中最頻繁的訓練答案作為輸出答案。
  • LSTM。使用雙向 LSTM 對問題進行編碼。并僅用問題編碼預測最終答案。
  • 推理路徑預測。使用雙向 LSTM 對問題進行編碼,并以全監(jiān)督方式訓練和預測推理路徑和問題類型,以此從場景圖和知識庫中檢索正確答案。
  • Bottom-up attention。該方法取得了 2017 年視覺問答挑戰(zhàn)賽的第一名方法。具有視覺問答模型的經(jīng)典架構。
  • MCAN。模塊化共同注意網(wǎng)絡(MCAN)為目前在 VQAv2 數(shù)據(jù)集上不使用額外數(shù)據(jù)得到最高的性能的方法,同時具有與在各種視覺語言任務上預訓練的最新模型相似的網(wǎng)絡架構結構。
中山大學發(fā)布無偏視覺問答數(shù)據(jù)集,論文登上頂刊TNNLS

表 2 不同視覺問答方法在 KRVQA 上的準確率

如表 2 所示,基線方法 「Q-type」和「LSTM」僅根據(jù)問題預測答案,準確率大幅低于其他方。所有的方法在兩步問題上的表現(xiàn)都與一步問題有較大差距,在知識相關問題上的準確率也更低。這些結果表明,KRVQA 數(shù)據(jù)集中的問題需要結合圖像上下文和知識進行推理回答,多跳推理對現(xiàn)有方法仍具有挑戰(zhàn)性。

知識編碼與預訓練

通過在整個知識庫上訓練,RotatE 可以對知識庫中所有的實體和關系進行編碼,使得針對三元組有。研究者使用 RotatE 對知識庫三元組編碼,并與 VQAv2 數(shù)據(jù)集上的效果最好之一的 MCAN 基線模型融合,如圖 4 所示。

中山大學發(fā)布無偏視覺問答數(shù)據(jù)集,論文登上頂刊TNNLS

圖 4 嵌入知識庫編碼的 MCAN 模型

最近的研究表明,通過對大量文本的訓練,語言模型可以在一定程度上對知識進行編碼。受此啟發(fā),研究者同樣在知識文本上預訓練問題編碼器,對知識進行隱式編碼。具體地說,MCAN 的自注意問題編碼器將知識三元組的對應文本作為輸入,然后如圖 5 所示預測被掩蓋的文本字符或相應的知識三元組。

中山大學發(fā)布無偏視覺問答數(shù)據(jù)集,論文登上頂刊TNNLS

圖 5 用以隱式編碼知識庫的預訓練任務示意

在表三上所示的 KRVQA 結果顯示,在給定標定的三元組或查詢實體時,模型能大幅提高在知識相關問題上的結果。而在給定除查詢實體外的標定三元組 “+knowledge inference” 時,由于一副圖像可能對應多個知識三元組,模型在推理圖像答案時僅僅取得了少量提高。兩個預訓練任務則僅僅相對基線方法有稍微的提高。這顯示了 KRVQA 中知識庫的重要性,同時說明當前模型在正確感知圖像內容以及編碼知識庫上的不足。

中山大學發(fā)布無偏視覺問答數(shù)據(jù)集,論文登上頂刊TNNLS

表 3 不同知識庫編碼方法與 MCAN 基線方法的準確率

 

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2024-04-11 07:09:43

大模型人工智能AI

2009-05-19 11:46:21

2020-11-05 16:21:15

中山大學

2024-01-12 13:10:06

AI數(shù)據(jù)

2021-11-16 15:37:43

AI 數(shù)據(jù)人工智能

2014-11-13 10:17:30

中山大學新炬網(wǎng)絡學院大數(shù)據(jù)技術

2016-12-24 00:08:11

教育信息化

2015-07-28 17:30:20

徐亞波

2016-07-15 09:53:27

太一星晨

2022-11-04 17:02:31

AI模型

2023-03-14 14:06:52

訓練模型

2015-11-18 17:12:25

太一星晨/應用交付

2024-01-29 06:40:00

AI模型

2022-11-18 18:39:03

AI神經(jīng)網(wǎng)絡

2024-12-20 09:39:05

2024-02-29 13:55:00

模型訓練

2024-03-28 13:19:05

AI數(shù)據(jù)

2012-05-17 09:30:33

Power系統(tǒng)教育云Power Dream

2023-08-22 13:20:00

模型訓練
點贊
收藏

51CTO技術棧公眾號