自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

走在GPT 4.5前面?3D、視頻直接扔進對話框,大模型掌握跨模態(tài)推理

人工智能 新聞
最近,有人在社交媒體上發(fā)布了一張有關(guān) GPT4.5 更新的截圖。圖中內(nèi)容顯示,和 GPT 系列之前推出的模型相比,GPT4.5 最大的驚喜可能就是處理 3D 和視頻的能力。至于 3D 能力到底是指看得懂 3D 圖像,還是能輸入 3D 模型,目前只能靠猜。

給你一首曲子的音頻和一件樂器的 3D 模型,然后問你這件樂器能否演奏出這首曲子。你可以通過聽覺來辨認這首曲子的音色,看它是鋼琴曲還是小提琴曲又或是來自吉他;同時用視覺識別那是件什么樂器。然后你就能得到問題的答案。但語言模型有能力辦到這一點嗎?

圖片

實際上,這個任務(wù)所需的能力名為跨模態(tài)推理,也是當今多模態(tài)大模型研究熱潮中一個重要的研究主題。近日,賓夕法尼亞大學、Salesforce 研究院和斯坦福大學的一個研究團隊給出了一個解決方案 X-InstructBLIP,能以較低的成本讓語言模型掌握跨模態(tài)推理。

人類天生就會利用多種感官來解讀周圍環(huán)境并和制定決策。通過讓人工智能體具備跨模態(tài)推理能力,我們可以促進系統(tǒng)的開發(fā),讓其能更全面地理解環(huán)境,從而能應(yīng)對僅有單個模態(tài)導致難以辨別模式和執(zhí)行推理的情況。這就催生了多模態(tài)語言模型(MLM),其可將大型語言模型(LLM)的出色能力遷移到靜態(tài)視覺領(lǐng)域。

近期一些研究進展的目標是通過整合音頻和視頻來擴展 MLM 的推理能力,其用的方法要么是引入預(yù)訓練的跨模態(tài)表征來在多個模態(tài)上訓練基礎(chǔ)模型,要么是訓練一個投影模型來將多模態(tài)與 LLM 的表征空間對齊。這些方法雖然有效,但前者往往需要針對具體任務(wù)進行微調(diào),而后者則需要在聯(lián)合模態(tài)數(shù)據(jù)上微調(diào)模型,這樣一來就需要很多數(shù)據(jù)收集和計算資源成本。

該研究團隊提出的 X-InstructBLIP 是一個可擴展框架,讓模型可以在學習單模態(tài)數(shù)據(jù)的同時不受預(yù)訓練的跨模態(tài)嵌入空間或與解凍 LLM 參數(shù)相關(guān)的計算成本和潛在過擬合風險的限制。

圖片


  • 論文地址:https://arxiv.org/pdf/2311.18799.pdf
  • GitHub 地址:https://github.com/salesforce/LAVIS/

X-InstructBLIP 無縫地整合了多種模態(tài)并且這些模態(tài)各自獨立,從而不必再使用聯(lián)合模態(tài)數(shù)據(jù)集,同時還能保留執(zhí)行跨模態(tài)任務(wù)的能力。

據(jù)介紹,這種方法使用了 Q-Former 模塊,使用來自 BLIP-2 的圖像 - 文本預(yù)訓練權(quán)重進行了初始化,并在單模態(tài)數(shù)據(jù)集上進行了微調(diào)以將來自不同模態(tài)嵌入空間的輸入映射到一個凍結(jié)的 LLM。

由于某些模態(tài)缺乏指令微調(diào)數(shù)據(jù),該團隊又提出了一個簡單又有效的方法:一種三階段查詢數(shù)據(jù)增強技術(shù),能使用開源 LLM 來從字幕描述數(shù)據(jù)集提取指令微調(diào)數(shù)據(jù)。

圖 2 給出的結(jié)果凸顯了這個框架的多功能性。定量分析表明,X-InstructBLIP 的表現(xiàn)與現(xiàn)有的單模態(tài)模型相當,并且能在跨模態(tài)任務(wù)上表現(xiàn)出涌現(xiàn)能力。而為了量化和檢驗這種涌現(xiàn)能力,該團隊又構(gòu)建了 DisCRn。這是一個自動收集和調(diào)整的判別式跨模態(tài)推理挑戰(zhàn)數(shù)據(jù)集,其需要模型分辨不同的模態(tài)組合,比如「音頻 - 視頻」和「3D - 圖像」。

圖片

方法

圖 1 展示了該模型架構(gòu)的總體概況:其擴展了 Dai et al. 在 InstructBLIP 項目中提出的指令感知型投影方法,通過獨立微調(diào)具體模態(tài)的 Q-Former 到一個凍結(jié) LLM 的映射,使其可用于任意數(shù)量的模態(tài)。

圖片

圖 3 展示了這個模態(tài)到 LLM 的對齊過程,其中突出強調(diào)了與每個模態(tài)相關(guān)的所有組件。

圖片

算法 1 概述了 X-InstructBLIP 對齊框架。


圖片

本質(zhì)上講,對于每一對文本指令和非語言輸入樣本:(1) 使用一個凍結(jié)的預(yù)訓練編碼器對文本指令進行 token 化,對非文本輸入進行嵌入化。(2) 將非語言輸入的歸一化編碼和 token 化的指令輸入 Q-Former 模塊,并附帶上一組可學習的查詢嵌入。(3) 通過 Q-Former 對這些查詢嵌入進行變換,通過 transformer 模塊的交替層中的跨注意力層來條件式地適應(yīng)這些輸入。(4) 通過一個可訓練的線性層將修改后的查詢嵌入投影到凍結(jié) LLM 的嵌入空間。

數(shù)據(jù)集

X-InstructBLIP 的優(yōu)化和評估使用了之前已有的數(shù)據(jù)集和自動生成的數(shù)據(jù)集,如圖 4 所示。

圖片


對數(shù)據(jù)集進行微調(diào)

對于已有的數(shù)據(jù)集,研究者對它們進行了一些微調(diào),詳見原論文。

此外,他們還對指令數(shù)據(jù)進行了增強。由于他們尤其需要 3D 和音頻模態(tài)的數(shù)據(jù),于是他們使用開源大型語言模型 google/flan-t5-xxl 基于相應(yīng)的字幕描述自動生成了 3D 和音頻模態(tài)的問答對。這個過程最終從 Cap3D 的 3D 數(shù)據(jù)得到了大約 25 萬個示例,從 AudioCaps 的音頻數(shù)據(jù)得到了大約 2.4 萬個示例。

判別式跨模態(tài)推理

X-InstructBLIP 明顯展現(xiàn)出了一個涌現(xiàn)能力:盡管訓練是分模態(tài)進行的,但它卻能跨模態(tài)推理。這凸顯了該模型的多功能性以及潛在的跨大量模態(tài)的可擴展性。為了研究這種跨模態(tài)推理能力,該團隊構(gòu)建了一個判別式跨模態(tài)推理挑戰(zhàn)數(shù)據(jù)集 DisCRn。

如圖 5 所示,該任務(wù)需要模型跨模態(tài)分辨兩個實體的性質(zhì),做法是選出哪個模態(tài)滿足查詢的性質(zhì)。該任務(wù)要求模型不僅能分辨所涉模態(tài)的內(nèi)在特征,而且還要考慮它們在輸入中的相對位置。這一策略有助于讓模型不再依賴于簡單的文本匹配啟發(fā)式特征、順序偏差或潛在的欺騙性相關(guān)性。

圖片

為了生成這個數(shù)據(jù)集,研究者再次使用了增強指令數(shù)據(jù)時用過的 google/flan-t5-xxl 模型。

在生成過程中,首先是通過思維鏈方式為語言模型提供 prompt,從而為每個數(shù)據(jù)集實例生成一組屬性。然后,通過三個上下文示例使用語言模型,使之能利用上下文學習,讓每個實例都與數(shù)據(jù)集中的一個隨機實例配對,以構(gòu)建一個 (問題,答案,解釋) 三元組。

在這個數(shù)據(jù)集創(chuàng)建過程中,一個關(guān)鍵步驟是反復進行的一致性檢查:給定字幕說明上,只有當模型對生成問題的預(yù)測結(jié)果與示例答案匹配時(Levenshtein 距離超過 0.9),該示例才會被加入到最終數(shù)據(jù)集中。

這個優(yōu)化調(diào)整后的數(shù)據(jù)集包含 8802 個來自 AudioCaps 驗證集的音頻 - 視頻樣本以及來自 Cap3D 的包含 5k 點云數(shù)據(jù)的留存子集的 29072 個圖像 - 點云實例。該數(shù)據(jù)集中每個實例都組合了兩個對應(yīng)于字幕說明的表征:來自 AudioCaps 的 (音頻,視頻) 和來自 Cap3D 的 (點云,圖像)。

實驗

該團隊研究了能否將 X-InstructBLIP 有效地用作將跨模態(tài)整合進預(yù)訓練凍結(jié) LLM 的綜合解決方案。

實現(xiàn)細節(jié)

X-InstructBLIP 的構(gòu)建使用了 LAVIS 軟件庫的框架,基于 Vicuna v1.1 7b 和 13b 模型。每個 Q-Former 優(yōu)化 188M 個可訓練參數(shù)并學習 K=32 個隱藏維度大小為 768 的查詢 token。表 1 列出了用于每種模態(tài)的凍結(jié)預(yù)訓練編碼器。

圖片

優(yōu)化模型的硬件是 8 臺 A100 40GB GPU,使用了 AdamW。

結(jié)果

在展示的結(jié)果中,加下劃線的數(shù)值表示領(lǐng)域內(nèi)的評估結(jié)果。粗體數(shù)值表示最佳的零樣本性能。藍色數(shù)值表示第二好的零樣本性能。

對各個模態(tài)的理解

圖片


該團隊在一系列單模態(tài)到文本任務(wù)上評估了 X-InstructBLIP 的性能,結(jié)果展現(xiàn)了其多功能性,即能有效應(yīng)對實驗中的所有四種模態(tài)。表 2、3、4 和 6 總結(jié)了 X-InstructBLIP 在 3D、音頻、圖像和無聲視頻模態(tài)上的領(lǐng)域外性能。

圖片


圖片

圖片


圖片

跨模態(tài)聯(lián)合推理

盡管 X-InstructBLIP 的每個模態(tài)投影都是分開訓練的,但它卻展現(xiàn)出了很強的聯(lián)合模態(tài)推理能力。表 7 展示了 X-InstructBLIP 在視頻 (V) 和音頻 (A) 上執(zhí)行聯(lián)合推理的能力。

圖片

值得注意的是,X-InstructBLIP 具備協(xié)調(diào)統(tǒng)籌輸入的能力,因為當同時使用 MusicAVQA 和 VATEX Captioning 中的不同模態(tài)作為線索時,模型在使用多模態(tài)時的表現(xiàn)勝過使用單模態(tài)。但是,這個行為與模型沒有前綴提示的模型不一致。

一開始的時候,理論上認為模型沒有能力區(qū)分對應(yīng)每種模態(tài)的 token,而是將它們看作是連續(xù)流。這可能是原因。但是,來自圖像 - 3D 跨模態(tài)推理任務(wù)的結(jié)果卻對這一看法構(gòu)成了挑戰(zhàn) —— 其中沒有前綴的模型超過有前綴的模型 10 個點。似乎包含線索可能會讓模型對特定于模態(tài)的信息進行編碼,這在聯(lián)合推理場景中是有益的。

但是,這種針對性的編碼并不能讓模型識別和處理通常與其它模態(tài)相關(guān)的特征,而這些特征卻是增強對比任務(wù)性能所需的。其根本原因是:語言模型已經(jīng)過調(diào)整,就是為了生成與模態(tài)相關(guān)的輸出,這就導致 Q-Former 在訓練期間主要接收與特定于模態(tài)的生成相關(guān)的反饋。這一機制還可以解釋模型在單模態(tài)任務(wù)上出人意料的性能提升。

跨模態(tài)判別式推理

該團隊使用新提出的 DisCRn 基準評估了 X-InstructBLIP 在不同模態(tài)上執(zhí)行判別式推理的能力。他們將該問題描述成了一個現(xiàn)實的開放式生成問題。在給 LLM 的 prompt 中會加上如下前綴:

在向 X-InstructBLIP (7b) 輸入 prompt 時,該團隊發(fā)現(xiàn):使用 Q-Former 字幕描述 prompt(這不同于提供給 LLM 模型的比較式 prompt)會導致得到一種更適用于比較任務(wù)的更通用的表征,因此他們采用這種方法得到了表 8 的結(jié)果。其原因很可能是微調(diào)過程中缺乏比較數(shù)據(jù),因為每個模態(tài)的 Q-Former 都是分開訓練的。

圖片

為了對新提出的模型進行基準測試,該團隊整合了一個穩(wěn)健的字幕描述基準,其做法是使用 Vicuna 7b 模型用對應(yīng)于各模態(tài)的字幕描述來替換查詢輸出。對于圖像、3D 和視頻模態(tài),他們的做法是向 InstructBLIP 輸入 prompt 使其描述圖像 / 視頻,從而得出字幕描述。對于 3D 輸入,輸入給 InstructBLIP 的是其點云的一個隨機選取的渲染視圖。

結(jié)果可以看到,在準確度方面,X-InstructBLIP 分別優(yōu)于音頻 - 視頻和圖像 - 3D 基準模型 3.2 和 7.7 個百分點。用等價的線性投影模塊替換其中一個 Q-Former 后,圖像 - 3D 的性能會下降一半以上,音頻 - 視頻的性能會下降超過 10 個點。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2011-07-01 11:33:00

Qt 模態(tài) 非模態(tài)

2023-12-15 18:53:48

GPT-4.53D信息

2023-12-19 18:12:25

谷歌模型AI

2023-10-09 09:42:18

自動駕駛模型

2023-12-04 13:38:55

模型3D可視化

2024-12-10 09:40:00

AI3D模型

2024-03-20 15:51:00

AI數(shù)據(jù)

2024-11-06 09:47:00

2022-06-01 16:47:53

AI模型開源

2024-06-17 12:33:34

2010-01-28 16:55:26

Android對話框

2011-07-21 15:50:42

jQuery Mobi頁面對話框

2011-06-02 16:00:37

3D電視

2009-12-28 13:47:35

WPF對話框

2009-12-28 14:32:31

WPF窗體對話框

2009-12-11 15:35:50

PHP彈出對話框

2024-09-27 17:58:26

2020-08-26 10:37:21

阿里3D

2025-01-15 10:28:21

2012-07-06 15:03:43

跨平臺工具Ideaworks 3Marmalade
點贊
收藏

51CTO技術(shù)棧公眾號