自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

高效評估多模態(tài)預訓練對齊質量,中科大提出模態(tài)融合率MIR

人工智能 新聞
來自中科大等單位的研究團隊共同提出了用來有效評估多模態(tài)大模型預訓練質量的評估指標 Modality Integration Rate(MIR),能夠快速準確地評估多模態(tài)預訓練的模態(tài)對齊程度。

本文作者來自于中國科學技術大學,上海人工智能實驗室以及香港中文大學。其中第一作者黃啟棟為中國科學技術大學三年級博士生,主要研究方向包括多模態(tài)大模型(MLLM)和可信 / 高效 AI,師從張衛(wèi)明教授。

是否還在苦惱如何評估自己預訓練好的多模態(tài) LLM 的性能?是否還在使用并不靠譜的損失 Loss,困惑度 Perplexity(PPL),上下文 In-Context 評估,亦或是一遍遍地通過有監(jiān)督微調(SFT)之后下游測試基準的分數(shù)來判斷自己的預訓練是否有效?

來自中科大等單位的研究團隊共同提出了用來有效評估多模態(tài)大模型預訓練質量的評估指標 Modality Integration Rate(MIR),能夠快速準確地評估多模態(tài)預訓練的模態(tài)對齊程度。

圖片


  • 標題:Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate
  • 論文:https://arxiv.org/abs/2410.07167
  • 代碼:https://github.com/shikiw/Modality-Integration-Rate

研究背景

預訓練(Pre-training)是現(xiàn)有多模態(tài)大模型(MLLM)在訓練過程中一個不可或缺的階段。不同于大型語言模型(LLM)的預訓練,多模態(tài)預訓練的主要目標聚焦于不同模態(tài)之間的對齊。隨著近兩年的發(fā)展,多模態(tài)預訓練已經從輕量級圖像 - 文本對的對齊,發(fā)展為基于廣泛多樣的多模態(tài)數(shù)據進行深層次模態(tài)集成,旨在構建更通用的多模態(tài)大模型。

然而,多模態(tài)預訓練的評估對于業(yè)界仍然是一個未被充分解決的挑戰(zhàn)?,F(xiàn)有最常用的評估手段為通過進一步的有監(jiān)督微調(SFT)來測試在下游基準上的模型能力,但是其伴隨的計算成本和復雜性不容忽視。另外有一些方法通過借用 LLM 的預訓練評估指標,包括損失值 Loss、困惑度 PPL 和上下文 In-Context 評估等方式,在多模態(tài)預訓練評估中都被證明是不穩(wěn)定和不可靠的。

研究者們通過在不同規(guī)模的高質量預訓練數(shù)據上預訓練 LLaVA-v1.5 的 7B 模型,用上述不同的方法評估其預訓練質量,并與有監(jiān)督微調之后在下游測試基準上的得分進行對照。如下圖所示,損失值 Loss、困惑度 PPL、以及上下文 In-Context 評估都無法準確的對應 SFT 之后在下游測試基準上的模型性能,而本文提出的模態(tài)融合率 MIR 則能完美對應。

圖片

實際上,PPL 等指標的不適用主要由于 LLM 與 MLLM 在預訓練目標上的差異。LLM 預訓練主要學習建模語言的基本模式,而 MLLM 預訓練則側重于縮小不同模態(tài)之間的差距。如果用多個不同來源的圖像和文本數(shù)據,并在 LLaVA-v1.5 的大模型輸入層去可視化它們的特征分布,會發(fā)現(xiàn)盡管圖像或文本內容多樣,但在每種模態(tài)內,它們的分布相對均勻,而模態(tài)之間則存在明顯的分布差距,如下圖(左)所示。

圖片

如上圖(右)所示,通過進一步計算現(xiàn)有 MLLM 的在大模型不同層中的模態(tài)差距,會觀察到淺層的時候仍然有較大差距,但當?shù)皆絹碓缴畹膶?,這一差距逐漸縮小,這表明 MLLM 在訓練過程中仍需要學習對齊不同分布,以理解新引入的模態(tài)。

技術方案

本文提出模態(tài)融合率 MIR,能夠用于評估多模態(tài)預訓練的跨模態(tài)對齊質量。該指標能準確反映各種預訓練配置(如數(shù)據、策略、訓練配方和架構選擇)對模型性能的影響,而無需再進行有監(jiān)督微調 SFT 并于下游測試基準上評估。

對于一個預訓練的多模態(tài)大模型 M = (E, P, D),其中 E 表示視覺編碼器,P 表示視覺語言映射模塊,D = (D_t, F) 表示包含分詞器 D_t 和 K 層 transformer 的底座大模型 F。當輸入一組 “圖像 - 文本” 對 {v_n, t_n}, n = 1,..., N 給模型,會從大模型第 k 層 F_k 得到該層關于數(shù)據對 {v_n, t_n} 的視覺 token 特征 f_k^{v_n} 和文本 token 特征 f_k^{t_n},即

圖片

研究者們將多個樣本的特征 f_k^{v_n} 合并到一起得到 f_k^v,同理 f_k^{t_n} 可以合并得到 f_k^t,并且定義 f_{k, i}^v 為第 i 個視覺 token 特征,f_{k, j}^t 為第 j 個語言 token 特征。

文本中心歸一化

由于越深層的 token 特征在數(shù)值絕對尺度上明顯比淺層的大,并且不同模態(tài)特征間在絕對尺度上存在差異,直接使用 Frechet 距離等度量函數(shù)、或是把所有 token 特征統(tǒng)一歸一化后再使用度量函數(shù)都是不合適的。為此,研究者們設計了一種文本中心的歸一化方法,對于 f_k^t 中的總共 s 個文本 token 特征,計算尺度因子:

圖片

然后對第 k 層對應的視覺特征和文本特征都使用該因子進行放縮,在保證跨層對比合理性的同時,保持模態(tài)間絕對尺度帶來的差異。

離群值篩除

許多工作如 StreamLLM [1]、Massive Activations [2] 都提到,有極少部分絕對數(shù)值異常大的 token 會用來在注意力模塊的 SoftMax 計算中使總和填充到 1。為了避免此類離群值對整體統(tǒng)計分布的影響,這里使用 “3-sigma” 的準則對于所有 f_k^v 和 f_k^t 中的離群值進行篩除。以下用 omega 表示這個操作。

模態(tài)融合率

在經過文本中心歸一化以及離群 token 篩除之后,模態(tài)融合率 MIR 可以通過累和大模型逐層的模態(tài)域間距離來得到:

圖片

其中,mu_{v, k} 和 mu_{t, k} 分別是處理后視覺 token 特征和文本 token 特征的均值,而

圖片

對應于各自的協(xié)方差計算。最后的平方根項通常在 PyTorch 中計算緩慢,這是由于大模型的特征維度普遍較高。因此研究者們使用 Newton-Schulz 迭代近似的方式估計該項,在大大提高計算速度的同時,保證實踐中誤差不超過 1%??傮w上來看,越低的 MIR 代表著越高的預訓練模態(tài)對齊質量。

可學習模態(tài)校準

在對 MIR 的探究推導過程中,證明了底座大模型在訓練過程中展現(xiàn)出的在淺層逐漸縮小模態(tài)間差距的傾向。這促使研究者們重新思考多模態(tài)大模型中一些繼承自大型語言模型的設計是否不利于促進跨模態(tài)對齊。為此,研究者們提出了 MoCa,一個可插拔輕量級的可學習模塊,來促進跨模態(tài)對齊。簡單來說,即對于每一層的視覺 token 特征單獨進行一個可學習的縮放和偏移:

圖片

其中縮放向量 u 初始化為全一向量,偏移向量 v 初始化為全 0 向量,兩者隨著模型一起訓練,但是基本不增加額外參數(shù)量。

實驗探究

研究者們首先展示了 MIR 在在擴大預訓練數(shù)據規(guī)模時衡量預訓練質量的有效性。這里采用兩種預訓練策略:1) 僅訓練 MLP 投影模塊;2) 解鎖視覺編碼器后半部分和整個 LLM。在第一種策略下,SFT 后的性能在 800K~1M 數(shù)據規(guī)模時逐漸改善但趨于飽和。而在使用第二種策略時,即使在 1.8M 數(shù)據規(guī)模下,性能仍持續(xù)顯著提升。該結果說明了了 MIR 在擴大預訓練數(shù)據時的有效性,也說明了適當?shù)胤砰_視覺編碼器或 LLM 在大規(guī)模數(shù)據上有持續(xù)改善預訓練的效果。

圖片

研究者們也探究了 MIR 在超參數(shù)調整、預訓練策略選擇上的有效性。在超參數(shù)調整方面,研究者們發(fā)現(xiàn) MIR 與 SFT 后下游測試基準性能之間存在正相關,這說明 MIR 直接反映不同訓練超參數(shù)對于在預訓練質量的影響,以后對照 MIR 就可以實現(xiàn)預訓練調參煉丹!

圖片

在訓練策略方面,研究者們探討了 MIR 如何指導選擇有效的預訓練放開策略。結果顯示,放開 LLM 顯著降低了 MIR,且顯著增強下游基準上的表現(xiàn)。

圖片

同時,MIR 也可以幫助選擇一些有利于跨模態(tài)對齊的模塊設計。如下圖所示,當使用不同的視覺語言投影模塊結構時,MIR 可以很準確的對應到 SFT 之后的測試基準性能。

圖片

同樣,所提出的可學習模態(tài)校準 MoCa 也可以有效幫助不同模型在下游測試基準上漲點,并取得更低的 MIR。

圖片

本文仍有較多其他方面的實驗和探索,有興趣的同學可以參考原文!

責任編輯:張燕妮 來源: 機器學習
相關推薦

2023-12-04 13:23:00

數(shù)據訓練

2025-04-15 09:22:00

AI訓練模型

2021-12-06 09:53:09

自然語言神經網絡人工智能

2023-10-30 15:06:00

模型數(shù)據

2022-09-01 16:58:52

DTW算法鴻蒙

2025-03-13 09:47:29

2024-11-13 09:39:13

2022-02-28 10:31:22

人工智能視覺檢測

2025-01-13 03:00:00

模型數(shù)據訓練

2024-05-27 07:21:43

2025-04-07 00:00:00

多模態(tài)大模型

2024-03-25 12:30:18

AI訓練開源

2025-03-03 08:00:00

小紅書AI圖像檢測模型AI

2023-11-09 15:10:00

訓練數(shù)據

2025-02-26 13:00:00

2022-03-08 09:15:29

人工智能語音識別模型

2024-12-09 10:15:00

AI技術

2025-04-01 09:32:00

模型訓練AI

2025-04-08 09:00:00

AI模型數(shù)據

2025-01-08 08:21:16

點贊
收藏

51CTO技術棧公眾號