自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

中山大學(xué)HCP實驗室新突破:用因果范式再升級多模態(tài)大模型

人工智能 新聞
該工作的重要意義是在一定程度上打開了預(yù)訓(xùn)練大模型從深度學(xué)習(xí)范式中繼承的 “黑盒子”,是解決大模型的 “可解釋性” 和 “可控性” 問題的重要探索。

中山大學(xué)人機(jī)物智能融合實驗室(HCP)在 AIGC 及多模態(tài)大模型方面成果豐碩,在近期的 AAAI 2023、CVPR 2023 先后入選了十余篇,位列全球研究機(jī)構(gòu)的第一梯隊。

?其中一個工作實現(xiàn)了用因果模型來顯著提升多模態(tài)大模型在調(diào)優(yōu)中的可控及泛化性——《Masked Images Are Counterfactual Samples for Robust Fine-tuning》。

圖片

鏈接:https://arxiv.org/abs/2303.03052

使用預(yù)訓(xùn)練的大規(guī)模模型在下游任務(wù)上進(jìn)行微調(diào)是當(dāng)前流行的深度學(xué)習(xí)范式。尤其是近期預(yù)訓(xùn)練語言大模型 ChatGPT 的出色表現(xiàn),使得這套技術(shù)范式得到了廣泛的認(rèn)可。經(jīng)過海量數(shù)據(jù)的預(yù)訓(xùn)練,這些預(yù)訓(xùn)練大模型能夠適應(yīng)現(xiàn)實環(huán)境中多變的數(shù)據(jù)分布,因而在通用場景中表現(xiàn)出較強(qiáng)的魯棒性。

然而,當(dāng)用下游場景數(shù)據(jù)對預(yù)訓(xùn)練大模型進(jìn)行微調(diào)以適應(yīng)特定應(yīng)用任務(wù)時,絕大多數(shù)情況下這些數(shù)據(jù)具有單一性。以這些數(shù)據(jù)對預(yù)訓(xùn)練大模型進(jìn)行微調(diào)訓(xùn)練,往往會降低模型魯棒性,使基于預(yù)訓(xùn)練大模型的應(yīng)用變得困難。特別是在視覺模型方面,由于圖像的多樣性遠(yuǎn)遠(yuǎn)超過語言,下游微調(diào)訓(xùn)練導(dǎo)致視覺相關(guān)的預(yù)訓(xùn)練大模型魯棒性下降的問題尤其突出。

之前的研究方法通常通過模型集成等方式在模型參數(shù)層面隱式地保持微調(diào)后預(yù)訓(xùn)練模型的魯棒性。但是,這些工作并沒有分析微調(diào)導(dǎo)致模型分布外性能下降的本質(zhì)原因,也沒有明確解決上述大模型微調(diào)后魯棒性下降的問題。

該工作以跨模態(tài)大模型為基礎(chǔ),從因果關(guān)系的角度分析了預(yù)訓(xùn)練大模型魯棒性損失的本質(zhì)原因,并據(jù)此提出了一種能夠顯著提升模型魯棒性的微調(diào)訓(xùn)練方法。該方法使得模型在適應(yīng)下游任務(wù)的同時,仍能保持較強(qiáng)的魯棒性,更好地滿足實際應(yīng)用需求。

以 OpenAI 在 2021 年發(fā)布的跨模態(tài)預(yù)訓(xùn)練大模型 CLIP(Contrastive Language–Image Pre-training)為例:CLIP 是一種基于對比的圖片 - 文本聯(lián)合學(xué)習(xí)的跨模態(tài)預(yù)訓(xùn)練大模型,是 Stable Diffusion 等生成式模型的基礎(chǔ)。該模型通過包含約 4 億個圖像 - 文本對的海量多源數(shù)據(jù)進(jìn)行訓(xùn)練,在一定程度上學(xué)習(xí)到了一些對于分布變化魯棒的因果關(guān)系。

然而,當(dāng)用特征單一的下游數(shù)據(jù)對 CLIP 進(jìn)行微調(diào)時,容易破壞模型學(xué)習(xí)到的這些因果知識,因為訓(xùn)練圖像的非語義表征和語義表征是高度糾纏的。例如,將 CLIP 模型遷移應(yīng)用到 “農(nóng)場” 這一下游場景時,許多訓(xùn)練圖像中的 “奶?!?都在草地上。此時,微調(diào)訓(xùn)練可能使模型學(xué)習(xí)到依賴草地這一非 “奶?!?的語義表征來預(yù)測圖像的語義。然而,這種相關(guān)性并不一定是真實的,例如 “奶?!?也可能出現(xiàn)在公路上。因此,模型在進(jìn)行微調(diào)訓(xùn)練后,其魯棒性會降低,應(yīng)用時的輸出結(jié)果可能變得極不穩(wěn)定,缺乏可控性。

基于團(tuán)隊多年的大模型搭建和訓(xùn)練經(jīng)驗,該工作從因果關(guān)系的角度重新審視了預(yù)訓(xùn)練模型微調(diào)導(dǎo)致魯棒性下降的問題?;谝蚬Ec分析,該工作提出了一種基于圖像掩碼構(gòu)造反事實樣本,并通過掩碼圖像學(xué)習(xí)提高模型魯棒性的微調(diào)訓(xùn)練方法。

具體而言,為了打破下游訓(xùn)練圖像中的假性相關(guān),該工作提出了一種基于類激活圖(CAM)的方法掩蓋并替換圖像特定區(qū)域的內(nèi)容,用以操縱圖像的非語義表征或語義表征,產(chǎn)生反事實樣本。微調(diào)模型可以通過蒸餾的方式學(xué)習(xí)模仿預(yù)訓(xùn)練模型對這些反事實樣本的表征,從而更好地解耦語義因素與非語義因素的影響,提高對下游領(lǐng)域中分布偏移的適應(yīng)能力。


圖片

實驗表明,該方法能夠顯著提高預(yù)訓(xùn)練模型在下游任務(wù)中的性能,同時在提升魯棒性方面相較于現(xiàn)有大模型微調(diào)訓(xùn)練方法有顯著優(yōu)勢。

該工作的重要意義是在一定程度上打開了預(yù)訓(xùn)練大模型從深度學(xué)習(xí)范式中繼承的 “黑盒子”,是解決大模型的 “可解釋性” 和 “可控性” 問題的重要探索,讓我們離切實可享受的由預(yù)訓(xùn)練大模型帶領(lǐng)的生產(chǎn)力提升越來越近。

中山大學(xué) HCP 團(tuán)隊自 Transformer 機(jī)制問世起,從事大模型技術(shù)范式研究多年,致力于提升大模型的訓(xùn)練效率和引入因果模型來解決大模型的 “可控性” 問題。團(tuán)隊多年來自主研究開發(fā)了多個視覺、語言、語音和跨模態(tài)的預(yù)訓(xùn)練大模型,與華為諾亞方舟實驗室聯(lián)合開發(fā)的 “悟空” 跨模態(tài)大模型 (鏈接:https://arxiv.org/abs/2202.06767) 即是其中的典型案例。

團(tuán)隊簡介

中山大學(xué)人機(jī)物智能融合實驗室 (HCP Lab) 在多模態(tài)認(rèn)知計算、機(jī)器人與嵌入式系統(tǒng)、元宇宙與數(shù)字人、可控內(nèi)容生成等領(lǐng)域開展體系化研究,并深入應(yīng)用場景打造產(chǎn)品原型,輸出大量原創(chuàng)技術(shù)及孵化創(chuàng)業(yè)團(tuán)隊。實驗室由 IAPR Fellow 林倞教授于 2010 年創(chuàng)辦,獲得中國圖像圖形學(xué)會科技一等獎、吳文俊自然科學(xué)獎、省級自然科學(xué)一等獎等榮譽(yù);培養(yǎng)了梁小丹、王可澤等國家級青年人才。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-04-11 07:09:43

大模型人工智能AI

2022-11-04 17:02:31

AI模型

2020-11-05 16:21:15

中山大學(xué)

2024-12-20 09:39:05

2025-03-17 10:25:28

2025-03-17 12:48:50

2024-07-23 09:48:59

2023-08-22 13:20:00

模型訓(xùn)練

2009-05-19 11:46:21

2024-01-29 06:40:00

AI模型

2014-11-13 10:17:30

中山大學(xué)新炬網(wǎng)絡(luò)學(xué)院大數(shù)據(jù)技術(shù)

2021-11-16 15:37:43

AI 數(shù)據(jù)人工智能

2015-02-06 09:23:52

賽可達(dá)實驗室網(wǎng)絡(luò)安全

2024-02-29 13:55:00

模型訓(xùn)練

2024-10-17 14:17:44

DiTSOTA機(jī)制

2016-12-24 00:08:11

教育信息化

2022-10-28 15:16:52

檢測數(shù)據(jù)

2024-01-12 13:10:06

AI數(shù)據(jù)

2016-07-15 09:53:27

太一星晨
點贊
收藏

51CTO技術(shù)棧公眾號