自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="tbtwv"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

馬毅團隊新作！微調(diào)多模態(tài)大模型會「災(zāi)難性遺忘」，讓性能大減

作者：新智元 2023-09-28 08:23:18

人工智能新聞

馬毅教授團隊最新研究表明，微調(diào)多模態(tài)大語言模型（MLLM）將會導(dǎo)致災(zāi)難性遺忘。

模型災(zāi)難性遺忘，成為當(dāng)前一個關(guān)鍵熱門話題，甚至連GPT-4也無法避免。

近日，來自UC伯克利、NYU等機構(gòu)研究人員發(fā)現(xiàn)，微調(diào)后的多模態(tài)大模型，會產(chǎn)生災(zāi)難性遺忘。

論文地址：https://arxiv.org/abs/2309.10313

論文中，研究團隊引入了首個研究MLLM災(zāi)難性遺忘的評估框架——EMT（Evaluating MulTimodality）。（老二次元的基因動了）

在多個基準上評估4個模型后，發(fā)現(xiàn)多數(shù)模型無法保持與其基礎(chǔ)視覺編碼器（CLIP）相似的分類性能。

同時，在一個數(shù)據(jù)集上對LLaVA進行微調(diào)會導(dǎo)致在其他數(shù)據(jù)集上出現(xiàn)災(zāi)難性遺忘。

MLLM的EMT評估流程如下：

通過 (1) 提示每個MLLM作為圖像分類器輸入來自分類任務(wù)的圖像；(2) 要求MLLM明確回答分類任務(wù)中的單個標簽。并使用另一個LLM評估每個輸出的正確性。

馬毅教授對這項研究也做了推薦，在一些新任務(wù)上通過微調(diào)得到的性能提升，是以以前能力大幅下降為代價。

一起來看看究竟怎么回事？

微調(diào)后，大模型忘性更嚴重了

GPT-4之后，一系列多模態(tài)大語言模型（MLLM）的研究噴涌而出。

業(yè)界常用的做法是將預(yù)訓(xùn)練的視覺編碼器與開源LLM集成，以及對生成視覺語言模型進行指令調(diào)優(yōu)。

雖然許多經(jīng)過微調(diào)的MLLM在通用視覺語言理解方面，展現(xiàn)出卓越的能力，但這些模型仍然遭受災(zāi)難性遺忘。

也就是說，模型往往會過度擬合微調(diào)數(shù)據(jù)集，從而導(dǎo)致預(yù)訓(xùn)練任務(wù)的性能下降。

圖像分類中的災(zāi)難性遺忘，已在CV和ML領(lǐng)域中有著廣泛的研究。

然而，MLLM的最新發(fā)展主要集中在，創(chuàng)建用于視覺問答多模態(tài)聊天機器人，而沒有評估其基本圖像分類能力，更不用說探索MLLM中的災(zāi)難性遺忘了。

話雖如此，先前的MLLM評估框架主要側(cè)重于評估「認知推理能力」或「幻覺」，而忽略了研究如何在MLLM中災(zāi)難性遺忘的必要性。

總而言之，最新研究做出了2個關(guān)鍵貢獻：

- 提出了EMT，一個專門設(shè)計用于評估MLLM中災(zāi)難性遺忘現(xiàn)象的評估框架。

據(jù)研究人員所知，它是第一個通過分類研究MLLM災(zāi)難性遺忘的評估框架。通過EMT，研究團隊發(fā)現(xiàn)幾乎所有測試的模型都無法保留其視覺編碼器的分類性能。

- 對LLaVA進行了微調(diào)實驗。

實驗結(jié)果表明，適度的微調(diào)對于非微調(diào)任務(wù)是有利的，但過度的微調(diào)最終會導(dǎo)致這些任務(wù)中的災(zāi)難性遺忘。

EMT：評估開源多模態(tài)大模型

具體來講，EMT的工作原理如下：

(1) 首先輸入來自分類任務(wù)的圖像；

(2) 然后，根據(jù)每個數(shù)據(jù)集，要求測試MLLM對輸入圖像進行分類，并通過提供的提示收集其輸出；

(3) 接下來，由于MLLM的輸出可能不遵循特定格式，因此研究人員用GPT-3.5來評估分類精度；

(4) 最后，輸出測試MLLM在不同數(shù)據(jù)集上的預(yù)測精度

開源MLLM災(zāi)難性遺忘

研究人員首先用EMT來評估四個模型：LLaVA、Otter、LENS和InstructBLIP。

它們在MNIST、CIFAR10、CIFAR100和miniImageNet上的分類準確率介紹如下。研究團隊按基本ViTCLIP模型對所展示的徑向圖進行了區(qū)分。

盡管大多數(shù)測試的MLLM無法獲得與其基礎(chǔ)視覺編碼器相似的性能，但仍有幾處值得注意：

- InstructBLIP-7b是唯一的例外，其性能優(yōu)于視覺編碼器

- 在所有測試模型中，LENS的整體分類性能最差

不同MLLM在MNIST、CIFAR-10、CIFAR-100和miniImagenet上的EMT評估精度

檢驗預(yù)測結(jié)果

研究人員對不同模型在不同數(shù)據(jù)集上的輸出結(jié)果進行了分析，并找出了影響分類準確性的三大因素：

- 錯誤預(yù)測：與其他分類任務(wù)一樣，MLLM有時也會做出錯誤的預(yù)測。

在如下示例中，LLaVA-7B在MNIST分類中錯誤地將0看做成8。

- 內(nèi)在幻覺：經(jīng)過測試的MLLM有時會生成看似相關(guān)，但不正確或無法驗證的內(nèi)容，簡之，生成的輸出與源內(nèi)容直接矛盾。

其中一個例子是，要求LENS對CIFAR-10進行分類。

值得注意的是，EMT提示明確指示，測試MLLM僅識別所有類標簽中的單個對象。

盡管有這些明確的說明，LENS仍然會產(chǎn)生本質(zhì)上幻覺的輸出——飛機、汽車、鳥、貓、鹿、狗、青蛙、馬，一個包含多個標簽的答案。

- 外在幻覺：輸出與原始源內(nèi)容沒有可驗證的聯(lián)系。

如下示例中，雖然生成的輸出文本部分包含標簽「觀賞魚」，但它還顯示了附加描述符，這些描述符不僅難以驗證，而且與提示概述的原始請求無關(guān)。

微調(diào)LLaVA

接下來，研究人員使用EMT來評估LLaVA微調(diào)過程中的精度變化。

在此，他們使用LLaVA-7b和LLaVA-13b作為基礎(chǔ)MLLM進行微調(diào)，并且分別在MNIST、CIFAR-10、CIFAR-100和 miniImagenet上進行微調(diào)實驗。

具體方法是微調(diào)（1）線性適配器層（表示為線性）；（2）線性適配器層和使用Lora的LLM（表示為lora）。

下圖展示了3個epoch微調(diào)結(jié)果。雖然LLaVA的性能確實在微調(diào)數(shù)據(jù)集上有所提高，但圖中揭示了MLLM微調(diào)的一個關(guān)鍵問題：

在一個數(shù)據(jù)集上微調(diào)MLLM會降低另一非微調(diào)數(shù)據(jù)集上的性能。

這種現(xiàn)象雖然并不出人意料，但卻值得注意。由于該模型除了經(jīng)過微調(diào)的數(shù)據(jù)集之外沒有接觸過其他數(shù)據(jù)集，因此理所當(dāng)然會觀察到與災(zāi)難性遺忘類似的影響。

經(jīng)過微調(diào)實驗表明：

- 在一個數(shù)據(jù)集上進行微調(diào)會導(dǎo)致其他數(shù)據(jù)集上的災(zāi)難性遺忘，這種現(xiàn)象在線性微調(diào)和Lora微調(diào)中都會發(fā)生

- Lora微調(diào)比線性微調(diào)導(dǎo)致更多遺忘

接下來，研究人員將通過提供精確度曲線，來更詳細地研究微調(diào)過程。

從分類曲線中可以看出：

- 線性微調(diào)具有普適性，因為使用RGB數(shù)據(jù)集（CIFAR10、CIFAR100、miniImageNet）進行線性微調(diào)也能在第一個epoch提高其他RGB數(shù)據(jù)集的準確率

- Lora微調(diào)不具備線性微調(diào)的通用性

檢驗預(yù)測結(jié)果

當(dāng)研究人員檢查微調(diào)LLaVA的輸出時發(fā)現(xiàn)：

它會輸出與其微調(diào)數(shù)據(jù)集相關(guān)的文本，同時忽略與其原始提示相關(guān)的問題，從而產(chǎn)生幻覺。

為了進一步說明這一現(xiàn)象，研究團隊提供了對LLaVA-7b和LLaVA-13b進行分類的明確示例，這些示例已使用EMT提示在不同數(shù)據(jù)集上進行了微調(diào)。

如下的演示說明，當(dāng)CIFAR-10微調(diào)模型在CIFAR10上進行測試時，LLaVA確實能成功識別物體。

然而，在其他數(shù)據(jù)集上進行微調(diào)后，LLaVA模型在CIFAR-10分類中開始出現(xiàn)幻覺。

在這個例子中，通過MNIST微調(diào)模型對CIFAR-10進行分類時，模型不僅部分生成了關(guān)鍵詞「飛機」，而且同時產(chǎn)生了數(shù)字「8」的幻覺輸出。

另外，研究人員在CIFAR-100和miniImagenet微調(diào)模型中也觀察到了類似的現(xiàn)象。

具體來說，這些微調(diào)模型開始產(chǎn)生幻覺，將「飛機」預(yù)測為與「飛機」相似或相關(guān)的類別，如CIFAR-100模型中的「蝴蝶」和miniImagenet模型中的「航空母艦」。

上述例子表明：

- 微調(diào)MLLM確實提高了微調(diào)數(shù)據(jù)集的分類性能

- 微調(diào)MLLM在其他數(shù)據(jù)集上會導(dǎo)致災(zāi)難性遺忘，因為微調(diào)MLLM會記憶微調(diào)數(shù)據(jù)集，從而產(chǎn)生幻覺文本

作者介紹

Yuexiang Zhai

Yuexiang Zhai是加州大學(xué)伯克利分校的博士生，由馬毅教授和Sergey Levine教授指導(dǎo)。

Shengbang Tong（童晟邦）

Peter Tong（Shengbang Tong，童晟邦）是NYU Courant CS的一名博士新生，導(dǎo)師是Yann LeCun教授和謝賽寧教授。

此前，他在加州大學(xué)伯克利分校主修計算機科學(xué)、應(yīng)用數(shù)學(xué)（榮譽）和統(tǒng)計學(xué)（榮譽）。并曾是伯克利人工智能實驗室（BAIR）的研究員，導(dǎo)師是馬毅教授和Jacob Steinhardt教授。

他的研究興趣是世界模型、無監(jiān)督/自監(jiān)督學(xué)習(xí)、生成模型和多模態(tài)模型。

Xiao Li

Xiao Li是香港中文大學(xué)（深圳）數(shù)據(jù)科學(xué)學(xué)院的助理教授。

在此之前，他于2016年至2020年在香港中文大學(xué)獲得博士學(xué)位，導(dǎo)師是Thierry Blu教授和Anthony Man-Cho So教授。于2012年至2016年在浙江工業(yè)大學(xué)攻讀本科學(xué)位。

Mu Cai

Mu Cai是威斯康星大學(xué)麥迪遜分校計算機科學(xué)的博士生，導(dǎo)師是Yong Jae Lee教授。

他的研究興趣在于深度學(xué)習(xí)和計算機視覺的交叉領(lǐng)域，尤其是視覺LLM、三維場景理解和自監(jiān)督學(xué)習(xí)。

Qing Qu

Qing Qu是密歇根大學(xué)安娜堡分校工程學(xué)院電子工程與計算機科學(xué)系ECE的助理教授。他還隸屬于密歇根數(shù)據(jù)科學(xué)研究所（MIDAS）、密歇根應(yīng)用與跨學(xué)科數(shù)學(xué)中心（MCAIM）和密歇根計算發(fā)現(xiàn)與工程研究所（MICDE）。

他于2011年獲得清華大學(xué)學(xué)士學(xué)位，2018年在哥倫比亞大學(xué)獲得博士學(xué)位。2018年至2020年，他在紐約大學(xué)數(shù)據(jù)科學(xué)中心擔(dān)任Moore-Sloan研究員。

他是SPARS'15最佳學(xué)生論文獎獲得者，也是2016年微軟機器學(xué)習(xí)博士獎學(xué)金獲得者。他于2022年獲得美國國家自然科學(xué)基金事業(yè)獎，并于2023年獲得亞馬遜AWS人工智能獎。

他的研究興趣在于信號處理、數(shù)據(jù)科學(xué)、機器學(xué)習(xí)和數(shù)值優(yōu)化的交叉領(lǐng)域。他尤其關(guān)注從高維數(shù)據(jù)中學(xué)習(xí)低復(fù)雜度模型的計算方法，利用機器學(xué)習(xí)、數(shù)值優(yōu)化和高維幾何的工具，應(yīng)用于成像科學(xué)和科學(xué)發(fā)現(xiàn)。

最近，他的主要興趣在于從低維建模的角度理解深度網(wǎng)絡(luò)。

Yi Ma

馬毅教授是IEEE、ACM和SIAM的會士，目前擔(dān)任香港大學(xué)同心基金數(shù)據(jù)科學(xué)研究院院長，以及加州大學(xué)伯克利分校電子工程與計算機系教授。

他于1995年獲得清華大學(xué)自動化和應(yīng)用數(shù)學(xué)學(xué)士學(xué)位，1997年獲得加州大學(xué)伯克利分校的數(shù)學(xué)碩士學(xué)位及電子工程與計算機科學(xué)碩士學(xué)位，并于2000年獲得該校的電子工程與計算機科學(xué)博士學(xué)位。

馬教授曾于2000年至2011年在在伊利諾伊大學(xué)厄巴納-香檳分校（UIUC）電氣與計算機工程系任教；2009年至2014年，擔(dān)任微軟亞洲研究院計算機視覺組主任及首席研究員；2014年至2017年出任上?？萍即髮W(xué)信息科學(xué)與技術(shù)學(xué)院教授、執(zhí)行院長；2018年加入加州大學(xué)伯克利分校電子工程與計算機科學(xué)系任教。

他在計算機視覺、廣義主成分分析和高維度數(shù)據(jù)分析方面，發(fā)表了超過60篇期刊論文，120篇學(xué)術(shù)會議論文，以及著有3本教科書。

他分別在2004年獲得美國國家自然科學(xué)基金職業(yè)獎，2005年獲得美國國家航空研究局青年研究員獎。并在1999年的國際計算機視覺大會（ICCV）上獲得David Marr最佳計算機視覺論文獎。他還獲得2004年歐洲計算機視覺會議（ECCV）的最佳論文獎榮譽提名、2009年亞洲計算機視覺會議（ACCV）的最佳學(xué)術(shù)論文獎。

此外，馬教授還曾擔(dān)任ICCV 2013的程序主席和ICCV 2015的大會主席。

責(zé)任編輯：張燕妮來源：新智元

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營