自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

為多模態(tài)LLM引入ControlNet理念,開源插件解決災(zāi)難性遺忘

人工智能
與主流的LLaVA結(jié)構(gòu)相比,IAA在網(wǎng)絡(luò)設(shè)計(jì)上保持基座語言模型參數(shù)不變,從而避免了災(zāi)難性遺忘問題的發(fā)生;對于多模態(tài)知識的學(xué)習(xí),則是通過多個新增的插入層進(jìn)行專門處理。

多模態(tài)大模型內(nèi)嵌語言模型總是出現(xiàn)災(zāi)難性遺忘怎么辦?

像文生圖那樣有ControlNet即可解決。

這就是由360人工智能研究院提出的IAA的核心思路。該研究成果已被AAAI接收,并且開源。

圖片圖片

IAA工作的思路,就是希望能把多模態(tài)理解能力像文生圖領(lǐng)域中的ControlNet一樣,作為插件添加到基座的語言模型之上,從而實(shí)現(xiàn)在完全不影響語言模型原有能力的前提下,實(shí)現(xiàn)多模態(tài)能力的插件化,并進(jìn)一步形成一種全新的語言模型生態(tài)體系。

針對語言模型研究全新插件控制機(jī)制

當(dāng)前的多模態(tài)大模型(LMM:Large Multimodal Model)主流采取的是以LLaVA系列為代表的橋接式結(jié)構(gòu):視覺編碼器與LLM之間通過模態(tài)橋接器projector進(jìn)行連接實(shí)現(xiàn)多模態(tài)理解能力。

橋接式結(jié)構(gòu)的優(yōu)點(diǎn)是結(jié)構(gòu)簡單,訓(xùn)練成本低(幾十萬微調(diào)數(shù)據(jù)即可實(shí)現(xiàn)基本的圖像理解能力),目前主流的LMM模型包括QwenVL、DeepSeekVL、internVL以及研究院自研的360VL(https://github.com/360CVGroup/360VL)等都是采用這種結(jié)構(gòu)。

但橋接式結(jié)構(gòu)一直存在一個難以克服的缺點(diǎn):模型多模態(tài)能力的提升不可避免地帶來原有文本能力的下降

這背后的深層原因是,為了盡可能提升LMM在多模態(tài)理解任務(wù)上的性能表現(xiàn),主流模型中內(nèi)嵌的LLM語言模型參數(shù)都要在多模態(tài)訓(xùn)練中打開參與學(xué)習(xí),這樣雖然可以比較容易刷高多模態(tài)任務(wù)上的指標(biāo),但語言模型原有的文本理解能力會因?yàn)閰⑴c多模態(tài)訓(xùn)練而發(fā)生災(zāi)難性遺忘的問題。

這也是為什么當(dāng)前主流的多模態(tài)模型都獨(dú)立于語言模型之外存在,并冠以-VL進(jìn)行區(qū)分的原因。

圖片圖片

上圖清晰地比較了多模態(tài)訓(xùn)練前后,內(nèi)嵌語言模型在文本任務(wù)(MMLU和C-eval)上因?yàn)闉?zāi)難性遺忘的發(fā)生而出現(xiàn)的能力下滑情況。

另外從實(shí)用的角度來說,當(dāng)前的多模態(tài)模型需要獨(dú)立于語言模型之外單獨(dú)部署,意味著應(yīng)用時需要翻倍的部署成本,從經(jīng)濟(jì)的角度來說也亟待新技術(shù)的突破。

“IAA工作的靈感來自于我們同時負(fù)責(zé)的多模態(tài)生成方向的研究?!崩浯鬅槻┦勘硎?。

“文生圖領(lǐng)域有著與語言模型領(lǐng)域完全不同的繁榮生態(tài)。在文生圖領(lǐng)域中,大家是圍繞著一個基座模型,通過接入不同的插件來完成不同的任務(wù),而不是像語言模型領(lǐng)域這樣要求一個模型完成所有任務(wù)。IAA工作借用了這一思路?!?/p>

在IAA的研究中作者發(fā)現(xiàn),簡單地將文生圖領(lǐng)域的ControlNet結(jié)構(gòu)復(fù)制到語言模型上的表現(xiàn)并不好,背后的原因是當(dāng)前語言模型主流是Transformer堆疊的結(jié)構(gòu),這與文生圖模型中的UNet結(jié)構(gòu)有著很大的差異,為此針對語言模型需要研究全新的插件控制機(jī)制。

圖片圖片

在實(shí)驗(yàn)比較了一系列不同的結(jié)構(gòu)后,最終形成了v1版的IAA插件網(wǎng)絡(luò)結(jié)構(gòu)如下:

圖片圖片

與主流的LLaVA結(jié)構(gòu)相比,IAA在網(wǎng)絡(luò)設(shè)計(jì)上保持基座語言模型參數(shù)不變,從而避免了災(zāi)難性遺忘問題的發(fā)生;對于多模態(tài)知識的學(xué)習(xí),則是通過多個新增的插入層進(jìn)行專門處理。

推理時,IAA網(wǎng)絡(luò)只需要部署一套模型權(quán)重,text-only任務(wù)走text-only workflow,而多模態(tài)任務(wù)則走multimodal workflow,從而避免了既要部署一套語言模型還要另外部署一套多模態(tài)模型的成本難題。

此外,IAA插件結(jié)構(gòu)不僅適用于多模態(tài)任務(wù),對于需要在基座模型能力上特別加強(qiáng)的任務(wù),如code、math等任務(wù),一樣可以通過插件的方式進(jìn)行專門增強(qiáng),實(shí)現(xiàn)“基座模型+專業(yè)插件”處理專業(yè)任務(wù)的全新用法和生態(tài)。

在通用多模態(tài)benchmark上比較了IAA與其它相關(guān)工作的表現(xiàn),驗(yàn)證了IAA在保持模型原有能力的同時,能有效提升其在多模態(tài)任務(wù)上的表現(xiàn)。

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2023-09-28 08:23:18

AI模型

2022-08-03 16:21:03

AI算法神經(jīng)網(wǎng)絡(luò)

2014-12-04 10:05:18

2025-01-08 08:21:16

2021-04-04 22:39:50

Ubiquiti數(shù)據(jù)泄漏黑客

2016-11-14 13:56:14

2022-11-03 13:47:26

云遷移云計(jì)算轉(zhuǎn)型

2015-06-01 15:25:06

Oracle數(shù)據(jù)庫災(zāi)難恢復(fù)

2024-12-18 18:57:58

2015-06-05 10:13:09

2018-10-24 09:54:37

GitHub宕機(jī)程序員

2013-04-16 10:21:23

Windows 8Vista

2023-03-28 08:00:00

2023-11-06 16:04:40

人工智能網(wǎng)絡(luò)安全

2014-08-01 10:26:08

2024-01-11 16:24:12

人工智能RAG

2020-09-17 11:20:08

云計(jì)算

2019-10-11 14:36:47

大數(shù)據(jù)網(wǎng)絡(luò)安全軟件

2020-08-18 07:00:00

云計(jì)算混合云數(shù)據(jù)

2024-12-06 08:20:26

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號