自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="gmfzt"><track id="gmfzt"></track></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

為多模態(tài)LLM引入ControlNet理念，開源插件解決災(zāi)難性遺忘

2024-12-17 12:08:21

與主流的LLaVA結(jié)構(gòu)相比，IAA在網(wǎng)絡(luò)設(shè)計(jì)上保持基座語言模型參數(shù)不變，從而避免了災(zāi)難性遺忘問題的發(fā)生；對于多模態(tài)知識的學(xué)習(xí)，則是通過多個新增的插入層進(jìn)行專門處理。

多模態(tài)大模型內(nèi)嵌語言模型總是出現(xiàn)災(zāi)難性遺忘怎么辦？

像文生圖那樣有ControlNet即可解決。

這就是由360人工智能研究院提出的IAA的核心思路。該研究成果已被AAAI接收，并且開源。

圖片

IAA工作的思路，就是希望能把多模態(tài)理解能力像文生圖領(lǐng)域中的ControlNet一樣，作為插件添加到基座的語言模型之上，從而實(shí)現(xiàn)在完全不影響語言模型原有能力的前提下，實(shí)現(xiàn)多模態(tài)能力的插件化，并進(jìn)一步形成一種全新的語言模型生態(tài)體系。

針對語言模型研究全新插件控制機(jī)制

當(dāng)前的多模態(tài)大模型（LMM：Large Multimodal Model）主流采取的是以LLaVA系列為代表的橋接式結(jié)構(gòu)：視覺編碼器與LLM之間通過模態(tài)橋接器projector進(jìn)行連接實(shí)現(xiàn)多模態(tài)理解能力。

橋接式結(jié)構(gòu)的優(yōu)點(diǎn)是結(jié)構(gòu)簡單，訓(xùn)練成本低（幾十萬微調(diào)數(shù)據(jù)即可實(shí)現(xiàn)基本的圖像理解能力），目前主流的LMM模型包括QwenVL、DeepSeekVL、internVL以及研究院自研的360VL（https://github.com/360CVGroup/360VL）等都是采用這種結(jié)構(gòu)。

但橋接式結(jié)構(gòu)一直存在一個難以克服的缺點(diǎn)：模型多模態(tài)能力的提升不可避免地帶來原有文本能力的下降。

這背后的深層原因是，為了盡可能提升LMM在多模態(tài)理解任務(wù)上的性能表現(xiàn)，主流模型中內(nèi)嵌的LLM語言模型參數(shù)都要在多模態(tài)訓(xùn)練中打開參與學(xué)習(xí)，這樣雖然可以比較容易刷高多模態(tài)任務(wù)上的指標(biāo)，但語言模型原有的文本理解能力會因?yàn)閰⑴c多模態(tài)訓(xùn)練而發(fā)生災(zāi)難性遺忘的問題。

這也是為什么當(dāng)前主流的多模態(tài)模型都獨(dú)立于語言模型之外存在，并冠以-VL進(jìn)行區(qū)分的原因。

圖片

上圖清晰地比較了多模態(tài)訓(xùn)練前后，內(nèi)嵌語言模型在文本任務(wù)（MMLU和C-eval）上因?yàn)闉?zāi)難性遺忘的發(fā)生而出現(xiàn)的能力下滑情況。

另外從實(shí)用的角度來說，當(dāng)前的多模態(tài)模型需要獨(dú)立于語言模型之外單獨(dú)部署，意味著應(yīng)用時需要翻倍的部署成本，從經(jīng)濟(jì)的角度來說也亟待新技術(shù)的突破。

“IAA工作的靈感來自于我們同時負(fù)責(zé)的多模態(tài)生成方向的研究?！崩浯鬅槻┦勘硎?。

“文生圖領(lǐng)域有著與語言模型領(lǐng)域完全不同的繁榮生態(tài)。在文生圖領(lǐng)域中，大家是圍繞著一個基座模型，通過接入不同的插件來完成不同的任務(wù)，而不是像語言模型領(lǐng)域這樣要求一個模型完成所有任務(wù)。IAA工作借用了這一思路?！?/p>

在IAA的研究中作者發(fā)現(xiàn)，簡單地將文生圖領(lǐng)域的ControlNet結(jié)構(gòu)復(fù)制到語言模型上的表現(xiàn)并不好，背后的原因是當(dāng)前語言模型主流是Transformer堆疊的結(jié)構(gòu)，這與文生圖模型中的UNet結(jié)構(gòu)有著很大的差異，為此針對語言模型需要研究全新的插件控制機(jī)制。

圖片

在實(shí)驗(yàn)比較了一系列不同的結(jié)構(gòu)后，最終形成了v1版的IAA插件網(wǎng)絡(luò)結(jié)構(gòu)如下：

圖片

與主流的LLaVA結(jié)構(gòu)相比，IAA在網(wǎng)絡(luò)設(shè)計(jì)上保持基座語言模型參數(shù)不變，從而避免了災(zāi)難性遺忘問題的發(fā)生；對于多模態(tài)知識的學(xué)習(xí)，則是通過多個新增的插入層進(jìn)行專門處理。

推理時，IAA網(wǎng)絡(luò)只需要部署一套模型權(quán)重，text-only任務(wù)走text-only workflow，而多模態(tài)任務(wù)則走multimodal workflow，從而避免了既要部署一套語言模型還要另外部署一套多模態(tài)模型的成本難題。

此外，IAA插件結(jié)構(gòu)不僅適用于多模態(tài)任務(wù)，對于需要在基座模型能力上特別加強(qiáng)的任務(wù)，如code、math等任務(wù)，一樣可以通過插件的方式進(jìn)行專門增強(qiáng)，實(shí)現(xiàn)“基座模型+專業(yè)插件”處理專業(yè)任務(wù)的全新用法和生態(tài)。

在通用多模態(tài)benchmark上比較了IAA與其它相關(guān)工作的表現(xiàn)，驗(yàn)證了IAA在保持模型原有能力的同時，能有效提升其在多模態(tài)任務(wù)上的表現(xiàn)。

責(zé)任編輯：武曉燕來源：量子位

IAA 多模態(tài)LLM

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="hkbyg"></sub>

<sub id="hkbyg"></sub>