為多模態(tài)LLM引入ControlNet理念,開源插件解決災(zāi)難性遺忘
多模態(tài)大模型內(nèi)嵌語言模型總是出現(xiàn)災(zāi)難性遺忘怎么辦?
像文生圖那樣有ControlNet即可解決。
這就是由360人工智能研究院提出的IAA的核心思路。該研究成果已被AAAI接收,并且開源。
圖片
IAA工作的思路,就是希望能把多模態(tài)理解能力像文生圖領(lǐng)域中的ControlNet一樣,作為插件添加到基座的語言模型之上,從而實(shí)現(xiàn)在完全不影響語言模型原有能力的前提下,實(shí)現(xiàn)多模態(tài)能力的插件化,并進(jìn)一步形成一種全新的語言模型生態(tài)體系。
針對語言模型研究全新插件控制機(jī)制
當(dāng)前的多模態(tài)大模型(LMM:Large Multimodal Model)主流采取的是以LLaVA系列為代表的橋接式結(jié)構(gòu):視覺編碼器與LLM之間通過模態(tài)橋接器projector進(jìn)行連接實(shí)現(xiàn)多模態(tài)理解能力。
橋接式結(jié)構(gòu)的優(yōu)點(diǎn)是結(jié)構(gòu)簡單,訓(xùn)練成本低(幾十萬微調(diào)數(shù)據(jù)即可實(shí)現(xiàn)基本的圖像理解能力),目前主流的LMM模型包括QwenVL、DeepSeekVL、internVL以及研究院自研的360VL(https://github.com/360CVGroup/360VL)等都是采用這種結(jié)構(gòu)。
但橋接式結(jié)構(gòu)一直存在一個難以克服的缺點(diǎn):模型多模態(tài)能力的提升不可避免地帶來原有文本能力的下降。
這背后的深層原因是,為了盡可能提升LMM在多模態(tài)理解任務(wù)上的性能表現(xiàn),主流模型中內(nèi)嵌的LLM語言模型參數(shù)都要在多模態(tài)訓(xùn)練中打開參與學(xué)習(xí),這樣雖然可以比較容易刷高多模態(tài)任務(wù)上的指標(biāo),但語言模型原有的文本理解能力會因?yàn)閰⑴c多模態(tài)訓(xùn)練而發(fā)生災(zāi)難性遺忘的問題。
這也是為什么當(dāng)前主流的多模態(tài)模型都獨(dú)立于語言模型之外存在,并冠以-VL進(jìn)行區(qū)分的原因。
圖片
上圖清晰地比較了多模態(tài)訓(xùn)練前后,內(nèi)嵌語言模型在文本任務(wù)(MMLU和C-eval)上因?yàn)闉?zāi)難性遺忘的發(fā)生而出現(xiàn)的能力下滑情況。
另外從實(shí)用的角度來說,當(dāng)前的多模態(tài)模型需要獨(dú)立于語言模型之外單獨(dú)部署,意味著應(yīng)用時需要翻倍的部署成本,從經(jīng)濟(jì)的角度來說也亟待新技術(shù)的突破。
“IAA工作的靈感來自于我們同時負(fù)責(zé)的多模態(tài)生成方向的研究?!崩浯鬅槻┦勘硎?。
“文生圖領(lǐng)域有著與語言模型領(lǐng)域完全不同的繁榮生態(tài)。在文生圖領(lǐng)域中,大家是圍繞著一個基座模型,通過接入不同的插件來完成不同的任務(wù),而不是像語言模型領(lǐng)域這樣要求一個模型完成所有任務(wù)。IAA工作借用了這一思路?!?/p>
在IAA的研究中作者發(fā)現(xiàn),簡單地將文生圖領(lǐng)域的ControlNet結(jié)構(gòu)復(fù)制到語言模型上的表現(xiàn)并不好,背后的原因是當(dāng)前語言模型主流是Transformer堆疊的結(jié)構(gòu),這與文生圖模型中的UNet結(jié)構(gòu)有著很大的差異,為此針對語言模型需要研究全新的插件控制機(jī)制。
圖片
在實(shí)驗(yàn)比較了一系列不同的結(jié)構(gòu)后,最終形成了v1版的IAA插件網(wǎng)絡(luò)結(jié)構(gòu)如下:
圖片
與主流的LLaVA結(jié)構(gòu)相比,IAA在網(wǎng)絡(luò)設(shè)計(jì)上保持基座語言模型參數(shù)不變,從而避免了災(zāi)難性遺忘問題的發(fā)生;對于多模態(tài)知識的學(xué)習(xí),則是通過多個新增的插入層進(jìn)行專門處理。
推理時,IAA網(wǎng)絡(luò)只需要部署一套模型權(quán)重,text-only任務(wù)走text-only workflow,而多模態(tài)任務(wù)則走multimodal workflow,從而避免了既要部署一套語言模型還要另外部署一套多模態(tài)模型的成本難題。
此外,IAA插件結(jié)構(gòu)不僅適用于多模態(tài)任務(wù),對于需要在基座模型能力上特別加強(qiáng)的任務(wù),如code、math等任務(wù),一樣可以通過插件的方式進(jìn)行專門增強(qiáng),實(shí)現(xiàn)“基座模型+專業(yè)插件”處理專業(yè)任務(wù)的全新用法和生態(tài)。
在通用多模態(tài)benchmark上比較了IAA與其它相關(guān)工作的表現(xiàn),驗(yàn)證了IAA在保持模型原有能力的同時,能有效提升其在多模態(tài)任務(wù)上的表現(xiàn)。