抱抱臉團(tuán)隊(duì)(HF)發(fā)布多模態(tài)大模型Idefics2,8B參數(shù) 原創(chuàng)
近日,抱抱臉團(tuán)隊(duì)(HF)發(fā)布Idefics2,一個(gè)通用的多模態(tài)大模型,可以接受任意文本和圖像序列作為輸入,并生成文本響應(yīng)。它可以回答關(guān)于圖像的問題,描述視覺內(nèi)容,創(chuàng)建基于多個(gè)圖像的故事,從文檔中提取信息,并執(zhí)行基本算術(shù)運(yùn)算。Idefics2改進(jìn)了Idefics1:具有8B參數(shù)、開放許可(Apache 2.0)和增強(qiáng)的OCR(光學(xué)字符識別)功能,Idefics2是多模態(tài)工作社區(qū)的堅(jiān)實(shí)基礎(chǔ)。它在視覺問答基準(zhǔn)上的表現(xiàn)居于同類模型的前列,并與LLava-Next-34B和MM1-30B-chat等更大的模型競爭。
訓(xùn)練數(shù)據(jù)
Idefics2在預(yù)訓(xùn)練過程中使用了一系列公開可用數(shù)據(jù)集進(jìn)行訓(xùn)練:交錯(cuò)的網(wǎng)頁文檔(維基百科、OBELICS)、圖像-標(biāo)題對(公共多模態(tài)數(shù)據(jù)集、LAION-COCO)、OCR數(shù)據(jù)(PDFA(英文)、IDL和渲染文本)以及圖像到代碼數(shù)據(jù)(WebSight)。交互式可視化允許探索OBELICS數(shù)據(jù)集。根據(jù)基礎(chǔ)模型社區(qū)的通行做法,HF進(jìn)一步對基礎(chǔ)模型進(jìn)行了面向任務(wù)的訓(xùn)練。然而,這些數(shù)據(jù)通常是以不同的格式存在,并分散在各個(gè)地方。對于社區(qū)來說,收集這些數(shù)據(jù)是一個(gè)障礙。為了解決這個(gè)問題,HF發(fā)布了一直在準(zhǔn)備的多模態(tài)指令微調(diào)數(shù)據(jù)集:Cauldron,這是一個(gè)開放的、由50個(gè)手動(dòng)策劃的數(shù)據(jù)集的合集,格式化為多輪對話。HF使用The Cauldron和各種文本微調(diào)數(shù)據(jù)集的串聯(lián)來對Idefics2進(jìn)行了指令微調(diào)。
改進(jìn)
- HF按照NaViT策略處理圖像的原生分辨率(高達(dá)980 x 980)和原生寬高比。這樣就避免了將圖像調(diào)整為固定大小的正方形的需要,因?yàn)檫@在計(jì)算機(jī)視覺界一直是歷史性的做法。此外,HF遵循了SPHINX的策略,并(可選地)允許子圖像分割和傳遞非常大分辨率的圖像。
- 通過整合需要模型轉(zhuǎn)錄圖像或文檔中的文本的數(shù)據(jù),顯著增強(qiáng)了OCR功能。我們還通過適當(dāng)?shù)挠?xùn)練數(shù)據(jù),改進(jìn)了在圖表、圖形和文檔上回答問題的能力。
- 摒棄了Idefics1的架構(gòu)(門控交叉關(guān)注)并簡化了將視覺特征整合到語言骨干中的過程。圖像被輸入到視覺編碼器中,然后是一個(gè)學(xué)習(xí)的Perceiver池化和一個(gè)MLP模態(tài)投影。然后將這個(gè)池化序列與文本嵌入拼接起來,得到一個(gè)(交錯(cuò)的)圖像和文本序列。
所有這些改進(jìn)加上更好的預(yù)訓(xùn)練骨干,使性能大幅提高,而模型的大小只增加了10倍。
Idefics2體系結(jié)構(gòu)
開始使用Idefics2
Idefics2可在Hugging Face Hub上獲得,并在最新的transformers版本中受支持。
譯自(有刪改):https://huggingface.co/blog/idefics2
本文轉(zhuǎn)載自公眾號AIGC最前線
