多模態(tài)大模型數(shù)據(jù)分析與實(shí)踐 精華
數(shù)據(jù)集是大模型競(jìng)爭(zhēng)的關(guān)鍵要素之一,AI大模型的突破得益于高質(zhì)量數(shù)據(jù)的發(fā)展。訓(xùn)練大模型需要大規(guī)模、高質(zhì)量、多模態(tài)的數(shù)據(jù)集,通常需要從各個(gè)領(lǐng)域和多個(gè)數(shù)據(jù)源收集數(shù)據(jù),這些數(shù)據(jù)可以是文本、圖像、語(yǔ)音、視頻等多種形式。大語(yǔ)言模型訓(xùn)練使用的數(shù)據(jù)集規(guī)模爆發(fā)式增長(zhǎng)。從2018年GPT-1數(shù)據(jù)集約為4.6GB,2020年GPT-3數(shù)據(jù)集達(dá)到了753GB,而ChatGPT的數(shù)據(jù)集為超萬億單詞的人類語(yǔ)言數(shù)據(jù)集(約45TB)。OpenAI并沒有公開訓(xùn)練ChatGPT的相關(guān)數(shù)據(jù)集來源和具體信息,這也形成了一道無形的技術(shù)壁壘。常見的數(shù)據(jù)集如圖1所示,主要由海外開源組織、高校、互聯(lián)網(wǎng)巨頭、政府機(jī)構(gòu)等掌握。
截至2023年7月底,國(guó)內(nèi)10億參數(shù)以上的各類大模型,已達(dá)113個(gè),當(dāng)前模型的擴(kuò)展速度比數(shù)據(jù)集快3倍。谷歌研究發(fā)現(xiàn),數(shù)據(jù)集大小至少與模型大小一樣重要,數(shù)據(jù)集和模型大小應(yīng)該大約1:1以達(dá)到給定數(shù)量的訓(xùn)練計(jì)算下的最佳性能。因此下階段AI的突破將得益于高質(zhì)量數(shù)據(jù),這是大模型性能提升、行業(yè)應(yīng)用落地的關(guān)鍵,能否掌控相應(yīng)的數(shù)據(jù)集,直接決定能否構(gòu)建產(chǎn)業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)[1]。
▲ 圖1 常見多模態(tài)大模型訓(xùn)練數(shù)據(jù)集
一、典型數(shù)據(jù)集及指令分析
現(xiàn)有優(yōu)秀的多模態(tài)大模型如LLAVA[2]、miniGPT4[3]、pink[4]、cogvlm[5]等,具有相似的模型范式,模型結(jié)構(gòu)一般包括VIT、對(duì)齊層、LLM三個(gè)部分。訓(xùn)練流程總體可分為兩個(gè)步驟:
- pretrain階段:主要采用image caption、VQA數(shù)據(jù)集對(duì)模型進(jìn)行預(yù)訓(xùn)練;
- finetune階段:使用指令數(shù)據(jù)對(duì)模型進(jìn)行微調(diào),使模型具有特定能力(如對(duì)話能力)。
MLLM數(shù)據(jù)總體可分為三種:
- image caption — 圖像描述數(shù)據(jù)。通常由圖片文本對(duì)組成,如COYO、LAION、CC3M等;
- VQA— 圖文問答數(shù)據(jù)。如VQAv2、OKVQA、OCRVQA、TextVQA、ScienceQA;
- VISUAL GROUNDING— 圖文定位數(shù)據(jù)。通常帶有目標(biāo)坐標(biāo),如RefCOCO、VisualGenome、Flickr30K等;
下面重點(diǎn)分析cogvlm中使用到的多模態(tài)數(shù)據(jù)集。
1.pretrain階段
1) image caption數(shù)據(jù)
主要使用LAION-2B和COYO-700M數(shù)據(jù)集,為了提高模型的準(zhǔn)確率,作者分別刪除損壞的URL、NSFW圖像、帶有嘈雜字幕的圖像、帶有政治偏見的圖像以及長(zhǎng)寬比大于6或小于1/6的圖像,最后形成大約1.5B規(guī)模的數(shù)據(jù)集用于模型預(yù)訓(xùn)練。
2)帶有坐標(biāo)的image caption數(shù)據(jù)
該數(shù)據(jù)集主要來源于LAION-115M數(shù)據(jù)集,由于數(shù)據(jù)中存在位置坐標(biāo)信息,所以需要將位置信息進(jìn)行嵌入。數(shù)據(jù)制作方式參考Kosmos-2[6],樣例如圖2所示。
▲ 圖2 Kosmos-2數(shù)據(jù)集標(biāo)注示例圖
- clip_similarity_vitb32:表示文本和圖像(ViT-B/32) 之間的余弦相似性;
- clip_similarity_vitl14:表示文本和圖像(ViT-L/14) 之間的余弦相似性;
- id:唯一的64位整數(shù)ID;
- url:圖像的url;
- caption:相應(yīng)的描述;
- width,height:圖像長(zhǎng)寬;
- noun_chunks:具有關(guān)聯(lián)坐標(biāo)框(由GLIP預(yù)測(cè))的名詞塊(由spaCy提?。?;
- ref_exps:相應(yīng)的引用表達(dá)式。
2.finetune階段
二、多模態(tài)大模型實(shí)踐
1模型架構(gòu)
自研多模態(tài)大模型基于LLAVA架構(gòu)如圖3所示,圖片經(jīng)視覺編碼器,再經(jīng)過特征對(duì)齊層輸出維度與大語(yǔ)言模型匹配的詞元向量,合并提示詞生成的詞元向量合并輸入大語(yǔ)言模型,大語(yǔ)言模型會(huì)輸出相應(yīng)的回答。
▲ 圖3 模型架構(gòu)圖
2.數(shù)據(jù)建模
當(dāng)前訓(xùn)練集中數(shù)據(jù)總規(guī)模約為1313.2k,數(shù)據(jù)構(gòu)成如表3所示。由于多模態(tài)大模型數(shù)據(jù)標(biāo)注成本較高,現(xiàn)有數(shù)據(jù)中大部分為開源數(shù)據(jù),極少部分為自有標(biāo)注數(shù)據(jù)。
當(dāng)前數(shù)據(jù)以對(duì)話為主,能夠訓(xùn)練模型的圖像理解能力,模型擁有基于單張圖片和人類對(duì)話的能力。目前開源數(shù)據(jù)都是英文的,自有場(chǎng)景標(biāo)注數(shù)據(jù)中英文版本都有,訓(xùn)練中采取全英文訓(xùn)練。后期可以加入帶位置的圖像對(duì)話數(shù)據(jù),來訓(xùn)練模型的目標(biāo)定位能力,有相關(guān)研究提到這也能減少幻視問題。后期還可以加入視頻文本對(duì)話數(shù)據(jù),來訓(xùn)練模型跨圖像對(duì)話能力、視頻理解能力。
▲ 表3 訓(xùn)練數(shù)據(jù)集
自有場(chǎng)景數(shù)據(jù)prompt數(shù)據(jù)構(gòu)建方案如表4所示,以越門經(jīng)營(yíng)為例,數(shù)據(jù)包括提問、選項(xiàng)、回答。
▲ 表4 數(shù)據(jù)構(gòu)建展示
提問要將神眼場(chǎng)景的含義闡釋清楚,越門經(jīng)營(yíng)包含“飯店把餐桌放在門外”以及“商店把貨物放在門外”。
選項(xiàng)設(shè)置很關(guān)鍵。在定義各個(gè)選項(xiàng)時(shí),盡量使各個(gè)選項(xiàng)的含義和字面差異大,否則會(huì)出現(xiàn)理由正確但是選項(xiàng)選錯(cuò)的情況;多模態(tài)大模型是因果語(yǔ)言模型,模型做選項(xiàng)時(shí)傾向于選擇離選項(xiàng)最近的選項(xiàng),所以如果要減少假陽(yáng)性,要把陰性答案放在最后一個(gè)選項(xiàng);選項(xiàng)要盡量簡(jiǎn)單,要讓模型容易理解。
回答理由盡量簡(jiǎn)單直接,如果模型給的理由給太多,由于因果語(yǔ)言模型以及位置編碼的影響,模型自己說的token影響力會(huì)蓋過真實(shí)的圖像token,從而導(dǎo)致亂選。
回答選項(xiàng)參考LLAVA使用“.\n###\nANSWER:”作為特殊標(biāo)記符號(hào),便于自動(dòng)化提取。
3.模型訓(xùn)練
目前模型微調(diào)采用三階段訓(xùn)練,如表5所示。在第1階段使用圖像文本對(duì)訓(xùn)練,可以對(duì)齊視覺編碼器大語(yǔ)言模型模型的特征空間;第二階段使用圖像選擇題、圖像本文對(duì)話訓(xùn)練模型的圖像理解和對(duì)話能力;第三階段使用自有場(chǎng)景選擇題數(shù)據(jù),可以提升模型在特定場(chǎng)景上的準(zhǔn)確率。
▲ 表5 訓(xùn)練方案
4.模型效果
▲ 表6 測(cè)試結(jié)果
三、總結(jié)與展望
本文主要對(duì)大模型數(shù)據(jù)集進(jìn)行了介紹,對(duì)數(shù)據(jù)多樣性和指令多樣性提出了一些見解。簡(jiǎn)單介紹了團(tuán)隊(duì)在大模型上的一些成果。后續(xù)團(tuán)隊(duì)將持續(xù)關(guān)注多模態(tài)大模型的發(fā)展,持續(xù)優(yōu)化自有大模型。
參考文獻(xiàn)
[1] 大模型數(shù)據(jù)集現(xiàn)狀與啟示.
[2] Visual Instruction Tuning.
[3] MiniGPT-4: Enhancing Vision-language Understanding with Advanced Large Language Models.
[4] Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs.
[5] CogVLM: a state-of-the-art-level open visual language model.
[6] Kosmos-2: Grounding Multimodal Large Language Models to the World.
本文轉(zhuǎn)載自 ??AI遇見云??,作者: 許偉棟
