Reyes:一個(gè)從0到1開始訓(xùn)練的多模態(tài)大模型(技術(shù)報(bào)告)
原創(chuàng)
最近,筆者系統(tǒng)的看了下一些比較經(jīng)典的多模態(tài)大模型實(shí)現(xiàn)思路,本著動(dòng)手實(shí)踐的態(tài)度,從零到一實(shí)現(xiàn)了一個(gè)多模態(tài)大模型,并命名為??Reyes(睿視)???,R:睿,eyes:眼。Reyes的參數(shù)量為8B,視覺編碼器使用的是??InternViT300M448pxV25???,語言模型側(cè)使用的是??Qwen2.57BInstruct??,與NVLM1.0等相關(guān)多模態(tài)大模型一樣,Reyes也通過一個(gè)兩層MLP投影層連接視覺編碼器與語言模型。最終,Reyes8B(0.447分)以更小的參數(shù)...