模態(tài)GAP不存在了?圖文領(lǐng)域首個(gè)token級(jí)大一統(tǒng)基座誕生
CLIP、DINO、SAM 基座的重磅問(wèn)世,推動(dòng)了各個(gè)領(lǐng)域的任務(wù)大一統(tǒng),也促進(jìn)了多模態(tài)大模型的蓬勃發(fā)展。
然而,這些經(jīng)過(guò)圖像級(jí)監(jiān)督或弱語(yǔ)義訓(xùn)練的基座,并不是處理細(xì)粒度密集預(yù)測(cè)任務(wù)的最佳選擇,尤其在理解包含密集文字的文檔圖像上。
為解決這一限制,上交聯(lián)合美團(tuán)實(shí)現(xiàn)了圖文對(duì)齊粒度的新突破,其具備三大核心優(yōu)勢(shì):
- 構(gòu)建業(yè)內(nèi)首個(gè) token 級(jí)圖文數(shù)據(jù)集 TokenIT:該數(shù)據(jù)集包含 2000 萬(wàn)條公開(kāi)圖像以及 18 億高質(zhì)量的 Token-Mask 對(duì)。圖像中的每個(gè) BPE 子詞均對(duì)應(yīng)一個(gè)像素級(jí)掩碼。數(shù)據(jù)體量是 CLIP 的 5 倍,且比 SAM 多出 7 億數(shù)據(jù)對(duì)。
- 構(gòu)建圖文領(lǐng)域首個(gè)細(xì)粒度大一統(tǒng)基座 TokenFD:僅需通過(guò)簡(jiǎn)單的一層語(yǔ)言編碼,依托億級(jí)的 BPE-Mask 對(duì)打造出細(xì)粒度基座 TokenFD。真正實(shí)現(xiàn)了圖像 Token 與語(yǔ)言 Token 在同一特征空間中的共享,從而支持 Token 級(jí)的圖文交互和各種下游任務(wù)。
- TokenVL 打通模態(tài) GAP:進(jìn)一步開(kāi)放圖像即文本的語(yǔ)義潛力,首次實(shí)現(xiàn)在大語(yǔ)言模型中進(jìn)行 token 級(jí)的模態(tài)對(duì)齊,賦能密集型的多模態(tài)文檔理解任務(wù)。
論文和 demo 已發(fā)布,相關(guān)數(shù)據(jù)、模型及代碼資源將陸續(xù)向社區(qū)全面開(kāi)放。
- 項(xiàng)目主頁(yè):https://token-family.github.io/project_page/
- 體驗(yàn)地址:https://huggingface.co/spaces/TongkunGuan/Token-level_Text_Image_Foundation_Model
- GitHub:https://github.com/Token-family/TokenFD
- 論文地址: https://arxiv.org/pdf/2503.02304
首個(gè) Token 級(jí)圖文數(shù)據(jù)集 TokenIT
據(jù)不完全統(tǒng)計(jì),大約 30% 至 40% 的互聯(lián)網(wǎng)圖像包含可識(shí)別的文字,而這一比例在社交媒體平臺(tái)上更為顯著。
如何有效利用這些數(shù)據(jù)來(lái)增強(qiáng)行業(yè)基礎(chǔ) AI 生態(tài)的發(fā)展,一直是研究者們持續(xù)探索的方向。然而,目前真實(shí)場(chǎng)景數(shù)據(jù)中的文字標(biāo)簽多為單詞級(jí)或行級(jí),這與大語(yǔ)言模型所采用的 BPE token 編碼規(guī)則不完全兼容。
此類(lèi)數(shù)據(jù)集的不足,不僅限制了視覺(jué)基礎(chǔ)模型在細(xì)粒度視覺(jué)感知方面的表現(xiàn),也影響了多模態(tài)大語(yǔ)言模型在視覺(jué)與語(yǔ)言模態(tài)間的對(duì)齊能力。
為了解決這一限制,他們采用自研的 token 級(jí)的視覺(jué)語(yǔ)言分詞打標(biāo)技術(shù),提出了業(yè)內(nèi)首個(gè) token 級(jí)別的圖像文本數(shù)據(jù)集,填補(bǔ)了這一領(lǐng)域的數(shù)據(jù)空白,其亮點(diǎn)包括:
規(guī)模與多樣性
- 包含 2000 萬(wàn)張圖像與 18 億 Token-Mask 對(duì),覆蓋自然場(chǎng)景、文檔、圖表、代碼截圖、圖形用戶界面等全場(chǎng)景文本圖像類(lèi)型。
- 數(shù)據(jù)量遠(yuǎn)超 CLIP(5 倍)、SAM(多 7 億),提供更豐富的語(yǔ)義信息。
細(xì)粒度對(duì)齊
- 首創(chuàng) BPE 分詞 + 像素級(jí)掩碼標(biāo)注:將文本分割為 BPE 子詞(如「un-」、「-able」),每個(gè)子詞(token)精確對(duì)應(yīng)圖像中的局部區(qū)域。
- 支持「圖像即文字」的語(yǔ)義映射,為多模態(tài)大模型理解字符、公式、表格等復(fù)雜結(jié)構(gòu)奠定基礎(chǔ)。
首個(gè)細(xì)粒度基座 TokenFD
先前的視覺(jué)基座模型(如 CLIP、DINO)依賴圖像級(jí)監(jiān)督,難以捕捉文檔、表格等場(chǎng)景中的密集小文本語(yǔ)義,導(dǎo)致下游任務(wù)(如 OCR、視覺(jué)問(wèn)答)性能受限。
SAM 具備像素級(jí)的分割能力,其受限的語(yǔ)義表示限制了其在文本圖像場(chǎng)景的全生態(tài)應(yīng)用。依托自主研發(fā)的數(shù)億級(jí) BPE-Mask 對(duì),他們首次實(shí)現(xiàn)了 token 級(jí)的視覺(jué)和語(yǔ)言模態(tài)對(duì)齊,支持細(xì)粒度交互,填補(bǔ)了這一技術(shù)空白。
在實(shí)現(xiàn)上,TokenFD 并不依賴復(fù)雜的語(yǔ)言編碼器,而是通過(guò)簡(jiǎn)化的 token embedding layer,將視覺(jué)編碼器提取的視覺(jué)特征映射到語(yǔ)言編碼空間。
對(duì)于 token 級(jí)的視覺(jué)和語(yǔ)言特征,正樣本對(duì)確保數(shù)值與方向相似,而負(fù)樣本對(duì)則相反。在百億級(jí) token-mask 數(shù)據(jù)的顯式監(jiān)督下,TokenFD 真正實(shí)現(xiàn)了「圖像即文字」,其亮點(diǎn)包括:
支持多任務(wù)
- 文本分割(Zero-Shot 性能提升 18.78%)
- 文本理解(Zero-Shot 性能提升 1.48%)
- 文本檢索(Zero-Shot 性能提升 50.33%)
- 未來(lái)盼望他們支持可控文本生成/擦除等更多任務(wù)
推動(dòng) MLLM 發(fā)展
- 賦能多模態(tài)大模型(例如 TokenVL)細(xì)粒度文字感知能力,顯著提升 OCR、文檔解析等任務(wù)表現(xiàn)。
商業(yè)化應(yīng)用
- 圖像安全審查
- 基于文字的圖像檢索(適用于搜索引擎、電商平臺(tái)、社交平臺(tái))
- 知識(shí)檢索增強(qiáng)的大模型
據(jù)了解,demo 已在 Hugging Face 上線,歡迎體驗(yàn)。它突破了傳統(tǒng)基于文字識(shí)別的圖文檢索方式,通過(guò)特征空間直接進(jìn)行相似度匹配,支持任意文字輸入進(jìn)行圖像內(nèi)容查找。
文檔理解多模態(tài)大模型 TokenVL
通用視覺(jué)基礎(chǔ)模型在多模態(tài)大語(yǔ)言模型中作為圖像編碼器被廣泛應(yīng)用,推動(dòng)了圖像理解能力的快速發(fā)展。
然而,現(xiàn)有的視覺(jué)模型在涉及圖像中細(xì)粒度文本(如密集小文本)的下游任務(wù)中仍面臨顯著挑戰(zhàn),例如文本感知、理解與推理的準(zhǔn)確性不足。
這一問(wèn)題的根源在于當(dāng)前基座模型缺乏針對(duì)文本密集場(chǎng)景的細(xì)粒度語(yǔ)義監(jiān)督,導(dǎo)致在文檔理解、圖文問(wèn)答等實(shí)際場(chǎng)景中頻繁出現(xiàn)預(yù)測(cè)偏差。
因此作者們系統(tǒng)性地探索了 TokenFD 作為基座模型在通用文檔智能領(lǐng)域的潛力。
- 基座適配度百分百
無(wú)需額外訓(xùn)練,TokenFD 可直接替換其他多模態(tài)大模型的基座,各項(xiàng)評(píng)估基準(zhǔn)都得到了提升。
- 文檔理解多模態(tài)大模型對(duì)齊新范式
基于 TokenFD 作為視覺(jué)基礎(chǔ)模型,作者們進(jìn)一步推出了 TokenVL,一種全新的多模態(tài)大模型圖文對(duì)齊預(yù)訓(xùn)練范式。
通過(guò)利用 TokenIT 作為預(yù)訓(xùn)練數(shù)據(jù),創(chuàng)新性地通過(guò)索引方法提取大語(yǔ)言模型(LLM)中的語(yǔ)言 token,并將其與圖像特征圖中對(duì)應(yīng)的圖像 token 直接匹配,在此過(guò)程中引入約束函數(shù)以實(shí)現(xiàn)精準(zhǔn)對(duì)齊。
這一方法允許 LLM 在回答問(wèn)題時(shí)能夠更直接地參考圖像內(nèi)容,而不僅僅依賴于其強(qiáng)大的語(yǔ)義上下文理解能力,尤其在理解答案的空間位置時(shí)更具優(yōu)勢(shì)。在多個(gè) UDV 數(shù)據(jù)集上進(jìn)行了評(píng)測(cè),結(jié)果顯示出卓越的性能和令人滿意的效果。
更多方法和實(shí)驗(yàn)細(xì)節(jié)請(qǐng)參照論文。