給大模型制作圖文并茂的教科書: 從2.5年的教學(xué)視頻里挖掘多模態(tài)語料
近期關(guān)于 scaling law 的討論甚囂塵上,很多觀點認為 scale law is dead. 然而,我們認為,高質(zhì)量的 “無監(jiān)督” 數(shù)據(jù)才是 scaling law 的關(guān)鍵,尤其是教科書級別的高質(zhì)量的知識語料。此外,盡管傳統(tǒng)的語料快枯竭了,但是互聯(lián)網(wǎng)上還有海量的視頻并沒有被利用起來,它們囊括了豐富的多種模態(tài)的知識,可以幫助 VLMs 更好好地理解世界。
浙大和阿里巴巴達摩院聯(lián)合提出一個圖文交織的多模態(tài)知識語料:他們收集互聯(lián)網(wǎng)上超過 22000 課時 (兩年半) 的教學(xué)視頻,提取關(guān)鍵步驟的畫面和音頻(轉(zhuǎn)錄成文本),組織成連貫、圖文交織的格式,制作成數(shù)學(xué),物理,化學(xué)等多個學(xué)科的圖文教科書 (textbook)?;谶@些 textbook,VLMs 可以像人類上課一樣學(xué)習(xí)這些圖文交織,由易至難的學(xué)科知識。
- 論文地址: arxiv.org/abs/2501.00958
- Code: https://github.com/DAMO-NLP-SG/multimodal_textbook
該研究還登上了huggingface dataset trending榜單,不到兩周下載量已經(jīng)7000+。
1. 背景和動機
當(dāng)前多模態(tài)大模型(VLMs)的預(yù)訓(xùn)練語料主要有兩種形式:圖像 - 文本對語料以及圖文交織語料:
- 圖文對數(shù)據(jù) (image-text pair corpus):多模態(tài)模型通常依賴大量圖文對數(shù)據(jù)進行預(yù)訓(xùn)練,這種數(shù)據(jù)能快速對齊圖像與文本。
- 圖文交錯數(shù)據(jù)集 (image-text Interleaved corpus):如 MMC4, OBELICS 等數(shù)據(jù)集,它們引入了更加自然,更加靈活的圖文任意交織形式。這些語料由穿插著圖像的文本段落組成,通常是從網(wǎng)頁和文檔(如 Common Crawl)中抓取的。與圖像 - 文本對數(shù)據(jù)相比,圖文交錯語料庫使 VLMs 能夠更自然地處理任意輸入,像人類一樣理解世界。
然而當(dāng)前的 interleaved corpus 大多爬取自網(wǎng)頁或者文檔,存在以下問題:
(1)文本與圖像關(guān)系松散:網(wǎng)頁中的圖像和文本之間的關(guān)聯(lián)通常很松散,甚至可能包括不相關(guān)的圖像,例如徽標(biāo)或廣告。
(2)圖像序列缺乏邏輯連貫性:大多數(shù)網(wǎng)頁包含的圖像相對較少,更重要的是,圖像之間的邏輯關(guān)系往往很模糊,使得學(xué)習(xí)復(fù)雜的視覺推理變得困難。
(3)知識密度低:抓取的網(wǎng)頁不可避免地包括新聞、娛樂和廣告推薦等內(nèi)容,很少涉及專業(yè)知識,即知識密度較低。
因此,探索如何構(gòu)建高質(zhì)量、教科書級別的 interleaved 數(shù)據(jù)集是非常必要的。此外我們還注意到互聯(lián)網(wǎng)中存在的海量的教學(xué)視頻 (例如 Youtube 上的在線課程),這些視頻包含豐富的知識,人們經(jīng)常使用這些視頻來學(xué)習(xí)基礎(chǔ)學(xué)科知識,但這些寶貴資源在 VLMs 訓(xùn)練中仍未得到充分利用。基于此,我們思考如何讓 VLMs 像人類一樣,利用這些教學(xué)視頻進行高質(zhì)量的預(yù)訓(xùn)練,從而提升其知識水平和推理能力。為實現(xiàn)這一目標(biāo),關(guān)鍵在于將這些教學(xué)視頻轉(zhuǎn)化為教科書級別的圖文交織訓(xùn)練語料。
2. 方法:如何利用教學(xué)視頻構(gòu)建高質(zhì)量的知識語料
2.1 LLM 輔助分門別類地收集教學(xué)視頻
- 知識分類體系的構(gòu)建:我們創(chuàng)建了一個四層的知識分類體系,包括學(xué)科(Subject)、課程(Course)、子課程(Sub-course)和知識點(Knowledge Point),然后使用 LLM 來自動構(gòu)建這個分類體系。
- 涵蓋數(shù)學(xué)、物理、化學(xué)、地球科學(xué)、工程學(xué)和計算機科學(xué)六大學(xué)科,共計 55 門課程,細化為 3915 個知識點。
- 示例:數(shù)學(xué)(學(xué)科) → 小學(xué)數(shù)學(xué)(課程) → 有理數(shù)與無理數(shù) (子課程) → 無理數(shù)的定義 (知識點)。
- 教學(xué)視頻的收集和過濾:
- 以構(gòu)建的知識體系中的每個知識點為檢索關(guān)鍵詞,利用在線視頻網(wǎng)站 (例如 YouTube) 的 API 搜索相關(guān)教學(xué)視頻的元數(shù)據(jù),每個知識點保留排名靠前的 50 個視頻。然后我們利用 LLM 對所有視頻元數(shù)據(jù)進行審查 (視頻標(biāo)題,簡介,評論等),過濾不合適的視頻,并且去除重復(fù)的視頻。
2.2 Video-to-Textbook Pipeline
為了將教學(xué)視頻轉(zhuǎn)化為多模態(tài)教科書,我們設(shè)計了一個多層級的處理流程,包括 video-level、clip-level 和 keyframe-level,確保數(shù)據(jù)的高質(zhì)量和知識的密集性。
(1) Long Video-Level
- 音頻提取與轉(zhuǎn)錄(ASR):使用 FFmpeg 提取音頻,并通過 Whisper 模型進行轉(zhuǎn)錄,將視頻的講解轉(zhuǎn)化為文本。
- 轉(zhuǎn)錄文本質(zhì)量:由于教程語音的口語化特點,ASR 文本的困惑度(PPL)較高。我們通過 LLM 重寫轉(zhuǎn)錄文本,提升其流暢性與連貫性,同時保持原始語義不變。
- 視頻質(zhì)量評估:通過 LLM 對轉(zhuǎn)錄文本進行分析,按以下標(biāo)準(zhǔn)過濾低質(zhì)量視頻:
- 相關(guān)性:確保轉(zhuǎn)錄文本與目標(biāo)知識點匹配,剔除與教學(xué)內(nèi)容無關(guān)的視頻(如廣告、綜藝片段)。
- 知識密度:剔除知識點稀疏、包含大量無意義填充詞的視頻,如 “嗯”“然后我們得到這個” 等口語表達。
- 轉(zhuǎn)錄質(zhì)量:刪除 Whisper 轉(zhuǎn)錄質(zhì)量較低的文本,例如重復(fù)、識別錯誤的文本。
最終我們保留了 75,000 個高質(zhì)量教學(xué)視頻和對應(yīng)的 ASR。
(2)Video Clip-Level
- 視頻分割:為實現(xiàn)文本與幀的時間對齊。我們現(xiàn)合并多個 ASR 片段,形成具有完整語義的句子。然后利用合并后的 ASR 的時間戳將長視頻切分為 10-20 秒的短片段 (video clip),每個 video clip 包含一段語音文本和對應(yīng)的視頻幀。
- 視覺知識和文本知識匹配:
- 使用 VideoLlama2 為每個 video clip 生成詳細描述 (caption);
- 計算 video clip 的 caption 與 ASR 文本的相似度,剔除視覺內(nèi)容與文本內(nèi)容不匹配的片段,或者剔除無信息量的 clips(例如如過渡場景,僅有演講者的畫面或者嚴(yán)重遮擋的畫面)。這些 clips 的視覺信息雖然過濾了,但是對應(yīng)的 ASR 依然保留在 textbook 中。
(3)Keyframe-Level
- 關(guān)鍵幀檢測:通過計算連續(xù)幀之間的結(jié)構(gòu)相似性( Structural Similarity Index, SSIM),提取視覺變化顯著的幀,迭代式地過濾掉重復(fù)或冗余的畫面。
- OCR 文本提?。河捎诮虒W(xué)視頻中常包含文本、公式和符號等重要知識,我們使用先進的 VLMs(如 InternVL)對關(guān)鍵幀進行 OCR,這些內(nèi)容往往蘊含重要的教學(xué)知識,作為 ASR 的補充。
最后,我們將處理后的關(guān)鍵幀、OCR 文本和 ASR 轉(zhuǎn)錄按時間順序排布,交錯組織成多模態(tài)教科書。
3. 數(shù)據(jù)集統(tǒng)計和分析
- 教學(xué)視頻和知識點統(tǒng)計
我們收集了 15.9 萬個教學(xué)視頻,經(jīng)過元數(shù)據(jù)審查,去重和 ASR 過濾后保留了 7.5 萬個長視頻,視頻總時長超過 22000 小時 (2.5 年)。這些教學(xué)視頻囊括數(shù)學(xué),物理,化學(xué),地科,工程,計算機六大學(xué)科,3915 個知識點。
- Textbook 統(tǒng)計
經(jīng)過 video-to-textbook pipeline,我們生成了 6.5M 個關(guān)鍵幀、258M ASR tokens 和 500M OCR tokens。我們將其拼接成 610k 個樣本,每個樣本平均包含 10.7 張圖片,1297 個 text tokens。我們觀察到樣本內(nèi)圖像之間的相似度顯著高于先前的 interleaved dataset,例如 MMC4 和 OBELICS。這體現(xiàn)了我們的 textbook 語料中圖片之間關(guān)系更緊密,知識密度更高。
4. 實驗和分析
4.1 實驗設(shè)置
我們使用主流的多模態(tài)模型 LLaVA-1.5-7B 和 Idefics2-8B 作為基座模型,對比 textbook 數(shù)據(jù)集與 webpage-centric interleaved datasets (MMC4 和 OBELICS) 的持續(xù)預(yù)訓(xùn)練的效果。
4.2 持續(xù)預(yù)訓(xùn)練的實驗效果
模型性能提升顯著:在 Textbook-6.5M 上預(yù)訓(xùn)練后,LLaVA-1.5 和 Idefics-8B 在多個基準(zhǔn)上表現(xiàn)出顯著改進。在 0-shot 到 4-shot 設(shè)置下,分別提升了 +3.2%、+8.3%、+4.0% 和 +4.6%。即使對于像 Idefics2 這樣的原本支持圖文交織輸入的 VLM,該 textbook 仍帶來了額外 +1.4% 的提升,突出了其豐富的知識內(nèi)容和高數(shù)據(jù)質(zhì)量。
在知識和推理基準(zhǔn)上優(yōu)勢明顯:在知識導(dǎo)向和推理相關(guān)基準(zhǔn)上,該數(shù)據(jù)集相比其他數(shù)據(jù)集改進顯著。例如在 ScienceQA 上,與 MMC4 相比,零樣本和少樣本設(shè)置下均有超過 20% 的提升。在 MathVista 等數(shù)學(xué)相關(guān)基準(zhǔn)上,與 OBELICS 相比,平均改進 +5.3% 和 +6.4%。
4.3 “作弊測試” 檢驗上下文感知 (in-context awareness) 能力
- 我們設(shè)計了一個作弊測試(cheat test) 來測試 VLMs 是否能有效感知圖文交織的上下文。
- Cheat-test: 我們將 few-shot example 中的某個示例替換成測試樣本,觀察模型是否能快速識別 prompt 中的已經(jīng)包含了測試樣本。
- Cheat-test 顯示在 1-shot 和 2-shot 場景下,相比 MMC4 和 OBELICS,textbook 有近 20% 的顯著優(yōu)勢。這表明來自視頻的 textbook 訓(xùn)練語料讓 VLMs 能更關(guān)注輸入圖文交織的 context,并且能利用 context 中的線索回答問題。例如在 MathVista 任務(wù)中,Textbook 訓(xùn)練的模型在 1-shot 設(shè)置下準(zhǔn)確率達到 94.1%,遠超 MMC4 的 72.6%。
4.4 其他實驗
除了上述實驗,作者還研究了數(shù)據(jù)集中圖像順序的影響,指令微調(diào)后下游任務(wù)性能,以及一系列的消融實驗。通過這些實驗表明了數(shù)據(jù)集的高質(zhì)量。
總結(jié)和展望
我們引入了一種多模態(tài)教科書來預(yù)訓(xùn)練視覺語言模型,使它們能夠以自然且圖文交織的方式學(xué)習(xí)專業(yè)知識。通過收集海量的在線教育視頻并將其轉(zhuǎn)換為關(guān)鍵幀 - 自動語音識別(ASR)交錯數(shù)據(jù)集,這本教科書提供了一個更加連貫且相互關(guān)聯(lián)的學(xué)習(xí)語境,補充了傳統(tǒng)的圖像 - 文本對齊方法。實驗證明了其有效性,特別是在 VLMs 的上下文感知和數(shù)學(xué)推理等方面。此外,這些 textbook 語料不僅僅可以用來做多模態(tài)的理解,未來還可以探索利用它們實現(xiàn)任意模態(tài)的連續(xù)生成,實現(xiàn)更好的世界模型。
作者介紹
本文一作是張文祺 (浙江大學(xué)博士生),他的研究基礎(chǔ)是基于大模型智能體,多模態(tài)模型等,開發(fā)了數(shù)據(jù)分析智能體 Data-Copilot,在 github 上獲得超過 1400 stars。共同通訊包括魯偉明 (浙江大學(xué)副教授),李昕(阿里巴巴達摩院算法工程師),其中李昕和張航(本文二作)主導(dǎo)開發(fā)了 VideoLlama 系列視頻理解模型。其他作者包括浙江大學(xué)莊越挺教授,趙德麗(阿里巴巴達摩院基礎(chǔ)智能中心主管), 邴立東(達摩院語言技術(shù)實驗室主管),沈永亮(浙大百人計劃研究員),孫嘉碩 (達摩院算法工程師)。