100萬token,一次能分析1小時YouTube視頻,「大世界模型」火了
最近幾天,我們接連被谷歌的多模態(tài)模型 Gemini 1.5 以及 OpenAI 的視頻生成模型 Sora 所震撼到,前者可以處理的上下文窗口達百萬級別,而后者生成的視頻能夠理解運動中的物理世界,被很多人稱為「世界模型」。然而,這些刷屏無數(shù)的模型真的能很好的理解世界嗎?我們就拿 Sora 來說,該模型在給大家?guī)眢@嘆的同時,卻不能很好的模擬復雜場景的物理原理,如一位健身的男子倒著跑跑步機。
不僅 Sora,現(xiàn)如今大模型雖然發(fā)展迅速,然而其自身也存在缺點,比如在現(xiàn)實世界中不容易用語言描述的內容,模型理解起來非常困難,又比如這些模型難以處理復雜的長程任務。視頻模型的出現(xiàn)在一定程度上緩解了這個問題,其能提供語言和靜態(tài)圖像中所缺少的時間信息,這種信息對 LLM 非常有價值。隨著技術的進步,模型開始變得對文本知識和物理世界有了更好的理解,從而幫助人類。
然而,由于內存限制、計算復雜性和有限的數(shù)據(jù)集,從數(shù)百萬個視頻和語言序列的 token 中進行學習挑戰(zhàn)巨大。
為了應對這些挑戰(zhàn),來自 UC 伯克利的研究者整理了一個包含各種視頻和書籍的大型數(shù)據(jù)集,并且提出了大世界模型( Large World Model ,LWM),利用 RingAttention 技術對長序列進行可擴展訓練,逐漸將上下文大小從 4K 增加到 1M token。
- 論文地址:https://arxiv.org/pdf/2402.08268.pdf
- 項目主頁:https://github.com/LargeWorldModel/LWM?tab=readme-ov-file
- 論文標題:WORLD MODEL ON MILLION-LENGTH VIDEO AND LANGUAGE WITH RINGATTENTION
項目 5 天攬獲 2.5K 星標。
本文的貢獻可總結為如下幾個方面:
(a)該研究在長視頻和語言序列上訓練了一個擁有極大上下文尺寸的 transformers 模型,從而設立了新的檢索任務和長視頻理解方面的標桿。
(b) 為了克服視覺 - 語言訓練帶來的挑戰(zhàn),該研究采取了以下措施,包括使用掩碼序列以混合不同長度的序列、損失加權以平衡語言和視覺、以及使用模型生成的問答數(shù)據(jù)來處理長序列對話。
(c) 通過 RingAttention、掩碼序列打包等方法,可以訓練數(shù)百萬長度的多模態(tài)序列。
(d) 完全開源 7B 參數(shù)系列模型,其能夠處理超過 100 萬 token 的長文本文檔(LWM-Text、LWM-Text-Chat)和視頻(LWM、LWM-Chat)。
LWM 可以基于文本提示自動生成圖像,例如黑色的小狗:
LWM 還可以基于文本提示生成視頻,例如在夜空中綻放的煙花在天空中綻放:
接下來,LWM 還能深入理解圖片、回答關于圖片的問題,例如 LWM 能對經(jīng)典藝術作品的二次創(chuàng)作進行解讀:
值得一提的是,LWM 可以回答時長為 1 小時的 YouTube 視頻。比如在示例中,當用戶詢問「那個穿著霸王龍服裝的人騎的是什么車」?GPT-4V 不能提供支持,Gemini Pro Vision 回答錯誤。只有 LWM 給了「那個穿著霸王龍服裝的人騎的是摩托車」正確答案。顯示出 LWM 在長視頻理解中的優(yōu)勢。
更多示例結果如下,我們可以得出,即使是最先進的商業(yè)模型 GPT-4V 和 Gemini Pro 在回答有關視頻的問題時都失敗了,只有 LWM 仍能回答長達 1h 的 YouTube 視頻問題。
這項研究的作者共有四位, 其中一位是深度強化學習大牛、UC 伯克利教授 Pieter Abbeel 。Abbeel 在業(yè)余時間還出了很多課程,其中 Intro to AI 課程在 edX 上吸引了 10 萬多名學生學習,他的深度強化學習和深度無監(jiān)督學習教材是 AI 研究者的經(jīng)典學習資料,包括 CS294-158(Deep Unsupervised Learning)、CS188(Introduction to Artificial Intelligence)、CS287(Advanced Robotics)等。
方法介紹
該研究在 Llama2 7B 的基礎上訓練了一個大型自回歸 Transformer 模型,該模型具有長達 100 萬個 token 的超大上下文窗口。為了實現(xiàn)這一點,研究團隊采用多種策略:使用書籍資料將上下文擴展到 100 萬個 token,然后在長多模態(tài)序列上進行聯(lián)合訓練,包括文本 - 圖像、文本 - 視頻數(shù)據(jù)和書籍資料。
計算注意力權重的二次復雜度會帶來內存限制,因此在長文檔上進行訓練異常昂貴。為了解決這些計算限制,研究團隊采用 RingAttention 實現(xiàn),利用具有序列并行性的塊式計算。理論上這種方法可以將上下文窗口擴展到無限長度,僅受可用設備數(shù)量的限制。該研究還使用 Pallas 進一步將 RingAttention 與 FlashAttention 融合,以優(yōu)化模型性能。
如下表 1 所示,為了擴展上下文窗口的長度,該研究采用漸進式訓練的方法。直觀地講,這使得模型可以通過首先學習較短范圍的依賴關系,然后再轉移到較長的序列上來節(jié)省計算量。
LWM 模型的整體架構如下圖 4 所示,總體上講是一個數(shù)百萬長度 token 序列上的自回歸 transformer。視頻中的每個幀使用 VQGAN tokenized 為 256 個 token,這些 token 會與文本 token 連接起來,并輸入到 transformer 中,以自回歸方式預測下一個 token。輸入和輸出的順序反映了不同的訓練數(shù)據(jù)格式,包括圖像 - 文本、文本 - 圖像、視頻、文本 - 視頻和純文本格式。
實驗結果
該研究將 LWM 與谷歌的 Gemini Pro 和 OpenAI 的 GPT-4 進行了實驗比較,實驗結果表明 LWM 模型在檢索方面能夠媲美 GPT-4,如下表 3 所示。
該研究還在 MT-Bench 上評估了模型的對話能力。表 5 顯示了模型獲得的 MT-Bench 分數(shù)。表 6 說明了模型的對話能力與事實檢索能力的關系。
在準確性方面,LWM 在上下文窗口為 1M 時優(yōu)于 GPT-4V 和 Gemini Pro。
感興趣的讀者可以閱讀論文原文,了解更多研究內容。