自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="u1ubx"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

首個(gè)開源世界模型！百萬(wàn)級(jí)上下文，長(zhǎng)視頻理解吊打GPT-4，UC伯克利華人一作

作者：新智元 2024-04-07 00:45:00

人工智能新聞

來(lái)自UC berkeley的研究人員開源了首個(gè)世界模型，多模態(tài)性能優(yōu)秀，長(zhǎng)視頻理解吊打GPT-4，同時(shí)將上下文長(zhǎng)度增加到百萬(wàn)級(jí)別

想了解更多AIGC的內(nèi)容：

請(qǐng)?jiān)L問(wèn)： 51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

首個(gè)開源「世界模型」來(lái)了！

來(lái)自UC berkeley的研究人員發(fā)布并開源了LWM（LargeWorldModel）系列模型：

論文地址：https://arxiv.org/pdf/2402.08268.pdf

代碼地址：https://github.com/LargeWorldModel/LWM

LWM采用了一個(gè)包含各種視頻和書籍的大型數(shù)據(jù)集，利用RingAttention技術(shù)對(duì)長(zhǎng)序列進(jìn)行可擴(kuò)展的訓(xùn)練，最終將上下文長(zhǎng)度增加到1M token。

在超長(zhǎng)上下文的加持下，LWM系列模型可以輕松完成各種多模態(tài)任務(wù)，

比如文本圖像生成（LWM 基于文本提示以自回歸方式生成圖像）：

文本視頻生成：

煙花在天空中爆炸
海浪拍打著海岸

倫敦熙熙攘攘的街道，背景是紅色的電話亭和大本鐘
桌子上的芒果切片，相機(jī)從左向右移動(dòng)

一個(gè)球在空中飛舞
慢動(dòng)作花瓣落在地上

森林中燃燒的篝火
一艘在波濤洶涌的海洋上航行的船

基于圖像的對(duì)話：

用戶：如果你是一名攝影師，想要捕捉這個(gè)地點(diǎn)的精髓，你會(huì)選擇一天中的什么時(shí)間和天氣條件？描述您選擇背后的原因。

LWM：我會(huì)選擇日落時(shí)分的時(shí)間。這張照片的特點(diǎn)是一個(gè)木制碼頭，延伸到平靜的湖面，是寧?kù)o而風(fēng)景如畫的場(chǎng)景。夕陽(yáng)在湖面上投下溫暖的金色光芒，增強(qiáng)了場(chǎng)景的寧?kù)o。此外，天氣條件似乎是涼爽和多云的，這與湖泊和木制碼頭的自然美景相得益彰。這些元素的結(jié)合營(yíng)造出一種視覺(jué)上吸引人且平靜的氛圍，將是理想的時(shí)機(jī)。

用戶：描述一下不同觀眾如何以不同的方式解釋經(jīng)典藝術(shù)作品的這種創(chuàng)造性轉(zhuǎn)折。

LWM：在對(duì)經(jīng)典藝術(shù)作品的創(chuàng)造性轉(zhuǎn)折中，女人的臉變成了狗的臉，創(chuàng)造了視覺(jué)上引人注目和意想不到的表現(xiàn)。這件藝術(shù)品可以看作是對(duì)人類理解的局限性，以及人類與動(dòng)物之間更深層次的聯(lián)系和理解的評(píng)論。

觀看長(zhǎng)視頻（超過(guò)一小時(shí)），并回答問(wèn)題：

即使最先進(jìn)的商業(yè)模型GPT-4V和Gemini Pro也都失敗了。

雖說(shuō)「世界模型」還是個(gè)概念股吧，但LWM展現(xiàn)出的多模態(tài)能力是相當(dāng)優(yōu)秀的。

關(guān)鍵是，人家是開源的（基于Llama2 7B），于是受到廣大開發(fā)者的熱烈歡迎，僅僅不到兩周的時(shí)間，就在GitHub上斬獲了6.2k stars。

LWM在博客開頭就展示了自己的優(yōu)勢(shì)區(qū)間，除了上面提到的長(zhǎng)視頻理解，下圖比較了幾個(gè)模型的事實(shí)檢索能力：

LWM在1M上下文窗口內(nèi)實(shí)現(xiàn)了高精度，性能優(yōu)于GPT-4V和Gemini Pro。

我們可以看到，LWM在在不同的上下文大小和位置上都保持了高精度（全綠）。

目前，LWM放出了一系列不同上下文大小（從32K到1M）的模型，包括純語(yǔ)言版本和視頻語(yǔ)言版本。其中視覺(jué)語(yǔ)言模型僅在Jax中可用，純語(yǔ)言模型在PyTorch和Jax中都可用。

開源技術(shù)細(xì)節(jié)

上圖展示了LWM的多模態(tài)訓(xùn)練。

第一階段是上下文擴(kuò)展，重點(diǎn)是使用Books3數(shù)據(jù)集擴(kuò)展上下文大小，從32K增長(zhǎng)到1M。

第二階段，視覺(jué)語(yǔ)言培訓(xùn)，重點(diǎn)是對(duì)不同長(zhǎng)度的視覺(jué)和視頻內(nèi)容進(jìn)行培訓(xùn)。餅圖詳細(xì)說(shuō)明了訓(xùn)練數(shù)據(jù)的分布情況，包括495B的文本-視頻數(shù)據(jù)，以及33B的文本數(shù)據(jù)。

圖中還展示了模型的交互功能。

語(yǔ)言模型階段

這個(gè)階段首先開發(fā)LWM-Text和LWM-Text-Chat，通過(guò)使用RingAttention逐步增加序列長(zhǎng)度數(shù)據(jù)進(jìn)行訓(xùn)練，并修改位置編碼參數(shù)以考慮更長(zhǎng)的序列長(zhǎng)度。

由于計(jì)算的二次復(fù)雜度所施加的內(nèi)存限制，對(duì)長(zhǎng)文檔的訓(xùn)練非常昂貴。

為了解決計(jì)算限制，研究人員使用RingAttention，利用具有序列并行性的塊計(jì)算在理論上擴(kuò)展到無(wú)限上下文，僅受可用設(shè)備數(shù)量的限制。

作者使用Pallas進(jìn)一步將RingAttention與FlashAttention融合在一起，以優(yōu)化性能。通常，如果每個(gè)設(shè)備有足夠大的token，RingAttention期間的通信成本與計(jì)算完全重疊，并且不會(huì)增加任何額外的開銷。

訓(xùn)練步驟

模型以LLaMA-2 7B為基礎(chǔ)，分5個(gè)階段逐步增加模型的有效上下文長(zhǎng)度：32K、128K、256K、512K和1M。對(duì)于每個(gè)階段，使用來(lái)自The Pile的Books3數(shù)據(jù)集的不同過(guò)濾版本進(jìn)行訓(xùn)練。

上表詳細(xì)介紹了每個(gè)訓(xùn)練階段的信息，例如token數(shù)量、總時(shí)間和Books3數(shù)據(jù)集過(guò)濾約束。每個(gè)階段以前一個(gè)階段作為初始化。

研究人員還構(gòu)建了一個(gè)簡(jiǎn)單的QA數(shù)據(jù)集，用于學(xué)習(xí)長(zhǎng)上下文聊天能力。將Books3數(shù)據(jù)集中的文檔分塊成1000個(gè)token的固定塊，將每個(gè)塊提供給短上下文語(yǔ)言模型，并提示它生成一個(gè)關(guān)于該段落的問(wèn)答對(duì)。

對(duì)于聊天模型的微調(diào)，研究人員在UltraChat和自定義QA數(shù)據(jù)集上訓(xùn)練每個(gè)模型，比例約為7：3。

作者發(fā)現(xiàn)將UltraChat數(shù)據(jù)預(yù)打包到訓(xùn)練序列長(zhǎng)度至關(guān)重要，而且需要與自定義的QA數(shù)據(jù)示例分開。

聊天模型并沒(méi)有采用漸進(jìn)式訓(xùn)練，而是從各自的預(yù)訓(xùn)練模型以相同的上下文長(zhǎng)度進(jìn)行初始化。

視覺(jué)模型階段

第二階段旨在有效地聯(lián)合訓(xùn)練長(zhǎng)視頻和語(yǔ)言序列。

LWM和LWM-Chat 的架構(gòu)修改

LWM是數(shù)百萬(wàn)長(zhǎng)標(biāo)記序列上的自回歸變換器。視頻中的每一幀都用VQGAN產(chǎn)生256個(gè)token。這些token與文本token連接起來(lái)，饋送到Transformer中，以自回歸方式預(yù)測(cè)下一個(gè)token。

輸入和輸出token的順序反映了不同的訓(xùn)練數(shù)據(jù)格式，包括圖像-文本、文本-圖像、視頻、文本-視頻和純文本格式。

LWM本質(zhì)上是使用多種模式以任意到任意方式進(jìn)行訓(xùn)練的。為了區(qū)分圖像和文本token，以及進(jìn)行解碼，這里采用特殊的分隔符。在視覺(jué)數(shù)據(jù)中，也會(huì)處理視頻的中間幀和最終幀。

這里使用來(lái)自aMUSEd的預(yù)訓(xùn)練VQGAN，將256 × 256個(gè)輸入圖像標(biāo)記為16 × 16個(gè)離散token。

模型使用視覺(jué)和文本token的交錯(cuò)串聯(lián)進(jìn)行訓(xùn)練，并進(jìn)行自回歸預(yù)測(cè)。

不同序列長(zhǎng)度的訓(xùn)練

以LWM-Text-1M文本模型為初始化，對(duì)大量組合的文本-圖像和文本-視頻數(shù)據(jù)執(zhí)行漸進(jìn)式訓(xùn)練過(guò)程，這里沒(méi)有額外擴(kuò)展RoPE θ，因?yàn)樗呀?jīng)支持高達(dá)1M的上下文。

上表顯示了每個(gè)訓(xùn)練階段的詳細(xì)信息，每個(gè)模型是從先前較短的序列長(zhǎng)度階段初始化的。

對(duì)于每個(gè)階段，根據(jù)以下數(shù)據(jù)進(jìn)行訓(xùn)練：

LWM-1K：在大型文本圖像數(shù)據(jù)集上進(jìn)行訓(xùn)練，該數(shù)據(jù)集由LAION-2Ben和COYO-700M混合組成。數(shù)據(jù)集被過(guò)濾后僅包含至少256分辨率的圖像——總共大約1B個(gè)文本圖像對(duì)。

在訓(xùn)練過(guò)程中，將文本-圖像對(duì)連接起來(lái)，并隨機(jī)交換模態(tài)的順序，以對(duì)文本-圖像生成、無(wú)條件圖像生成和圖像標(biāo)題進(jìn)行建模。這里將文本-圖像對(duì)打包為1K個(gè)token的序列。

LWM-8K：在WebVid10M和3M InternVid10M示例的文本視頻數(shù)據(jù)集組合上進(jìn)行訓(xùn)練。與之前的工作類似，每種模態(tài)使用相同的比例聯(lián)合訓(xùn)練圖像和視頻。

這里將圖像打包成8K token序列和30幀視頻，速度為4FPS。與圖像訓(xùn)練類似，隨機(jī)交換每個(gè)文本-視頻對(duì)的模態(tài)順序。

LWM-Chat-32K/128K/1M：在最后3個(gè)階段，研究人員對(duì)每個(gè)下游任務(wù)的聊天數(shù)據(jù)組合進(jìn)行訓(xùn)練：

文本圖像生成
圖像理解
文本視頻生成
視頻理解

通過(guò)對(duì)預(yù)訓(xùn)練數(shù)據(jù)的隨機(jī)子集進(jìn)行采樣，并用聊天格式進(jìn)行增強(qiáng)，構(gòu)建了文本-圖像和文本-視頻聊天數(shù)據(jù)的簡(jiǎn)單版本。為了理解圖像，這里使用來(lái)自ShareGPT4V的圖像聊天指示。

最后，對(duì)于視頻理解聊天數(shù)據(jù)，使用Valley-Instruct-73K和Video-ChatGPT-100K指令數(shù)據(jù)的組合。對(duì)于所有短上下文數(shù)據(jù)（圖像生成、圖像理解、視頻生成），將序列打包到訓(xùn)練上下文長(zhǎng)度。

在打包過(guò)程中，研究人員發(fā)現(xiàn)關(guān)鍵是要掩蓋注意力，以便每個(gè)文本視覺(jué)對(duì)只關(guān)注自己，以及重新加權(quán)損失，以使計(jì)算與非打包+填充訓(xùn)練方案中的訓(xùn)練相同。

對(duì)于視頻理解數(shù)據(jù)，如果視頻太長(zhǎng)，會(huì)統(tǒng)一采樣最大幀數(shù)，以適應(yīng)模型的訓(xùn)練上下文長(zhǎng)度。在訓(xùn)練期間，4 個(gè)下游任務(wù)等比例平均分配。

盡管視覺(jué)語(yǔ)言模型可以攝取長(zhǎng)視頻，但由于上下文長(zhǎng)度有限，通常是通過(guò)對(duì)視頻幀執(zhí)行大型時(shí)間子采樣來(lái)完成的。

例如，Video-LLaVA被限制為從視頻中均勻采樣8幀，無(wú)論原始視頻有多長(zhǎng)。因此，模型可能會(huì)丟失更細(xì)粒度的時(shí)間信息，而這些信息對(duì)于準(zhǔn)確回答有關(guān)視頻的任何問(wèn)題非常重要。

相比之下，本文的模型是在1M令牌的長(zhǎng)序列上訓(xùn)練的，因此，可以同時(shí)處理數(shù)千幀視頻，以在短時(shí)間間隔內(nèi)檢索細(xì)粒度信息。在上圖的示例中，LWM正確回答了有關(guān)由500多個(gè)獨(dú)立剪輯組成的1小時(shí)長(zhǎng)YouTube視頻的問(wèn)題。

不過(guò)作者也承認(rèn)，LWM生成的答案可能并不總是準(zhǔn)確的，并且該模型仍在努力解決需要對(duì)視頻有更高層次理解的更復(fù)雜的問(wèn)題。希望LWM將有助于未來(lái)的工作，開發(fā)改進(jìn)的基礎(chǔ)模型，以及長(zhǎng)視頻理解的基準(zhǔn)。

想了解更多AIGC的內(nèi)容，

請(qǐng)?jiān)L問(wèn)： 51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責(zé)任編輯：張燕妮來(lái)源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="2amcv"></cite>

<cite id="2amcv"><rp id="2amcv"><form id="2amcv"></form></rp></cite>

<sub id="2amcv"></sub>

<cite id="2amcv"></cite><cite id="2amcv"></cite>