自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Emu3: 統(tǒng)一多模態(tài)輸入與生成

發(fā)布于 2024-11-5 13:18
瀏覽
0收藏

BAAI剛剛開源了Emu3多模態(tài)大模型,僅使用單個transformer,使用下一個token預測的方法從0進行訓練!通過將圖像、文本和視頻tokenize到一個統(tǒng)一的離散的空間中,直接通過預測下一個token實現(xiàn)文本、圖像和視頻生成。

Homepage:??? https://emu.baai.ac.cn/????

Github: ???https://github.com/baaivision/Emu3???

Model: https://huggingface.co/BAAI/Emu3-Gen


Emu3: 統(tǒng)一多模態(tài)輸入與生成-AI.x社區(qū)


Emu3

Emu3 在生成和感知任務中超越了多個任務的專用模型,表現(xiàn)優(yōu)于主流開源模型如 SDXL、LLaVA-1.6 和 OpenSora-1.2,同時不需要基于Diffison或組合多種不同架構(gòu)。 

Emu3: 統(tǒng)一多模態(tài)輸入與生成-AI.x社區(qū)

Emu3 能夠根據(jù)文本輸入生成高質(zhì)量的圖像,通過簡單地預測下一個視覺標記來實現(xiàn)。該模型自然支持靈活的分辨率和風格。 

Emu3 展現(xiàn)出強大的視覺語言理解能力,能夠感知物理世界并提供連貫的文本響應。值得注意的是,這種能力是在不依賴 CLIP 和預訓練 LLM 的情況下實現(xiàn)的。 

Emu3 通過預測視頻序列中的下一個token來因果生成視頻,與 Sora 的視頻擴散模型不同。在上下文中有視頻的情況下,Emu3 還能自然延伸視頻并預測接下來會發(fā)生什么。

方法

Emu3 采用混合語言、圖像和視頻數(shù)據(jù)從零開始進行訓練。語言數(shù)據(jù)來自 Aquila 的高質(zhì)量中英文語料庫。圖像數(shù)據(jù)經(jīng)過精心篩選,確保分辨率和美學質(zhì)量,使用 LAION-AI 的美學預測工具過濾,并結(jié)合來自 DenseFusion 的補充數(shù)據(jù)。視頻數(shù)據(jù)涵蓋多種類別,經(jīng)過分段、文本檢測和運動評估,以確保視頻質(zhì)量。最后利用 GPT-4V 為圖像和視頻生成文本標注。

模型采用 SBER-MoVQGAN 訓練視覺編碼器,實現(xiàn)高效的視頻和圖像編碼。預訓練和后訓練過程中,Emu3 集成文本和視覺信息,通過下一標記預測任務優(yōu)化生成質(zhì)量,并運用直接偏好優(yōu)化(DPO)提升模型與人類偏好的對齊。最終,模型通過圖像-文本訓練和指令調(diào)優(yōu)增強視覺語言理解能力。

能力

視頻生成

Emu3: 統(tǒng)一多模態(tài)輸入與生成-AI.x社區(qū)

未來幀預測

Emu3: 統(tǒng)一多模態(tài)輸入與生成-AI.x社區(qū)

多模態(tài)對話

Emu3: 統(tǒng)一多模態(tài)輸入與生成-AI.x社區(qū)

Emu3: 統(tǒng)一多模態(tài)輸入與生成-AI.x社區(qū)


本文轉(zhuǎn)載自公眾號思源數(shù)據(jù)科學 作者:思源Source

原文鏈接:??https://mp.weixin.qq.com/s/J6MTvki9YjXU5aqcrfi8JA??



收藏
回復
舉報
回復
相關(guān)推薦