微軟發(fā)布Mora視頻模型,吊打Sora?
微軟與理海大學合作開發(fā)的多智能體視頻生成框架Mora,近日正式亮相,標志著人工智能在視頻創(chuàng)造領域的一次重大突破。Mora的問世不僅是對閉源的Sora模型的成功復現(xiàn)和擴展,更是向我們展示了AI技術向“去中心化”發(fā)展的可能性,為未來的AI系統(tǒng)架構、管理和倫理問題的討論打開了新的篇章。
體驗網址:https://github.com/lichao-sun/Mora
Mora框架的核心是整合了多個先進視覺AI智能體,模擬了Sora展現(xiàn)的通用視頻生成能力,包括文本到視頻生成、基于文本的圖像到視頻生成、擴展已生成視頻、視頻到視頻編輯、視頻拼接以及模擬數(shù)字世界等任務。實驗結果顯示,Mora在這些任務中的表現(xiàn)已經接近了Sora的水平,在文本到視頻生成任務中,Mora的表現(xiàn)更是超越了現(xiàn)有的開源模型,位列所有模型中的第二名,這一成績足以證明Mora在視頻生成領域的潛力。
Mora的設計思想,即將視頻生成過程分解為多個子任務,并為每個任務指派專門的智能體,這種多智能體協(xié)同工作的方式,提供了出色的編輯靈活性和視覺真實度,打開了視頻創(chuàng)作的新視角。特別值得一提的是,Mora在推理過程中生成的中間圖像或視頻,保持了文本到圖像模型中的視覺多樣性、風格和質量,增強了編輯功能。Mora框架中的智能體可以分為五種基本類型,涵蓋了從文本處理到視頻拼接的整個視頻生成流程,展現(xiàn)了從文本到視頻的全流程生成能力。
效果表現(xiàn)
在基于文本條件的圖像生成任務中,盡管Sora的表現(xiàn)無疑是最完美的,但Mora的結果與之相差甚微。
在視頻到視頻編輯以及視頻拼接任務中,Mora同樣展現(xiàn)出了接近Sora的實力。它不僅能夠保持視覺和風格的連貫性,還能實現(xiàn)將不同視頻進行無縫拼接。
在模擬數(shù)字世界的任務中,Mora同樣展現(xiàn)出了創(chuàng)建虛擬環(huán)境世界的能力。盡管在質量方面與Sora相比仍有一定差距,但這一成果無疑為Mora在虛擬環(huán)境創(chuàng)建領域的應用奠定了基礎。
總而言之,Mora的問世是視頻生成技術領域的一次重大進展,它不僅推動了視頻生成技術的發(fā)展,也為未來的AI研究和應用探索了新的路徑。隨著技術的不斷進步和研究的深入,我們有理由相信,Mora在視頻生成領域的作用將越來越大,為我們打開通往更加豐富多彩數(shù)字世界的大門。
本文轉載自 ??百川智能AI??,作者: glu
