自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

阿里商業(yè)級(jí)視頻生成框架——軌跡控制版視頻生成 Tora 重磅開源!

發(fā)布于 2024-10-18 09:19
瀏覽
0收藏

論文鏈接:https://arxiv.org/pdf/2407.21705

項(xiàng)目鏈接:https://ali-videoai.github.io/tora_video/

代碼鏈接:https://github.com/alibaba/Tora


阿里團(tuán)隊(duì)最近在 GitHub 上推出了其創(chuàng)新的文生視頻生成工具——Tora,為學(xué)術(shù)界和開源社區(qū)提供了新的研究資源。Tora 基于先進(jìn)的DiT框架,專注于軌跡控制的視頻生成。此次開源的版本包括了完整的推理代碼和模型權(quán)重,旨在為研究人員和開發(fā)者提供高效的工具,促進(jìn)技術(shù)交流與學(xué)習(xí)。從GitHub 上的 README 文件來看,由于阿里目前的商業(yè)使用計(jì)劃,當(dāng)前開放的是文生視頻版本的Tora。未來,阿里團(tuán)隊(duì)計(jì)劃推出 ModelScope 的試用 demo、訓(xùn)練代碼以及完整版本的 Tora,以滿足更多用戶的需求,這無疑將推動(dòng)文生視頻技術(shù)的進(jìn)一步發(fā)展。


目前從Github倉(cāng)庫(kù)來看,Tora 的文生視頻生成能力通過 Gradio 的可視化界面呈現(xiàn),確保用戶體驗(yàn)流暢且易于操作。用戶可以通過以下步驟輕松創(chuàng)建一段6s的軌跡可控視頻:


  • 繪制軌跡:用戶可以選擇預(yù)設(shè)軌跡或自定義繪制路徑,實(shí)現(xiàn)個(gè)性化的控制。
  • 輸入文本提示:通過輸入文本 prompt,用戶能夠定義視頻內(nèi)容,推薦使用詳細(xì)描述以提高生成效果的豐富性。

阿里商業(yè)級(jí)視頻生成框架——軌跡控制版視頻生成 Tora 重磅開源!-AI.x社區(qū)

在github倉(cāng)庫(kù)展示的 demo 中,Tora 在處理多種軌跡形式時(shí)表現(xiàn)出色。不論是直線軌跡還是曲線路徑,系統(tǒng)皆能精準(zhǔn)地生成與之對(duì)應(yīng)的視頻。尤其值得注意的是,當(dāng)文本提示中的對(duì)象與預(yù)設(shè)軌跡明顯不太可能匹配時(shí),Tora 動(dòng)態(tài)地調(diào)整物體的局部運(yùn)動(dòng),確保其整體運(yùn)動(dòng)仍然符合自然規(guī)律,并保持視覺的一致性。這種機(jī)制使得生成的視頻在自然度和協(xié)調(diào)性上都有了顯著提高。如果您對(duì)這項(xiàng)技術(shù)感興趣,歡迎訪問其github(https://github.com/alibaba/Tora),一同探索這項(xiàng)前沿技術(shù)的魅力。

阿里商業(yè)級(jí)視頻生成框架——軌跡控制版視頻生成 Tora 重磅開源!-AI.x社區(qū)

阿里商業(yè)級(jí)視頻生成框架——軌跡控制版視頻生成 Tora 重磅開源!-AI.x社區(qū)

前面AI生成未來分享過Tora的技術(shù)文章解讀:

??寥寥數(shù)筆,動(dòng)畫自成!阿里Tora: 首個(gè)軌跡引導(dǎo)的DiT創(chuàng)新實(shí)現(xiàn)精確運(yùn)動(dòng)控制視頻生成??

文章亮點(diǎn)

  • 本文引入了Tora,這是第一個(gè)軌跡導(dǎo)向的DiT用于視頻生成。如下圖2所示,Tora無縫整合了廣泛的視覺和軌跡指令,從而能夠熟練地創(chuàng)建可操控運(yùn)動(dòng)的視頻。
  • 為了與DiT的可擴(kuò)展性保持一致,本文設(shè)計(jì)了一種新穎的軌跡提取器和運(yùn)動(dòng)引導(dǎo)融合機(jī)制,以獲取時(shí)空運(yùn)動(dòng)塊,隨后將這些塊注入DiT塊中。本文對(duì)幾種架構(gòu)選擇進(jìn)行了消融實(shí)驗(yàn),并為未來基于DiT的運(yùn)動(dòng)控制研究提供了實(shí)證基線。
  • 實(shí)驗(yàn)表明,Tora能夠生成具有不同縱橫比的720p分辨率視頻,最長(zhǎng)可達(dá)204幀,所有這些都由指定的軌跡引導(dǎo)。此外,它在模擬物理世界中的運(yùn)動(dòng)方面表現(xiàn)出色。

阿里商業(yè)級(jí)視頻生成框架——軌跡控制版視頻生成 Tora 重磅開源!-AI.x社區(qū)

結(jié)論

Tora是第一個(gè)面向軌跡的擴(kuò)散Transformer框架,用于視頻生成,集成了文本、圖像和軌跡條件。Tora有效地將任意軌跡編碼為時(shí)空運(yùn)動(dòng)塊,這與DiT的縮放特性相一致,從而實(shí)現(xiàn)了更逼真的物理世界運(yùn)動(dòng)模擬。通過采用兩階段訓(xùn)練過程,Tora在各種持續(xù)時(shí)間、縱橫比和分辨率下實(shí)現(xiàn)了運(yùn)動(dòng)可控的視頻生成。值得注意的是,它可以生成符合指定軌跡的高質(zhì)量視頻,最高可達(dá)204幀,分辨率為720p。這一能力突顯了Tora在處理多樣化運(yùn)動(dòng)模式時(shí)的多功能性和魯棒性,同時(shí)保持高視覺保真度。本文希望本文的工作為未來的運(yùn)動(dòng)引導(dǎo)擴(kuò)散Transformer方法研究提供一個(gè)強(qiáng)有力的基線。


本文轉(zhuǎn)自 AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/RZe868TGiKamPChVEf7nDw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦