自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

阿里商業(yè)級(jí)視頻生成框架——軌跡控制版視頻生成 Tora 重磅開源！

發(fā)布于 2024-10-18 09:19

瀏覽

0收藏

論文鏈接：https://arxiv.org/pdf/2407.21705

項(xiàng)目鏈接：https://ali-videoai.github.io/tora_video/

代碼鏈接：https://github.com/alibaba/Tora

阿里團(tuán)隊(duì)最近在 GitHub 上推出了其創(chuàng)新的文生視頻生成工具——Tora，為學(xué)術(shù)界和開源社區(qū)提供了新的研究資源。Tora 基于先進(jìn)的DiT框架，專注于軌跡控制的視頻生成。此次開源的版本包括了完整的推理代碼和模型權(quán)重，旨在為研究人員和開發(fā)者提供高效的工具，促進(jìn)技術(shù)交流與學(xué)習(xí)。從GitHub 上的 README 文件來看，由于阿里目前的商業(yè)使用計(jì)劃，當(dāng)前開放的是文生視頻版本的Tora。未來，阿里團(tuán)隊(duì)計(jì)劃推出 ModelScope 的試用 demo、訓(xùn)練代碼以及完整版本的 Tora，以滿足更多用戶的需求，這無疑將推動(dòng)文生視頻技術(shù)的進(jìn)一步發(fā)展。

目前從Github倉(cāng)庫(kù)來看，Tora 的文生視頻生成能力通過 Gradio 的可視化界面呈現(xiàn)，確保用戶體驗(yàn)流暢且易于操作。用戶可以通過以下步驟輕松創(chuàng)建一段6s的軌跡可控視頻：

繪制軌跡：用戶可以選擇預(yù)設(shè)軌跡或自定義繪制路徑，實(shí)現(xiàn)個(gè)性化的控制。
輸入文本提示：通過輸入文本 prompt，用戶能夠定義視頻內(nèi)容，推薦使用詳細(xì)描述以提高生成效果的豐富性。

阿里商業(yè)級(jí)視頻生成框架——軌跡控制版視頻生成 Tora 重磅開源！-AI.x社區(qū)

在github倉(cāng)庫(kù)展示的 demo 中，Tora 在處理多種軌跡形式時(shí)表現(xiàn)出色。不論是直線軌跡還是曲線路徑，系統(tǒng)皆能精準(zhǔn)地生成與之對(duì)應(yīng)的視頻。尤其值得注意的是，當(dāng)文本提示中的對(duì)象與預(yù)設(shè)軌跡明顯不太可能匹配時(shí)，Tora 動(dòng)態(tài)地調(diào)整物體的局部運(yùn)動(dòng)，確保其整體運(yùn)動(dòng)仍然符合自然規(guī)律，并保持視覺的一致性。這種機(jī)制使得生成的視頻在自然度和協(xié)調(diào)性上都有了顯著提高。如果您對(duì)這項(xiàng)技術(shù)感興趣，歡迎訪問其github（https://github.com/alibaba/Tora），一同探索這項(xiàng)前沿技術(shù)的魅力。

阿里商業(yè)級(jí)視頻生成框架——軌跡控制版視頻生成 Tora 重磅開源！-AI.x社區(qū)

阿里商業(yè)級(jí)視頻生成框架——軌跡控制版視頻生成 Tora 重磅開源！-AI.x社區(qū)

前面AI生成未來分享過Tora的技術(shù)文章解讀：

??寥寥數(shù)筆，動(dòng)畫自成！阿里Tora: 首個(gè)軌跡引導(dǎo)的DiT創(chuàng)新實(shí)現(xiàn)精確運(yùn)動(dòng)控制視頻生成??

文章亮點(diǎn)
本文引入了Tora，這是第一個(gè)軌跡導(dǎo)向的DiT用于視頻生成。如下圖2所示，Tora無縫整合了廣泛的視覺和軌跡指令，從而能夠熟練地創(chuàng)建可操控運(yùn)動(dòng)的視頻。
為了與DiT的可擴(kuò)展性保持一致，本文設(shè)計(jì)了一種新穎的軌跡提取器和運(yùn)動(dòng)引導(dǎo)融合機(jī)制，以獲取時(shí)空運(yùn)動(dòng)塊，隨后將這些塊注入DiT塊中。本文對(duì)幾種架構(gòu)選擇進(jìn)行了消融實(shí)驗(yàn)，并為未來基于DiT的運(yùn)動(dòng)控制研究提供了實(shí)證基線。
實(shí)驗(yàn)表明，Tora能夠生成具有不同縱橫比的720p分辨率視頻，最長(zhǎng)可達(dá)204幀，所有這些都由指定的軌跡引導(dǎo)。此外，它在模擬物理世界中的運(yùn)動(dòng)方面表現(xiàn)出色。

阿里商業(yè)級(jí)視頻生成框架——軌跡控制版視頻生成 Tora 重磅開源！-AI.x社區(qū)

結(jié)論

Tora是第一個(gè)面向軌跡的擴(kuò)散Transformer框架，用于視頻生成，集成了文本、圖像和軌跡條件。Tora有效地將任意軌跡編碼為時(shí)空運(yùn)動(dòng)塊，這與DiT的縮放特性相一致，從而實(shí)現(xiàn)了更逼真的物理世界運(yùn)動(dòng)模擬。通過采用兩階段訓(xùn)練過程，Tora在各種持續(xù)時(shí)間、縱橫比和分辨率下實(shí)現(xiàn)了運(yùn)動(dòng)可控的視頻生成。值得注意的是，它可以生成符合指定軌跡的高質(zhì)量視頻，最高可達(dá)204幀，分辨率為720p。這一能力突顯了Tora在處理多樣化運(yùn)動(dòng)模式時(shí)的多功能性和魯棒性，同時(shí)保持高視覺保真度。本文希望本文的工作為未來的運(yùn)動(dòng)引導(dǎo)擴(kuò)散Transformer方法研究提供一個(gè)強(qiáng)有力的基線。

本文轉(zhuǎn)自 AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/RZe868TGiKamPChVEf7nDw??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

52個(gè)AIGC視頻生成算法模型介紹

pangguiyu ? 6113瀏覽 ? 0回復(fù)
阿里巴巴AI研究團(tuán)隊(duì)打破視頻生成技術(shù)壁壘，EasyAnimate實(shí)現(xiàn)高質(zhì)量長(zhǎng)視頻生成

Syrupup ? 3710瀏覽 ? 0回復(fù)
北大快手攻克復(fù)雜視頻生成難題！新框架輕松組合各種細(xì)節(jié)，代碼將開源

Crystalcxt ? 2657瀏覽 ? 0回復(fù)
長(zhǎng)視頻生成速度提升100倍！新加坡國(guó)立提出Video-Infinity：分布式長(zhǎng)視頻生成

angel ? 2765瀏覽 ? 0回復(fù)
阿里Tora: 首個(gè)軌跡引導(dǎo)的DiT創(chuàng)新實(shí)現(xiàn)精確運(yùn)動(dòng)控制視頻生成

angel ? 2946瀏覽 ? 0回復(fù)
阿里「軌跡可控版Sora」，告別「抽卡」，讓視頻生成更符合物理規(guī)律

輕薄滴假象 ? 2587瀏覽 ? 0回復(fù)
賈佳亞團(tuán)隊(duì)重磅開源ControlNeXt：超強(qiáng)圖像視頻生成方法

angel ? 3068瀏覽 ? 0回復(fù)
視頻生成要有自己的系統(tǒng)！尤洋團(tuán)隊(duì)歷時(shí)半年開源VideoSys

輕薄滴假象 ? 2109瀏覽 ? 0回復(fù)
長(zhǎng)視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長(zhǎng)視頻生成框架

angel ? 8028瀏覽 ? 0回復(fù)
精準(zhǔn)可控新視角視頻生成+場(chǎng)景級(jí)3D生成！北大&港中文&騰訊等開源ViewCrafter

angel ? 2449瀏覽 ? 0回復(fù)
重磅??！OpenAI 發(fā)布 Sora：最受期待的 AI 視頻生成工具

Halo咯咯 ? 1793瀏覽 ? 0回復(fù)
騰訊的混源視頻模型HunyuanVideo：大視頻生成模型訓(xùn)練的系統(tǒng)框架

Halo咯咯 ? 2534瀏覽 ? 0回復(fù)
視頻編輯最新SOTA！港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp

angel ? 1770瀏覽 ? 0回復(fù)
港大&字節(jié)發(fā)布領(lǐng)先商用級(jí)圖像視頻生成模型Goku有點(diǎn)東西

angel ? 2100瀏覽 ? 0回復(fù)
LLM合集：視頻生成新王炸！Step-Video-T2V，全方位碾壓開源與商業(yè)模型

AIPaperDaily ? 1898瀏覽 ? 0回復(fù)
阿里發(fā)布通義萬相2.1 :最佳視頻生成模型

Halo咯咯 ? 2469瀏覽 ? 0回復(fù)
Wan2.1背后的技術(shù)：阿里發(fā)布全能框架VACE，一統(tǒng)視頻生成與編輯，效果驚艷！

angel ? 3329瀏覽 ? 0回復(fù)
AI鏡頭控制黑科技喜提多項(xiàng)SOTA！浙大&上交等發(fā)布統(tǒng)一多模態(tài)視頻生成框架OmniCam

angel ? 1042瀏覽 ? 0回復(fù)
ControlNet作者：視頻生成論文Frameback，超低顯存生成高質(zhì)量視頻，ComfyUI必備組件！

石映飛云 ? 477瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布！中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva！ 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇： UIUC提出InstructG2I：從多模態(tài)屬性圖合成圖像?，結(jié)合文本和圖信息生成內(nèi)容更豐富有趣！

下一篇： “左腳踩右腳”提升文生圖模型綜合能力！清北牛津普林斯頓聯(lián)合發(fā)布IterComp

社區(qū)精華內(nèi)容

目錄

<sub id="syppo"></sub>

^{<blockquote id="syppo"></blockquote>}

<blockquote id="syppo"></blockquote>

<sub id="syppo"></sub>

<bdo id="syppo"></bdo>

<cite id="syppo"></cite>