自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Sora終于來了，但卷王可靈已經(jīng)「拍」上了AI電影

2024-12-12 08:35:58

今年年初 Sora 一把火，徹底點燃了 AI 視頻生成這個賽道。6 月 6 日，快手率先推出自研的視頻生成大模型「可靈AI」，成為全球首個用戶可用的真實影像級視頻生成大模型。

6個月迭代10余次，快手可靈一路狂飆。

這次，輪到名導(dǎo)們下場整活了。

短片一開場就相當(dāng)震撼：鐘馗手持一把斬鬼劍，穿行在一片烏漆麻黑、虬枝盤曲的密林中。

伴隨著一陣節(jié)奏急促的鑼鼓聲，野兔精、蛤蟆精、長滿骷髏的樹妖接連現(xiàn)身，緊張恐怖的氣氛拉滿。

但一聲長喝下，鏡頭一轉(zhuǎn)，手機屏幕彈出「勿擾模式」四個大字，底下滾動著被攔截的各種信息：

自動記賬 APP、多人視頻會議、4 個未知號碼來電、183 條微信群消息、風(fēng)險網(wǎng)站的跳轉(zhuǎn)鏈接，以及大 boss 正在打來的電話……

最后畫面緩緩打出「休假期間，百鬼勿擾」的字幕。本以為是個中式志怪片，沒想到原來是個職場吐槽片。

更讓人驚喜的是，這部由俞白眉導(dǎo)演打造的 5 分鐘短片，竟完全出自可靈 AI 之手。

早在三個月前，快手可靈 AI 就聯(lián)合李少紅、賈樟柯、葉錦添、薛曉路、俞白眉、董潤年、張吃魚、王子川、王卯卯等 9 位知名導(dǎo)演共同發(fā)起了「可靈 AI 導(dǎo)演共創(chuàng)計劃」，制作出品 9 部 AIGC 電影短片。

12 月 6 日，導(dǎo)演們來交作業(yè)了。

自嘲用普通話不會寫劇本的賈樟柯，在自己首部 AIGC 電影短片《麥收》中，借助可靈 AI 的「對口型」功能，讓機器人說上了山西汾陽話。

《臥虎藏龍》藝術(shù)指導(dǎo)葉錦添則采用可靈 AI 的「首尾幀」功能，描繪了一個外星快遞員在太空中的冒險旅程。通過 AI 技術(shù)，每一幀畫面都逼真到讓人仿佛置身于一個真實的太空世界。

導(dǎo)演王子川在其作品《雛菊》中，從計算機、機器人等現(xiàn)代科技產(chǎn)物與人的關(guān)系展開，大量使用可靈 AI 的「圖生視頻」功能，通過重復(fù)蒙太奇、高速剪輯以及特效鏡頭，為觀眾帶來強烈的視聽沖擊。

在助力影視創(chuàng)作方面，可靈 AI 最有發(fā)言權(quán)?？焓挚萍几笨偛?、大模型團隊負責(zé)人張迪表示，「2024 年視覺生成領(lǐng)域 AI 大模型發(fā)展迅速，可靈 AI 自 6 月發(fā)布以來，已讓眾多用戶感受到其在視頻創(chuàng)作上的能力。」

此次這 9 部具有實驗性質(zhì)的電影短片，全部使用可靈 AI 進行視頻生成。電影導(dǎo)演完全依托視頻生成大模型，深度參與電影級內(nèi)容創(chuàng)作，這在中國尚屬首次。

作為中國首個 AIGC 導(dǎo)演共創(chuàng)計劃的成果，這 9 部 AIGC 電影短片已在快手平臺上線，并被中國電影博物館永久收藏、放映展示。這既是對中國電影歷史的一次致敬，也是對未來電影創(chuàng)作的一次大膽探索。

6 個月迭代十余次，可靈 AI 是怎么煉成的？

今年年初 Sora 一把火，徹底點燃了 AI 視頻生成這個賽道。

6 月 6 日，快手率先推出自研的視頻生成大模型「可靈AI」，成為全球首個用戶可用的真實影像級視頻生成大模型。

此后，可靈 AI 又接連上線了圖生視頻、視頻續(xù)寫、運動筆刷等功能，不僅在畫面質(zhì)量、指令遵從和運動幅度等方面有顯著提升，還將生成視頻時長延伸約 3 分鐘，創(chuàng)作者單次生成的文生視頻時長也增加至 10 秒。

盡管取得不錯的戰(zhàn)績，但可靈 AI 并沒有躺在功勞簿上吃老本，而是繼續(xù)馬不停蹄地推陳出新。

9 月 19 日，可靈 1.5 模型重磅登場，直接讓畫質(zhì)質(zhì)量、動態(tài)質(zhì)量、美學(xué)表現(xiàn)、運動合理性以及語義理解提升了一個 level。

全球網(wǎng)友也開啟瘋狂整活模式，社交平臺上涌現(xiàn)出一堆腦洞大開的鬼畜視頻，比如蒙娜麗莎戴墨鏡、熊貓彈吉他、豬八戒吃面條等。

在商業(yè)化方面，可靈 AI 同樣走在行業(yè)前列。

可靈 AI 先后上線 Web 端、獨立 App，打造多端跨平臺產(chǎn)品矩陣，并全面開放內(nèi)測，陸續(xù)向國內(nèi)外的用戶推出會員付費體系。此外，可靈 AI 還面向 B 端開放了 API 服務(wù)，涵蓋視頻生成、圖像生成和虛擬試穿等多個模塊。

為了給創(chuàng)作者提供商業(yè)變現(xiàn)新渠道，可靈 AI 于 10 月 18 日啟動「未來合伙人計劃」，率先推出一站式 AIGC 生態(tài)合作平臺。

這半年來，可靈 AI 一路「狂飆」，十余次迭代升級，也讓它有了穩(wěn)站行業(yè)第一梯隊的底氣。截至 12 月 10 日，可靈 AI 已擁有超 600 萬用戶，累計生成超 6500 萬個視頻和超 1.75 億張圖片。

重塑影視行業(yè)，可靈 AI 又卷起來

近期，可靈 AI 趁熱打鐵，陸續(xù)推出 AI 人臉定制模型和 AI 試衣功能，為影視創(chuàng)作者提供了更強大的工具支持。

AI 定制模型，攻克「人物一致性」難題

在視頻生成過程中，目前的視頻大模型仍具有較強的隨機性。它們在處理相同的文字描述時，往往會產(chǎn)生不同的視頻主體，這種隨機性難以維持故事的連貫性和人物形象的一致性。

對此，可靈 AI 推出了人臉定制模型。創(chuàng)作者只需上傳 10 段 5 秒的多角度高清視頻，就能自助訓(xùn)練一個人臉模型。如果想要效果更佳，最多可上傳 99 段視頻。

完成訓(xùn)練后，就可以在可靈 1.5 模型的文生視頻中，生成人臉一致的視頻結(jié)果，滿足創(chuàng)作者生成多個包含同一人物鏡頭的訴求，而且單個鏡頭中的人臉，也會更穩(wěn)定更清晰。

我們上手體驗了一把，訓(xùn)練出 Sam Altman 的人臉模型，然后將其放置在各種場景中。

比如，Sam Altman 在餐廳吃意大利面：

Sam Altman 在餐廳吃水餃：

以及 Sam Altman 在車水馬龍的大街上騎摩托：

還有科幻風(fēng)格的，讓 Altman 化身鋼鐵俠行走在賽博朋克風(fēng)格的大街上：

由此可見，可靈 AI 的人臉定制模型在解決人物 IP 穩(wěn)定性這一行業(yè)難題上邁出了新的一步，這也標志著 AI 視頻生成領(lǐng)域?qū)崿F(xiàn)了又一個重要技術(shù)突破。

AI 試衣，影視造型新探索

電影《穿普拉達的女王》中，有一幕經(jīng)典的蒙太奇變裝。安妮?海瑟薇在不到一分鐘內(nèi)，換了六身絕美穿搭，每套都堪稱驚艷。

那么 AI 能否實現(xiàn)影視制作中的服裝搭配、造型設(shè)計呢？

可靈 AI 新近上線的「AI 試衣」功能就能搞定。它在可圖文生圖模型基礎(chǔ)上，引入衣服 SKU 保持網(wǎng)絡(luò)、人物 Pose 姿勢、背景修復(fù)等技術(shù)，實現(xiàn)任意衣服、任意身材、任意動作的試穿效果生成。

用法也很簡單。只需上傳一張模特照和一套服裝圖，即可一秒變裝，這無疑大大提高了影視制作中服裝搭配和效果展示的效率。

比如，讓安妮?海瑟薇換上一件旗袍，換裝后的衣服不僅自然貼合身材曲線，還能根據(jù)風(fēng)格搭配手包。

再比如，原本身著露肩襯衫外加牛仔短褲的霉霉，經(jīng)過可靈 AI 一番改造，立馬從休閑風(fēng)變成淑女風(fēng)，換裝后的衣褶、打的結(jié)都生成得很自然。

給鳳姐換上一件黑色皮夾克，在保持復(fù)雜頭飾不變的情況下，它完美保留了毛領(lǐng)子、拉鏈等細節(jié)。

最絕的還是大魔王凱特?布蘭切特的變裝。前一秒還是酷颯的黑色緊身 T 恤，下一秒就換上一身白色玫瑰連衣裙。

它細致展示了裙子絲綢材質(zhì)，就連玫瑰花的顏色、位置也都一一還原。

世界名畫或雕像也能瞬間換裝。讓身著黑色長袍的蒙娜麗莎「套」上東北大花襖：

給兵馬俑穿上圓領(lǐng) polo 衫和灰色長褲：

此外，它還可以通過 AI 擴圖和可靈 AI 的圖生視頻大模型，實現(xiàn)全流程素材生成。

比如皇后換上的灰色連帽衛(wèi)衣，經(jīng)過 AI 擴圖變成一件寬松長袍。

再用鏡頭控制功能將其轉(zhuǎn)成穿搭視頻。

或者輸入 Prompt「模特左右轉(zhuǎn)身向觀眾展示身上的服裝」，讓換上皮草的黃仁勛動起來。

從文生視頻、圖生視頻，到首尾幀功能，再到人臉模型、AI 換裝…… 這些創(chuàng)新技術(shù)的連續(xù)推出，無一不彰顯了快手對于未來影視行業(yè)發(fā)展趨勢的深刻洞察。

開放共享，引領(lǐng) AIGC 革新

作為 AI 視頻生成賽道的佼佼者，快手可靈大模型團隊在不斷拓展技術(shù)邊界的同時，還公開了一系列技術(shù)進展，積極和行業(yè)分享技術(shù)研發(fā)成果。

在 AI 視頻生成領(lǐng)域，視頻生成基礎(chǔ)模型和數(shù)據(jù)是構(gòu)建高質(zhì)量視頻內(nèi)容生成系統(tǒng)的基石。為了啃下這塊硬骨頭，可靈團隊進行了系統(tǒng)性研究，并率先提出一種給視頻生成模型（Video DiT）量身定制的 Scaling Law 建模方法。

這種方法能夠在較低的計算成本下，提前預(yù)測大規(guī)模模型的性能表現(xiàn)，幫助研究者優(yōu)化技術(shù)選擇，調(diào)整模型參數(shù)，從而大幅降低實驗試錯成本。

Video DiT 架構(gòu)下的精準 Scaling Law 建模

論文題目：《Towards Precise Scaling Laws for Video Diffusion Transformers》
論文地址：https://arxiv.org/pdf/2411.17470

另外，可靈大模型團隊還公開了其視頻訓(xùn)練數(shù)據(jù)的部分核心預(yù)處理流程，并基于此流程推出了高質(zhì)量視頻生成數(shù)據(jù)集 Koala-36M。

該數(shù)據(jù)集是目前全球領(lǐng)先的大規(guī)模高質(zhì)量視頻 - 文本數(shù)據(jù)集之一，包含 3600 萬個視頻片段，平均時長為 13.75 秒，分辨率達到 720p，每個視頻片段配有平均 202 字的詳細描述。

數(shù)據(jù)處理流程

論文題目：《Koala-36M: A Large-scale Video Dataset Improving Consistency Between Fine-Grained Conditions And Video Content》
論文地址：https://arxiv.org/abs/2410.08260
代碼地址：https://github.com/KwaiVGI/Koala-36M
項目主頁：https://koala36m.github.io/
數(shù)據(jù)集鏈接：https://huggingface.co/datasets/Koala-36M/Koala-36M-v1

在與其他數(shù)據(jù)集的比較中，基于 Koala-36M 數(shù)據(jù)集訓(xùn)練的模型展現(xiàn)出了卓越的性能，無論是在視頻質(zhì)量還是文本與視頻內(nèi)容的一致性方面均達到了最優(yōu)。

在視頻生成的可控性和交互性方面，可靈團隊也取得一系列的進展。

比如，發(fā)布了 3D 軌跡控制的視頻生成項目 3DTrajMaster：

3DTrajMaster 能夠精準控制視頻中不同主體在 3D 空間中的運動

項目主頁：http://fuxiao0719.github.io/projects/3dtrajmaster

多機位視頻生成項目 SynCamMaster：

SynCamMaster 支持多種相機視角變化，例如改變相機方位角、俯仰角、距離遠近等

項目主頁：https://jianhongbai.github.io/SynCamMaster/

以及精準視頻風(fēng)格化項目 StyleMaster：

StyleMaster 支持圖像風(fēng)格遷移、視頻風(fēng)格遷移、風(fēng)格化視頻生成等多種功能

項目主頁：https://zixuan-ye.github.io/stylemaster

這些項目不僅能夠控制視頻中主體的三維運動，還能根據(jù)用戶的文本描述生成多視角視頻，并支持任意藝術(shù)風(fēng)格的視頻風(fēng)格轉(zhuǎn)換。

此外，團隊還開發(fā)了具有泛化能力的游戲視頻生成器 GameFactory，能夠使用戶自定義角色動作，享受個性化的虛擬世界體驗。

通過持續(xù)開放核心數(shù)據(jù)和技術(shù)組件，以及分享論文技術(shù)方案，可靈團隊不僅為影視創(chuàng)作領(lǐng)域注入了新的動力，也為未來的創(chuàng)意表達和內(nèi)容創(chuàng)作開辟了更多可能。

開啟影視創(chuàng)作新時代

回顧百年影史，技術(shù)的革新始終是電影產(chǎn)業(yè)發(fā)展的關(guān)鍵驅(qū)動力。

從無聲到有聲，從黑白到彩色，從膠片到數(shù)字…… 每一次技術(shù)的飛躍，都促進電影藝術(shù)向更高的階段邁進。

如今，隨著 AI 技術(shù)的不斷迭代和突破，以可靈 AI 為代表的視覺大模型及產(chǎn)品逐漸成為視覺行業(yè)的新基建和新工具，它們正以其獨特的優(yōu)勢，重塑著影視行業(yè)的未來。

在傳統(tǒng)電影拍攝中，導(dǎo)演天馬行空的想法往往會受到物理條件和現(xiàn)實世界的約束，而 AI 則打破了這些界限，創(chuàng)造出任何導(dǎo)演想象中的場景，而這種創(chuàng)作自由度為電影敘事提供了無限可能。

王子川導(dǎo)演在與可靈 AI 的合作中就深刻體會到文生視頻和圖生視頻技術(shù)對電影敘事方式的深遠影響。「可靈 AI 可以把創(chuàng)作者的想象快速變成一個可視化的內(nèi)容呈現(xiàn)出來，盡可能地模擬出你想要的每一個動態(tài)和整體的敘事節(jié)奏，包括所有的沖突、畫面內(nèi)部的調(diào)度等」。

在他看來，技術(shù)不僅僅是工具，也是敘事藝術(shù)的新維度，為電影敘事提供了一種全新的語言。

另一方面，AI 極大地優(yōu)化了電影產(chǎn)業(yè)成本效率。

曾經(jīng)，拍電影是一件奢侈的事情。就以影史上燒錢巨作《阿凡達：水之道》為例，其制作成本超過 4.5 億美元。按 193 分鐘的片長來算，每分鐘制作費就高達 233 萬美元。如此一擲千金，即使是財大氣粗的好萊塢也一度吃不消。

相比之下，AI 生成電影能夠在虛擬環(huán)境中完成大部分工作，大幅降低了成本。同時，AI 的高效率使得電影制作周期大大縮短，這對于追求快速回報的電影產(chǎn)業(yè)來說，無疑是一個巨大的優(yōu)勢。

當(dāng)然，目前的 AI 視頻生成技術(shù)仍處于發(fā)展階段，在模擬人類情感的微妙變化、創(chuàng)造深度敘事結(jié)構(gòu)以及捕捉現(xiàn)實世界中不可預(yù)測的偶然性方面仍存在不足。

不過正如俞白眉導(dǎo)演所說，盡管今天的 AI 作品并不是偉大的作品，但對于走過來的人來說彌足珍貴。相信幾年之后，AI 將制作出非常有水準的電影大作。

責(zé)任編輯：姜華來源：機器之心

Sora AI 視頻生成人工智能

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="mzxf0"></cite>

<wbr id="mzxf0"><li id="mzxf0"></li></wbr>