自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求

發(fā)布于 2024-6-13 10:00
瀏覽
0收藏

短短一年后,AI 生成的「吃面條」已經(jīng)如此自然流暢?這讓全球網(wǎng)友都感受到了億點(diǎn)點(diǎn)震撼。


快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求-AI.x社區(qū)

圖源:https://x.com/CharaspowerAI/status/1799494388462063632


右側(cè)的這些生成視頻,都來自快手剛剛推出的文生視頻大模型「可靈」(Kling)。


不是預(yù)發(fā)布、不是純 Demo 合集,而是直接開放測(cè)試的產(chǎn)品級(jí)應(yīng)用,人人都能申請(qǐng)。而且,可靈支持生成最長 2 分鐘、30fps 的 1080P 視頻,主打從頭腦風(fēng)暴到可發(fā)布作品的「一鍵轉(zhuǎn)化」。(官網(wǎng)地址:https://kling.kuaishou.com/)


最早一批用上的用戶已經(jīng)「真香」:


快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求-AI.x社區(qū)

圖源:https://x.com/op7418/status/1799047146089619589


快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求-AI.x社區(qū)

圖源:https://weibo.com/7714861068/Oig1Qm8Or?refer_flag=1001030103_


500 人上限的交流群,很快就滿員了,滿屏都是 tql:


快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求-AI.x社區(qū)


還沒用上的外國友人只能干著急,在社交媒體發(fā)「求求了」:


快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求-AI.x社區(qū)


不夸張地說,可靈現(xiàn)在是「一號(hào)難求」:


快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求-AI.x社區(qū)


快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求-AI.x社區(qū)


消息傳到硅谷創(chuàng)投圈,更是引發(fā)了一場(chǎng)熱議。


Stability AI 前 CEO Emad Mostaque 表示:「中國的 AI 技術(shù)有自己的優(yōu)勢(shì)?!?/p>


快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求-AI.x社區(qū)

圖源:https://x.com/EMostaque/status/1799133463003684918


YC CEO 也在 X 平臺(tái)轉(zhuǎn)發(fā)了可靈生成的 Demo:


快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求-AI.x社區(qū)


就圖中這個(gè)「吃漢堡」的案例而言,在相同的提示詞下,可靈的生成效果確實(shí)比 Sora 更生動(dòng)、真實(shí):


Prompt:Une personne tapant son meilleur croc dans son hamburger


快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求-AI.x社區(qū)

視頻地址:https://x.com/AngryTomtweets/status/1799787209651859910


對(duì)于關(guān)注 AI 的人來說,這幾天一定陸陸續(xù)續(xù)看過很多可靈生成的作品了。機(jī)器之心也是第一時(shí)間就點(diǎn)進(jìn)了申請(qǐng)通道,并拿到了試用資格。


接下來,我們不妨一邊試用、一邊分析可靈爆火的原因。


國內(nèi)首個(gè)文生視頻產(chǎn)品級(jí)應(yīng)用


或許你還記得這個(gè)曾經(jīng)非?;鸨摹笟馇蛉恕挂曨l。三位創(chuàng)作者花費(fèi)近兩周時(shí)間,使用 Sora 制作了這條 1 分 21 秒的視頻短片,讓人感到十分驚艷。不過,負(fù)責(zé)后期制作的 Patrick Cederberg 坦白了過程中的很多問題,例如氣球的顏色在每次生成中都會(huì)改變、鏡頭中會(huì)出現(xiàn)一些瑕疵等等。


快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求-AI.x社區(qū)

Sora 生成結(jié)果。完整視頻地址:https://youtu.be/9oryIMNVtto?si=F6oDzvrhzfVcQGeh


對(duì)于此前的視頻生成模型來說,「一氣呵成」生成 1 分鐘以上的內(nèi)容確實(shí)有難度,特別是要求畫面中的各種元素保持前后一致。


獵豹移動(dòng)董事長兼 CEO、獵戶星空董事長傅盛公開了自己用可靈制作的「氣球人」視頻,并表示自己僅用了「幾十分鐘」,就做出了連續(xù)性、真實(shí)度、清晰度都很優(yōu)秀的短片。


快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求-AI.x社區(qū)


在內(nèi)測(cè)的過程中,我們還發(fā)現(xiàn)了一個(gè)專業(yè)創(chuàng)作者社區(qū)自發(fā)建立的教程與 Demo 文檔,包含了上百個(gè)可靈生成的作品,還提供了測(cè)試維度的指導(dǎo)。


感興趣的讀者請(qǐng)戳:https://waytoagi.feishu.cn/wiki/GevKwyEt1i4SUVk0q2JcqQFtnRd


下面這個(gè) 2 分鐘的公益短片《一個(gè)很遠(yuǎn)的地方》也是完全由可靈生成的,你能看出來嗎?


快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求-AI.x社區(qū)


在創(chuàng)作者 @AIGC 十三的作品《瘋狂動(dòng)物城賽車大賽》中,這 20 秒包含了疾速行駛的賽車(大幅度運(yùn)動(dòng))、動(dòng)物駕駛車輛(考驗(yàn)想象力的概念組合)等生成難點(diǎn),但從結(jié)果來看,可靈很好地解決了這些問題:

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求-AI.x社區(qū)


還有一個(gè)很有趣的案例是 @八級(jí)技工創(chuàng)作的《假期打開方式》,這段 56 秒的短頻共花費(fèi)了 3 小時(shí)制作,包含 23 個(gè)鏡頭。然后在可靈的生成結(jié)果之上添加配音,詼諧的感覺馬上就有了:

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求-AI.x社區(qū)


看完這些,我們應(yīng)該已經(jīng)意識(shí)到,可靈所代表的視頻生成技術(shù)的影響力,遠(yuǎn)遠(yuǎn)超出了單純的創(chuàng)作。在不同的研究領(lǐng)域和行業(yè)賽道,這一技術(shù)的落地正在加速,為從自動(dòng)內(nèi)容生成到復(fù)雜決策過程的各種任務(wù)提供了變革潛力。


哪些行業(yè)最先被改變?


傳統(tǒng)的游戲開發(fā)通常受到預(yù)先渲染的環(huán)境和腳本事件的限制。一旦將視頻生成模型集成到游戲領(lǐng)域,游戲的開發(fā)、玩耍和體驗(yàn)方式都將得到創(chuàng)新,為講故事、互動(dòng)和沉浸式體驗(yàn)帶來新的可能性。對(duì)于游戲開發(fā)者來說,最直觀的一項(xiàng)玩法是,根據(jù)用戶敘述生成定制的視覺效果甚至角色動(dòng)作。


在下方的 demo 中,我們可以看到,用戶能夠借助可靈創(chuàng)造出無與倫比的身臨其境體驗(yàn):


快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求-AI.x社區(qū)

圖源:https://x.com/dustinhollywood/status/1800056286215553444


快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求-AI.x社區(qū)


快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求-AI.x社區(qū)


快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求-AI.x社區(qū)


快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求-AI.x社區(qū)

圖源:https://x.com/dustinhollywood/status/1800056886693347624


另外一個(gè)將被顛覆的行業(yè)就是影視制作。傳統(tǒng)的電影制作是一個(gè)艱巨而昂貴的過程,往往需要數(shù)年的努力、大量的設(shè)備和資金投入。視頻生成技術(shù)的出現(xiàn)預(yù)示著電影制作進(jìn)入了一個(gè)新的「民主化時(shí)代」,從簡(jiǎn)單的文本輸入中自主生成個(gè)人影視作品的夢(mèng)想正在成為現(xiàn)實(shí)。


現(xiàn)在,我們用可靈生成的是 5 秒的單鏡頭片段,伴隨著技術(shù)的不斷演進(jìn),用戶單次能夠生成的視頻時(shí)長也會(huì)增加。比如說,我們未來或許能夠一次性生成更長的視頻內(nèi)容,保持故事場(chǎng)景的連貫性和觀賞性。其中的運(yùn)鏡手法也許會(huì)更高級(jí),比如連貫的長鏡頭。


快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求-AI.x社區(qū)

圖源:https://x.com/dustinhollywood/status/1800007000849629674


下面這段剪影作品再次印證了一點(diǎn):AI 對(duì)藝術(shù)的理解力與審美水準(zhǔn),絲毫不遜于人類。


Prompt:“A dancer’s silhouette transitions seamlessly through different dance styles, from hip-hop to ballet, in one continuous shot”


快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求-AI.x社區(qū)


快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求-AI.x社區(qū)

可靈生成作品。圖源:https://x.com/dustinhollywood/status/1799970059957555210


科幻電影的風(fēng)格完全拿捏:


快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求-AI.x社區(qū)


AI 同樣能為奢侈品大片的制作注入靈感:


快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求-AI.x社區(qū)


我們可以看一下可靈生成的這段「蜂蜜」廣告片,AI 在模擬傾倒蜂蜜特寫鏡頭中的表現(xiàn)絲毫不輸專業(yè)攝像團(tuán)隊(duì):

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求-AI.x社區(qū)


可靈背后有哪些技術(shù)?


我們無法從 OpenAI 簡(jiǎn)略的技術(shù)報(bào)告中獲得足夠的 Sora 研發(fā)細(xì)節(jié),但可靈大模型官網(wǎng)卻披露了更具參考意義的信息,主要包括從數(shù)據(jù)準(zhǔn)備、模型架構(gòu)、訓(xùn)練方案及優(yōu)化策略幾個(gè)方面。


數(shù)據(jù)準(zhǔn)備


依托快手在視頻技術(shù)領(lǐng)域的多年積累,可靈大模型團(tuán)隊(duì)已經(jīng)構(gòu)建了完備的標(biāo)簽體系,包括從視頻基礎(chǔ)質(zhì)量、美學(xué)、自然度等多個(gè)維度對(duì)視頻數(shù)據(jù)質(zhì)量進(jìn)行刻畫,并針對(duì)每一個(gè)維度設(shè)計(jì)多種定制化的標(biāo)簽特征,以此來精細(xì)化篩選訓(xùn)練數(shù)據(jù)或調(diào)整訓(xùn)練數(shù)據(jù)的分布。


為了滿足訓(xùn)練文生視頻模型過程中成對(duì)的視頻和文本描述需求,可靈大模型團(tuán)隊(duì)自研了視頻描述模型,可以生成精確、詳盡、結(jié)構(gòu)化的視頻描述,顯著提升視頻生成模型的文本指令響應(yīng)能力。


模型架構(gòu)


高質(zhì)量的標(biāo)注數(shù)據(jù)準(zhǔn)備完畢后,可靈大模型又是如何獲得模擬物理世界特性與概念組合的能力呢?


在整體架構(gòu)設(shè)計(jì)上,可靈采用了目前火熱的 Diffusion Transformer (DiT) 。傳統(tǒng)的擴(kuò)散模型主要利用包含下采樣和上采樣塊的卷積 U-Net 作為去噪網(wǎng)絡(luò)骨干。但一些研究表明,U-Net 架構(gòu)對(duì)擴(kuò)散模型的良好性能并非至關(guān)重要。通過采用更靈活的 Transformer 架構(gòu),擴(kuò)散模型可以使用更多的訓(xùn)練數(shù)據(jù)和更大的模型參數(shù)。DiT 就是這個(gè)研究思路下的代表作之一。


這幾個(gè)月來,業(yè)內(nèi)形成一個(gè)共識(shí),視頻生成模型的成功,歸根結(jié)底是 Scaling Law 的作用。這一共識(shí)正是基于 DiT 論文的發(fā)現(xiàn),使用 Transformer 能穩(wěn)定地?cái)U(kuò)大模型規(guī)模:隨著訓(xùn)練計(jì)算量的增加(訓(xùn)練模型的時(shí)間延長或模型增大,或兩者兼而有之),性能也會(huì)隨之提高。


這意味著,對(duì)于視頻生成模型,只要用更多的算力、更多的數(shù)據(jù)去 Scale up,生成質(zhì)量還會(huì)持續(xù)提升。


可靈之所以能夠?qū)⒂脩舻奈谋咎崾巨D(zhuǎn)化為具體的畫面,包括那些真實(shí)世界中不會(huì)出現(xiàn)的虛構(gòu)場(chǎng)景,就是基于對(duì)文本 - 視頻語義的深刻理解和 Diffusion Transformer 架構(gòu)的強(qiáng)大能力。在自研架構(gòu)和 Scaling Law 激發(fā)出的強(qiáng)大建模能力推動(dòng)下,可靈能夠很好地模擬真實(shí)世界的物理特性,生成符合物理規(guī)律的視頻。


與此同時(shí),基于團(tuán)隊(duì)自研的 3D VAE 網(wǎng)絡(luò),可靈大模型能夠生成 1080p 分辨率的電影級(jí)視頻,無論是浩瀚壯闊的宏大場(chǎng)景,還是細(xì)膩入微的特寫鏡頭,都能夠生動(dòng)呈現(xiàn)。


快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求-AI.x社區(qū)

自然場(chǎng)景下,光線的變化很流暢。測(cè)試者:@杉杉


當(dāng)然,對(duì)于視頻生成模型來說,另一個(gè)必須考慮的因素是:視頻是一種具有時(shí)間維度的視覺內(nèi)容,不連貫的內(nèi)容會(huì)讓用戶的觀看體驗(yàn)大打折扣。


為了保證畫面中運(yùn)動(dòng)的呈現(xiàn)更加合理,可靈大模型采用 3D 時(shí)空聯(lián)合注意力機(jī)制,更好地建模復(fù)雜時(shí)空運(yùn)動(dòng),即可生成較大幅度運(yùn)動(dòng)的視頻內(nèi)容,同時(shí)能夠符合運(yùn)動(dòng)規(guī)律。


快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求-AI.x社區(qū)


訓(xùn)練及優(yōu)化策略


如果你已經(jīng)親自測(cè)試過,就會(huì)發(fā)現(xiàn)可靈支持推理過程中同樣的內(nèi)容輸出多種視頻寬高比。這是因?yàn)榭伸`采用了可變分辨率的訓(xùn)練策略,目的是滿足更豐富場(chǎng)景中的視頻素材使用需求。


與此同時(shí),得益于高效的訓(xùn)練基礎(chǔ)設(shè)施、極致的推理優(yōu)化和可擴(kuò)展的基礎(chǔ)架構(gòu),可靈大模型能夠生成長達(dá) 2 分鐘的視頻,且?guī)蔬_(dá)到 30fps。


視頻生成,不再是一場(chǎng)「追趕 OpenAI」的游戲


2024 年被稱為視頻生成技術(shù)的爆發(fā)之年,但在可靈之前,我們始終沒見到 Sora 級(jí)的可用產(chǎn)品,而 Sora 何時(shí)開放也是未知數(shù)。


某種意義上說,可靈是第一個(gè)真正的「中國版 Sora」,并讓這項(xiàng)技術(shù)真正進(jìn)入了可用、好用、實(shí)用的階段。


正如傅盛所說:「這可能是今天在全世界范圍內(nèi),你能夠使用到的最好的文生視頻產(chǎn)品?!谷魏斡H自試用過可靈的人,都會(huì)明白這絕不是過譽(yù)。


傅盛的視頻還給到了另外一個(gè)觀點(diǎn):「反過來也說明,Sora 并不是一個(gè)技術(shù)性的突破,而是一個(gè)產(chǎn)品型的突破?!?/p>


還記得幾個(gè)月前,Sora 以長達(dá) 60 秒的連貫視頻、高清畫面質(zhì)感、連貫的鏡頭移動(dòng)、運(yùn)動(dòng)方式等優(yōu)點(diǎn),拉高了整個(gè)視頻生成賽道的技術(shù)水平,掀起了文生視頻賽道的競(jìng)爭(zhēng)浪潮。


我們本以為,視頻生成領(lǐng)域會(huì)像去年的文本大模型一樣,演化為國內(nèi)對(duì)海外的技術(shù)趕超。但可靈的發(fā)布,意味著國產(chǎn)文生視頻大模型技術(shù)的探索已經(jīng)達(dá)到了一個(gè)全新的高度,而且在產(chǎn)品落地層面做到了實(shí)質(zhì)領(lǐng)先。我們可能不需要再重新經(jīng)歷一次「追趕 OpenAI」的游戲了。


有人給出判斷:中國正在人工智能領(lǐng)域超越美國。


快手「可靈」爆火:海外AI圈巨震,中國版Sora一號(hào)難求-AI.x社區(qū)


可靈的誕生,或許意味著一個(gè)新時(shí)代開啟了。在生成式 AI 時(shí)代,生成和編輯視頻或許會(huì)像今天我們用手機(jī) P 圖一樣簡(jiǎn)單,想象力與現(xiàn)實(shí)之間的阻隔將被徹底打破。


本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心


原文鏈接: ??https://mp.weixin.qq.com/s/iSAvV3PX1WYwGg7rU60Ong??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦