字節(jié)憋大招,中國版Sora該有的樣子! 原創(chuàng)
編輯 | 言征
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
字節(jié)終于又跳動了一把!昨天,字節(jié)豆包大模型冷不防就公開了一個新品大招!
9月24日,深圳。字節(jié)對于大模型領(lǐng)域的雄心壯志再度升級,不等OpenAI的Sora發(fā)布,視頻生成領(lǐng)域,字節(jié)要當(dāng)No.1。
字節(jié)就是這樣,總在看似尋常的更新會議上,放出驚艷的大招!
劃重點:不負大家對于字節(jié)的期待,全新的豆包視頻生成模型實在威力驚人,活動現(xiàn)場非?;鸨?!
圖片
巡展開始,火山引擎總裁譚待宣布了豆包大模型家族的新成員——全新發(fā)布豆包·視頻生成模型、以及豆包·音樂模型、豆包·同聲傳譯模型、豆包通用模型pro 和文生圖模型、語音合成模型等垂類模型大幅升級。這也宣告了字節(jié)在大模型領(lǐng)域,正式角逐AI視頻生成賽道。
可以這樣形容,即便是Sora、可靈,都要讓出王座!
一、字節(jié)版Sora,重新定義中國視頻大模型
此次全新發(fā)布的豆包視頻生成模型有兩款:PixelDance、Seaweed?;顒蝇F(xiàn)場展示的視頻生成效果令人驚嘆。無論是語義理解能力,多個主體運動的復(fù)雜交互畫面,還是多鏡頭切換的內(nèi)容一致性,豆包視頻生成大模型均達到業(yè)界先進水平?;鹕揭婵偛米T待表示,“視頻生成有很多難關(guān)亟待突破。豆包兩款模型會持續(xù)演進,在解決關(guān)鍵問題上探索更多可能性,加速拓展AI視頻的創(chuàng)作空間和應(yīng)用落地。”
此前視頻生成模型雖然逼真,但看多了就會發(fā)現(xiàn)不少雞肋之處:只能完成簡單指令、多主體交互容易變形、運鏡延伸時一致性差等等。
這次字節(jié)的豆包視頻生成模型一次打包全部搞定了這些難題,該模型不僅能夠深度理解并響應(yīng)復(fù)雜指令,驅(qū)動不同人物角色完成一系列精細的動作互動,更在細節(jié)處理上達到了極致,從人物樣貌、服裝的微妙變化到頭飾的精準(zhǔn)呈現(xiàn),均能在不同運鏡角度下保持高度一致,仿佛實拍般自然流暢。
除了手上的表有一些些閃動,人物比例、動作、肢體、光影等等,幾乎毫無瑕疵。(來源:數(shù)字生命卡茲克)
有創(chuàng)作者在搶鮮體驗豆包視頻生成模型時發(fā)現(xiàn),其生成的視頻不僅能夠遵循復(fù)雜指令,讓不同人物完成多個動作指令的互動,人物樣貌、服裝細節(jié)甚至頭飾在不同運鏡下也保持一致,接近實拍效果。
Prompt:拿著鐮刀的死神朝女人走近。特寫女人的臉,她驚恐地尖叫。(來源:數(shù)字生命卡茲克)
巡展上火山引擎介紹,豆包視頻生成模型基于 DiT 架構(gòu),通過高效的DiT融合計算單元,讓視頻在大動態(tài)與運鏡中自由切換,擁有變焦、環(huán)繞、平搖、縮放、目標(biāo)跟隨等多鏡頭語言能力。全新設(shè)計的擴散模型訓(xùn)練方法更是攻克了多鏡頭切換的一致性難題,在鏡頭切換時可同時保持主體、風(fēng)格、氛圍的一致性,這也是豆包視頻生成模型獨樹一幟的技術(shù)創(chuàng)新。
經(jīng)過剪映、即夢AI等業(yè)務(wù)場景打磨和持續(xù)迭代,豆包視頻生成模型具備專業(yè)級光影布局和色彩調(diào)和,畫面視覺極具美感和真實感。深度優(yōu)化的Transformer結(jié)構(gòu),則大幅提升了豆包視頻生成的泛化能力,支持3D動畫、2D動畫、國畫、黑白、厚涂等多種風(fēng)格,適配電影、電視、電腦、手機等各種設(shè)備的比例,不僅適用于電商營銷、動畫教育、城市文旅、微劇本等企業(yè)場景,也能為專業(yè)創(chuàng)作者和藝術(shù)家們提供創(chuàng)作輔助。
圖片
Prompt:小貓和小熊貓開心地跳著,然后擁抱在一起。(來源:機器之心)小貓晃動著爪子,和小熊貓玩親親,細節(jié)層次豐富,光影隨著主體運動而變化,大幅提升畫面視覺審美。
目前,新款豆包視頻生成模型正在即夢AI內(nèi)測版小范圍測試,未來將逐步開放給所有用戶。
二、背后有哪些黑科技?
大家可能好奇,首次突破多主體互動難關(guān),字節(jié)如何做到的?
首先,是豆包大模型能力的提升?!岸拱曨l生成”大模型憑借其卓越的語義理解能力、對復(fù)雜交互畫面的精準(zhǔn)捕捉以及多鏡頭切換下的內(nèi)容一致性,成功躋身業(yè)界先進水平。
據(jù)悉,“豆包視頻生成”模型依托字節(jié)跳動自主研發(fā)的DiT(Dynamic Integration Transformer)架構(gòu),通過高效的DiT融合計算單元,實現(xiàn)了視頻在大動態(tài)場景與多樣運鏡之間的無縫切換。這一技術(shù)突破賦予了視頻變焦、環(huán)繞、平搖、縮放、目標(biāo)跟隨等多鏡頭語言能力,讓視頻創(chuàng)作更加自由靈動,滿足了創(chuàng)作者對視覺表達的無限想象。
其次,為了進一步提升視頻創(chuàng)作的專業(yè)性和觀賞性,“豆包視頻生成”團隊還創(chuàng)新性地采用了全新設(shè)計的擴散模型訓(xùn)練方法。
prompt:睡美人躺在床上陷入沉睡,窗外的小鳥嘰嘰喳喳也吵不醒她,這時一位王子俯下身吻了睡美人,試圖喚醒她。(來源:機器之心) 在這個 prompt 中,涉及多個鏡頭的切換,但主體、風(fēng)格、氛圍和邏輯仍能保持一致性。
這一方法有效攻克了多鏡頭切換過程中保持主體、風(fēng)格、氛圍一致性的技術(shù)難題,確保在鏡頭切換的瞬間,視頻的整體氛圍與細節(jié)表現(xiàn)依然和諧統(tǒng)一,為觀眾帶來更加沉浸式的觀看體驗。
三、寫在最后
自此,AI視頻賽道,字節(jié)可謂一鳴驚人!2025前,我們看到了一個AI武裝版的字節(jié)正在醞釀之中。期待王者歸來!
最后不得不說一句,當(dāng)你認為一切已黯淡成型時,宇宙條正悄悄為你準(zhǔn)備新的開始。這正是,大模型戰(zhàn)場的魅力。
??本文轉(zhuǎn)載自???51CTO技術(shù)棧??,作者:言征
