自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

被誤解的「中文版Sora」背后,字節(jié)跳動有哪些技術(shù)?

人工智能 新聞
此前有消息稱,字節(jié)跳動在 Sora 發(fā)布之前就研發(fā)出了一款名為 Boximator 的視頻生成模型。

2024 開年,OpenAI 就在生成式 AI 領(lǐng)域扔下了重磅炸彈:Sora。

這幾年,視頻生成領(lǐng)域的技術(shù)迭代持續(xù)加速,很多科技公司也公布了相關(guān)技術(shù)進(jìn)展和落地成果。在此之前,Pika、Runway 都曾推出過類似產(chǎn)品,但 Sora 放出的 Demo,顯然以一己之力抬高了視頻生成領(lǐng)域的標(biāo)準(zhǔn)。

在今后的這場競爭中,哪家公司將率先打造出超越 Sora 的產(chǎn)品,仍是未知數(shù)。

國內(nèi)這邊,目光聚集于一眾科技大廠。

此前有消息稱,字節(jié)跳動在 Sora 發(fā)布之前就研發(fā)出了一款名為 Boximator 的視頻生成模型。

Boximator 提供了一種能夠精確控制視頻中物體的生成方法。用戶無需編寫復(fù)雜的文本提示,可以直接在參考圖像中通過在物體周圍畫方框來選擇目標(biāo),然后添加一些方框和線條來定義目標(biāo)的結(jié)束位置或跨幀的整個運動路徑,如下圖所示:

圖片

對此,字節(jié)跳動保持了低調(diào)的態(tài)度:相關(guān)人士回復(fù)媒體,Boximator 是視頻生成領(lǐng)域控制對象運動的技術(shù)方法研究項目。目前還無法作為完善的產(chǎn)品落地,距離國外領(lǐng)先的視頻生成模型在畫面質(zhì)量、保真率、視頻時長等方面還有很大差距。

在對應(yīng)的技術(shù)論文介紹(https://arxiv.org/abs/2402.01566)中,我們也能看到,Boximator 是以插件的形式運行,可與現(xiàn)有的視頻生成模型無縫集成,在保持視頻質(zhì)量的同時,增加運動控制功能。

視頻生成背后的技術(shù)涉及多個細(xì)分方向,與圖像 / 視頻理解、圖像生成、超分辨率等技術(shù)都有關(guān)系。深挖之后,我們發(fā)現(xiàn)在眾多分支領(lǐng)域,字節(jié)跳動已公開發(fā)表了一些研究成果。

這篇文章將介紹來自字節(jié)跳動智能創(chuàng)作團(tuán)隊的 9 項研究,涉及文生圖、文生視頻、圖生視頻、視頻理解等多項最新成果。我們不妨從這些研究中,追蹤探索視覺生成類模型的技術(shù)進(jìn)展。

關(guān)于視頻生成,字節(jié)有哪些成果?

在今年 1 月上旬,字節(jié)跳動就發(fā)布過一個視頻生成模型 MagicVideo-V2,一度引發(fā)社區(qū)熱議。

圖片


  • 論文標(biāo)題:MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
  • 論文鏈接:https://arxiv.org/abs/2401.04468
  • 項目地址:https://magicvideov2.github.io/

MagicVideo-V2 的創(chuàng)新在于將文本到圖像模型、視頻運動生成器、參考圖像嵌入模塊和幀插值模塊集成到端到端視頻生成 pipeline 中。得益于這一架構(gòu)設(shè)計,MagicVideo-V2 在「審美」上能夠保持著穩(wěn)定的高水平表現(xiàn),不僅生成美觀的高分辨率視頻,還兼具比較好的保真度和流暢度。

具體而言,研究者首先使用 T2I 模塊創(chuàng)建一個 1024×1024 的圖像,封裝所描述的場景。隨后,I2V 模塊對該靜態(tài)圖像進(jìn)行動畫處理,生成 600×600×32 的幀序列,之前的潛在噪聲確保了初始幀的連續(xù)性。V2V 模塊將這些幀增強到 1048×1048 分辨率,同時完善視頻內(nèi)容。最后,插值模塊將序列擴展到 94 個幀,得到 1048×1048 分辨率的視頻,所生成視頻具有較高的美學(xué)質(zhì)量和時間平滑性。

圖片

研究者進(jìn)行的大規(guī)模用戶評估證明:MagicVideo-V2 比一些知名的 T2V 方法更受青睞(綠色、灰色和粉色條分別代表 MagicVideo-V2 被評為較好、相當(dāng)或較差)。

圖片

高質(zhì)量視頻生成背后

統(tǒng)一視覺和語言學(xué)習(xí)的研究范式

從 MagicVideo-V2 的論文中,我們可以看出,視頻生成技術(shù)的進(jìn)展,離不開文生圖、圖生視頻等 AIGC 技術(shù)的鋪路。而生成高審美水準(zhǔn)內(nèi)容的基礎(chǔ)在于理解,特別是模型對于視覺和語言兩種模態(tài)學(xué)習(xí)、融合能力的進(jìn)步。

近年來,大語言模型的可擴展性和通用能力,催生出了統(tǒng)一視覺和語言學(xué)習(xí)的研究范式。為了跨越「視覺」和「語言」兩種模態(tài)之間的天然鴻溝,研究者們將預(yù)訓(xùn)練好的大語言模型和視覺模型的表征連接起來,提取跨模態(tài)特性,完成如視覺問題解答、圖像字幕、視覺知識推理和對話等任務(wù)。

在這些方向上,字節(jié)跳動也有相關(guān)探索。

比如,針對開放世界視覺任務(wù)中的多目標(biāo)推理分割挑戰(zhàn),字節(jié)跳動聯(lián)合北京交通大學(xué)、北京科技大學(xué)的研究者提出了高效像素級推理大模型 PixelLM,并將其開源。

圖片


  • 論文標(biāo)題:PixelLM:Pixel Reasoning with Large Multimodal Model
  • 論文鏈接:https://arxiv.org/pdf/2312.02228.pdf
  • 項目地址:https://pixellm.github.io/ 

PixelLM 能夠熟練地處理具有任意數(shù)量的開放集目標(biāo)和不同推理復(fù)雜性的任務(wù),下圖展示了 PixelLM 在各種分割任務(wù)中生成高質(zhì)量目標(biāo)掩碼的能力。

圖片

PixelLM 的核心是一個新穎的像素解碼器和一個分割 codebook:codebook 包含了可學(xué)習(xí)的 token,這些 token 編碼了與不同視覺尺度目標(biāo)參考相關(guān)的上下文和知識,像素解碼器根據(jù) codebook token 的隱藏嵌入和圖像特征生成目標(biāo)掩碼。在保持 LMM 基本結(jié)構(gòu)的同時,PixelLM 可以在沒有額外的、昂貴的視覺分割模型的情況下生成高質(zhì)量的掩碼,從而提高了效率和向不同應(yīng)用程序的可遷移性。

圖片

值得關(guān)注的是,研究者構(gòu)建了一個全面的多目標(biāo)推理分割數(shù)據(jù)集 MUSE。他們從 LVIS 數(shù)據(jù)集中選取了共 910k 個高質(zhì)量實例分割掩碼以及基于圖像內(nèi)容的詳細(xì)文本描述,利用這些構(gòu)建了 246k 個問題 - 答案對。

相比于圖像,如果涉及視頻內(nèi)容,模型遭遇的挑戰(zhàn)難度就又增加了不少。因為視頻不僅包含豐富多變的視覺信息,還涉及時間序列的動態(tài)變化。

現(xiàn)有的多模態(tài)大模型在處理視頻內(nèi)容時,通常將視頻幀轉(zhuǎn)化為一系列的視覺 token,并與語言 token 結(jié)合以生成文本。但隨著生成文本長度的增加,視頻內(nèi)容的影響會逐漸減弱,導(dǎo)致生成的文本越來越多地偏離原視頻內(nèi)容,產(chǎn)生所謂的「幻覺」。

面對這一問題,字節(jié)跳動聯(lián)合浙江大學(xué)提出了專門針對視頻內(nèi)容的復(fù)雜性設(shè)計的多模態(tài)大模型 Vista-LLaMA。

圖片

  • 論文標(biāo)題:Vista-LLaMA:Reliable Video Narrator via Equal Distance to Visual Tokens
  • 論文鏈接:https://arxiv.org/pdf/2312.08870.pdf
  • 項目地址:https://jinxxian.github.io/Vista-LLaMA/ 

Vista-LLaMA 采用了一種改良的注意力機制 —— 視覺等距離 token 注意力(EDVT),在處理視覺與文本 token 時去除了傳統(tǒng)的相對位置編碼,同時保留了文本與文本之間的相對位置編碼。這種方法大幅提高了語言模型對視頻內(nèi)容的理解深度和準(zhǔn)確性。

特別是,Vista-LLaMA 引入的序列化視覺投影器為視頻中的時間序列分析問題提供了新的視角,它通過線性投影層編碼視覺 token 的時間上下文,增強了模型對視頻動態(tài)變化的理解能力。

圖片

在最近被 ICLR 2024 接收的一項研究中,字節(jié)跳動的研究者還探討了一種提升模型對視頻內(nèi)容學(xué)習(xí)能力的預(yù)訓(xùn)練方法。

由于視頻 - 文本訓(xùn)練語料的規(guī)模和質(zhì)量有限,大多數(shù)視覺語言基礎(chǔ)模型都采用圖像 - 文本數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,并主要關(guān)注視覺語義表征建模,而忽略了時間語義表征和相關(guān)性。

為了解決這個問題,他們提出了 COSA,一種串聯(lián)樣本預(yù)訓(xùn)練視覺語言基礎(chǔ)模型。


  • 論文標(biāo)題:COSA: Concatenated Sample Pretrained Vision-Language Foundation Model
  • 論文鏈接:https://arxiv.org/pdf/2306.09085.pdf
  • 項目主頁:https://github.com/TXH-mercury/COSA

COSA 僅使用圖像 - 文本語料庫對視覺內(nèi)容和事件級時間線索進(jìn)行聯(lián)合建模。研究者將多個圖像 - 文本對按順序串聯(lián)起來,作為預(yù)訓(xùn)練的輸入。這種轉(zhuǎn)換能有效地將現(xiàn)有的圖像 - 文本語料庫轉(zhuǎn)換成偽長格式視頻 - 段落語料庫,從而實現(xiàn)更豐富的場景轉(zhuǎn)換和明確的事件 - 描述對應(yīng)關(guān)系。實驗證明,COSA 能夠持續(xù)提高各種下游任務(wù)的性能,包括長 / 短視頻 - 文本任務(wù)和圖像 - 文本任務(wù)(如檢索、字幕和問題解答)。

圖片

從圖像到視頻

被重新認(rèn)識的「擴散模型」

在視覺 - 語言模型之外,擴散模型同樣是大部分視頻生成模型采用的技術(shù)。

通過在大量圖像 - 文本配對數(shù)據(jù)集上進(jìn)行嚴(yán)格訓(xùn)練,擴散模型能夠完全根據(jù)文本信息生成細(xì)節(jié)豐富的圖像。除了圖片生成,擴散模型還可用于音頻生成、時間序列生成、3D 點云生成等等。

比如在一些短視頻應(yīng)用中,用戶只需要提供一張圖片,就能生成一段以假亂真的動作視頻。

數(shù)百年來保持神秘微笑的蒙娜麗莎,都能馬上跑起來:

圖片

這項有趣應(yīng)用背后的技術(shù),是新加坡國立大學(xué)和字節(jié)跳動的研究者聯(lián)合推出的「MagicAnimate」。

MagicAnimate 是一個基于擴散的人類圖像動畫框架,在根據(jù)特定的運動序列生成視頻的任務(wù)中,能夠很好地保證整個動畫的時間一致性并提升動畫保真度。而且,MagicAnimate 項目是開源的。

圖片

  • 論文標(biāo)題:MagicAnimate:Temporally Consistent Human Image Animation using Diffusion Model
  • 論文鏈接:https://arxiv.org/pdf/2311.16498.pdf
  • 項目地址:https://showlab.github.io/magicanimate/ 

為了解決生成動畫普遍存在的「閃爍」問題,研究者通過將時間注意力(temporal attention)塊合并到擴散主干網(wǎng)絡(luò)中,來構(gòu)建用于時間建模的視頻擴散模型。

MagicAnimate 將整個視頻分解為重疊的片段,并簡單地對重疊幀的預(yù)測進(jìn)行平均。最后,研究者還引入圖像 - 視頻聯(lián)合訓(xùn)練策略,以進(jìn)一步增強參考圖像保留能力和單幀保真度。雖然僅接受了真實人類數(shù)據(jù)的訓(xùn)練,MagicAnimate 卻展現(xiàn)出了泛化到各種應(yīng)用場景的能力,包括對未見過的領(lǐng)域數(shù)據(jù)進(jìn)行動畫處理、與文本 - 圖像擴散模型的集成以及多人動畫等。

圖片

另一項基于擴散模型思想的研究「DREAM-Talk」,則解決了從單張肖像圖像生成會說話的情緒化人臉的任務(wù)。


  • 論文標(biāo)題:DREAM-Talk:Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking Face Generation
  • 論文鏈接:https://arxiv.org/pdf/2312.13578.pdf
  • 項目地址:https://dreamtalkemo.github.io/ 

我們知道,在這項任務(wù)中,很難同時實現(xiàn)富有表現(xiàn)力的情感對話和準(zhǔn)確的唇語同步,通常為了保證唇語同步的準(zhǔn)確性,表現(xiàn)力往往會大打折扣。 

「DREAM-Talk」是一個基于擴散的音頻驅(qū)動框架,分為兩個階段:首先,研究者提出了一個新穎的擴散模塊 EmoDiff,可根據(jù)音頻和參考情緒風(fēng)格生成多種高度動態(tài)的情緒表情和頭部姿勢。鑒于唇部動作與音頻之間的強相關(guān)性,研究者隨后利用音頻特征和情感風(fēng)格對動態(tài)進(jìn)行了改進(jìn),從而提高了唇部同步的準(zhǔn)確性,此外還部署了一個視頻到視頻渲染模塊,實現(xiàn)了將表情和唇部動作轉(zhuǎn)移到任意肖像。

從效果上看,DREAM-Talk 在表現(xiàn)力、唇部同步準(zhǔn)確性和感知質(zhì)量方面的確不錯:

圖片

但不管是圖像生成還是視頻生成,當(dāng)前基于擴散模型路線的研究都還有一些基礎(chǔ)挑戰(zhàn)需要解決。

比如很多人關(guān)心生成內(nèi)容的質(zhì)量問題(對應(yīng) SAG、DREAM-Talk),這可能與擴散模型的生成過程中的一些步驟有關(guān),比如引導(dǎo)采樣。

擴散模型中的引導(dǎo)采樣大致可分為兩類:需要訓(xùn)練的和無需訓(xùn)練的。免訓(xùn)練引導(dǎo)采樣是利用現(xiàn)成的預(yù)訓(xùn)練網(wǎng)絡(luò)(如美學(xué)評估模型)來引導(dǎo)生成過程,旨在以更少的步驟和更高的精度從預(yù)訓(xùn)練的模型中獲取知識。當(dāng)前的訓(xùn)練無指導(dǎo)采樣算法基于對干凈圖像的一步估計來獲得指導(dǎo)能量函數(shù)。然而,由于預(yù)訓(xùn)練網(wǎng)絡(luò)是針對干凈圖像進(jìn)行訓(xùn)練的,因此干凈圖像的一步估計過程可能不準(zhǔn)確,尤其是在擴散模型的早期階段,導(dǎo)致早期時間步驟的指導(dǎo)不準(zhǔn)確。

針對該問題,字節(jié)跳動和新加坡國立大學(xué)的研究者共同提出了 Symplectic Adjoint Guidance (SAG)。

圖片

  • 論文標(biāo)題:Towards Accurate Guided Diffusion Sampling through Symplectic Adjoint Method
  • 論文鏈接:https://arxiv.org/pdf/2312.12030.pdf

SAG 通過兩個內(nèi)階段計算梯度引導(dǎo):首先,SAG 通過 n 個函數(shù)調(diào)用估計干凈圖像,其中 n 作為一個靈活的參數(shù),可以根據(jù)特定的圖像質(zhì)量要求進(jìn)行調(diào)整。其次,SAG 使用對稱偶方法精確高效地獲得關(guān)于內(nèi)存需求的梯度。這種方法可支持各種圖像和視頻生成任務(wù),包括風(fēng)格引導(dǎo)圖像生成、美學(xué)改進(jìn)和視頻風(fēng)格化,并有效提升了生成內(nèi)容的質(zhì)量。

最近入選 ICLR 2024 的一篇論文,則著重討論了「擴散概率模型梯度反向傳播的臨界靈敏度方法」。


  • 論文標(biāo)題:Adjoint Sensitivity Method for Gradient Backpropagation of Diffusion Probabilistic Models
  • 論文鏈接:https://arxiv.org/pdf/2307.10711.pdf

由于擴散概率模型的采樣過程涉及對去噪 U-Net 的遞歸調(diào)用,因此 na?ve 梯度反向傳播需要存儲所有迭代的中間狀態(tài),從而導(dǎo)致極高的內(nèi)存消耗。

在這篇論文中,研究者提出的 AdjointDPM 首先通過求解相應(yīng)的概率流 ODE 從擴散模型中生成新樣本。然后,通過求解另一個增強的 ODE,使用鄰接靈敏度方法反向傳播模型參數(shù)(包括調(diào)節(jié)信號、網(wǎng)絡(luò)權(quán)重和初始噪聲)損失的梯度。為了減少前向生成和梯度反向傳播過程中的數(shù)值誤差,研究者使用指數(shù)積分進(jìn)一步將概率流 ODE 和增強型 ODE 重新參數(shù)化為簡單的非剛性 ODE。

研究者指出,AdjointDPM 在三個任務(wù)中極具價值:將視覺效果轉(zhuǎn)換為識別文本嵌入、針對特定類型的風(fēng)格化對擴散概率模型進(jìn)行微調(diào),以及優(yōu)化初始噪聲以生成用于安全審計的對抗樣本,以減少優(yōu)化工作中的成本。

對于視覺類的感知任務(wù),采用文本到圖像的擴散模型作為特征提取器的方法也受到越來越多的關(guān)注。在這一方向上,字節(jié)跳動的研究者在論文中提出了一種簡單而有效的方案。

圖片

  • 論文標(biāo)題;Harnessing Diffusion Models for Visual Perception with Meta Prompts
  • 論文鏈接:https://arxiv.org/pdf/2312.14733.pdf

這篇論文的核心創(chuàng)新是在預(yù)訓(xùn)練的擴散模型中引入可學(xué)習(xí)的嵌入(元提示)以提取感知特征,不依賴額外的多模態(tài)模型來生成圖像標(biāo)題,也不使用數(shù)據(jù)集中的類別標(biāo)簽。

元提示有兩方面的作用:首先,作為 T2I 模型中文本嵌入的直接替代物,它可以在特征提取過程中激活與任務(wù)相關(guān)的特征;其次,它將用于重新排列提取的特征,以確保模型專注于與手頭任務(wù)最相關(guān)的特征。此外,研究者還設(shè)計了一種循環(huán)細(xì)化訓(xùn)練策略,充分利用擴散模型的特性,從而獲得更強的視覺特征。

「中文版 Sora」誕生之前

還有多遠(yuǎn)的路要走?

在這幾篇新論文中,我們已經(jīng)了解到字節(jié)跳動這樣的國內(nèi)科技公司,在視頻生成技術(shù)上的一系列積極的探索。

但是與 Sora 相比,無論是字節(jié)跳動,還是 AI 視頻生成領(lǐng)域的一眾明星公司,都存在肉眼可見的差距。Sora 的優(yōu)勢建立在對 Scaling Law 的信仰和突破性的技術(shù)創(chuàng)新上:通過 patchs 統(tǒng)一視頻數(shù)據(jù),依托 Diffusion Transformer 等技術(shù)架構(gòu)和 DALL?E 3 的語義理解能力,真正做到了「遙遙領(lǐng)先」。

從 2022 年文生圖的大爆發(fā),到 2024 年 Sora 的橫空出世,人工智能領(lǐng)域的技術(shù)迭代速度,已經(jīng)超過了大家的想象。2024 年,相信這一領(lǐng)域還會出現(xiàn)更多的「爆款」。

字節(jié)顯然也在加緊投入技術(shù)研發(fā)。近期,谷歌 VideoPoet 項目負(fù)責(zé)人蔣路,開源多模態(tài)大模型 LLaVA 團(tuán)隊成員之一、前微軟研究院首席研究員 Chunyuan Li 均被曝出已加入字節(jié)跳動智能創(chuàng)作團(tuán)隊。該團(tuán)隊還在大力招聘,官網(wǎng)上已放出多個大模型算法相關(guān)崗位。

不僅僅是字節(jié),BAT 等老牌巨頭也放出眾多令人矚目的視頻生成研究成果,一眾大模型創(chuàng)業(yè)公司更是極具沖勁。文生視頻技術(shù)又將出現(xiàn)哪些新的突破?我們拭目以待。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-02-21 17:05:51

字節(jié)Sora視頻

2022-05-12 13:03:00

DLT分布式賬本加密貨幣

2024-02-21 15:05:30

2022-06-08 13:25:51

數(shù)據(jù)

2009-08-18 16:19:57

Google Insi

2010-05-28 18:07:47

TortoiseSVN

2024-09-25 15:00:25

2011-03-25 12:57:16

LinuxCacti安裝

2012-09-10 10:42:34

IBMdw

2010-01-19 14:46:04

jQuery 1.4

2010-08-26 17:08:20

vsftpd faq

2009-06-11 10:15:09

netbeans 安裝

2010-05-24 17:26:59

TortoiseSVN

2011-03-03 13:25:57

2012-02-01 17:38:09

2010-05-31 13:15:04

Cacti中文

2010-05-31 14:29:20

Cacti中文

2011-03-29 14:17:27

Cacti中文版Centos

2010-03-31 11:04:38

云安全
點贊
收藏

51CTO技術(shù)棧公眾號