自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

手寫Sora中的Diffusion Transformer(DiT)——探索最先進(jìn)視頻生成器背后的秘密 精華

發(fā)布于 2024-9-6 12:28
瀏覽
0收藏

"在遠(yuǎn)古的DiTharos大地上,曾經(jīng)有一個(gè)傳說,名為Sora。它體現(xiàn)了無限潛力的本質(zhì),包括廣闊和壯麗的天空。當(dāng)它展翅高飛,其彩虹般的翅膀跨越廣闊的空間,光線反射在它引人注目的身體上時(shí),人們可以聽到“Sora即天空”的聲音在天空中回蕩。使它成為傳說的不僅僅是它史詩般的巨大,而是它能夠駕馭在飄動(dòng)的云中散落的光元素。憑借其強(qiáng)大的力量,Sora用一次旋轉(zhuǎn)創(chuàng)造的魔力,是一種令人嘆為觀止的景象!他們說,Sora依然存在,不斷磨練自己的技能,并在每一天變得更加強(qiáng)大,準(zhǔn)備在黃金時(shí)刻飛翔。當(dāng)你今天在天空中看到一抹深紅色的斑點(diǎn)時(shí),你會(huì)知道那是傳說飛向光明境界的一小部分!"


這是我給兒子講的一個(gè)關(guān)于一只傳說中的龍的故事,它生活在遙遠(yuǎn)的地方。我們稱之為“Sora傳奇”。他非常喜歡這個(gè)故事,因?yàn)镾ora又大又強(qiáng)壯,照亮了天空。當(dāng)然,他現(xiàn)在還不理解Transformer和Diffusion 的概念,他只有四歲,但他確實(shí)理解一個(gè)宏偉的龍利用光的力量統(tǒng)治著DiTharos。

Sora由 Open AI 開發(fā)

這個(gè)故事與我們世界中的Sora,Open AI 的文本到視頻模型如何在人工智能領(lǐng)域出現(xiàn)并引起轟動(dòng)非常相似。原則上,Sora是由 William Peebles 和 Saining Xie 在 2023 年開發(fā)的Diffusion Transformer(DiT)。


換句話說,它利用Diffusion 的概念來預(yù)測視頻,利用Transformer的力量進(jìn)行下一級(jí)別的縮放。為了進(jìn)一步理解這一點(diǎn),讓我們?cè)囍卮疬@兩個(gè)問題:

  • 給定提示時(shí),Sora會(huì)做什么?
  • 它如何結(jié)合Diffusion Transformer的思想?


談到Sora制作的視頻,以下是我最喜歡的一部視頻,它展示了意大利街頭一只可愛的達(dá)爾馬提犬。它的動(dòng)作是多么自然??!

手寫Sora中的Diffusion Transformer(DiT)——探索最先進(jìn)視頻生成器背后的秘密-AI.x社區(qū)

視頻所使用的提示:“相機(jī)直接對(duì)著意大利布拉諾的彩色建筑。一只可愛的達(dá)爾馬提犬從一座建筑物的一樓窗戶向外張望。許多人在運(yùn)河街道上走動(dòng)和騎自行車。”


Sora是如何做到的?


話不多說,讓我們深入了解細(xì)節(jié),看看Sora如何基于文本提示創(chuàng)建這些超逼真的視頻。

Sora是如何工作的?

再次感謝 Tom Yeh 教授出色的“AI手工系列”,我們可以在討論中使用這個(gè)關(guān)于Sora的好文章(除非另有說明,下文中所有圖片均由Tom Yeh 教授提供)

那么,我們開始吧:

我們的目標(biāo) —— 基于文本提示生成視頻。

我們有:

  • 訓(xùn)練視頻
  • 文本提示
  • Diffusion 步驟 t = 3


對(duì)于本示例,你能猜到我們的文本提示是什么嗎?沒錯(cuò),它是“Sora是天空”。t = 3 的Diffusion 步驟意味著在三個(gè)步驟中添加噪音或Diffusion 模型,但為了說明問題,在這個(gè)示例中將堅(jiān)持只用一步。

什么是Diffusion?Diffusion 主要指的是粒子的散射現(xiàn)象 — 想象一下我們?nèi)绾涡蕾p到柔和的陽光從云層后面射出。這種柔和的光輝可以歸因于陽光穿過云層時(shí)的散射,導(dǎo)致光線朝不同方向Diffusion 。

粒子的隨機(jī)運(yùn)動(dòng)驅(qū)動(dòng)了這種Diffusion 現(xiàn)象。這正是圖像生成中使用的Diffusion 模型所發(fā)生的情況。向圖像添加隨機(jī)噪聲,使圖像中的元素偏離原始狀態(tài),從而為生成更精細(xì)圖像鋪平道路。

當(dāng)談到圖像模型中的Diffusion 時(shí),要記住的關(guān)鍵思想是“噪聲”。

該過程從以下步驟開始:

[1] 將視頻轉(zhuǎn)換為patches

在進(jìn)行文本生成時(shí),模型將大型語料庫分解為稱為token的小塊,并使用這些token進(jìn)行所有計(jì)算。類似地,Sora將視頻分解為稱為視覺patches的較小元素,以使工作更簡單。

由于我們討論的是一個(gè)視頻,談?wù)摰氖嵌鄠€(gè)幀中的圖像。在示例中,有四個(gè)幀。每個(gè)四個(gè)幀或矩陣包含創(chuàng)建圖像的像素。

手寫Sora中的Diffusion Transformer(DiT)——探索最先進(jìn)視頻生成器背后的秘密-AI.x社區(qū)

這里的第一步是將訓(xùn)練視頻轉(zhuǎn)換為4個(gè)時(shí)空patches,如下所示:

手寫Sora中的Diffusion Transformer(DiT)——探索最先進(jìn)視頻生成器背后的秘密-AI.x社區(qū)

[2] 減少這些視覺patches的維度:編碼器

接下來是降維。降維的概念已經(jīng)存在了一個(gè)多世紀(jì)(趣事:主成分分析,也稱為PCA,是由Karl Pearson于1901年引入的),但其重要性沒有隨時(shí)間消退。

Sora也使用了它!


當(dāng)我們談?wù)撋窠?jīng)網(wǎng)絡(luò)時(shí),降維的基本思想之一就是編碼器。編碼器通過其設(shè)計(jì)將高維數(shù)據(jù)轉(zhuǎn)換為低維數(shù)據(jù),重點(diǎn)是捕獲數(shù)據(jù)的最相關(guān)特征。兩全其美:它提高了計(jì)算的效率和速度,同時(shí)算法得到了有用的數(shù)據(jù)。


Sora使用相同的思想將高維像素轉(zhuǎn)換為較低維的潛在空間。為此,我們將patches與權(quán)重和偏差相乘,然后進(jìn)行ReLU激活。

筆記

線性變換:輸入embedding向量乘以權(quán)重矩陣 W,然后加上偏置向量 b,

z = Wx+b,其中 W 是權(quán)重矩陣,x 是我們的詞embedding,b 是偏置向量。

ReLU 激活函數(shù):接下來,將 ReLU 應(yīng)用于這個(gè)中間值 z。

ReLU 返回輸入和零的元素最大值。在數(shù)學(xué)上,h = max{0,z}。

  • 這里的權(quán)重矩陣是一個(gè) 2x4 矩陣 [ [1, 0, -1, 0], [0, 1, 0, 1] ],偏置為 [0,1]。
  • 這里的patches矩陣是 4x4。


將權(quán)重矩陣 W 的轉(zhuǎn)置和偏置 b 與patches相乘,然后進(jìn)行 ReLU,得到的潛在空間只是一個(gè) 2x4 矩陣。因此,通過使用視覺編碼器,‘模型’的維度從 4(2x2x1)降低到 2(2x1)。

手寫Sora中的Diffusion Transformer(DiT)——探索最先進(jìn)視頻生成器背后的秘密-AI.x社區(qū)

在原始 DiT 論文中,這個(gè)減少是從 196,608(256x256x3)降低到 4096(32x32x4),這是巨大的。想象一下與使用 4096 進(jìn)行工作相比使用 196,608 像素 —— 減少了 48 倍!

在這個(gè)維度減少之后,我們進(jìn)行了整個(gè)過程中最重要的一個(gè)步驟 —— Diffusion 。

[3] 用噪聲Diffusion 模型

為了引入Diffusion ,我們?cè)谇耙徊街蝎@得的潛在特征上添加了采樣噪聲,以獲得Diffusion 后的潛在特征。這里的目標(biāo)是要求模型檢測噪聲是什么。

手寫Sora中的Diffusion Transformer(DiT)——探索最先進(jìn)視頻生成器背后的秘密-AI.x社區(qū)

這本質(zhì)上就是圖像生成的Diffusion 思想。


通過向圖像添加噪聲,模型被要求猜測噪聲是什么樣的,它是什么樣子。作為回報(bào),模型可以基于它從嘈雜的圖像中猜測和學(xué)習(xí)到的內(nèi)容生成全新的圖像。


這也可以看作是相對(duì)于從語言模型中刪除一個(gè)詞并要求它猜測被刪除詞是什么。


現(xiàn)在,訓(xùn)練視頻已經(jīng)被減少并且被Diffusion 了噪聲,接下來的步驟是利用文本提示來根據(jù)提示獲取視頻。通過自適應(yīng)規(guī)范化層進(jìn)行條件化。

[4]-[6] 自適應(yīng)規(guī)范化層的條件化

‘條件化’ 實(shí)質(zhì)上意味著嘗試?yán)梦覀兛捎玫念~外信息來影響模型的行為。例如:由于提示是 ‘Sora 是天空’,我們希望模型集中關(guān)注天空或云等元素,而不是給其他概念如帽子或植物賦予重要性。因此,自適應(yīng)規(guī)范化層會(huì)動(dòng)態(tài)地根據(jù)接收到的輸入來縮放和移動(dòng)網(wǎng)絡(luò)中的數(shù)據(jù)。

什么是縮放和移動(dòng)?

縮放發(fā)生在乘法時(shí),例如,可以從一個(gè)變量 A 開始。當(dāng)將其乘以 2 時(shí),得到 2*A,這樣可以將 A 的值放大或縮放 2 倍。如果將其乘以 ?,那么值將縮小為 0.5。

移動(dòng)由加法表示,例如,可能正在數(shù)軸上行走。從 1 開始,被要求移到 5。我們?cè)撛趺醋??可以添?4 來獲得 1+4=5,或者可以添加一百個(gè) 0.04 來到達(dá) 5,1+(100*0.04 )= 5。這完全取決于我們是否想要采取更大的步伐(4)還是更小的步伐(0.04)來達(dá)到我們的目標(biāo)。

[4] 編碼條件

為了利用條件,即我們用于構(gòu)建模型的信息,首先我們將其轉(zhuǎn)換為模型能理解的形式,即向量。

  • 該過程的第一步是將提示轉(zhuǎn)換為文本embedding向量。
  • 接下來的步驟是將步驟 t = 3 轉(zhuǎn)換為二進(jìn)制向量。
  • 第三步是將這些向量連接在一起。

手寫Sora中的Diffusion Transformer(DiT)——探索最先進(jìn)視頻生成器背后的秘密-AI.x社區(qū)

[5] 估計(jì)縮放/移動(dòng)

請(qǐng)記住,這里我們使用的是‘自適應(yīng)’層歸一化,這意味著它根據(jù)模型當(dāng)前的條件調(diào)整其值。因此,為了捕捉數(shù)據(jù)的正確本質(zhì),需要包括數(shù)據(jù)中每個(gè)元素的重要性。這是通過估計(jì)縮放和移動(dòng)來完成的。


為了為我們的模型估計(jì)這些值,將提示和Diffusion 步驟的連接向量與權(quán)重相乘,并將偏置加到其中。這些權(quán)重和偏置是可學(xué)習(xí)的參數(shù),模型會(huì)學(xué)習(xí)并更新它們。

手寫Sora中的Diffusion Transformer(DiT)——探索最先進(jìn)視頻生成器背后的秘密-AI.x社區(qū)

(注:根據(jù)我的理解,結(jié)果向量中的第三個(gè)元素應(yīng)該為 1。這可能是原始文章中的一個(gè)小錯(cuò)誤,但是作為人類,我們?cè)试S有一點(diǎn)錯(cuò)誤,對(duì)嗎?為了保持一致性,我繼續(xù)使用原始文章中的值。)


這里的目標(biāo)是估計(jì)縮放 [2,-1] 和移動(dòng) [-1,5](因?yàn)槲覀兊哪P痛笮?2,所以有兩個(gè)縮放和兩個(gè)移動(dòng)參數(shù))。我們將它們分別命名為‘X’和‘+’。

手寫Sora中的Diffusion Transformer(DiT)——探索最先進(jìn)視頻生成器背后的秘密-AI.x社區(qū)

[6] 應(yīng)用縮放/移動(dòng)

要應(yīng)用上一步中獲得的縮放和移動(dòng),將第 3 步中的Diffusion 潛在與 [2, -1] 相乘,并通過添加 [-1,5] 進(jìn)行移動(dòng)。結(jié)果就是‘條件化’的噪聲潛在。

[7]-[9] Transformer

最后三步包括將Transformer元素添加到上述Diffusion 和條件化步驟中。這一步幫助我們找到模型預(yù)測的噪聲。

[7] 自注意力

這是Transformer背后的關(guān)鍵思想,使它們?nèi)绱俗吭剑?/p>

什么是自注意力?

這是一種機(jī)制,通過該機(jī)制,句子中的每個(gè)單詞分析其他每個(gè)單詞,并衡量它們對(duì)彼此的重要性,從而理解文本中的上下文和關(guān)系。

為了啟用自注意力,條件化的噪聲潛在被饋送到查詢-鍵(QK)函數(shù)中,以獲得自注意力矩陣。這里簡化了 QK 值的表示。

[8] 注意力池化

接下來,我們將條件化的噪聲潛在與自注意力矩陣相乘,以獲得注意力加權(quán)特征。

手寫Sora中的Diffusion Transformer(DiT)——探索最先進(jìn)視頻生成器背后的秘密-AI.x社區(qū)

[9] 逐點(diǎn)前饋網(wǎng)絡(luò)

再次回到基礎(chǔ)知識(shí),將注意力加權(quán)特征與權(quán)重和偏置相乘,以獲得預(yù)測的噪聲。

手寫Sora中的Diffusion Transformer(DiT)——探索最先進(jìn)視頻生成器背后的秘密-AI.x社區(qū)

訓(xùn)練

現(xiàn)在,最后一步是使用預(yù)測的噪聲和采樣的噪聲(基本事實(shí))之間的均方誤差來訓(xùn)練模型。

[10] 計(jì)算均方誤差損失梯度并更新可學(xué)習(xí)參數(shù)

使用均方誤差損失梯度,使用反向傳播來更新所有可學(xué)習(xí)的參數(shù)(例如自適應(yīng)規(guī)范層中的權(quán)重和偏置)。編碼器和解碼器參數(shù)被凍結(jié),不可學(xué)習(xí)。

手寫Sora中的Diffusion Transformer(DiT)——探索最先進(jìn)視頻生成器背后的秘密-AI.x社區(qū)

(備注:第二行的第二個(gè)元素應(yīng)該是 -1,這是一個(gè)微小的錯(cuò)誤,使情況更好。)

[11]-[13] 生成新樣本 [11] 降噪

現(xiàn)在我們已經(jīng)準(zhǔn)備好生成新視頻(耶?。?,首先需要去除我們引入的噪聲。為此,將預(yù)測的噪聲從噪聲潛在中減去,以獲得無噪聲的潛在。請(qǐng)注意,這與我們的原始潛在不同。原因是在此期間,經(jīng)歷了多個(gè)條件和注意力步驟,這些步驟將我們問題的上下文包含到模型中。因此,讓模型在生成視頻時(shí)更好地了解其目標(biāo)應(yīng)該是什么。

[12] 將潛在空間轉(zhuǎn)換回像素:解碼器

就像為編碼器所做的一樣,將潛在空間的patches與權(quán)重和偏置相乘,然后再通過 ReLU 進(jìn)行操作??梢钥吹皆诮獯a器的工作之后,模型的維度恢復(fù)到了最初降低到 2 的原始維度。

手寫Sora中的Diffusion Transformer(DiT)——探索最先進(jìn)視頻生成器背后的秘密-AI.x社區(qū)

[13] 時(shí)間到了,制作視頻!

最后一步是將上述矩陣的結(jié)果排列成一系列幀,最終給出我們的新視頻。萬歲!

手寫Sora中的Diffusion Transformer(DiT)——探索最先進(jìn)視頻生成器背后的秘密-AI.x社區(qū)

隨著這強(qiáng)大技術(shù)的結(jié)束,我們來總結(jié)一下以上所說的和做的所有事情,以下是 5 個(gè)關(guān)鍵點(diǎn):

  • 將視頻轉(zhuǎn)換為視覺patches ,然后降低它們的維度是至關(guān)重要的。視覺編碼器在這里是我們的朋友。
  • 正如其名稱所示,Diffusion是這種方法的關(guān)鍵。將噪聲添加到視頻中,然后在每個(gè)后續(xù)步驟中(以不同的方式)處理它,這是這種技術(shù)依賴的。
  • 接下來是Transformer架構(gòu),它增強(qiáng)了擴(kuò)散過程的能力,并放大了模型的規(guī)模。
  • 一旦模型訓(xùn)練并準(zhǔn)備好收斂到一個(gè)解決方案時(shí),兩個(gè) D —— 去噪器和解碼器將會(huì)派上用場。一個(gè)通過移除噪聲,另一個(gè)通過將低維空間投影到其原始維度。
  • 最后,解碼器產(chǎn)生的像素被重新排列以生成所需的視頻。

(完成本文后,建議您再次閱讀開頭的故事。您能發(fā)現(xiàn) DiTharos 的 Sora 和我們世界的 Sora 之間的相似之處嗎?)

Diffusion-Transformer(DiT)組合

Sora 能夠生成的視頻類型,可以說是Diffusion-Transformer組合極具殺傷力。除此之外,視覺patches 的概念為調(diào)整一系列圖像分辨率、寬高比和持續(xù)時(shí)間開辟了一條道路,從而允許進(jìn)行極大的實(shí)驗(yàn)。


總的來說,毫不夸張地說,這個(gè)想法是開創(chuàng)性的,毫無疑問是值得長久保留的。根據(jù)《紐約時(shí)報(bào)》的一篇文章,Sora 的名字取自日語中的“天空”,意在喚起無限潛力的概念。經(jīng)歷了最初的承諾,可以肯定 Sora 絕對(duì)開辟了人工智能的新領(lǐng)域?,F(xiàn)在我們只需要看看它在安全性和時(shí)間測試中表現(xiàn)如何。


就像 DiTharos 的傳說一樣:“Sora 一直生活著,磨練自己的技能,并在每一天變得更加強(qiáng)大,準(zhǔn)備在時(shí)機(jī)成熟時(shí)飛翔!”


現(xiàn)在,去‘DiTharos’的土地上,與 Sora 一起玩耍吧!


本文轉(zhuǎn)自 AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/0CaG9ZjqC46M2KxSBW53aA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦