自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

等不及公開了!最新Sora模型細(xì)節(jié)揭秘:預(yù)計峰值需要72萬塊H100!每月至少4200塊H100!縮放定律依舊有效!

譯文 精選
人工智能
在這篇博文中,我們將深入探討 Sora 背后的一些技術(shù)細(xì)節(jié)。我們還討論了我們目前對這些視頻模型的影響的思考。最后,我們討論了關(guān)于用于訓(xùn)練 Sora 等模型的計算的想法,并提出了訓(xùn)練計算與推理相比如何的預(yù)測,這對估計未來 GPU 需求具有有意義的指示。

作者 | Matthias·Plappert

翻譯 | 言征

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

OpenAI的Sora模型能夠生成各種場景的極其逼真的視頻,令世界驚嘆不已。除了一篇公開的技術(shù)報告和TikTok上放出的酷炫視頻,就只有OpenAI相關(guān)團隊的采訪能夠讓業(yè)界獲得零星的信息增量。

不過,研究人員的力量是無窮的。3月15日,專注于創(chuàng)新的投資公司Factorial Funds發(fā)表了一篇技術(shù)博客,詳細(xì)闡釋了自己對于Sora背后的參數(shù)規(guī)模、算力配置、訓(xùn)練推理的邏輯和實現(xiàn)細(xì)節(jié),以及后續(xù)的商業(yè)考量。值得感興趣的朋友一飽眼福。 

一、主要發(fā)現(xiàn)

在這篇博文中,我們將深入探討 Sora 背后的一些技術(shù)細(xì)節(jié)。我們還討論了我們目前對這些視頻模型的影響的思考。最后,我們討論了關(guān)于用于訓(xùn)練 Sora 等模型的計算的想法,并提出了訓(xùn)練計算與推理相比如何的預(yù)測,這對估計未來 GPU 需求具有有意義的指示。本報告的主要發(fā)現(xiàn)總結(jié)如下:

  • Sora 是一種建立在擴散Transformer (DiT)、潛在擴散之上的擴散模型,并且似乎顯著擴展了模型和訓(xùn)練數(shù)據(jù)集。
  • Sora 證明了擴展視頻模型是值得的,并且類似于大型語言模型 (LLM) 的進一步擴展將成為快速改進模型的主要驅(qū)動力。
  • Runway、Genmo和Pika等公司正在致力于圍繞 Sora 等視頻生成模型構(gòu)建直觀的界面和工作流程。這將決定它們的用途和可用性有多廣泛。
  • Sora 需要大量的計算能力來訓(xùn)練,估計 1 個月需要 4,200-10,500 個 Nvidia H100 GPU。
  • 為了進行推斷,我們估計 Sora 每個 Nvidia H100 GPU 每小時最多可以生成約 5 分鐘的視頻。與LLM相比,像 Sora 這樣基于擴散的模型的推理成本要高出多個數(shù)量級。
  • 隨著類似 Sora 的模型得到廣泛部署,推理計算將取代訓(xùn)練計算?!笆罩胶恻c”估計為生成 15.3-3810 萬分鐘的視頻,之后用于推理的計算量將超過原始訓(xùn)練。相比之下,每天上傳 1700 萬分鐘 (TikTok) 和 4300 萬分鐘 (YouTube) 的視頻。
  • 假設(shè) TikTok(占所有視頻分鐘數(shù)的 50%)和 YouTube(占所有視頻分鐘數(shù)的 15%)等流行平臺上大量采用人工智能來生成視頻,并考慮到硬件利用率和使用模式,我們估計 Nvidia H100 的峰值需求約為 72 萬用于推理的 GPU。

總而言之,Sora 在視頻生成的質(zhì)量和功能方面取得了重大進展,但也有可能大大增加對 GPU 推理計算的需求。

二、背景

Sora 是一個擴散模型。擴散模型是圖像生成的流行選擇,眾所周知的模型如OpenAI 的 DALL-E或Stability AI 的 Stable Diffusion。最近,Runway、Genmo和Pika 等公司已經(jīng)探索了視頻生成,可能也利用了擴散模型。

從廣義上講,擴散模型是一種生成機器學(xué)習(xí)模型,它通過逐漸學(xué)習(xí)逆轉(zhuǎn)向數(shù)據(jù)添加隨機噪聲的過程來學(xué)習(xí)創(chuàng)建與訓(xùn)練數(shù)據(jù)相似的數(shù)據(jù),例如圖像或視頻。最初,這些模型從純噪聲模式開始,然后逐步消除這種噪聲,細(xì)化模式,直到它轉(zhuǎn)變?yōu)檫B貫且詳細(xì)的輸出。

圖片圖片

擴散過程圖解:逐步消除噪聲,直到看到詳細(xì)的視頻。圖片取自Sora 技術(shù)報告。

這與大型語言模型 (LLM) 在概念上的工作方式明顯不同:LLM 迭代地生成一個又一個標(biāo)記1(這稱為自回歸采樣)。令牌一旦生成,就不會更改。在使用Perplexity或 ChatGPT等工具時,您可能已經(jīng)看到過這種效果:答案逐漸逐字出現(xiàn),就像有人在打字一樣。

三、Sora 的技術(shù)細(xì)節(jié)

OpenAI在 Sora 公告的同時還發(fā)布了一份技術(shù)報告。不幸的是,這份報告缺乏細(xì)節(jié)。然而,它的設(shè)計似乎深受“ Scalable Diffusion Models with Transformers ”研究論文的影響,其中作者2提出了一種基于 Transformer 的架構(gòu),稱為 DiT(Diffusion Transformers 的縮寫),用于圖像生成??磥?Sora 將這項工作擴展到了視頻生成。結(jié)合 Sora 技術(shù)報告和 DiT 論文,我們可以相當(dāng)準(zhǔn)確地了解 Sora 模型的工作原理。

Sora 包含三個重要部分:1)它不在像素空間中運行,而是在潛在空間中執(zhí)行擴散(又名潛在擴散),2)它使用 Transformer 架構(gòu),3)它似乎使用非常大的數(shù)據(jù)集。

1.潛在擴散

要理解第一點(潛在擴散),請考慮生成圖像。您可以使用擴散生成每個像素。然而,這是非常低效的(例如,512x512 圖像有 262,144 個像素)。相反,您可以首先從像素映射到具有某種壓縮因子的潛在表示,在這個更緊湊的潛在空間中執(zhí)行擴散,最后從潛在空間解碼回像素空間。這種映射顯著提高了計算復(fù)雜性:例如,您不必在 512x512 = 262,144 像素上運行擴散過程,而只需生成 64x64 = 4,096 個潛在變量。這一思想是《利用潛在擴散模型進行高分辨率圖像合成》研究論文的關(guān)鍵突破,是穩(wěn)定擴散的基礎(chǔ)。

圖片

從像素(左)到潛在表示(右側(cè)的框網(wǎng)格)的映射圖示。圖片取自Sora 技術(shù)報告。

DiT 和 Sora 都采用了這種方法。對于 Sora 來說,另一個考慮因素是視頻具有時間維度:視頻是圖像的時間序列,也稱為幀。從 Sora 技術(shù)報告來看,從像素映射到潛在空間的編碼步驟在空間上(意味著壓縮每幀的寬度和高度)和時間上(意味著跨時間壓縮)發(fā)生。

2.Transformer

現(xiàn)在來說第二點,DiT 和 Sora 都用普通的Transformer 架構(gòu)替換了常用的U-Net 架構(gòu)。這很重要,因為 DiT 論文的作者觀察到,使用 Transformer 會導(dǎo)致可預(yù)測的擴展:當(dāng)您應(yīng)用更多的訓(xùn)練計算(通過訓(xùn)練模型更長時間或使模型更大,或兩者兼而有之)時,您將獲得更好的性能。Sora 技術(shù)報告指出了相同的內(nèi)容,但針對視頻,并包含有用的插圖。

圖片

說明模型質(zhì)量如何隨著訓(xùn)練計算的函數(shù)而提高:基礎(chǔ)計算、4x 計算和 32x 計算(從左到右)。視頻取自Sora技術(shù)報告。

這種可以通過所謂的縮放定律來量化的縮放行為是一個重要的屬性,之前已經(jīng)在大型語言模型(LLM)和其他模態(tài)的自回歸模型的背景下進行了研究。應(yīng)用規(guī)模來獲得更好模型的能力是LLM快速進步的關(guān)鍵驅(qū)動力之一。由于圖像和視頻生成存在相同的屬性,因此我們應(yīng)該期望相同的縮放配方也適用于此。

3.數(shù)據(jù)集

訓(xùn)練像 Sora 這樣的模型所需的最后一個關(guān)鍵要素是標(biāo)記數(shù)據(jù),我們認(rèn)為這是大部分秘密武器所在。要訓(xùn)練像 Sora 這樣的文本到視頻模型,您需要成對的視頻及其文本描述。OpenAI 并沒有過多談?wù)撍麄兊臄?shù)據(jù)集,但他們暗示它非常大:“我們從大型語言模型中獲得靈感,這些模型通過互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)訓(xùn)練來獲得通才能力。“ (來源)。OpenAI還進一步發(fā)布了一種用詳細(xì)文本標(biāo)簽對圖像進行注釋的方法,用于收集DALLE-3數(shù)據(jù)集。總體思路是在數(shù)據(jù)集的標(biāo)記子集上訓(xùn)練字幕生成器模型,并使用該字幕生成器模型自動標(biāo)記其余部分。Sora 的數(shù)據(jù)集似乎應(yīng)用了相同的技術(shù)。

四、影響

我們相信 Sora 有一些重要的意義。我們現(xiàn)在將簡要討論這些。

1.視頻模型開始真正有用

Sora 生成的視頻質(zhì)量無論在細(xì)節(jié)水平還是時間一致性方面都明顯取得了突破(例如,當(dāng)物體暫時被遮擋時,模型可以正確處理物體的持久性,并且可以準(zhǔn)確地在水中產(chǎn)生反射) , 例如)。我們相信,視頻的質(zhì)量現(xiàn)在足以滿足某些類型的場景,可以在實際應(yīng)用中使用。例如,Sora 可能很快就會取代一些庫存視頻片段的使用。

視頻生成領(lǐng)域公司的市場地圖

但仍存在一些挑戰(zhàn):目前尚不清楚 Sora 模型的可操縱性如何。由于模型輸出像素,編輯生成的視頻既困難又耗時。圍繞這些模型構(gòu)建直觀的 UI 和工作流程對于使它們有用也是必要的。Runway、Genmo和Pika等公司(參見上面的市場地圖)已經(jīng)在致力于解決這些問題。

2.縮放適用于視頻模型,因此我們預(yù)計會取得快速進展

DiT 論文的一個關(guān)鍵見解是,模型質(zhì)量可以通過額外的計算直接提高,如上所述。這類似于大模型觀察到的縮放定律。因此,隨著這些模型接受越來越多的計算訓(xùn)練,我們應(yīng)該期望視頻生成模型的質(zhì)量能夠取得快速的進一步進步。Sora 清楚地證明了這個方法確實有效,我們期望 OpenAI 和其他人在這方面加倍努力。

3.合成數(shù)據(jù)生成和數(shù)據(jù)增強

在機器人和自動駕駛汽車等領(lǐng)域,數(shù)據(jù)本質(zhì)上是稀缺的:沒有充滿機器人執(zhí)行任務(wù)或汽車駕駛的互聯(lián)網(wǎng)。因此,通常通過模擬訓(xùn)練或在現(xiàn)實世界中大規(guī)模收集數(shù)據(jù)(或兩者的結(jié)合)來解決這些問題。然而,這兩種方法都很困難,因為模擬數(shù)據(jù)通常不切實際。大規(guī)模收集現(xiàn)實世界的數(shù)據(jù)成本高昂,而且為罕見事件收集足夠多的數(shù)據(jù)也具有挑戰(zhàn)性。

圖片圖片

通過修改視頻的某些屬性來增強視頻的插圖,在本例中,在茂密的叢林環(huán)境(右)中渲染原始視頻(左)。圖片取自Sora 技術(shù)報告。

我們相信像 Sora 這樣的模型在這里會非常有用。我們認(rèn)為類似 Sora 的模型可以用來直接生成完全合成的數(shù)據(jù)。Sora 還可用于數(shù)據(jù)增強,將現(xiàn)有視頻轉(zhuǎn)換為不同的外觀。上面說明了第二點,Sora 將一輛紅色汽車在森林道路上行駛的視頻轉(zhuǎn)換為茂密的叢林風(fēng)景。您可以想象使用相同的技術(shù)來重新渲染白天與夜晚的場景或改變天氣條件。

4.模擬和世界模型

一個有前途的研究方向是學(xué)習(xí)所謂的世界模型。如果足夠準(zhǔn)確,這些世界模型允許人們直接在其中訓(xùn)練代理,或者它們可以用于規(guī)劃和搜索。

像 Sora 這樣的模型似乎直接從視頻數(shù)據(jù)中隱式地學(xué)習(xí)了現(xiàn)實世界如何運作的基本模擬。這種“緊急模擬”目前存在缺陷,但仍然令人興奮:它表明我們也許能夠從視頻中大規(guī)模訓(xùn)練這些世界模型。此外,Sora 似乎能夠模擬非常復(fù)雜的場景,如液體、光的反射、織物和頭發(fā)的運動。OpenAI 甚至將他們的技術(shù)報告命名為“視頻生成模型作為世界模擬器”,這清楚地表明他們認(rèn)為這是他們模型最重要的方面。

最近,DeepMind 的Genie 模型展示了類似的效果:通過僅對視頻游戲視頻進行訓(xùn)練,該模型學(xué)會模擬這些游戲(并提出新游戲)。在這種情況下,模型甚至可以在不直接觀察動作的情況下學(xué)習(xí)以動作為條件。同樣,我們的目標(biāo)是在這些模擬中直接進行學(xué)習(xí)。

圖片圖片

來自 Google DeepMind 的“Genie:生成交互環(huán)境”介紹。

結(jié)合起來,我們相信像 Sora 和 Genie 這樣的模型可能會非常有用,最終可以大規(guī)模地訓(xùn)練實體代理(例如機器人)來完成現(xiàn)實世界的任務(wù)。但也存在局限性:由于這些模型是在像素空間中訓(xùn)練的,因此它們會模擬每個細(xì)節(jié),例如風(fēng)如何移動草葉,即使這與手頭的任務(wù)完全無關(guān)。雖然潛在空間被壓縮,但它仍然必須保留大量信息,因為我們需要能夠映射回像素,因此尚不清楚是否可以在這個潛在空間中有效地進行規(guī)劃。

五、算力大小估算

在 Factorial Funds,我們喜歡查看有多少計算量用于訓(xùn)練和推理。這很有用,因為它可以預(yù)測未來需要多少計算。然而,估計這些數(shù)字也很困難,因為有關(guān)用于訓(xùn)練 Sora 的模型大小和數(shù)據(jù)集的詳細(xì)信息很少。因此,需要注意的是,本節(jié)中的估計值高度不確定,因此應(yīng)對它們持保留態(tài)度。

1.將訓(xùn)練計算從 DiT 外推到 Sora

關(guān)于 Sora 的詳細(xì)信息非常少,但我們可以再次查看DiT 論文,它顯然是 Sora 的基礎(chǔ),并推斷其中提供的計算數(shù)據(jù)。最大的 DiT 模型 DiT-XL 具有 6.75 億個參數(shù),并且使用大約 10× 21 FLOPS 的總計算預(yù)算進行訓(xùn)練。[3]為了使這個數(shù)字更容易理解,這相當(dāng)于大約 0.4 個 Nvidia H100 1 個月(或單個 H100 12 天)。

現(xiàn)在,DiT 僅對圖像進行建模,而 Sora 是視頻模型。Sora 可以生成長達 1 分鐘的視頻。如果我們假設(shè)視頻以 24fps 編碼,則視頻最多包含 1,440 幀。Sora 的像素到潛在映射似乎在空間和時間上都進行了壓縮。如果我們假設(shè)與 DiT 論文 (8x) 相同的壓縮率,我們最終會在潛在空間中得到 180 幀。因此,當(dāng)我們簡單地將其外推到視頻時,我們獲得了比 DiT 180 倍的計算乘數(shù)。

我們進一步認(rèn)為 Sora 明顯大于 675M 參數(shù)。我們估計 20B 參數(shù)模型是可行的,這使我們的計算量比 DiT 多了 30 倍。

最后,我們相信 Sora 接受的訓(xùn)練數(shù)據(jù)集比 DiT 大得多。DiT 在批量大小為 256 的情況下接受了 3M 訓(xùn)練步驟的訓(xùn)練,即總共 768M 圖像(請注意,由于 ImageNet 僅包含 14M 圖像,因此相同的數(shù)據(jù)重復(fù)了很多次)。Sora 似乎接受了圖像和視頻混合的訓(xùn)練,但除此之外我們對數(shù)據(jù)集幾乎一無所知。因此,我們做出簡單的假設(shè),Sora 的數(shù)據(jù)集由 50% 的靜態(tài)圖像和 50% 的視頻組成,并且該數(shù)據(jù)集比 DiT 使用的數(shù)據(jù)集大 10 倍到 100 倍。然而,DiT 在相同的數(shù)據(jù)點上重復(fù)訓(xùn)練,如果有更大的數(shù)據(jù)集可用,這可能不是最佳的。因此,我們認(rèn)為 4-10 倍的計算乘數(shù)是更合理的假設(shè)。

將上述內(nèi)容放在一起并考慮附加數(shù)據(jù)集計算的低估計和高估計,我們得出以下計算:[4]

  • 低數(shù)據(jù)集估計:10 21 FLOPS × 30 × 4 × (180 / 2) ≈ 1.1x10 25 FLOPS
  • 高數(shù)據(jù)集估計:10 21 FLOPS × 30 × 10 × (180 / 2) ≈ 2.7x10 25 FLOPS

這相當(dāng)于 1 個月內(nèi) 4,211 - 10,528 臺 Nvidia H100。

這里,有一個計算公式:DiT 的基礎(chǔ)計算 × 模型大小增益 × 數(shù)據(jù)集大小增益× 由于 180 幀視頻數(shù)據(jù)但僅占數(shù)據(jù)集的 50% 而導(dǎo)致的計算系數(shù)

2.推理與訓(xùn)練計算

我們傾向于關(guān)注的另一個重要考慮因素是訓(xùn)練計算與推理計算的比較。從概念上講,訓(xùn)練計算量非常大,但也是一次性成本。相比之下,推理計算要小得多,但每一代都會發(fā)生。因此,推理計算隨著用戶數(shù)量的增加而擴展,并且隨著模型的廣泛使用而變得越來越重要。

因此,查看“收支平衡點”是有用的,即用于推理的計算量多于訓(xùn)練期間的計算量的點。

圖片圖片

DiT(左)和 Sora(右)的訓(xùn)練與推理計算比較。對于 Sora 來說,我們的數(shù)據(jù)是基于上述估計,因此并不完全可靠。我們還展示了訓(xùn)練計算的兩種估計:一種是低估計(假設(shè)數(shù)據(jù)集大小為 4 倍乘數(shù)),一種是高估計(假設(shè)數(shù)據(jù)集大小為 10 倍乘數(shù))。

對于上面的數(shù)字,我們再次使用 DiT 來推斷 Sora。對于 DiT,最大的模型 (DiT-XL) 每步使用 524×10 9 FLOPS,而 DiT 使用 250 個擴散步驟來生成單個圖像,總共 131×10 12 FLOPS。我們可以看到,生成 760 萬張圖像后就達到了收支平衡點,此后推理計算占據(jù)主導(dǎo)地位。作為參考,用戶每天向 Instagram 上傳大約 9500 萬張圖片。

對于 Sora,我們將 FLOPS 推斷為 524×10 9 FLOPS × 30 × 180 ≈ 2.8×10 15 FLOPS。如果我們?nèi)匀患僭O(shè)每個視頻有 250 個擴散步驟,則每個視頻總共需要 708×10 15 FLOPS。作為參考,這相當(dāng)于每個 Nvidia H100 每小時生成約 5 分鐘的視頻。[5]在生成 15.3M(低)到 38.1M(高)分鐘的視頻后達到收支平衡點,此后花費的推理量多于訓(xùn)練計算量。作為參考,每天大約有 4300 萬分鐘的視頻上傳到 YouTube。

一些注意事項:對于推理而言,F(xiàn)LOPS 并不是對推理重要的唯一方面。例如,內(nèi)存帶寬是另一個重要因素。此外,人們正在積極研究減少擴散步驟的數(shù)量,這可能會大大減少計算強度,從而加快推理速度。FLOPS 利用率在訓(xùn)練和推理之間也可能有所不同,在這種情況下,它們就變得很重要。

3.跨不同模型的推理計算

我們還研究了每單位輸出的推理計算在不同模態(tài)的不同模型中的表現(xiàn)。這里的想法是了解不同類別的模型需要多少計算密集型推理,這對計算規(guī)劃和需求有直接影響。重要的是要了解每個模型的輸出單位都會變化,因為它們以不同的模式運行:對于 Sora,單個輸出是一個 1 分鐘長的視頻,對于 DiT 來說,它是單個 512x512px 圖像,對于 Llama 2 和 GPT-4我們將單個輸出定義為包含 1,000 個文本標(biāo)記的單個文檔。[6]

圖片圖片

每個輸出單位的模型推理計算比較(對于 Sora,1 分鐘視頻,對于 GPT-4 和 LLama 2 1000 個文本標(biāo)記,對于 DiT,單個 512x512px 圖像)。我們可以看到,我們對 Sora 推理的估計的計算成本要高出幾個數(shù)量級。

我們比較了 Sora、DiT-XL、LLama 2 70B 和 GPT-4,并將它們相互繪制出來(使用 FLOPS 的對數(shù)標(biāo)度)。對于 Sora 和 DiT,我們使用上面的推斷估計。對于 Llama 2 和 GPT-4,我們使用FLOPS = 2 × 參數(shù)數(shù)量 × 生成令牌數(shù)量的經(jīng)驗法則來估計 FLOPS 數(shù)量。對于 GPT-4,我們假設(shè)模型是專家混合 (MoE) 模型,每個專家有 220B 個參數(shù),每個前向傳遞有 2 個活躍專家(來源)。請注意,對于 GPT-4,這些數(shù)字尚未得到 OpenAI 的確認(rèn),因此我們再次需要對它們持保留態(tài)度。

我們可以看到,DiT 和 Sora 等基于擴散的模型的推理成本要高得多:DiT-XL(具有 675M 的模型)消耗的推理計算量與 LLama 2(具有 70B 參數(shù)的模型)大致相同。我們可以進一步看到,對于推理工作負(fù)載,Sora 甚至比 GPT-4 還要昂貴幾個數(shù)量級。

再次需要注意的是,上述許多數(shù)字都是估計值,并且依賴于簡化的假設(shè)。例如,它們沒有考慮 GPU 的實際 FLOPS 利用率、內(nèi)存容量和內(nèi)存帶寬的限制以及推測解碼等先進技術(shù)。

4.假如類 Sora 模型獲得顯著的市場份額,推理的成本怎么算?

在本節(jié)中,我們根據(jù) Sora 的計算要求進行推斷,看看需要多少 Nvidia H100 才能大規(guī)模運行類似 Sora 的模型,這意味著 AI 生成的視頻在 TikTok 和 YouTube 等流行視頻平臺上實現(xiàn)了顯著的市場滲透。

  • 我們假設(shè)每臺 Nvidia H100 每小時制作 5 分鐘的視頻(詳情見上文),相當(dāng)于每臺 H100 每天制作 120 分鐘的視頻
  • TikTok:每天 1700 萬分鐘視頻(3400 萬視頻總數(shù) × 平均時長 30 秒),假設(shè)人工智能滲透率為 50%(來源)
  • YouTube:每天 4300 萬分鐘視頻,假設(shè)人工智能滲透率為 15%(大部分視頻長度低于 2 分鐘)
  • AI 每天制作的視頻總數(shù):850 萬 + 650 萬 = 1070 萬分鐘
  • 支持 TikTok 和 YouTube 上的創(chuàng)作者社區(qū)所需的 Nvidia H100 總數(shù):1070 萬 / 120 ≈ 89k
  • 由于需要考慮多種因素,這個數(shù)字可能太低:
  • 我們假設(shè) FLOPS 利用率為 100%,并且不考慮內(nèi)存和通信瓶頸。實際上,50% 的利用率更為現(xiàn)實,這會增加 2 倍。
  • 需求并不是在時間上均勻分布的,而是突發(fā)性的。峰值需求尤其成問題,因為您需要成比例更多的 GPU 才能仍然服務(wù)所有流量。我們認(rèn)為峰值需求使所需 GPU 的最大數(shù)量又增加了 2 倍。
  • 創(chuàng)作者可能會生成多個候選視頻,以從這些候選視頻中選擇最好的一個。我們做出保守的假設(shè),即每個上傳視頻平均生成 2 個候選視頻,這又增加了 2 倍的系數(shù)。
  • 總共,我們在峰值時擁有約 72 萬個 Nvidia H100 GPU

這表明我們相信,隨著生成式人工智能模型變得越來越流行和依賴,推理計算將占據(jù)主導(dǎo)地位。對于像 Sora 這樣基于擴散的模型,更是如此。

另請注意,擴大模型規(guī)模將進一步大幅增加推理計算需求。另一方面,其中一些問題可以通過更優(yōu)化的推理技術(shù)和跨堆棧的其他優(yōu)化來應(yīng)對。

說明性視頻內(nèi)容創(chuàng)建用例將推動對 OpenAI 的 Sora 等模型的最直接需求說明性視頻內(nèi)容創(chuàng)建用例將推動對 OpenAI 的 Sora 等模型的最直接需求


【備注】

  1. 一個“token”大致可以理解為一個英文單詞。
  2. 這篇論文由 William Peebles 共同撰寫,他后來被 OpenAI 聘用,并且是 Sora 技術(shù)報告的主要作者之一。
  3. 請參見“使用 Transformer 的可擴展擴散模型”,圖 9。
  4. 公式為:DiT 的基礎(chǔ)計算 × 模型大小增加 × 數(shù)據(jù)集大小增加 × 由于 180 幀視頻數(shù)據(jù)但僅占數(shù)據(jù)集的 50% 而導(dǎo)致的計算增加。
  5. 忽略內(nèi)存限制,只考慮 FLOPS。
  6. 作為參考,維基百科文章平均每篇大約有 670 個單詞。
責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2024-04-07 00:20:00

2024-03-15 09:00:00

2024-01-19 13:21:21

OpenAI人工智能AGI

2024-01-19 12:34:39

2024-07-23 13:10:20

2024-03-13 11:49:04

人工智能Meta數(shù)據(jù)中心

2024-07-16 13:29:52

2024-03-14 14:49:34

Meta人工智能

2025-01-20 07:30:00

2024-05-27 00:50:00

2023-11-21 09:14:33

微軟Azure AI

2023-08-06 13:01:34

AI開發(fā)

2024-05-27 13:05:20

2024-10-31 13:39:47

2024-12-09 14:00:00

AI生成

2024-07-29 14:06:57

2023-09-09 13:03:17

AI智能

2023-08-13 07:44:18

GPU模型英偉達

2023-08-28 13:06:19

AI模型
點贊
收藏

51CTO技術(shù)棧公眾號