自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Stable Diffusion 3突然發(fā)布！與Sora同架構(gòu)，一切都更逼真了

2024-02-23 07:10:13

詳細(xì)的技術(shù)報(bào)告還未公布，官方目前只透露主要結(jié)合了擴(kuò)散型transformer架構(gòu)以及flow matching。前者實(shí)際上同Sora一樣，附上的技術(shù)論文正是22年William Peebles同謝賽寧合寫的DiT。

足足醞釀一年之多，相比上一代一共進(jìn)化了三大能力。

來(lái)，直接上效果！

首先，是開掛的文字渲染能力。

且看這黑板上的粉筆字：

Go Big or Go Home （不成功便成仁），這個(gè)倒是殺氣騰騰啊～

路牌、公交燈牌的霓虹效果：

還有刺繡上“勾”得快要看到針腳的“晚安”：

作品一擺出，網(wǎng)友就大呼：太精確了。

以至于有人表示：趕緊把中文也安排上啊。

其次，多主題提示能力直接拉滿。

什么意思？你盡管一次性往提示詞中塞入n多“元素”，Stable Diffusion 3：漏一個(gè)算我輸。

吶，仔細(xì)瞅下圖，這里面就有“宇航員”、“穿著芭蕾舞裙的小豬”、“粉色雨傘”、“戴著禮帽的知更鳥”，角落里還有“Stable Diffusion”幾個(gè)大字（可不是什么水?。?/p>

有了這個(gè)能力，一幅作品你想多豐富就有多豐富。

最后，當(dāng)屬圖像質(zhì)量，再次進(jìn)化了一個(gè)度。

光看前面這些圖，就被沖擊到有沒有？！

而各種超清特寫，那是再信手拈來(lái)不過(guò)的了。

心動(dòng)嗎？目前官方已開放排隊(duì)名單，大伙可以前往官網(wǎng)申請(qǐng)。

咳咳，也不得不說(shuō)，最近這AI圈可真是相當(dāng)熱鬧啊。

有網(wǎng)友直呼，我的電腦已經(jīng)Hold不住了……

Stable Diffusion 3來(lái)了！

全新的Stable Diffusion效果有多好，再給大伙奉送一些。

當(dāng)然，所有出圖均來(lái)自官方，比如StabilityAI媒體負(fù)責(zé)人：

不得不說(shuō)，文字效果實(shí)在最為吸人眼球，各種形式都能呈現(xiàn)得相當(dāng)清楚和“應(yīng)景”。

而看到上面這幅圖，不得不想到“Midjourney尷尬亮相學(xué)術(shù)界：為生物學(xué)論文亂配圖”一事——有了SD3之后，我們是不是可以制作非常專業(yè)的學(xué)術(shù)配圖了？

除了這些，SD3的“酒精水墨畫”也相當(dāng)別出心裁：

動(dòng)漫風(fēng)格：

again，你可以在上面加清晰的文字了。

由于目前需要排隊(duì)申請(qǐng)，大伙還不好實(shí)際測(cè)試摸底。

不過(guò)有機(jī)智的網(wǎng)友已經(jīng)用相同的提示詞喂給了Midjourney（v 6.0）。

比如開頭的那張“紅蘋果與黑板字”（prompt：cinematic photo of a red apple on a table in a classroom, on the blackboard are the words “go big or go home” written in chalk）

最終Midjourney給出的結(jié)果如下：

從這組對(duì)比來(lái)看，可以說(shuō)是高下立判——SD3無(wú)論是文字拼寫還是質(zhì)量、色彩協(xié)調(diào)性等方面都更勝一籌。

技術(shù)方面，目前，模型可選擇的參數(shù)范圍在800M到8B。

詳細(xì)的技術(shù)報(bào)告還未公布，官方目前只透露主要結(jié)合了擴(kuò)散型transformer架構(gòu)以及flow matching。

前者實(shí)際上同Sora一樣，附上的技術(shù)論文正是22年William Peebles同謝賽寧合寫的DiT。

DiT首次將Transformer與擴(kuò)散模型結(jié)合到了一起，相關(guān)論文被ICCV 2023錄用為Oral論文。

在該研究中，研究者訓(xùn)練了潛在擴(kuò)散模型，用對(duì)潛在 patch進(jìn)行操作的 Transformer 替換常用的 U-Net 主干網(wǎng)絡(luò)。他們通過(guò)以Gflops衡量的前向傳遞復(fù)雜度來(lái)分析擴(kuò)散 Transformer (DiT) 的可擴(kuò)展性。

而后者flow matching同樣也是來(lái)自22年，由Meta AI以及魏茨曼科學(xué)研究所的科學(xué)家完成。

他們提出了基于連續(xù)歸一化流（CNFs）的生成模型新范式，以及flow matching的概念，這是一種基于回歸固定條件概率路徑的矢量場(chǎng)的免模擬CNFs的方法。結(jié)果發(fā)現(xiàn)使用帶有擴(kuò)散路徑的flow matching，可以訓(xùn)練出來(lái)的模型更穩(wěn)健和穩(wěn)定。

不過(guò)最近看了這么多視頻生成進(jìn)展，也有網(wǎng)友表示：

你覺得呢？

One More Thing

除此之外，也就在前一天，他們的視頻產(chǎn)品Stable Video正式開放公測(cè)。

基于SVD1.1（Stable Video Diffusion 1.1），人人可用。

主要支持文生視頻和圖生視頻兩個(gè)功能。

參考鏈接：
[1]https://stability.ai/news/stable-diffusion-3。
[2]https://arxiv.org/abs/2212.09748。
[3]https://arxiv.org/abs/2210.02747。
[4]https://twitter.com/pabloaumente/status/1760678508173660543。

責(zé)任編輯：姜華來(lái)源：量子位

文字渲染 Sora 人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)