全員離開老東家,Stable Diffusion一作帶團創(chuàng)業(yè),出手即擊敗MJ v6、SD3,還開源
還記得今年 3 月底,從 AI 初創(chuàng)公司 Stability AI 離職的研究科學家 Robin Rombach 嗎?作為開發(fā)出文生圖模型 Stable Diffusion 的兩位主要作者之一,他于 2022 年加入 Stability AI。
如今,在從 Stability AI 離職近五個月后,Robin Rombach 發(fā)推宣布了自己創(chuàng)業(yè)的好消息!
他成立了「Black Forest Labs」,旨在推進用于圖像和視頻的 SOTA 高質(zhì)量生成式深度學習模型,并開放給盡可能多的人使用。
團隊成員由杰出的 AI 研究者和工程師組成,他們之前的代表性工作包括 VQGAN 和 Latent Diffusion、圖像和視頻生成領(lǐng)域的 Stable Diffusion 模型(包括 Stable Diffusion XL、Stable Video Diffusion 和 Rectified Flow Transformers)以及用于超快實時圖像合成的 Adversarial Diffusion Distillation。
值得注意的是,除了 Robin Rombach 之外,Stable Diffusion 還有三位作者成為了創(chuàng)始團隊成員,包括 Andreas Blattmann、 Dominik Lorenz 和 Patrick Esser。他們都在今年早些時候離開了 Stability AI,有人猜測他們當初離開就是為了自己創(chuàng)業(yè)。
目前,該 Labs 已經(jīng)完成 3100 萬美元的種子輪融資,由 Andreessen Horowitz 領(lǐng)投。其他投資者包括了天使投資人 Brendan Iribe、Michael Ovitz、Garry Tan、Timo Aila、Vladlen Koltun 以及一些知名 AI 研究和創(chuàng)業(yè)專家。此外還獲得了來自 General Catalyst 和 M?tchVC 的后續(xù)投資。
該 Labs 還成立了顧問委員會,成員包括在內(nèi)容創(chuàng)作行業(yè)具有廣泛經(jīng)驗的科技大佬 Michael Ovitz 和神經(jīng)風格遷移先驅(qū)、歐洲開放 AI 研究的頂級專家 Matthias Bethge 教授。
當然,Black Forest Labs 推出了首個模型系列「FLUX.1」,包含了以下三個變體模型。
第一個變體是 FLUX.1 [pro],它是全新的 SOTA 文生圖模型,具有極其豐富的圖像細節(jié)、極強的 prompt 遵循能力和多樣化風格。目前可以通過 API 使用。
- API 地址:https://docs.bfl.ml/
第二個是 FLUX.1 [dev],它是 FLUX.1 [pro] 的開放權(quán)重、非商用變體,并直接基于后者蒸餾而成。該模型的表現(xiàn)優(yōu)于 Midjourney 和 Stable Diffusion 3 等其他圖像模型。推理代碼和權(quán)重已經(jīng)放在了 GitHub 上。下圖是與競品圖像模型的比較。
- GitHub 地址:https://github.com/black-forest-labs/flux
第三個是開源的 FLUX.1 [schnell],它是超高效的 4-step 模型,遵循了 Apache 2.0 協(xié)議。該模型在性能上與 [dev]、[pro] 非常接近,可以在 Hugging Face 上使用。
- Hugging Face 地址:https://huggingface.co/black-forest-labs/FLUX.1-schnell
與此同時,Black Forest Labs 也開始宣傳自己了。
下一步的目標是推出所有人可用的 SOTA 文生視頻模型,大家可以期待一波了!
一出手即王炸:文生圖模型系列「FLUX.1」來襲
這次 Black Forest Labs 推出的三款模型,均采用了多模態(tài)和并行擴散 Transformer 的混合架構(gòu)。不同于其他家將一系列模型按參數(shù)量分為「中杯」、「大杯」、「超大杯」,F(xiàn)LUX.1 家族的成員統(tǒng)一擴展為 120 億參數(shù)的龐大規(guī)模。
研究團隊采用了流匹配(Flow Matching)框架對之前 SOTA 擴散模型進行了升級。從官方博客的注釋中可以推測,研究團隊沿用了還在 Stability AI 任職時(今年 3 月)提出的 Rectified flow+Transformer 方法。
- 論文鏈接:https://arxiv.org/pdf/2403.03206.pdf
他們還引入了旋轉(zhuǎn)位置嵌入和并行注意力層。這些方法有效提高了模型生成圖片的性能,在硬件設(shè)備上生成圖片的速度也變得更快了。
這次 Black Forest Labs 并未公開模型的詳細技術(shù),不過更詳細的技術(shù)報告將很快公布。
這三款模型在各自的領(lǐng)域都確立了新標準。無論是生成圖像的美觀度、圖像與文本提示詞的附和度、尺寸 / 寬高比可變性、還是輸出格式的多樣性, FLUX.1 [pro] 和 FLUX.1 [dev] 都超越了一系列當紅圖片生成模型,如 Midjourney v6.0、DALL?E 3 (HD) 以及老東家 SD3-Ultra。
FLUX.1 [schnell] 是迄今為止最先進的少步驟模型(few-step model),不僅超越了同類競爭對手,還超越了像 Midjourney v6.0 和 DALL?E 3 (HD) 這樣的強大非蒸餾模型。
模型經(jīng)過專門微調(diào),以保留預訓練階段的全部輸出多樣性。與當前最先進的技術(shù)相比,F(xiàn)LUX.1 系列模型還保留了充分的進步空間。
所有 FLUX.1 系列的模型都支持多種縱橫比和分辨率,從 0.1 到 2 百萬像素,都能拿下。
已經(jīng)有動作快的網(wǎng)友搶先體驗上了,看來 Black Forest Labs 反復強調(diào)的「最強」,并不只是自賣自夸。
簡單的提示詞,就可以打造出這樣的效果,仔細看羊駝身上墊子的花紋,也沒有出現(xiàn)扭曲和變形。
提示詞:An emerald Emu riding on top of a white llama.
如果不說這是 AI 生成的圖片,也挺難分辨這是不是攝影師拍下的照片。
提示詞:A horse is playing with two aligators at the river.
含有文字的圖像,也能輕松拿捏,景深也處理得很符合真實的鏡頭感。
三款模型中,性能稍弱的 FLUX.1 [schnell],用起來也是又快又強,有網(wǎng)友曬出在 Mac 上運行的體驗,不得不感慨,真是立等可取。
不太了解 Stable Diffusion 的作者們和 Stability AI 之間「恩怨情仇」的網(wǎng)友感嘆道:不知道從哪里冒出來了個文生圖模型,簡直強到可怕。
關(guān)于 Stable Diffusion 作者和前司 Stability AI 的故事,可以看看機器之心之前的報道:價值1億美金時,Stable Diffusion背后的團隊開始互撕,誰才是真官方?
除了三款最強的文生圖模型,Black Forest Labs 還憋著「大招」呢。有了如此強大的圖片生成模型的能力,Black Forest Labs 為視頻生成模型打下了堅實的基礎(chǔ),正如他們所預告的,這些計算機視覺的頂級科學家們正朝著為所有人提供的最先進文生視頻技術(shù)的目標前進。