Flux:Midjourney的新圖像模型挑戰(zhàn)者 原創(chuàng)
Black Forest Labs是一家由前Stability.ai開發(fā)人員創(chuàng)立的AI初創(chuàng)公司,旨在為圖像和視頻創(chuàng)建尖端的生成式 AI 模型。這家初創(chuàng)公司聲稱,其第一個(gè)模型系列Flux.1為文本到圖像的生成設(shè)定新的標(biāo)準(zhǔn)。
Black Forest Labs總部位于德國弗萊堡,由AI研究人員和開發(fā)人員組成,他們?cè)赟tability.ai從事Stable Diffusion和其他生成式 AI 模型的工作。團(tuán)隊(duì)在今年春季從Stability.ai離開,到目前為止已經(jīng)籌集了3100萬美元的種子資金。本輪融資由Andreessen Horowitz領(lǐng)投,天使投資人包括Brendan Iribe、Michael Ovitz、Garry Tan、Timo Aila和Vladlen Koltun。General Catalyst 和 M?tchVC 也進(jìn)行了投資。這家初創(chuàng)公司的創(chuàng)始人過往有令人印象深刻的成就,在VQGAN、潛在擴(kuò)散、穩(wěn)定擴(kuò)散XL、穩(wěn)定視頻擴(kuò)散等領(lǐng)域的創(chuàng)新做出貢獻(xiàn)。
Black Forest Labs發(fā)布了Flux.1文本到圖像的生成模型套件。這些模型“在圖像細(xì)節(jié)、提示一致性、風(fēng)格多樣性和場(chǎng)景的復(fù)雜性方面都達(dá)到了最新的水準(zhǔn)”。從語言中可以看出這家公司對(duì)于領(lǐng)頭羊的位置信心十足。Flux迄今為止最大的SOTA開源文本到圖像模型,由Black Forest Labs開發(fā),F(xiàn)lux 以令人印象深刻的12B參數(shù)突破了創(chuàng)造力和性能的界限。
例如輸入“一個(gè)戴著墨鏡、身穿夏威夷襯衫的大土豆躺在沙灘巾上,周圍環(huán)繞著色彩繽紛的沙灘球和人字拖。附近水果在打沙灘排球。在背景中,一座燈塔沙雕矗立在一輛帶有巨大圓錐體的冰淇淋車旁邊,為快樂的海灘游客提供美食。這個(gè)場(chǎng)景捕捉到了有趣、俏皮的夏日氛圍,附近有海浪拍打的聲音?!?/p>
所有 Flux.1 型號(hào)都支持多種縱橫比和分辨率,范圍從 0.1 到 2.0 百萬像素。根據(jù)Black Forest Labs的數(shù)據(jù),F(xiàn)lux.1 [pro]和[dev]在視覺質(zhì)量、提示跟蹤、大小/寬高比可變性、排版和輸出多功能性方面優(yōu)于Midjourney v6.0、DALL-E 3 (HD)和SD3-Ultra等流行型號(hào)。
Flux.1 [schnell](意為“快速”)被“吹捧”為最先進(jìn)的快速模型,性能優(yōu)于同類競(jìng)爭(zhēng)對(duì)手,甚至優(yōu)于一些非蒸餾模型,如 Midjourney。<小編試了一下,它對(duì)于細(xì)節(jié)的捕獲還是很贊的,可能受限于訓(xùn)練樣本,有些單詞它沒有辦法很直接的聯(lián)想和生成。比如輸入一個(gè)卡通的小孩參加2024年的巴黎奧運(yùn)會(huì),下圖為輸出產(chǎn)物。>
目前,F(xiàn)lux.1 有三種變體:
- Flux.1 [pro]這是一款旗艦型號(hào),旨在提供最先進(jìn)的性能以及卓越的圖像質(zhì)量、細(xì)節(jié)和多樣性。它非常適合需要頂級(jí)結(jié)果的專業(yè)應(yīng)用,可是通過fal.ai進(jìn)行商業(yè)使用。
- Flux.1 [dev] FLUX.1 [dev] 是pro 型的蒸餾變體?<鏈接回放>,可用于非商業(yè)用途。它提供相似的質(zhì)量和響應(yīng)能力,是研究和開發(fā)的理想選擇。
- Flux.1 [schnell]該模型針對(duì)速度進(jìn)行了優(yōu)化,非常適合本地開發(fā)和個(gè)人項(xiàng)目。它遵從Apache 2.0的許可,確保了開發(fā)的易訪問性和靈活性。?
