Stable Diffusion 3開(kāi)源秒翻車(chē),畫(huà)人好掉san
沒(méi)想到……Stable Diffusion 3開(kāi)源即出現(xiàn)翻車(chē)案例。
生成一個(gè)躺在草地上的女孩,結(jié)果長(zhǎng)這樣?
而且不是個(gè)例,只要是和人(整體)相關(guān)的內(nèi)容,生成結(jié)果都有點(diǎn)掉san。
(前方高能)
但如果是局部,比如只生成人臉,確實(shí)很nice。
清晰度、寫(xiě)字、寫(xiě)實(shí)性等方面都有明顯提升。
對(duì)于復(fù)雜長(zhǎng)提示詞的理解也很到位,有網(wǎng)友發(fā)現(xiàn)提示越長(zhǎng)它畫(huà)的越好。
那么問(wèn)題來(lái)了,為啥偏偏畫(huà)不好人類(lèi)?
問(wèn)題可能在于數(shù)據(jù)集
先來(lái)看看SD3開(kāi)源的具體情況。
本次開(kāi)源的版本是Stable Diffusion 3 Medium(中杯)。
它的規(guī)模為20億參數(shù),在筆記本上就能跑了。
官方強(qiáng)調(diào)的屬性有5方面,逐一來(lái)看:
- 整體質(zhì)量和寫(xiě)實(shí)性
可生成出色的細(xì)節(jié),包括色彩、光線、強(qiáng)寫(xiě)實(shí)等,帶來(lái)靈活風(fēng)格的高質(zhì)量輸出。
通過(guò)16通道VAE,成功解決了其他模型的常見(jiàn)缺陷,比如手部和面部的寫(xiě)實(shí)問(wèn)題。
- 提示詞理解
可以理解復(fù)雜長(zhǎng)提示,包含空間推理、元素組合、動(dòng)作、風(fēng)格等。3個(gè)文本編碼器可以全部或者組合使用,方便用戶(hù)平衡性能和顯存。
- 有效利用資源
對(duì)VRAM占用很低,非常適合在消費(fèi)級(jí)GPU上運(yùn)行,且性能不降低。
- 微調(diào)
能夠利用小數(shù)據(jù)集微調(diào),方便定制化。
目前在Hugging Face上已經(jīng)可以下載模型權(quán)重。非商業(yè)用途可免費(fèi)下載使用,商業(yè)用途需要先拿授權(quán)。
那么為啥升級(jí)后還是會(huì)翻車(chē)?
有人發(fā)現(xiàn),如果細(xì)看“躺在草坪上的女孩”這張圖像,會(huì)發(fā)現(xiàn)它在局部細(xì)節(jié)上確實(shí)還可以,甚至很棒。
草地上的影子、衣物上反射的光線、頭發(fā)的質(zhì)地……都遵循了物理規(guī)律。
但人物整體就不敢恭維了。
不少網(wǎng)友都認(rèn)為,這就是問(wèn)題的關(guān)鍵。
我認(rèn)為他們的NSFW過(guò)濾器,把所有人類(lèi)圖像都判定為了NSFW。
這個(gè)過(guò)濾器全稱(chēng)是filtering out adult content,作用在于過(guò)濾掉不合規(guī)的成人內(nèi)容。
SD2發(fā)布時(shí)就出現(xiàn)過(guò)類(lèi)似的問(wèn)題,研究人員發(fā)現(xiàn)審查這部分內(nèi)容可能影響了模型對(duì)人體結(jié)構(gòu)的理解。
后面的SD2.1和SDXL版本有所緩解。
這次SD3的翻車(chē),暴露了一個(gè)問(wèn)題:過(guò)于嚴(yán)格的數(shù)據(jù)審核,可能誤刪了一些無(wú)害的成人圖像,所以現(xiàn)在模型沒(méi)法理解人體結(jié)構(gòu)。
有網(wǎng)友就陰陽(yáng)說(shuō),沒(méi)多久之前SD還能和Midjourney競(jìng)爭(zhēng),現(xiàn)在一比,就像個(gè)笑話。
至少我們的數(shù)據(jù)集是安全和合乎道德的。
Reddit上“SD3-2B發(fā)布是個(gè)笑話嗎”的帖子,熱度已經(jīng)沖到了800+。
當(dāng)然,除了技術(shù)以外的原因,還不少人覺(jué)得SD3的性能不佳更進(jìn)一步暴露了Stability AI的內(nèi)部混亂。
我猜他們現(xiàn)在可以安全合規(guī)地破產(chǎn)了。
欠債1億、疑似求賣(mài)身
Stability AI的動(dòng)蕩,從SD3開(kāi)源的一再延期就能窺見(jiàn)端倪。
2月發(fā)布模型后,一開(kāi)始,官方說(shuō)的是搞完RLHF就開(kāi)源,結(jié)果大家伙等了3個(gè)多月,官方放出的還是只有API。直到現(xiàn)在,才開(kāi)源了一個(gè)中杯版本。
與此同時(shí),公司CEO Emad辭職+退出董事會(huì)。核心團(tuán)隊(duì)也被曝集體離職。
今年5月,據(jù)The Information消息,這家初創(chuàng)公司已經(jīng)面臨嚴(yán)重現(xiàn)金短缺:第一季度收入不到500萬(wàn)美元,而虧損超過(guò)了3000萬(wàn)美元。同時(shí)欠了云廠商和其他企業(yè)近1億美元,“求賣(mài)身”的消息不斷傳出。
值得一提的是,消息稱(chēng)SD3還將開(kāi)源更多版本,包括4B和8B。
不知道更大版本效果會(huì)如何呢?
官網(wǎng)傳送門(mén):https://stability.ai/news/stable-diffusion-3-medium