自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Stable Diffusion 3開(kāi)源秒翻車(chē),畫(huà)人好掉san

人工智能 新聞
2月發(fā)布模型后,一開(kāi)始,官方說(shuō)的是搞完RLHF就開(kāi)源,結(jié)果大家伙等了3個(gè)多月,官方放出的還是只有API。直到現(xiàn)在,才開(kāi)源了一個(gè)中杯版本。

沒(méi)想到……Stable Diffusion 3開(kāi)源即出現(xiàn)翻車(chē)案例。

生成一個(gè)躺在草地上的女孩,結(jié)果長(zhǎng)這樣?

圖片

而且不是個(gè)例,只要是和人(整體)相關(guān)的內(nèi)容,生成結(jié)果都有點(diǎn)掉san。

(前方高能)

但如果是局部,比如只生成人臉,確實(shí)很nice。

圖片

清晰度、寫(xiě)字、寫(xiě)實(shí)性等方面都有明顯提升。

圖片

對(duì)于復(fù)雜長(zhǎng)提示詞的理解也很到位,有網(wǎng)友發(fā)現(xiàn)提示越長(zhǎng)它畫(huà)的越好。

圖片
圖片

那么問(wèn)題來(lái)了,為啥偏偏畫(huà)不好人類(lèi)?

問(wèn)題可能在于數(shù)據(jù)集

先來(lái)看看SD3開(kāi)源的具體情況。

本次開(kāi)源的版本是Stable Diffusion 3 Medium(中杯)。

它的規(guī)模為20億參數(shù),在筆記本上就能跑了。

官方強(qiáng)調(diào)的屬性有5方面,逐一來(lái)看:

  • 整體質(zhì)量和寫(xiě)實(shí)

可生成出色的細(xì)節(jié),包括色彩、光線、強(qiáng)寫(xiě)實(shí)等,帶來(lái)靈活風(fēng)格的高質(zhì)量輸出。

通過(guò)16通道VAE,成功解決了其他模型的常見(jiàn)缺陷,比如手部和面部的寫(xiě)實(shí)問(wèn)題。

  • 提示詞理解

可以理解復(fù)雜長(zhǎng)提示,包含空間推理、元素組合、動(dòng)作、風(fēng)格等。3個(gè)文本編碼器可以全部或者組合使用,方便用戶(hù)平衡性能和顯存。

  • 有效利用資源

對(duì)VRAM占用很低,非常適合在消費(fèi)級(jí)GPU上運(yùn)行,且性能不降低。

  • 微調(diào)

能夠利用小數(shù)據(jù)集微調(diào),方便定制化。

目前在Hugging Face上已經(jīng)可以下載模型權(quán)重。非商業(yè)用途可免費(fèi)下載使用,商業(yè)用途需要先拿授權(quán)。

圖片

那么為啥升級(jí)后還是會(huì)翻車(chē)?

有人發(fā)現(xiàn),如果細(xì)看“躺在草坪上的女孩”這張圖像,會(huì)發(fā)現(xiàn)它在局部細(xì)節(jié)上確實(shí)還可以,甚至很棒。

圖片

草地上的影子、衣物上反射的光線、頭發(fā)的質(zhì)地……都遵循了物理規(guī)律。

圖片

但人物整體就不敢恭維了。

不少網(wǎng)友都認(rèn)為,這就是問(wèn)題的關(guān)鍵。

我認(rèn)為他們的NSFW過(guò)濾器,把所有人類(lèi)圖像都判定為了NSFW。

圖片

這個(gè)過(guò)濾器全稱(chēng)是filtering out adult content,作用在于過(guò)濾掉不合規(guī)的成人內(nèi)容。

SD2發(fā)布時(shí)就出現(xiàn)過(guò)類(lèi)似的問(wèn)題,研究人員發(fā)現(xiàn)審查這部分內(nèi)容可能影響了模型對(duì)人體結(jié)構(gòu)的理解。

后面的SD2.1和SDXL版本有所緩解。

這次SD3的翻車(chē),暴露了一個(gè)問(wèn)題:過(guò)于嚴(yán)格的數(shù)據(jù)審核,可能誤刪了一些無(wú)害的成人圖像,所以現(xiàn)在模型沒(méi)法理解人體結(jié)構(gòu)。

有網(wǎng)友就陰陽(yáng)說(shuō),沒(méi)多久之前SD還能和Midjourney競(jìng)爭(zhēng),現(xiàn)在一比,就像個(gè)笑話。

至少我們的數(shù)據(jù)集是安全和合乎道德的。

圖片

Reddit上“SD3-2B發(fā)布是個(gè)笑話嗎”的帖子,熱度已經(jīng)沖到了800+。

圖片

當(dāng)然,除了技術(shù)以外的原因,還不少人覺(jué)得SD3的性能不佳更進(jìn)一步暴露了Stability AI的內(nèi)部混亂。

我猜他們現(xiàn)在可以安全合規(guī)地破產(chǎn)了。

圖片

欠債1億、疑似求賣(mài)身

Stability AI的動(dòng)蕩,從SD3開(kāi)源的一再延期就能窺見(jiàn)端倪。

2月發(fā)布模型后,一開(kāi)始,官方說(shuō)的是搞完RLHF就開(kāi)源,結(jié)果大家伙等了3個(gè)多月,官方放出的還是只有API。直到現(xiàn)在,才開(kāi)源了一個(gè)中杯版本。

圖片

與此同時(shí),公司CEO Emad辭職+退出董事會(huì)。核心團(tuán)隊(duì)也被曝集體離職。

今年5月,據(jù)The Information消息,這家初創(chuàng)公司已經(jīng)面臨嚴(yán)重現(xiàn)金短缺:第一季度收入不到500萬(wàn)美元,而虧損超過(guò)了3000萬(wàn)美元。同時(shí)欠了云廠商和其他企業(yè)近1億美元,“求賣(mài)身”的消息不斷傳出。

值得一提的是,消息稱(chēng)SD3還將開(kāi)源更多版本,包括4B和8B。

不知道更大版本效果會(huì)如何呢?

官網(wǎng)傳送門(mén):https://stability.ai/news/stable-diffusion-3-medium

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2023-04-20 17:47:57

模型開(kāi)源

2024-06-06 15:44:03

2023-01-10 16:08:04

人工智能擴(kuò)散模型

2024-09-14 14:09:40

2023-02-24 15:09:04

安卓

2023-05-26 15:53:48

MidjourneyAI圖像

2023-07-14 13:34:34

StableDiffusion模型

2024-03-06 23:23:36

2024-03-06 13:58:00

測(cè)評(píng)模型

2025-02-07 11:00:00

模型開(kāi)源AI

2023-11-13 07:03:13

OpenAI一致性解碼器

2023-06-12 10:25:45

模型訓(xùn)練

2023-04-21 10:37:40

語(yǔ)言模型

2023-11-22 11:22:57

AI模型

2022-06-06 10:54:18

模型訓(xùn)練開(kāi)源

2023-05-12 13:45:02

芯片AI視覺(jué)

2024-02-23 11:09:44

AI模型

2024-12-06 10:21:04

2023-04-27 15:32:48

谷歌模型

2023-11-17 15:50:27

AI訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)