這個(gè)模型,讓前特斯拉AI總監(jiān)Andrej Karpathy沉迷了整整三天!
最近,一個(gè)叫Xander Steenbrugge的AI研究員兼數(shù)碼藝術(shù)家,上傳了一段非常震撼的視頻《跨越時(shí)間之旅》。
地球上的生物大進(jìn)化,從原始海洋起始,到遠(yuǎn)古蜥蜴、恐龍、哺乳動(dòng)物,再到猴子、猩猩、猿人、智人……最后出現(xiàn)了科幻中的未來世界。
而Steenbrugge也激動(dòng)地評(píng)論道:我們正在跨越一個(gè)門檻,生成式人工智能不再只是關(guān)于新穎的美學(xué),而是演變成了一個(gè)驚人的工具,可以構(gòu)建強(qiáng)大的、以人為中心的敘事。Steenbrugge表示,這個(gè)視頻用了36個(gè)連續(xù)的短語。為了找到可能的最佳順序,他嘗試了超過一千種不同的提示和種子,并在代碼中應(yīng)用了許多「提示工程」的技巧,來弄清楚到底哪些是有效的,哪些是無效的。
前特斯拉AI高級(jí)總監(jiān)Andrej Karpathy看完后大受震撼,也忍不住手癢嘗試了一波。
「超現(xiàn)實(shí)的蒸汽朋克神經(jīng)網(wǎng)絡(luò)機(jī)器,呈大腦形狀,放置在一個(gè)基座上,上面布滿了齒輪制成的神經(jīng)元」,在輸入這段文字后,他的大作也生成了。
2分鐘的視頻(在A100上渲染約1小時(shí)),是通過在隨機(jī)噪聲輸入的模型之間平滑插值生成的。
這個(gè)名為Stable Diffusion的模型,采用的是在兩個(gè)句子的意義之間「插值」的方式。插入的地方是語義的間隔,而不是視覺的空格,因此,它極大地改變了故事敘述的方式。
而這,僅僅是由生成式人工智能驅(qū)動(dòng)的數(shù)字內(nèi)容創(chuàng)作革命的開始。
?Stable Diffusion:開源模型的里程碑
從2021年初以來,可以從文本描述生成圖像的人工智能一直在快速發(fā)展。當(dāng)時(shí),OpenAI用DALL-E 1和CLIP展示了令人印象深刻的結(jié)果。
在2022年,OpenAI發(fā)布了令人印象深刻的DALL-E 2,谷歌展示了Imagen和Parti,Midjourney推出了公測(cè)版,Craiyon創(chuàng)作的AI圖像也遍布各種社交媒體。
而就現(xiàn)在最近,Stability AI又發(fā)布了一個(gè)全新的模型——Stable Diffusion。
不過,與DALL-E 2不同的是,Stable Diffusion可以生成OpenAI禁止的各種知名人士。
雖然像是Midjourney、Pixelz.ai等等這些系統(tǒng)也可以做到,但它們生成的質(zhì)量,還遠(yuǎn)沒有達(dá)到能與Stable Diffusion相媲美的程度,而且還都不是開源的。
現(xiàn)在有請(qǐng)我們的老朋友馬斯克,表演一個(gè)秒變「黑寡婦」(斯嘉麗·約翰遜)。
顯然,作為主要開發(fā)者的Stability AI,希望不止一家公司或團(tuán)隊(duì)能夠訓(xùn)練Stable Diffusion的變體。
比如,你是一個(gè)沒有海量的GPU算力的研究人員。不用擔(dān)心,Stable Diffusion即將能夠在一塊僅有5.1GB VRAM的顯卡上運(yùn)行。
再比如,你是一個(gè)平時(shí)使用配備蘋果M1芯片的MacBook的愛好者,Stable Diffusion也可以運(yùn)行。只不過,這時(shí)圖像生成的時(shí)間就要從幾秒鐘變成幾分鐘了。
如此看來,多模態(tài)模型正沿著以前大型語言模型所走的道路前進(jìn):遠(yuǎn)離單一的供應(yīng)商,并通過開放源碼廣泛提供眾多的替代方案。
此外,Runway已經(jīng)在研究如何基于Stable Diffusion來實(shí)現(xiàn)文本到視頻的編輯了。
一句話,讓網(wǎng)球場(chǎng)變沙灘;
不管電閃雷鳴,還是風(fēng)和日麗;
不管是在月球,還是在火星之上;
都無法阻止我打網(wǎng)球……
用計(jì)算來加速基礎(chǔ)AI的開源
在測(cè)試階段之后,Stable Diffusion就會(huì)免費(fèi),代碼和經(jīng)過訓(xùn)練的模型將作為開源發(fā)布。還將有一個(gè)帶有Web界面的托管版本,供用戶測(cè)試系統(tǒng)。
Stable Diffusion 是 Stability AI、RunwayML、LMU Munich、EleutherAI 和 LAION 的研究人員合作的結(jié)果。EleutherAI以其開源語言模型GPT-J-6B 和GPT-NeoX-20B等而聞名。
非營(yíng)利組織 LAION(大規(guī)模人工智能開放網(wǎng)絡(luò))為訓(xùn)練數(shù)據(jù)提供了開源LAION 5B數(shù)據(jù)集,該團(tuán)隊(duì)在初始測(cè)試階段根據(jù)人工反饋對(duì)其進(jìn)行過濾,以創(chuàng)建最終的LAION-Aesthetics訓(xùn)練數(shù)據(jù)集。
Runway的Patrick Esser和LMU 慕尼黑的Robin Rombach領(lǐng)導(dǎo)了這個(gè)項(xiàng)目,他們?cè)诤5卤ご髮W(xué) CompVis小組的研究奠定了這個(gè)項(xiàng)目的基礎(chǔ)。在海德堡大學(xué),他們創(chuàng)建了廣泛使用的VQGAN和Latent Diffusion。這兩個(gè)模型再加上OpenAI和Google Brain的成果,使Stable Diffusion得以實(shí)現(xiàn)。
Stability AI成立于2020年,背后的出資人是數(shù)學(xué)家、計(jì)算機(jī)科學(xué)家Emad Mostaque。他曾在各種對(duì)沖基金擔(dān)任分析師。
憑借Stability AI和他的私人財(cái)富,Mostaque希望能夠培育一個(gè)開源AI研究社區(qū)。他的創(chuàng)業(yè)公司之前就支持創(chuàng)建「LAION 5B」數(shù)據(jù)集。為了訓(xùn)練Stable Diffusion的模型,Stability AI為服務(wù)器提供了4,000個(gè)Nvidia A100 GPU。
「除了我們的75名員工之外,沒有任何其他人擁有決策權(quán)——無論是億萬富翁、大型基金,還是政府,我們是完全獨(dú)立的。」Mostaque說?!肝覀冇?jì)劃使用我們的計(jì)算來加速基礎(chǔ)人工智能的開源?!?/span>
網(wǎng)友都玩兒瘋了
除了開頭地兩段視頻,也有網(wǎng)友用Stable Diffusion生成一段衰老的動(dòng)畫。
他表示,制作過程中在長(zhǎng)提示中改變一個(gè)詞,比在短提示中有更微妙的效果。此外,使用描述,如老,中年,幼兒,通常比說明具體的年齡,如10歲,40歲,80歲效果更好。
此外,還有各種夢(mèng)幻的靜態(tài)圖片。
「情人」
「獅子」
Leyendecker和Maxence筆下的「黑魂」
「賽博京劇」
彩蛋
感受一下特斯拉的前人工智能和自動(dòng)駕駛視覺總監(jiān)Andrej Karpathy被虐的心路歷程。
看完大神制作的視頻之后,Karpathy非常激動(dòng)。
然后一波操作搞出來的成果,放進(jìn)幼兒園小班里都毫無違和感。絕望的Karpathy直呼想要請(qǐng)一位「提示工程師」替自己創(chuàng)作。最后Karpathy終于悟了,創(chuàng)作出了他非常滿意的新作——蒸汽朋克人工神經(jīng)網(wǎng)絡(luò)機(jī)器,和藍(lán)莓意大利面。