真·打字P圖!字節(jié)發(fā)布新模型SeedEdit,一句話爆改世界名畫,可免費(fèi)體驗(yàn)
字節(jié)豆包大模型又又又上新了!
11 月 11 日,字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)推出了最新圖像編輯模型 SeedEdit,主打一句話輕松 P 圖。
它是國(guó)內(nèi)首個(gè)產(chǎn)品化的通用圖像編輯模型,無(wú)需描邊涂抹,僅使用簡(jiǎn)單的自然語(yǔ)言,就能換背景、轉(zhuǎn)風(fēng)格,或者在指定區(qū)域進(jìn)行元素的增刪和替換。
比如,輸入 Prompt「把老婆餅換成驢打滾」,SeedEdit 立馬鎖定修改目標(biāo),完成美食替換:
(Prompt:把老婆餅換成驢打滾)
要知道,「老婆餅」、「驢打滾」等中國(guó)美食曾「騙」倒一眾大模型,但 SeedEdit 能精準(zhǔn)理解復(fù)雜指令,不僅看得懂中英文提示詞,還對(duì)成語(yǔ)和專有名詞「門兒清」。
再比如,在不「誤傷」原圖細(xì)節(jié)的情況下,把草莓換成檸檬:
(Prompt:把草莓換成檸檬)
甚至可以讓油畫里戴珍珠耳環(huán)的少女張大嘴巴啃漢堡:
(Prompt:戴珍珠耳環(huán)的少女吃漢堡)
在處理玻璃裂紋、發(fā)絲等精細(xì)涂抹區(qū)域時(shí),SeedEdit 同樣能夠保持原圖的完整性:
(Prompt:移除玻璃裂紋,干凈畫面)
此外,作為一款通用圖像編輯模型,它不僅具備單次編輯的能力,還支持多輪操作,能夠讓用戶對(duì)同一圖像進(jìn)行連續(xù)的創(chuàng)意編輯。
比如,讓一個(gè)二次元女孩換上騎士裝、戴上牛仔帽、改變動(dòng)作、增加背景,最后「Pia」一下變身酷颯火槍手:
本次 SeedEdit 推出,字節(jié)也發(fā)布了技術(shù)報(bào)告。AIGC 圖像的精準(zhǔn)編輯一直是個(gè)老大難問(wèn)題,業(yè)界此前方案要么在編輯上做不到「指哪打哪」,要么編輯生成的質(zhì)量低或?qū)е略瓐D主體變化較大。
報(bào)告顯示,SeedEdit 依然采用了 Diffusion 架構(gòu),但在不引入新參數(shù)的情況下將圖像生成模型轉(zhuǎn)換成了圖像編輯模型。其秘訣是在保持原始圖像和生成新內(nèi)容之間尋找平衡,最終得以在圖像編輯的通用性、可控性和高質(zhì)量上實(shí)現(xiàn)新的突破。
目前,SeedEdit 已上線豆包 PC 端和字節(jié) AIGC 平臺(tái)即夢(mèng)網(wǎng)頁(yè)端開(kāi)始測(cè)試。
- 豆包 Web:https://www.doubao.com/chat/create-image
- 即夢(mèng) Web:https://jimeng.jianying.com/ai-tool/image/generate
SeedEdit 的圖片編輯效果可謂炸裂,讓人不禁要問(wèn):生成式 AI 的修圖技術(shù)是否真的已經(jīng)能做到「毫無(wú) PS 痕跡」了?
我們索性搞個(gè)實(shí)測(cè),看看字節(jié)這款 AI 神器實(shí)力到底如何。
任意指令,精準(zhǔn)編輯:一句話爆改世界名畫
今年以來(lái),Dall?E 3、Midjourney 等 AI 繪圖平臺(tái)響應(yīng)群眾呼聲,陸續(xù)上線了生圖編輯功能。
不得不說(shuō),相較業(yè)界之前方案,編輯生圖的質(zhì)量和美感的確大大改善,但體驗(yàn)上仍有提升空間,一是指定區(qū)域編輯需要手動(dòng)涂抹,二是對(duì)編輯指令的響應(yīng)經(jīng)常不夠精準(zhǔn)。
而這次字節(jié)卯足勁推出的 SeedEdit,首先在通用性上做到了極致,不用涂抹編輯區(qū)域,只需給出一句簡(jiǎn)潔的 prompt,就能實(shí)現(xiàn)任意指令的編輯,適用各類編輯任務(wù),支持用戶腦洞大開(kāi)的奇思妙想。
其產(chǎn)品側(cè)玩法也很簡(jiǎn)單。在即夢(mèng)「圖片生成」中,上傳參考圖,選擇「智能參考」,然后根據(jù)需要輸入 Prompt 即可。接下來(lái)就是實(shí)測(cè)最關(guān)鍵的編輯精準(zhǔn)度。
一手實(shí)測(cè)
我們先來(lái)惡搞一波世界名畫。
讓蒙娜麗莎抱只貓,再換個(gè)表情。
(Prompt:蒙娜麗莎張開(kāi)嘴大笑,手里抱著一只貓。)
原作中蒙娜麗莎的微笑神秘、含蓄又難以捉摸,但 SeedEdit 一頓爆改,瞬間讓畫面有了一種詼諧感。蒙娜麗莎咧嘴大笑,懷里的貓高冷地眺望遠(yuǎn)方,畫風(fēng)自然、線條流暢。
SeedEdit 嚴(yán)格遵循了指令,除了表情和動(dòng)作發(fā)生變化外,其他細(xì)節(jié)均能保持不變。
蒙娜麗莎的發(fā)絲、頭紗和衣褶清晰可見(jiàn),手部沒(méi)有變形扭曲,貓咪的胡須、毛發(fā)根根分明,就連背景也完美復(fù)刻。
SeedEdit 還能一句話換背景。
我們讓它把《倒牛奶的女仆》中的背景換成了麥當(dāng)勞后廚。
(Prompt:背景換成麥當(dāng)勞后廚,女仆正端著牛奶瓶)
為了準(zhǔn)確體現(xiàn) Prompt,SeedEdit 編輯后的畫面中,墻上掛著麥當(dāng)勞的大 Logo,原本簡(jiǎn)陋的房間也放置了現(xiàn)代化的不銹鋼櫥柜,毫無(wú)「貼圖感」。
由于原畫歷經(jīng)幾個(gè)世紀(jì)之久,難免會(huì)出現(xiàn)細(xì)微裂痕和顆粒感,SeedEdit 巧妙去掉其中的斑駁,畫質(zhì)一整個(gè)拉升。
再看這幅《戴珍珠耳環(huán)的少女》。僅需下個(gè)動(dòng)作指令,SeedEdit 就開(kāi)始發(fā)揮想象力。
(Prompt:戴珍珠耳環(huán)的少女手里拿著一杯奶茶)
即使是真人圖像,SeedEdit 也完全能 hold 住。
讓《老友記》中的瑞秋戴上時(shí)髦的墨鏡:
(Prompt:女生戴上時(shí)髦的墨鏡)
給奧黛麗?赫本更換帽子顏色:
(Prompt:帽子顏色換成紅色)
或者一句話給黑白老照片上色:
(Prompt:給畫面上色,時(shí)尚,舒服)
移除畫中無(wú)關(guān)元素,若是用傳統(tǒng) PS 方法,需要一點(diǎn)點(diǎn)描邊框、選涂抹區(qū)域,一旦手不穩(wěn),就得重新返工。而 SeedEdit 只需一句「去掉右邊老虎」的指令,就能精準(zhǔn)定位并刪除,這相比于手動(dòng)編輯,大大節(jié)省了時(shí)間。
(Prompt: 去掉右邊老虎)
當(dāng)然,SeedEdit 也可以進(jìn)行元素替換。比如把下圖中右邊的金毛換成泰迪,圖像其余部分畫面結(jié)構(gòu)、像素質(zhì)量,均不受影響。
(Prompt:把右側(cè)的小狗換成棕色的泰迪)
值得一提的是,SeedEdit 還能隨意切換各種風(fēng)格,比如涂鴉、樂(lè)高、3D、皮克斯、迪士尼……
(Prompt:把畫面風(fēng)格換成用線條和形狀勾勒的涂鴉風(fēng);Prompt:把畫面風(fēng)格換成皮克斯風(fēng)格;Prompt:把畫面風(fēng)格換成日本動(dòng)漫風(fēng))
經(jīng)過(guò)多次嘗試,我們也總結(jié)出一套超實(shí)用的 Prompt 指南。
- 每次編輯盡量使用單指令,為防止它「丟三落四」, 多指令最好少于 3 種變化。
- 雖然 SeedEdit 具備一定的推理能力,有時(shí)指令模糊它也能猜個(gè)大概,但為了效果更佳,在局部編輯時(shí),下指令要精準(zhǔn),尤其是畫面具有多個(gè)實(shí)體時(shí),需描述清楚對(duì)誰(shuí)做什么。
- 參考圖盡可能清晰、分辨率高,要想保留參考圖中的對(duì)象,則可以多加一些對(duì)象描述。比如從簡(jiǎn)單的 change to afro hairstyle 變成 change this young Chinese man hairstyle to afro style.
- 如果感覺(jué)編輯效果不明顯,可以調(diào)整編輯強(qiáng)度,比如從 0.5 調(diào)整到 1.0;若發(fā)現(xiàn)編輯變化太多, 同樣也可以減少編輯強(qiáng)度,比如降到 0.1。
單挑 Dall?E3、Midjourney
沒(méi)有對(duì)比就沒(méi)有發(fā)言權(quán)。
我們就讓字節(jié) SeedEdit 和 AI 生圖界的「扛把子」Dall?E3、Midjourney 來(lái)次真刀真槍的比拼。
首先,我們給這三個(gè)模型輸入同樣的 Prompt:a female model in blue Nike tracksuit, Fujifilm, urban street photography。讓它們各自生成一張圖片,再在此基礎(chǔ)上進(jìn)行局部調(diào)整。
SeedEdit 生成的圖片既時(shí)尚又充滿運(yùn)動(dòng)氣息。模特身著印有醒目耐克 Logo 的運(yùn)動(dòng)背心,搭配同色系棉質(zhì)夾克,褲子的光澤與夾克相得益彰,整體效果相當(dāng)協(xié)調(diào)。
隨后,我們輸入文字指令「Change the blue Nike tracksuit to black Nike tracksuit」,SeedEdit 迅速響應(yīng),給模特?fù)Q成了一身黑色,夾克和褲子的光澤感同樣得到完美呈現(xiàn)。
(Input Prompt:a female model in blue Nike tracksuit, Fujifilm, urban street photography;Edit Prompt:Change the blue Nike tracksuit to black Nike tracksuit.)
與 SeedEdit 一句話 P 圖不同,Midjourney 和 Dall?E3 的局部編輯功能稍顯復(fù)雜,需要先使用畫筆工具涂抹要修改的區(qū)域,然后輸入 Prompt,以實(shí)現(xiàn)對(duì)圖像的元素修改。
Midjourney 雖然也遵從了指令,但改變了模特動(dòng)作和衣服款式。
(Input Prompt:a female model in blue Nike tracksuit, Fujifilm, urban street photography;Edit Prompt:Change the blue Nike tracksuit to black Nike tracksuit.)
Dall?E3 的表現(xiàn)最拉胯,生成的圖像美感不足,還一股 AI 味,涂抹修改也沒(méi)有完全遵循 Prompt。
(Input Prompt:a female model in blue Nike tracksuit, Fujifilm, urban street photography;Edit Prompt:Change the blue Nike tracksuit to black Nike tracksuit.)
再來(lái)試一下刪除效果。Prompt:Remove the guy on the right.
原圖:
Midjourney:
SeedEdit:
Midjourney 確實(shí)抹去了畫面右側(cè)的男生,但身后的建筑也跟著不翼而飛;而 SeedEdit 在遵循文字指令的同時(shí),還通過(guò)自身的推理能力將畫面缺失部分補(bǔ)齊,不過(guò),女生的眼神和衣服等細(xì)節(jié)也稍有瑕疵。
總之,SeedEdit 作為通用的圖像編輯模型,無(wú)需再訓(xùn)練微調(diào)即可快捷應(yīng)用,極大地簡(jiǎn)化了圖像編輯的流程。
無(wú)論是簡(jiǎn)單的圖像修正還是復(fù)雜的風(fēng)格轉(zhuǎn)換,它都能迅速適應(yīng)并提供高質(zhì)量的編輯結(jié)果。這一突破性的技術(shù)進(jìn)步,不僅降低了圖像編輯的門檻,也讓創(chuàng)意工作者能夠更加專注于藝術(shù)創(chuàng)作本身,而不必耗費(fèi)大量時(shí)間在技術(shù)細(xì)節(jié)上。
技術(shù)細(xì)節(jié):擴(kuò)散模型,被字節(jié)玩出了花
在產(chǎn)品發(fā)布的同時(shí),字節(jié)同時(shí)也發(fā)布了 SeedEdit 的技術(shù)報(bào)告。仔細(xì)閱讀一下可以發(fā)現(xiàn),它在技術(shù)原理上確實(shí)有自己的獨(dú)到之處。
- 論文:《SeedEdit: Align Image Re-Generation to Image Editing》
- 論文及技術(shù)能力展示:https://team.doubao.com/seededit
據(jù)技術(shù)報(bào)告介紹,SeedEdit 基于圖像生成常用的擴(kuò)散模型,但又能夠根據(jù)任何文本提示修訂給定的圖像。該工作發(fā)現(xiàn),AI 生成式圖像編輯的關(guān)鍵,在于在保持原始圖像(圖像重建)和生成新圖像(圖像生成)之間的平衡。
這就意味著若想讓圖像生成的 AI 模型擁有修圖能力,就需要在大量相應(yīng)的成對(duì)數(shù)據(jù)上訓(xùn)練這個(gè)模型。因此,SeedEdit 采取的方式是從一個(gè)弱生成器(文本到圖像生成模型)開(kāi)始,再在上述兩個(gè)方向之間創(chuàng)建多樣化的圖像對(duì),以此來(lái)逐步訓(xùn)練模型,最終獲得我們所需要的平衡。
下圖是 SeedEdit 的框架:首先將文本到圖像模型(T2I)視為弱編輯模型,再改造它生成的帶有提示的新圖像來(lái)實(shí)現(xiàn)「編輯」。隨后,把這個(gè)弱編輯模型反復(fù)進(jìn)行蒸餾和對(duì)齊,以最大程度繼承再生成能力,同時(shí)提高生成后圖像的一致性。
最近一段時(shí)間,擴(kuò)散模型生成的圖像雖然效果越來(lái)越好,但其內(nèi)容通常是不可控的。通過(guò) SeedEdit,字節(jié)的研究人員嘗試在不引入新參數(shù)的情況下,將圖像生成的擴(kuò)散模型轉(zhuǎn)化成了圖像編輯模型。
與此前一些 AI 圖像編輯的方法相比,SeedEdit 能夠?qū)崿F(xiàn)更豐富的效果和編輯能力,也可以實(shí)現(xiàn)圖片的連續(xù)編輯 —— 它讓擴(kuò)散模型不再是完全隨機(jī)進(jìn)行生成,而是可以像常規(guī)的工具一樣一步步來(lái),做出你想要的效果。
使用 SeedEdit 進(jìn)行一句話編輯的圖片。
把 SeedEdit 方法與幾種業(yè)內(nèi)先進(jìn)的圖像編輯方法進(jìn)行比較,總體而言,新的方法在兩個(gè)基準(zhǔn)上都顯示出了明顯更高的分?jǐn)?shù)。同時(shí)也可以觀察到 HQ-Edit 數(shù)據(jù)集中 CLIP 圖像有更高的相似性,這意味著原始圖像的內(nèi)容得到了更好的保留。
基準(zhǔn)測(cè)試成績(jī)。
與一些開(kāi)源方法比較,SeedEdit 的優(yōu)勢(shì)在于能夠理解人們提出的相對(duì)模糊的指令,并輸出較為細(xì)致準(zhǔn)確的結(jié)果。
不同方法的輸出結(jié)果。
即使是和 DALL-E3、Midjourney 這樣已經(jīng)商用的先進(jìn)圖像生成器(帶編輯功能)相比,SeedEdit 也可以相對(duì)更緊密地跟隨人們給出的指令。
DALL-E3、Midjourney、SeedEdit 之間,不同圖像生成工具的效果對(duì)比。
不得不說(shuō),字節(jié)提出的方法別具特色,相比業(yè)內(nèi)現(xiàn)有技術(shù)又向前跨出了一步。
豆包的生成式 AI 技術(shù),走在前面
看到這里,你可能突然意識(shí)到,AI 領(lǐng)域的風(fēng)向正在發(fā)生轉(zhuǎn)變。
一直以來(lái),很多關(guān)注 AI 繪畫的人總是在期盼著 DALL-E、Midjourney 等海外 AI 創(chuàng)業(yè)公司的技術(shù)更新。而隨著國(guó)內(nèi)的技術(shù)不斷迭代,我們已經(jīng)見(jiàn)證了一系列先進(jìn)的生成式 AI 應(yīng)用在外網(wǎng)刷屏?;蛟S到了新技術(shù)落地的節(jié)點(diǎn),我們目光更應(yīng)該向近處看。
其實(shí)仔細(xì)想來(lái),作為全球短視頻領(lǐng)域的佼佼者,字節(jié)跳動(dòng)在生成式 AI,特別是圖像生成領(lǐng)域上的優(yōu)勢(shì)可謂得天獨(dú)厚。
早在豆包大模型誕生前,字節(jié)就一直在關(guān)注 AI 圖像生成相關(guān)技術(shù),并持續(xù)增加研發(fā)投入。豆包大模型盡管入場(chǎng)時(shí)間不是最早,但憑借優(yōu)秀的效果和獨(dú)特的社交體驗(yàn)迅速成為了國(guó)內(nèi)最熱門的大模型之一。到今年 9 月,豆包大模型日均生成圖片 5000 萬(wàn)張。
能夠迅速做出生成式 AI 應(yīng)用爆款的字節(jié),其所做的努力并不只是在應(yīng)用層面上創(chuàng)新。字節(jié)大模型團(tuán)隊(duì)最近的前沿研究,已經(jīng)在不斷挑戰(zhàn) AI 領(lǐng)域的技術(shù)難題。
在工程層面上,僅從今年下半年起,我們?cè)谏缃痪W(wǎng)絡(luò)上就不時(shí)可以刷到字節(jié)的新成果,比如可以生成長(zhǎng)篇漫畫、有劇情視頻的 StoryDiffusion:
視頻生成模型 PixelDance 和 Seaweed:
到上星期發(fā)布的,音頻加人臉視頻生成技術(shù) Loopy:
再就是今天 SeedEdit 所展示的,方便好用的圖片編輯能力。
在 AI 基礎(chǔ)研究層面,字節(jié)大模型團(tuán)隊(duì)的工作也在不斷獲得認(rèn)可。其提出的單目深度估計(jì)模型 Depth Anything V2 入選了蘋果的 CoreML 模型庫(kù)。該模型可應(yīng)用在自動(dòng)駕駛、3D 建模、增強(qiáng)現(xiàn)實(shí)、安全監(jiān)控以及空間計(jì)算等領(lǐng)域。
上周,字節(jié)豆包大模型團(tuán)隊(duì)公布的一項(xiàng)系統(tǒng)性研究,首次在業(yè)界通過(guò)大規(guī)模實(shí)驗(yàn)深入探索了視頻生成模型能否真正理解物理規(guī)律,得到了謝賽寧、Gary Marcus,以及圖靈獎(jiǎng)得主 Yann LeCun 等 AI 學(xué)者的轉(zhuǎn)發(fā)和點(diǎn)贊。
一篇篇論文、一個(gè)個(gè)項(xiàng)目的積累,不僅撐起了如今豆包大模型的熱度,也在悄然推動(dòng)著學(xué)界的前沿探索。
SeedEdit 團(tuán)隊(duì)表示,其實(shí)現(xiàn)階段模型在復(fù)雜內(nèi)容和精細(xì)控制層面上還有改進(jìn)空間。下一步要提升的還有真實(shí)圖片風(fēng)格保持、ID 一致性、編輯準(zhǔn)確性、長(zhǎng)時(shí)序內(nèi)容(如漫畫生成)等等方面。除此以外,SeedEdit 還將會(huì)開(kāi)放多輪復(fù)雜編輯的功能。
期待 SeedEdit 和豆包團(tuán)隊(duì)帶來(lái)新的驚喜。