自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

真·打字P圖！字節(jié)發(fā)布新模型SeedEdit，一句話爆改世界名畫，可免費(fèi)體驗(yàn)

作者：機(jī)器之心 2024-11-11 14:30:00

人工智能新聞

這次字節(jié)卯足勁推出的 SeedEdit，首先在通用性上做到了極致，不用涂抹編輯區(qū)域，只需給出一句簡(jiǎn)潔的 prompt，就能實(shí)現(xiàn)任意指令的編輯，適用各類編輯任務(wù)，支持用戶腦洞大開(kāi)的奇思妙想。

字節(jié)豆包大模型又又又上新了！

11 月 11 日，字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)推出了最新圖像編輯模型 SeedEdit，主打一句話輕松 P 圖。

它是國(guó)內(nèi)首個(gè)產(chǎn)品化的通用圖像編輯模型，無(wú)需描邊涂抹，僅使用簡(jiǎn)單的自然語(yǔ)言，就能換背景、轉(zhuǎn)風(fēng)格，或者在指定區(qū)域進(jìn)行元素的增刪和替換。

比如，輸入 Prompt「把老婆餅換成驢打滾」，SeedEdit 立馬鎖定修改目標(biāo)，完成美食替換：

（Prompt：把老婆餅換成驢打滾）

要知道，「老婆餅」、「驢打滾」等中國(guó)美食曾「騙」倒一眾大模型，但 SeedEdit 能精準(zhǔn)理解復(fù)雜指令，不僅看得懂中英文提示詞，還對(duì)成語(yǔ)和專有名詞「門兒清」。

再比如，在不「誤傷」原圖細(xì)節(jié)的情況下，把草莓換成檸檬：

（Prompt：把草莓換成檸檬）

甚至可以讓油畫里戴珍珠耳環(huán)的少女張大嘴巴啃漢堡：

（Prompt：戴珍珠耳環(huán)的少女吃漢堡）

在處理玻璃裂紋、發(fā)絲等精細(xì)涂抹區(qū)域時(shí)，SeedEdit 同樣能夠保持原圖的完整性：

（Prompt：移除玻璃裂紋，干凈畫面）

此外，作為一款通用圖像編輯模型，它不僅具備單次編輯的能力，還支持多輪操作，能夠讓用戶對(duì)同一圖像進(jìn)行連續(xù)的創(chuàng)意編輯。

比如，讓一個(gè)二次元女孩換上騎士裝、戴上牛仔帽、改變動(dòng)作、增加背景，最后「Pia」一下變身酷颯火槍手：

本次 SeedEdit 推出，字節(jié)也發(fā)布了技術(shù)報(bào)告。AIGC 圖像的精準(zhǔn)編輯一直是個(gè)老大難問(wèn)題，業(yè)界此前方案要么在編輯上做不到「指哪打哪」，要么編輯生成的質(zhì)量低或?qū)е略瓐D主體變化較大。

報(bào)告顯示，SeedEdit 依然采用了 Diffusion 架構(gòu)，但在不引入新參數(shù)的情況下將圖像生成模型轉(zhuǎn)換成了圖像編輯模型。其秘訣是在保持原始圖像和生成新內(nèi)容之間尋找平衡，最終得以在圖像編輯的通用性、可控性和高質(zhì)量上實(shí)現(xiàn)新的突破。

目前，SeedEdit 已上線豆包 PC 端和字節(jié) AIGC 平臺(tái)即夢(mèng)網(wǎng)頁(yè)端開(kāi)始測(cè)試。

豆包 Web：https://www.doubao.com/chat/create-image
即夢(mèng) Web：https://jimeng.jianying.com/ai-tool/image/generate

SeedEdit 的圖片編輯效果可謂炸裂，讓人不禁要問(wèn)：生成式 AI 的修圖技術(shù)是否真的已經(jīng)能做到「毫無(wú) PS 痕跡」了？

我們索性搞個(gè)實(shí)測(cè)，看看字節(jié)這款 AI 神器實(shí)力到底如何。

任意指令，精準(zhǔn)編輯：一句話爆改世界名畫

今年以來(lái)，Dall?E 3、Midjourney 等 AI 繪圖平臺(tái)響應(yīng)群眾呼聲，陸續(xù)上線了生圖編輯功能。

不得不說(shuō)，相較業(yè)界之前方案，編輯生圖的質(zhì)量和美感的確大大改善，但體驗(yàn)上仍有提升空間，一是指定區(qū)域編輯需要手動(dòng)涂抹，二是對(duì)編輯指令的響應(yīng)經(jīng)常不夠精準(zhǔn)。

而這次字節(jié)卯足勁推出的 SeedEdit，首先在通用性上做到了極致，不用涂抹編輯區(qū)域，只需給出一句簡(jiǎn)潔的 prompt，就能實(shí)現(xiàn)任意指令的編輯，適用各類編輯任務(wù)，支持用戶腦洞大開(kāi)的奇思妙想。

其產(chǎn)品側(cè)玩法也很簡(jiǎn)單。在即夢(mèng)「圖片生成」中，上傳參考圖，選擇「智能參考」，然后根據(jù)需要輸入 Prompt 即可。接下來(lái)就是實(shí)測(cè)最關(guān)鍵的編輯精準(zhǔn)度。

一手實(shí)測(cè)

我們先來(lái)惡搞一波世界名畫。

讓蒙娜麗莎抱只貓，再換個(gè)表情。

（Prompt：蒙娜麗莎張開(kāi)嘴大笑，手里抱著一只貓。）

原作中蒙娜麗莎的微笑神秘、含蓄又難以捉摸，但 SeedEdit 一頓爆改，瞬間讓畫面有了一種詼諧感。蒙娜麗莎咧嘴大笑，懷里的貓高冷地眺望遠(yuǎn)方，畫風(fēng)自然、線條流暢。

SeedEdit 嚴(yán)格遵循了指令，除了表情和動(dòng)作發(fā)生變化外，其他細(xì)節(jié)均能保持不變。

蒙娜麗莎的發(fā)絲、頭紗和衣褶清晰可見(jiàn)，手部沒(méi)有變形扭曲，貓咪的胡須、毛發(fā)根根分明，就連背景也完美復(fù)刻。

SeedEdit 還能一句話換背景。

我們讓它把《倒牛奶的女仆》中的背景換成了麥當(dāng)勞后廚。

（Prompt：背景換成麥當(dāng)勞后廚，女仆正端著牛奶瓶）

為了準(zhǔn)確體現(xiàn) Prompt，SeedEdit 編輯后的畫面中，墻上掛著麥當(dāng)勞的大 Logo，原本簡(jiǎn)陋的房間也放置了現(xiàn)代化的不銹鋼櫥柜，毫無(wú)「貼圖感」。

由于原畫歷經(jīng)幾個(gè)世紀(jì)之久，難免會(huì)出現(xiàn)細(xì)微裂痕和顆粒感，SeedEdit 巧妙去掉其中的斑駁，畫質(zhì)一整個(gè)拉升。

再看這幅《戴珍珠耳環(huán)的少女》。僅需下個(gè)動(dòng)作指令，SeedEdit 就開(kāi)始發(fā)揮想象力。

（Prompt：戴珍珠耳環(huán)的少女手里拿著一杯奶茶）

即使是真人圖像，SeedEdit 也完全能 hold 住。

讓《老友記》中的瑞秋戴上時(shí)髦的墨鏡：

（Prompt：女生戴上時(shí)髦的墨鏡）

給奧黛麗?赫本更換帽子顏色：

（Prompt：帽子顏色換成紅色）

或者一句話給黑白老照片上色：

（Prompt：給畫面上色，時(shí)尚，舒服）

移除畫中無(wú)關(guān)元素，若是用傳統(tǒng) PS 方法，需要一點(diǎn)點(diǎn)描邊框、選涂抹區(qū)域，一旦手不穩(wěn)，就得重新返工。而 SeedEdit 只需一句「去掉右邊老虎」的指令，就能精準(zhǔn)定位并刪除，這相比于手動(dòng)編輯，大大節(jié)省了時(shí)間。

（Prompt: 去掉右邊老虎）

當(dāng)然，SeedEdit 也可以進(jìn)行元素替換。比如把下圖中右邊的金毛換成泰迪，圖像其余部分畫面結(jié)構(gòu)、像素質(zhì)量，均不受影響。

（Prompt：把右側(cè)的小狗換成棕色的泰迪）

值得一提的是，SeedEdit 還能隨意切換各種風(fēng)格，比如涂鴉、樂(lè)高、3D、皮克斯、迪士尼……

（Prompt：把畫面風(fēng)格換成用線條和形狀勾勒的涂鴉風(fēng)；Prompt：把畫面風(fēng)格換成皮克斯風(fēng)格；Prompt：把畫面風(fēng)格換成日本動(dòng)漫風(fēng)）

經(jīng)過(guò)多次嘗試，我們也總結(jié)出一套超實(shí)用的 Prompt 指南。

每次編輯盡量使用單指令，為防止它「丟三落四」，多指令最好少于 3 種變化。
雖然 SeedEdit 具備一定的推理能力，有時(shí)指令模糊它也能猜個(gè)大概，但為了效果更佳，在局部編輯時(shí)，下指令要精準(zhǔn)，尤其是畫面具有多個(gè)實(shí)體時(shí)，需描述清楚對(duì)誰(shuí)做什么。
參考圖盡可能清晰、分辨率高，要想保留參考圖中的對(duì)象，則可以多加一些對(duì)象描述。比如從簡(jiǎn)單的 change to afro hairstyle 變成 change this young Chinese man hairstyle to afro style.
如果感覺(jué)編輯效果不明顯，可以調(diào)整編輯強(qiáng)度，比如從 0.5 調(diào)整到 1.0；若發(fā)現(xiàn)編輯變化太多，同樣也可以減少編輯強(qiáng)度，比如降到 0.1。

單挑 Dall?E3、Midjourney

沒(méi)有對(duì)比就沒(méi)有發(fā)言權(quán)。

我們就讓字節(jié) SeedEdit 和 AI 生圖界的「扛把子」Dall?E3、Midjourney 來(lái)次真刀真槍的比拼。

首先，我們給這三個(gè)模型輸入同樣的 Prompt：a female model in blue Nike tracksuit, Fujifilm, urban street photography。讓它們各自生成一張圖片，再在此基礎(chǔ)上進(jìn)行局部調(diào)整。

SeedEdit 生成的圖片既時(shí)尚又充滿運(yùn)動(dòng)氣息。模特身著印有醒目耐克 Logo 的運(yùn)動(dòng)背心，搭配同色系棉質(zhì)夾克，褲子的光澤與夾克相得益彰，整體效果相當(dāng)協(xié)調(diào)。

隨后，我們輸入文字指令「Change the blue Nike tracksuit to black Nike tracksuit」，SeedEdit 迅速響應(yīng)，給模特?fù)Q成了一身黑色，夾克和褲子的光澤感同樣得到完美呈現(xiàn)。

（Input Prompt：a female model in blue Nike tracksuit, Fujifilm, urban street photography；Edit Prompt:Change the blue Nike tracksuit to black Nike tracksuit.)

與 SeedEdit 一句話 P 圖不同，Midjourney 和 Dall?E3 的局部編輯功能稍顯復(fù)雜，需要先使用畫筆工具涂抹要修改的區(qū)域，然后輸入 Prompt，以實(shí)現(xiàn)對(duì)圖像的元素修改。

Midjourney 雖然也遵從了指令，但改變了模特動(dòng)作和衣服款式。

（Input Prompt：a female model in blue Nike tracksuit, Fujifilm, urban street photography；Edit Prompt:Change the blue Nike tracksuit to black Nike tracksuit.)

Dall?E3 的表現(xiàn)最拉胯，生成的圖像美感不足，還一股 AI 味，涂抹修改也沒(méi)有完全遵循 Prompt。

（Input Prompt：a female model in blue Nike tracksuit, Fujifilm, urban street photography；Edit Prompt:Change the blue Nike tracksuit to black Nike tracksuit.)

再來(lái)試一下刪除效果。Prompt：Remove the guy on the right.

原圖：

Midjourney：

SeedEdit：

Midjourney 確實(shí)抹去了畫面右側(cè)的男生，但身后的建筑也跟著不翼而飛；而 SeedEdit 在遵循文字指令的同時(shí)，還通過(guò)自身的推理能力將畫面缺失部分補(bǔ)齊，不過(guò)，女生的眼神和衣服等細(xì)節(jié)也稍有瑕疵。

總之，SeedEdit 作為通用的圖像編輯模型，無(wú)需再訓(xùn)練微調(diào)即可快捷應(yīng)用，極大地簡(jiǎn)化了圖像編輯的流程。

無(wú)論是簡(jiǎn)單的圖像修正還是復(fù)雜的風(fēng)格轉(zhuǎn)換，它都能迅速適應(yīng)并提供高質(zhì)量的編輯結(jié)果。這一突破性的技術(shù)進(jìn)步，不僅降低了圖像編輯的門檻，也讓創(chuàng)意工作者能夠更加專注于藝術(shù)創(chuàng)作本身，而不必耗費(fèi)大量時(shí)間在技術(shù)細(xì)節(jié)上。

技術(shù)細(xì)節(jié)：擴(kuò)散模型，被字節(jié)玩出了花

在產(chǎn)品發(fā)布的同時(shí)，字節(jié)同時(shí)也發(fā)布了 SeedEdit 的技術(shù)報(bào)告。仔細(xì)閱讀一下可以發(fā)現(xiàn)，它在技術(shù)原理上確實(shí)有自己的獨(dú)到之處。

論文：《SeedEdit: Align Image Re-Generation to Image Editing》
論文及技術(shù)能力展示：https://team.doubao.com/seededit

據(jù)技術(shù)報(bào)告介紹，SeedEdit 基于圖像生成常用的擴(kuò)散模型，但又能夠根據(jù)任何文本提示修訂給定的圖像。該工作發(fā)現(xiàn)，AI 生成式圖像編輯的關(guān)鍵，在于在保持原始圖像（圖像重建）和生成新圖像（圖像生成）之間的平衡。

這就意味著若想讓圖像生成的 AI 模型擁有修圖能力，就需要在大量相應(yīng)的成對(duì)數(shù)據(jù)上訓(xùn)練這個(gè)模型。因此，SeedEdit 采取的方式是從一個(gè)弱生成器（文本到圖像生成模型）開(kāi)始，再在上述兩個(gè)方向之間創(chuàng)建多樣化的圖像對(duì)，以此來(lái)逐步訓(xùn)練模型，最終獲得我們所需要的平衡。

下圖是 SeedEdit 的框架：首先將文本到圖像模型（T2I）視為弱編輯模型，再改造它生成的帶有提示的新圖像來(lái)實(shí)現(xiàn)「編輯」。隨后，把這個(gè)弱編輯模型反復(fù)進(jìn)行蒸餾和對(duì)齊，以最大程度繼承再生成能力，同時(shí)提高生成后圖像的一致性。

最近一段時(shí)間，擴(kuò)散模型生成的圖像雖然效果越來(lái)越好，但其內(nèi)容通常是不可控的。通過(guò) SeedEdit，字節(jié)的研究人員嘗試在不引入新參數(shù)的情況下，將圖像生成的擴(kuò)散模型轉(zhuǎn)化成了圖像編輯模型。

與此前一些 AI 圖像編輯的方法相比，SeedEdit 能夠?qū)崿F(xiàn)更豐富的效果和編輯能力，也可以實(shí)現(xiàn)圖片的連續(xù)編輯 —— 它讓擴(kuò)散模型不再是完全隨機(jī)進(jìn)行生成，而是可以像常規(guī)的工具一樣一步步來(lái)，做出你想要的效果。

使用 SeedEdit 進(jìn)行一句話編輯的圖片。

把 SeedEdit 方法與幾種業(yè)內(nèi)先進(jìn)的圖像編輯方法進(jìn)行比較，總體而言，新的方法在兩個(gè)基準(zhǔn)上都顯示出了明顯更高的分?jǐn)?shù)。同時(shí)也可以觀察到 HQ-Edit 數(shù)據(jù)集中 CLIP 圖像有更高的相似性，這意味著原始圖像的內(nèi)容得到了更好的保留。

基準(zhǔn)測(cè)試成績(jī)。

與一些開(kāi)源方法比較，SeedEdit 的優(yōu)勢(shì)在于能夠理解人們提出的相對(duì)模糊的指令，并輸出較為細(xì)致準(zhǔn)確的結(jié)果。

不同方法的輸出結(jié)果。

即使是和 DALL-E3、Midjourney 這樣已經(jīng)商用的先進(jìn)圖像生成器（帶編輯功能）相比，SeedEdit 也可以相對(duì)更緊密地跟隨人們給出的指令。

DALL-E3、Midjourney、SeedEdit 之間，不同圖像生成工具的效果對(duì)比。

不得不說(shuō)，字節(jié)提出的方法別具特色，相比業(yè)內(nèi)現(xiàn)有技術(shù)又向前跨出了一步。

豆包的生成式 AI 技術(shù)，走在前面

看到這里，你可能突然意識(shí)到，AI 領(lǐng)域的風(fēng)向正在發(fā)生轉(zhuǎn)變。

一直以來(lái)，很多關(guān)注 AI 繪畫的人總是在期盼著 DALL-E、Midjourney 等海外 AI 創(chuàng)業(yè)公司的技術(shù)更新。而隨著國(guó)內(nèi)的技術(shù)不斷迭代，我們已經(jīng)見(jiàn)證了一系列先進(jìn)的生成式 AI 應(yīng)用在外網(wǎng)刷屏?；蛟S到了新技術(shù)落地的節(jié)點(diǎn)，我們目光更應(yīng)該向近處看。

其實(shí)仔細(xì)想來(lái)，作為全球短視頻領(lǐng)域的佼佼者，字節(jié)跳動(dòng)在生成式 AI，特別是圖像生成領(lǐng)域上的優(yōu)勢(shì)可謂得天獨(dú)厚。

早在豆包大模型誕生前，字節(jié)就一直在關(guān)注 AI 圖像生成相關(guān)技術(shù)，并持續(xù)增加研發(fā)投入。豆包大模型盡管入場(chǎng)時(shí)間不是最早，但憑借優(yōu)秀的效果和獨(dú)特的社交體驗(yàn)迅速成為了國(guó)內(nèi)最熱門的大模型之一。到今年 9 月，豆包大模型日均生成圖片 5000 萬(wàn)張。

能夠迅速做出生成式 AI 應(yīng)用爆款的字節(jié)，其所做的努力并不只是在應(yīng)用層面上創(chuàng)新。字節(jié)大模型團(tuán)隊(duì)最近的前沿研究，已經(jīng)在不斷挑戰(zhàn) AI 領(lǐng)域的技術(shù)難題。

在工程層面上，僅從今年下半年起，我們?cè)谏缃痪W(wǎng)絡(luò)上就不時(shí)可以刷到字節(jié)的新成果，比如可以生成長(zhǎng)篇漫畫、有劇情視頻的 StoryDiffusion：

視頻生成模型 PixelDance 和 Seaweed：

到上星期發(fā)布的，音頻加人臉視頻生成技術(shù) Loopy：

再就是今天 SeedEdit 所展示的，方便好用的圖片編輯能力。

在 AI 基礎(chǔ)研究層面，字節(jié)大模型團(tuán)隊(duì)的工作也在不斷獲得認(rèn)可。其提出的單目深度估計(jì)模型 Depth Anything V2 入選了蘋果的 CoreML 模型庫(kù)。該模型可應(yīng)用在自動(dòng)駕駛、3D 建模、增強(qiáng)現(xiàn)實(shí)、安全監(jiān)控以及空間計(jì)算等領(lǐng)域。

上周，字節(jié)豆包大模型團(tuán)隊(duì)公布的一項(xiàng)系統(tǒng)性研究，首次在業(yè)界通過(guò)大規(guī)模實(shí)驗(yàn)深入探索了視頻生成模型能否真正理解物理規(guī)律，得到了謝賽寧、Gary Marcus，以及圖靈獎(jiǎng)得主 Yann LeCun 等 AI 學(xué)者的轉(zhuǎn)發(fā)和點(diǎn)贊。

一篇篇論文、一個(gè)個(gè)項(xiàng)目的積累，不僅撐起了如今豆包大模型的熱度，也在悄然推動(dòng)著學(xué)界的前沿探索。

SeedEdit 團(tuán)隊(duì)表示，其實(shí)現(xiàn)階段模型在復(fù)雜內(nèi)容和精細(xì)控制層面上還有改進(jìn)空間。下一步要提升的還有真實(shí)圖片風(fēng)格保持、ID 一致性、編輯準(zhǔn)確性、長(zhǎng)時(shí)序內(nèi)容（如漫畫生成）等等方面。除此以外，SeedEdit 還將會(huì)開(kāi)放多輪復(fù)雜編輯的功能。

期待 SeedEdit 和豆包團(tuán)隊(duì)帶來(lái)新的驚喜。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)