自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva! 精華

發(fā)布于 2025-4-17 09:43
瀏覽
0收藏

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2504.11346 官方鏈接:https://team.doubao.com/tech/seedream3_0  

亮點(diǎn)直擊

  • 相比Seedream 2.0能力全面增強(qiáng):在用戶(hù)偏好測(cè)試中表現(xiàn)出色,在圖文對(duì)齊、構(gòu)圖結(jié)構(gòu)、美學(xué)質(zhì)量和文字渲染等關(guān)鍵能力方面有重大突破。
  • 文本渲染性能提升顯著:在中英文小尺寸字符生成和高美學(xué)長(zhǎng)文本排版方面表現(xiàn)優(yōu)異。小文本生成與美學(xué)排版難題的開(kāi)創(chuàng)性方案,在圖文設(shè)計(jì)輸出上超越 Canva 等平臺(tái)的人設(shè)模板。
  • 圖像美學(xué)提升:圖像美學(xué)質(zhì)量顯著提升,在電影場(chǎng)景和人像寫(xiě)實(shí)度方面表現(xiàn)卓越。
  • 原生高分辨率輸出:支持 2K 分辨率的原生輸出,免除后處理需求,同時(shí)兼容更高分辨率并可適配多種長(zhǎng)寬比。
  • 推理成本高效:多項(xiàng)模型加速技術(shù),3.0 秒內(nèi)生成一張 1K 分辨率圖像(不含位置編碼),推理速度遠(yuǎn)超其他商用模型。

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva!-AI.x社區(qū)

解決的問(wèn)題

  • 復(fù)雜提示詞對(duì)齊不佳:在處理多目標(biāo)、多關(guān)系的復(fù)雜提示詞時(shí),精確性和一致性不足。
  • 精細(xì)文字生成能力弱:在生成小尺寸字體、多行排版、復(fù)雜文字排版方面存在明顯短板。
  • 圖像美學(xué)與真實(shí)感不足:特別是在電影感畫(huà)面和人像肌理的生成方面表現(xiàn)欠佳。
  • 原生分辨率限制:此前只能生成 512×512px 小圖,需要后處理進(jìn)行超分辨率提升。

提出的方案

  • 數(shù)據(jù)層改進(jìn):使用缺陷感知訓(xùn)練機(jī)制和雙軸協(xié)同采樣框架,將數(shù)據(jù)集規(guī)模提升至原來(lái)的兩倍。
  • 預(yù)訓(xùn)練階段改進(jìn):引入四項(xiàng)關(guān)鍵訓(xùn)練策略:
  • 混合分辨率訓(xùn)練(Mixed-Resolution Training)
  • 跨模態(tài) RoPE(Cross-Modality Rotary Position Embedding)
  • 表征對(duì)齊損失(Representation Alignment Loss)
  • 分辨率感知時(shí)間步采樣(Resolution-Aware Timestep Sampling)
  • 后訓(xùn)練階段優(yōu)化:在 SFT 中引入多樣化審美描述,并利用基于視覺(jué)語(yǔ)言模型(VLM)的獎(jiǎng)勵(lì)機(jī)制進(jìn)行調(diào)優(yōu)。
  • 推理加速策略:通過(guò)一致噪聲預(yù)期與重要性感知采樣策略,在保持畫(huà)質(zhì)的同時(shí)實(shí)現(xiàn) 4-8 倍速度提升。

Seedream 3.0 已于 2025 年 4 月初集成進(jìn)多個(gè)平臺(tái),包括豆包和即夢(mèng)。殷切希望 Seedream 3.0 能成為提升工作與生活各方面生產(chǎn)力的實(shí)用工具。

技術(shù)細(xì)節(jié)

數(shù)據(jù)

在 Seedream 2.0 中,采用了一種嚴(yán)格的數(shù)據(jù)過(guò)濾策略,系統(tǒng)性地剔除包含輕微缺陷(如水印、覆蓋文字、字幕、馬賽克等)的圖像數(shù)據(jù)。這種嚴(yán)格的過(guò)濾顯著限制了訓(xùn)練所用數(shù)據(jù)量,尤其考慮到此類(lèi)缺陷樣本約占原始數(shù)據(jù)集的 35%。為解決這一問(wèn)題,Seedream 3.0 引入了一種創(chuàng)新的“缺陷感知訓(xùn)練范式”。該范式包含一個(gè)專(zhuān)門(mén)訓(xùn)練的缺陷檢測(cè)器,基于 15,000 張由主動(dòng)學(xué)習(xí)引擎挑選并人工標(biāo)注的樣本構(gòu)建。該檢測(cè)器可通過(guò)邊界框預(yù)測(cè)精確定位缺陷區(qū)域。


當(dāng)檢測(cè)出的缺陷區(qū)域總面積小于圖像空間的 20%(可配置閾值)時(shí),我們保留這些此前被剔除的樣本,同時(shí)實(shí)施掩碼潛空間優(yōu)化。具體來(lái)說(shuō),在潛空間的擴(kuò)散損失計(jì)算中,我們采用空間注意力掩碼機(jī)制,將來(lái)自缺陷區(qū)域的特征梯度排除在外。這種創(chuàng)新方法在保持模型穩(wěn)定性的同時(shí),將有效訓(xùn)練數(shù)據(jù)集擴(kuò)展了 21.7%。


為優(yōu)化數(shù)據(jù)分布,我們提出了一種“雙軸協(xié)同數(shù)據(jù)采樣框架”,從視覺(jué)形態(tài)和語(yǔ)義分布兩個(gè)維度聯(lián)合優(yōu)化。在視覺(jué)模態(tài)方面,我們繼續(xù)采用分層聚類(lèi)方法,確保不同視覺(jué)模式的平衡表達(dá)。在文本語(yǔ)義層面,我們通過(guò)詞頻-逆文檔頻率(TF-IDF)實(shí)現(xiàn)語(yǔ)義平衡,有效解決描述文本的長(zhǎng)尾分布問(wèn)題。為進(jìn)一步增強(qiáng)數(shù)據(jù)生態(tài)的協(xié)同性,我們開(kāi)發(fā)了一個(gè)跨模態(tài)檢索系統(tǒng),為圖文對(duì)構(gòu)建聯(lián)合嵌入空間。該系統(tǒng)在所有基準(zhǔn)測(cè)試中均達(dá)到最先進(jìn)水平。


該檢索增強(qiáng)框架通過(guò)以下方式動(dòng)態(tài)優(yōu)化數(shù)據(jù)集:

  • 通過(guò)目標(biāo)概念檢索注入專(zhuān)家知識(shí);
  • 通過(guò)相似度加權(quán)采樣進(jìn)行分布校準(zhǔn);
  • 利用檢索到的鄰近對(duì)進(jìn)行跨模態(tài)增強(qiáng)。

模型預(yù)訓(xùn)練

模型架構(gòu)

核心架構(gòu)設(shè)計(jì)延續(xù)自 Seedream 2.0,該版本采用 MMDiT 處理圖像和文本 token,并捕捉兩種模態(tài)之間的關(guān)系。在 Seedream 3.0 中,擴(kuò)大了基礎(chǔ)模型的總參數(shù)量,并引入了多項(xiàng)改進(jìn),從而提升了模型的可擴(kuò)展性、泛化能力以及圖文對(duì)齊效果。


混合分辨率訓(xùn)練。 Transformer原生支持可變長(zhǎng)度 token 輸入,并已在基于 ViT 的視覺(jué)識(shí)別任務(wù)中被證實(shí)有效。在 Seedream 3.0 中,在每次訓(xùn)練階段將不同長(zhǎng)寬比和分辨率的圖像打包在一起進(jìn)行混合分辨率訓(xùn)練。具體來(lái)說(shuō),我們首先以平均分辨率為 2562(含多種長(zhǎng)寬比)進(jìn)行預(yù)訓(xùn)練,然后在更高分辨率圖像(5122 到 20482)上進(jìn)行微調(diào)。同時(shí),引入尺寸嵌入作為附加條件,使模型感知目標(biāo)分辨率。混合分辨率訓(xùn)練顯著提升了數(shù)據(jù)多樣性,提高了模型對(duì)未見(jiàn)分辨率的泛化能力。


跨模態(tài)旋轉(zhuǎn)位置編碼(RoPE)。 在 Seedream 2.0 中,引入了可縮放 RoPE,使模型更好地泛化至未訓(xùn)練的長(zhǎng)寬比與分辨率。在 Seedream 3.0 中,將該技術(shù)擴(kuò)展為“跨模態(tài) RoPE”,進(jìn)一步提升視覺(jué)-文本 token 的對(duì)齊效果。我們將文本 token 視為形狀為 [1, L] 的二維 token,并對(duì)其應(yīng)用二維 RoPE [22]。文本 token 的列向位置 ID 被順序賦值于圖像 token 之后??缒B(tài) RoPE 有效建模了模態(tài)內(nèi)和模態(tài)間的關(guān)系,對(duì)提升圖文對(duì)齊與文本渲染精度至關(guān)重要。

模型訓(xùn)練細(xì)節(jié)

訓(xùn)練目標(biāo) 在 Seedream 3.0 中,采用了 Flow Matching訓(xùn)練目標(biāo),以及表示對(duì)齊損失(REPA):

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva!-AI.x社區(qū)

其中使用線性插值形式:

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva!-AI.x社區(qū)

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva!-AI.x社區(qū)

一般來(lái)說(shuō),在高分辨率訓(xùn)練時(shí),我們會(huì)將分布向低信噪比(SNR)方向偏移以增加其采樣概率。在訓(xùn)練過(guò)程中,計(jì)算數(shù)據(jù)集??的平均分辨率以確定偏移后的時(shí)間步分布。在推理階段,根據(jù)目標(biāo)分辨率和寬高比計(jì)算偏移因子。

模型后訓(xùn)練

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva!-AI.x社區(qū)

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva!-AI.x社區(qū)

審美描述生成器(Aesthetic Caption)

為 CT 和 SFT 階段中的數(shù)據(jù)特別訓(xùn)練了多個(gè)版本的描述生成模型。如圖 4 所示,這些描述模型在審美、風(fēng)格和布局等專(zhuān)業(yè)領(lǐng)域提供了準(zhǔn)確的描述。這確保了模型可以更有效地響應(yīng)相關(guān)提示,從而提升模型的可控性以及經(jīng)過(guò)提示詞工程處理后的表現(xiàn)。

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva!-AI.x社區(qū)

模型訓(xùn)練細(xì)節(jié)

為了確保模型在不同分辨率下都能取得良好表現(xiàn),在訓(xùn)練過(guò)程中采用了一種分辨率平衡策略。這種方法確保了不同分辨率訓(xùn)練數(shù)據(jù)的充分采樣,從而增強(qiáng)了模型在各種場(chǎng)景中跟隨提示的能力。

獎(jiǎng)勵(lì)模型擴(kuò)展

與之前 Seedream 2.0 使用 CLIP 作為獎(jiǎng)勵(lì)模型不同,現(xiàn)在采用視覺(jué)-語(yǔ)言模型(VLMs)作為獎(jiǎng)勵(lì)建??蚣?。這一改變利用了 VLM 更強(qiáng)大的基礎(chǔ)能力和獎(jiǎng)勵(lì)擴(kuò)展?jié)摿ΑJ艽笳Z(yǔ)言模型(LLMs)中生成式獎(jiǎng)勵(lì)建模(RM)技術(shù)啟發(fā),我們將指令明確地表述為查詢(xún),并從“Yes”響應(yīng) token 的歸一化概率中導(dǎo)出獎(jiǎng)勵(lì)。


這種方法有效地利用了預(yù)訓(xùn)練 LLM 中的知識(shí),并自然受益于 LLM 的擴(kuò)展效應(yīng),從而提升了獎(jiǎng)勵(lì)質(zhì)量。我們系統(tǒng)性地將獎(jiǎng)勵(lì)模型從 1B 參數(shù)規(guī)模擴(kuò)展到超過(guò) 20B。實(shí)驗(yàn)證明了獎(jiǎng)勵(lì)模型擴(kuò)展的顯著效果,表明增加獎(jiǎng)勵(lì)模型容量能夠提升獎(jiǎng)勵(lì)建模表現(xiàn)。

模型加速

本文加速框架建立在 Hyper-SD 和 RayFlow基礎(chǔ)上。重新思考了擴(kuò)散過(guò)程,使得每個(gè)樣本可以遵循其自身自適應(yīng)的生成軌跡,而不是強(qiáng)制所有樣本都經(jīng)過(guò)一個(gè)共同路徑最終收斂到標(biāo)準(zhǔn)高斯先驗(yàn)。在傳統(tǒng)的擴(kuò)散模型中,所有樣本都會(huì)被逐步轉(zhuǎn)換為各向同性的高斯噪聲,導(dǎo)致在概率空間中的軌跡重疊。這種重疊增加了隨機(jī)性,降低了可控性,并在反向過(guò)程引入了不穩(wěn)定性。本文改為將每個(gè)數(shù)據(jù)點(diǎn)引導(dǎo)到特定的目標(biāo)分布,從而實(shí)現(xiàn)每個(gè)樣本軌跡的個(gè)性化定制。這顯著減少了路徑?jīng)_突,并提升了生成穩(wěn)定性和樣本多樣性。


穩(wěn)定采樣的一致性噪聲期望

為了確保采樣過(guò)程中平滑且一致的過(guò)渡,引入了一個(gè)統(tǒng)一的噪聲期望向量,該向量從預(yù)訓(xùn)練模型中估計(jì)得出。這個(gè)期望向量作為所有時(shí)間步的全局參考,使去噪過(guò)程在時(shí)間上保持一致。通過(guò)保持期望的一致性,我們能夠在不降低圖像質(zhì)量的前提下壓縮采樣步數(shù)。理論分析進(jìn)一步表明,我們的設(shè)計(jì)最大化了從數(shù)據(jù)到噪聲再返回的數(shù)據(jù)-噪聲正反路徑的概率,從而帶來(lái)了更穩(wěn)定的采樣和更可靠的重建效果。

學(xué)習(xí)關(guān)鍵時(shí)間步的采樣

除了重新設(shè)計(jì)生成路徑,還著力提升訓(xùn)練效率。擴(kuò)散模型的標(biāo)準(zhǔn)訓(xùn)練過(guò)程通常對(duì)時(shí)間步進(jìn)行均勻采樣,這會(huì)引入高方差損失,并在非關(guān)鍵信息步驟上浪費(fèi)計(jì)算資源。


為了解決這一問(wèn)題,引入了一個(gè)重要性采樣機(jī)制,學(xué)習(xí)聚焦于訓(xùn)練中最關(guān)鍵的時(shí)間步。將隨機(jī) Stein 偏差(SSD)與一個(gè)神經(jīng)網(wǎng)絡(luò)相結(jié)合,該網(wǎng)絡(luò)學(xué)習(xí)一個(gè)依賴(lài)數(shù)據(jù)的時(shí)間步分布。該網(wǎng)絡(luò)預(yù)測(cè)哪些時(shí)間索引對(duì)減少訓(xùn)練損失的貢獻(xiàn)最大,從而使我們?cè)趦?yōu)化過(guò)程中優(yōu)先考慮這些時(shí)間步。結(jié)果是更快的收斂速度和更高效的訓(xùn)練資源利用。


本文框架支持在極少步驟下進(jìn)行高效采樣,同時(shí)不犧牲生成質(zhì)量。其遵循一個(gè)迭代去噪日程,采樣步驟遠(yuǎn)少于未加速的基線方法。盡管步驟減少,本文方法在美學(xué)質(zhì)量、文本-圖像對(duì)齊和結(jié)構(gòu)保真度等關(guān)鍵方面達(dá)到了或超過(guò)了需要 50 次函數(shù)評(píng)估(NFE)才能實(shí)現(xiàn)的基線結(jié)果。這些結(jié)果表明,我們的軌跡設(shè)計(jì)與噪聲一致性機(jī)制在實(shí)現(xiàn)高質(zhì)量合成與最小計(jì)算代價(jià)方面的有效性。對(duì)于其他加速方法,如量化,直接采用 Seedream 2.0 的方案。

模型性能

在一次公開(kāi)進(jìn)行的評(píng)測(cè)中,Seedream 3.0 在全球頂級(jí)文本生成圖像模型中排名第一,超越了 GPT-4o、Imagen 3、Midjourney v6.1、FLUX1.1 Pro、Ideogram 3.0 等模型。

還進(jìn)行了嚴(yán)格的專(zhuān)家評(píng)估,包括人工評(píng)估和自動(dòng)評(píng)估。結(jié)果顯示,Seedream 3.0 在所有關(guān)鍵性能指標(biāo)上相較于前一版本均有顯著提升,并在與行業(yè)領(lǐng)先模型的比較中表現(xiàn)出色。


值得注意的是,Seedream 3.0 在兩個(gè)方面表現(xiàn)尤為卓越:密集文本渲染和逼真人像生成。此外,還在下面提供了與 GPT-4o的系統(tǒng)對(duì)比分析,探討兩個(gè)模型在不同領(lǐng)域的能力邊界??傮w結(jié)果展示在圖 1 中。

Artificial Analysis 競(jìng)技場(chǎng)

Artificial Analysis 是一個(gè)領(lǐng)先的 AI 模型評(píng)測(cè)平臺(tái),專(zhuān)注于圖像和視頻生成。該平臺(tái)提供動(dòng)態(tài)排行榜,基于關(guān)鍵指標(biāo)如輸出質(zhì)量、生成速度和成本,對(duì)模型進(jìn)行評(píng)估,從而實(shí)現(xiàn)對(duì)最先進(jìn) AI 系統(tǒng)的客觀比較。


該平臺(tái)的文本生成圖像排行榜允許用戶(hù)匿名比較不同模型生成的圖像。為了保證公平性,用戶(hù)對(duì)相同提示下生成的圖像進(jìn)行投票,且不知曉圖像來(lái)自哪個(gè)模型。模型的排名基于 ELO 評(píng)分系統(tǒng),該系統(tǒng)在一定程度上反映了用戶(hù)的偏好。


Seedream 3.0 參與了 Artificial Analysis 的排名評(píng)測(cè),并在整體評(píng)分中取得了第一名,擊敗了 GPT-4o,在 Recraft V3、HiDream、Reve Image、Imagen 3(v002)、FLUX1.1 Pro 和 Midjourney v6.1 等其他模型中建立了顯著優(yōu)勢(shì)。


此外,它還在多個(gè)子維度中表現(xiàn)最佳,包括以下風(fēng)格類(lèi)別:通用 & 寫(xiě)實(shí)風(fēng)、動(dòng)漫、卡通 & 插畫(huà)、傳統(tǒng)藝術(shù);以及以下主題類(lèi)別:人物:肖像、人物:群體 & 活動(dòng)、奇幻、未來(lái)主義和物理空間。

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva!-AI.x社區(qū)

綜合評(píng)估

人工評(píng)估

建立了一個(gè)更大規(guī)模的評(píng)測(cè)基準(zhǔn),以便在不同場(chǎng)景下對(duì) Seedream 3.0 進(jìn)行更全面的評(píng)估。該基準(zhǔn)被命名為 Bench-377,由 377 個(gè)提示詞構(gòu)成。除了考察文本到圖像對(duì)齊、結(jié)構(gòu)合理性和審美感等基本維度外,提示詞的設(shè)計(jì)還考慮了使用場(chǎng)景。我們主要考慮了五大類(lèi)場(chǎng)景:電影化、美術(shù)、娛樂(lè)、美學(xué)設(shè)計(jì)和實(shí)用設(shè)計(jì)。我們提出了“實(shí)用設(shè)計(jì)”這一類(lèi)別,因?yàn)?Seedream 3.0 已被證明在輔助日常工作和學(xué)習(xí)方面具有顯著作用。例如,它可以在幻燈片中的圖標(biāo)排布、手抄報(bào)插圖設(shè)計(jì)等任務(wù)中提供支持。


基于 Bench-377,文本到圖像模型的系統(tǒng)性人工專(zhuān)家評(píng)估是通過(guò)三個(gè)基本標(biāo)準(zhǔn)進(jìn)行的:文本圖像對(duì)齊、結(jié)構(gòu)正確性以及審美質(zhì)量。圖 6 展示了五種使用場(chǎng)景的具體結(jié)果。Seedream 3.0 在文本圖像對(duì)齊和結(jié)構(gòu)保真度方面顯著優(yōu)于 Seedream 2.0 和其他競(jìng)品模型。值得注意的是,它在美學(xué)表現(xiàn)方面整體得分超過(guò)了 Midjourney。此外,在設(shè)計(jì)類(lèi)場(chǎng)景中,其表現(xiàn)也明顯優(yōu)于 Midjourney,盡管在藝術(shù)類(lèi)場(chǎng)景中略遜一籌。Imagen 3 在文本圖像對(duì)齊和結(jié)構(gòu)方面也展現(xiàn)出較好的表現(xiàn),但在美學(xué)評(píng)估中表現(xiàn)欠佳。Midjourney 雖然具有出色的審美能力,但在功能對(duì)齊和結(jié)構(gòu)保真度方面表現(xiàn)有限。

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva!-AI.x社區(qū)

圖 7、8、9 和 10 展示了基礎(chǔ)能力提升如何促進(jìn)多樣場(chǎng)景的生成。文本圖像對(duì)齊能力的提升使得用戶(hù)意圖能夠被更精準(zhǔn)地表達(dá)。例如,對(duì)微表情的生動(dòng)描繪提升了電影氛圍的表現(xiàn)力。對(duì)復(fù)雜描述和專(zhuān)業(yè)術(shù)語(yǔ)(如“三視圖”)的精準(zhǔn)理解與表達(dá),能更好地滿(mǎn)足用戶(hù)的設(shè)計(jì)需求。這些能力的基礎(chǔ)支撐來(lái)自于結(jié)構(gòu)穩(wěn)定性和審美質(zhì)量的增強(qiáng)。例如,動(dòng)態(tài)動(dòng)作中四肢的完整性、小物體的細(xì)節(jié)呈現(xiàn),以及在顏色、光照、材質(zhì)和構(gòu)圖方面的提升,都是 Seedream 3.0 高可用性的關(guān)鍵因素。

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva!-AI.x社區(qū)

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva!-AI.x社區(qū)

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva!-AI.x社區(qū)

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva!-AI.x社區(qū)

自動(dòng)評(píng)估

根據(jù)上一版本的自動(dòng)評(píng)估方式,對(duì)文本到圖像生成模型進(jìn)行了兩項(xiàng)標(biāo)準(zhǔn)的評(píng)估:文本圖像對(duì)齊和圖像質(zhì)量。Seedream 3.0 在所有基準(zhǔn)中持續(xù)排名第一。


在文本圖像對(duì)齊的自動(dòng)評(píng)估中,主要關(guān)注 EvalMuse,它在多個(gè)基準(zhǔn)中與人工評(píng)估具有較好的一致性。如表 1 所示,Seedream 3.0 的表現(xiàn)優(yōu)于其他模型。更精細(xì)的維度分析顯示,與 Seedream 2.0 相比,Seedream 3.0 在大多數(shù)維度上都有所提升,尤其是在物體、活動(dòng)、位置、食物和空間等方面。為了與此前報(bào)告的結(jié)果保持一致,此處及后續(xù)章節(jié)中也納入了對(duì) Ideogram 2.0 的評(píng)估。


在圖像質(zhì)量評(píng)估方面,復(fù)用了兩個(gè)外部指標(biāo) HPSv2和 MPS,以及兩個(gè)內(nèi)部評(píng)估模型:Internal-Align 和 Internal-Aes。如表 1 所示,Seedream 3.0 在所有指標(biāo)上均排名第一。

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva!-AI.x社區(qū)

在包含 MPS 和我們內(nèi)部審美評(píng)估模型的審美評(píng)估中,Seedream 3.0 的表現(xiàn)優(yōu)于 Midjourney,而 Seedream 2.0 在先前評(píng)估中未能做到這一點(diǎn)。同時(shí),在 HPSv2 指標(biāo)方面,Seedream 3.0 首次突破了 0.3,表明我們的模型與人類(lèi)偏好具有極高的一致性。

文本渲染

Seedream 2.0 在文本渲染方面(特別是中文字符)獲得了用戶(hù)的廣泛好評(píng)。在 Seedream 3.0 中,進(jìn)一步優(yōu)化了這一能力并進(jìn)行了全面評(píng)估。我們的文本評(píng)估基準(zhǔn)包含 180 條中文提示和 180 條英文提示,覆蓋了包括 logo 設(shè)計(jì)、海報(bào)、電子顯示、印刷文本和手寫(xiě)文本在內(nèi)的多種類(lèi)別。


采用一個(gè)基于感知的指標(biāo)(可用率)以及兩個(gè)基于統(tǒng)計(jì)的指標(biāo)(文本準(zhǔn)確率和命中率)來(lái)評(píng)估文本渲染能力??捎寐手傅氖窃谖谋句秩净菊_的前提下,考慮文本與其他內(nèi)容的融合及整體審美質(zhì)量后,被認(rèn)為可接受的圖像比例。具體的客觀指標(biāo)定義如下:

文本準(zhǔn)確率 定義為:

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva!-AI.x社區(qū)

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva!-AI.x社區(qū)

文本命中率定義為:

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva!-AI.x社區(qū)

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva!-AI.x社區(qū)

圖 11 顯示,Seedream 3.0 在文本渲染性能方面優(yōu)于包括其前代版本(Seedream 2.0)在內(nèi)的現(xiàn)有模型。該系統(tǒng)對(duì)中英文字符均實(shí)現(xiàn)了 94% 的文本可用率,基本消除了文本渲染作為圖像生成限制因素的問(wèn)題。值得注意的是,中文文本可用率相較于 Seedream 2.0 提升了 16%??捎寐逝c命中率接近的數(shù)值進(jìn)一步表明,布局或媒介相關(guān)的渲染錯(cuò)誤發(fā)生頻率極低。這些結(jié)果驗(yàn)證了我們?cè)谋句秩痉椒ㄏ啾扔诤笃诤铣煞绞胶屯獠坎寮鉀Q方案的有效性。

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva!-AI.x社區(qū)

除了整體可用率的提升,Seedream 3.0 在密集文本渲染方面的卓越表現(xiàn)也尤為值得關(guān)注。密集文本指的是字符密度高、內(nèi)容較長(zhǎng)的段落,如包含眾多祝福語(yǔ)的文字內(nèi)容,一直是此前模型的挑戰(zhàn)所在。相比之下,Seedream 3.0 在處理此類(lèi)細(xì)字符時(shí)展現(xiàn)出了顯著的進(jìn)步。如圖 12 和圖 13 所示,Seedream 3.0 在小字符的精度生成以及文本布局的自然性方面均表現(xiàn)出色。為進(jìn)行對(duì)比,將在后續(xù)章節(jié)中評(píng)估另一個(gè)在密集文本渲染方面也表現(xiàn)突出的模型 GPT-4o。

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva!-AI.x社區(qū)

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva!-AI.x社區(qū)

擬真肖像

AI 生成圖像(尤其是肖像)過(guò)于合成的外觀,一直是文本生成圖像模型的批評(píng)焦點(diǎn)。諸如過(guò)于光滑的皮膚和油膩的質(zhì)感等問(wèn)題,使得生成圖像看起來(lái)很不自然。


為了全面評(píng)估 Seedream 3.0 在該領(lǐng)域的表現(xiàn),構(gòu)建了一個(gè)包含 100 條提示詞的肖像評(píng)估集。這些提示詞聚焦于肖像生成的多個(gè)方面,包括表情、姿態(tài)、角度、發(fā)型特征、皮膚紋理、服飾和配飾等。評(píng)估采用 Elo 對(duì)戰(zhàn)方式,參與者需在不同模型生成的肖像中選出更優(yōu)者,并說(shuō)明理由。評(píng)估標(biāo)準(zhǔn)主要關(guān)注兩個(gè)維度:真實(shí)感與情感表達(dá)。


參評(píng)模型包括 Seedream 3.0、Seedream 2.0、Midjourney v6.1、FLUX-Pro 1.1,以及以擬真著稱(chēng)的新版 Ideogram 3.0。為了確保公平比較,Midjourney v6.1 會(huì)進(jìn)行多輪圖像生成,以排除那些過(guò)于藝術(shù)化或抽象的結(jié)果,保留更具現(xiàn)實(shí)感的作品。


經(jīng)過(guò)超過(guò) 50,000 輪公開(kāi)對(duì)戰(zhàn)評(píng)估后,結(jié)果如圖 14 所示(部分模型變體未顯示)。

Seedream 3.0 與 Midjourney v6.1 并列第一,顯著優(yōu)于其他模型。圖 15 中的示例展示了 Seedream 3.0 成功去除了人像中的合成感。生成的人臉紋理如今具備諸如皺紋、細(xì)小面部毛發(fā)和疤痕等真實(shí)特征,逼近自然人類(lèi)皮膚的外觀。同時(shí),Seedream 3.0 仍可根據(jù)提示生成完美無(wú)瑕的皮膚質(zhì)感。

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva!-AI.x社區(qū)

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva!-AI.x社區(qū)

此外,雖然 Midjourney v6.1 在紋理表現(xiàn)方面略遜于 Seedream 3.0,但在情感表達(dá)上的表現(xiàn)更為突出,這也為其贏得了高分排名。未來(lái)版本將進(jìn)一步加強(qiáng)這兩個(gè)方面。


特別指出,Seedream 3.0 能夠直接生成高分辨率圖像,如 2048×2048,進(jìn)一步提升了肖像紋理質(zhì)量。圖 16 展示了部分 Seedream 3.0 的生成示例。生成肖像的質(zhì)量正朝著專(zhuān)業(yè)攝影水準(zhǔn)邁進(jìn),為應(yīng)用場(chǎng)景帶來(lái)全新可能。

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva!-AI.x社區(qū)

與 GPT-4o 的對(duì)比

近期,GPT-4o 推出了令人印象深刻的圖像生成功能,展現(xiàn)出極強(qiáng)的多模態(tài)能力。由于缺乏大規(guī)模圖像生成的 API,尚無(wú)法進(jìn)行系統(tǒng)性評(píng)估。然而,通過(guò)選取部分案例進(jìn)行對(duì)比分析發(fā)現(xiàn),GPT-4o 與 Seedream 3.0 在不同場(chǎng)景中各具優(yōu)勢(shì)與不足。

密集文本渲染

GPT-4o 展現(xiàn)出優(yōu)秀的文本渲染能力,從多個(gè)示例中可見(jiàn)一斑。benw 生成了可比案例以便進(jìn)行比較,如圖 17 所示。GPT-4o 在渲染英文小字符及部分 LaTeX 符號(hào)方面表現(xiàn)出色。然而,在中文字體渲染方面存在明顯不足。相比之下,Seedream 3.0 能輕松應(yīng)對(duì)密集的中文文本生成,并在排版和美學(xué)構(gòu)圖方面優(yōu)于 GPT-4o。

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva!-AI.x社區(qū)

圖像編輯

圖像編輯任務(wù)將生成能力與真實(shí)圖像結(jié)合,因其實(shí)際應(yīng)用價(jià)值而備受關(guān)注。GPT-4o 能根據(jù)提示對(duì)給定圖像執(zhí)行編輯操作。由 Seedream 派生出的 SeedEdit 同樣支持此類(lèi)功能。此外,Gemini-2.0 近期在多模態(tài)圖像生成方面展現(xiàn)出強(qiáng)勁能力,尤其是在交替生成與多輪編輯方面。本研究聚焦于這些模型的單輪圖像生成能力,如圖 18 所示。展示了 SeedEdit 在保持 ID 和遵循提示方面表現(xiàn)更優(yōu)。

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva!-AI.x社區(qū)

這三種模型各具特點(diǎn)。GPT-4o 擅長(zhǎng)滿(mǎn)足多樣的編輯需求,但在保留原始圖像(尤其是 IP 和 ID 一致性)方面表現(xiàn)欠佳。Gemini-2.0 雖然在像素層級(jí)上保留原始圖像,但常出現(xiàn)色彩不自然和圖像質(zhì)量下降的問(wèn)題。SeedEdit 1.6 實(shí)現(xiàn)了平衡的性能,能有效應(yīng)對(duì)典型編輯需求,并保持較高的可用率。但在處理更復(fù)雜的任務(wù)(如多圖參考、多輪編輯)方面仍有局限。未來(lái)版本將針對(duì)這些問(wèn)題進(jìn)行改進(jìn)。


主要對(duì)比了 SeedEdit 與 GPT-4o 在文本相關(guān)編輯任務(wù)中的表現(xiàn)。文本編輯本身具有挑戰(zhàn)性,它要求不僅能渲染文本,還能識(shí)別并理解圖像中的字符。能處理文本編輯任務(wù),是可控圖像生成向真實(shí)圖像應(yīng)用邁進(jìn)的重要標(biāo)志。圖 19 展示了文本寫(xiě)入、刪除、修改等任務(wù)的示例。SeedEdit 繼承了 Seedream 3.0 的文本相關(guān)能力,表現(xiàn)令人滿(mǎn)意。它能夠精準(zhǔn)識(shí)別圖像中的文本,從而實(shí)現(xiàn)準(zhǔn)確刪除或修改。同時(shí),在添加文本時(shí),SeedEdit 能考慮排版,使文本與原圖無(wú)縫融合。相比之下,GPT-4o 雖能完成文本編輯任務(wù),但在保留原圖方面表現(xiàn)不佳,限制了其實(shí)用性。

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva!-AI.x社區(qū)

生成質(zhì)量

生成質(zhì)量(包括色彩、紋理、清晰度和美學(xué)吸引力)是評(píng)估文本生成圖像模型的重要指標(biāo)。Seedream 系列在這些方面持續(xù)表現(xiàn)出色,而 GPT-4o 則存在一些短板。如圖 20 所示,GPT-4o 生成的圖像往往帶有偏黃暗調(diào),且存在較多噪點(diǎn),嚴(yán)重影響圖像在多場(chǎng)景中的使用價(jià)值。

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布!中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva!-AI.x社區(qū)

結(jié)論

本文介紹了 Seedream 3.0,它通過(guò)多項(xiàng)創(chuàng)新策略應(yīng)對(duì)了現(xiàn)有挑戰(zhàn),包括圖像分辨率受限、復(fù)雜屬性依從性、細(xì)粒度排版生成,以及視覺(jué)美感和保真度不足等問(wèn)題。通過(guò)在數(shù)據(jù)構(gòu)建、模型預(yù)訓(xùn)練、后訓(xùn)練和模型加速等方面進(jìn)行系統(tǒng)升級(jí),Seedream 3.0 在多個(gè)維度上較前一版本取得了全面提升。


Seedream 3.0 提供原生高分辨率輸出、全能能力、更高的文本渲染質(zhì)量、更佳的視覺(jué)效果和極致的生成速度。隨著其在豆包、即夢(mèng)等平臺(tái)上的集成,Seedream 3.0 展現(xiàn)出強(qiáng)大的潛力,成為覆蓋各類(lèi)工作與生活場(chǎng)景的高效生產(chǎn)力工具。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/eUrV5XgxuhimSTGPOfwntw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦