Seedream 3.0 文生圖模型技術(shù)報(bào)告發(fā)布
字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)正式發(fā)布 Seedream 3.0 技術(shù)報(bào)告。Seedream 3.0 是一個(gè)原生高分辨率、支持中英雙語(yǔ)的圖像生成基礎(chǔ)模型,對(duì)比 Seedream 2.0,這一版本的整體性能表現(xiàn)有較大提升,尤其在分辨率、生圖結(jié)構(gòu)準(zhǔn)確性、數(shù)量準(zhǔn)確性、多物體屬性關(guān)系、小字生成與排版、美感效果、真實(shí)度等方面有所突破。
具體亮點(diǎn)如下:
- 原生 2K 直出,適配多比例場(chǎng)景:無(wú)需后處理可直接輸出 2K 分辨率圖像,從手機(jī)端到巨幅海報(bào)場(chǎng)景的視覺需求均可滿足;
- 3 秒出圖,大幅提升創(chuàng)作效率:面向海報(bào)設(shè)計(jì)、視覺創(chuàng)意等需求,可實(shí)現(xiàn) 3 秒左右快速生成高品質(zhì)圖像,實(shí)現(xiàn)“所想即所得”的實(shí)時(shí)創(chuàng)意交互;
- 小字更準(zhǔn),文本排版效果增強(qiáng):優(yōu)化小字體高保真生成、多行文本語(yǔ)義排版等業(yè)界難題,讓 AI 具備商業(yè)級(jí)圖文設(shè)計(jì)能力;
- 美感&結(jié)構(gòu)提升,生成富有感染力:指令遵循進(jìn)一步增強(qiáng),人體和物體結(jié)構(gòu)崩壞改善,且進(jìn)一步弱化了出圖的 AI 感,實(shí)現(xiàn)從“看得清”到“有感染力”的審美提升。
Arxiv:https://arxiv.org/abs/2504.11346
技術(shù)呈現(xiàn)頁(yè):https://team.doubao.com/tech/seedream3_0
Seedream 3.0 的研發(fā)始于 2024 年末,通過(guò)調(diào)研設(shè)計(jì)師等群體的實(shí)際需求,Seedream 團(tuán)隊(duì)不僅將圖文匹配、結(jié)構(gòu)、美感等行業(yè)共識(shí)性指標(biāo)納入攻堅(jiān)方向,同時(shí),也將挑戰(zhàn)小字生成與復(fù)雜文本排版、2K 高清直出、快速圖片生成等業(yè)界難題作為核心目標(biāo)。
2025 年 4 月,Seedream 3.0 正式上線,目前已在豆包、即夢(mèng)等平臺(tái)全量開放。
面向結(jié)構(gòu)、美感、人像、文字可用性、用戶偏好(Elo)等維度的主客觀評(píng)測(cè)結(jié)果顯示,Seedream 3.0 相比 2.0 版本綜合性能顯著提升,尤其在長(zhǎng)文本渲染、真實(shí)人像生成方面表現(xiàn)出色。
Seedream 3.0 在不同維度上的表現(xiàn)。本圖各維度數(shù)據(jù)以最佳指標(biāo)為參照系,已進(jìn)行歸一化調(diào)整。
在權(quán)威競(jìng)技場(chǎng) Artificial Analysis 上,Seedream 3.0 與 GPT-4o、Imagen 3、Midjourney v6.1、FLUX 1.1 Pro、Ideogram 3.0 等文生圖模型同臺(tái)競(jìng)技,在近期打榜中,一度排名第一。
Artificial Analysis 排名(截止 4 月 15 日下午)
值得一提的是,Seedream 3.0 在海報(bào)設(shè)計(jì)與創(chuàng)意生成方面較為突出,貼合了設(shè)計(jì)師群體的日常工作需求。
本文將從數(shù)據(jù)采集與處理、預(yù)訓(xùn)練、后訓(xùn)練、推理加速等方面,介紹 Seedream 3.0 的技術(shù)實(shí)現(xiàn)方法。1. :缺陷感知擴(kuò)充數(shù)據(jù)集,并改進(jìn)數(shù)據(jù)分布
對(duì)生成式 AI,大規(guī)模的高質(zhì)量訓(xùn)練數(shù)據(jù)必不可少。Seedream 3.0 從以下三個(gè)方面優(yōu)化了數(shù)據(jù)采集和預(yù)處理流程:
- 圖像缺陷感知的訓(xùn)練策略,大幅提升可用數(shù)據(jù)量
Seedream 2.0 中為了保證訓(xùn)練數(shù)據(jù)的質(zhì)量,采用了相對(duì)來(lái)說(shuō)比較保守的數(shù)據(jù)篩選策略,去除了大量具有微小缺陷(水印、字幕、馬賽克等)的圖像。在 Seedream 3.0 中,團(tuán)隊(duì)采用了全新的缺陷感知訓(xùn)練策略,通過(guò)自研檢測(cè)器精準(zhǔn)定位缺陷位置和面積,將缺陷較小的圖像保留,并在訓(xùn)練時(shí)通過(guò)隱空間掩碼來(lái)避免圖像缺陷對(duì)損失函數(shù)的影響。這樣的設(shè)計(jì)使得有效數(shù)據(jù)集擴(kuò)充超過(guò) 20%,且依舊保障了模型的穩(wěn)定訓(xùn)練。
- 視覺語(yǔ)義協(xié)同的采樣策略,有效平衡數(shù)據(jù)分布
傳統(tǒng)的文生圖數(shù)據(jù)集的構(gòu)建方法通常面臨數(shù)據(jù)分布不均衡的挑戰(zhàn)。為了解決這個(gè)問(wèn)題,團(tuán)隊(duì)提出了視覺語(yǔ)義二維協(xié)同的采樣策略:在視覺方面,采用層次化聚類方法來(lái)保證不同視覺形態(tài)的平衡;在語(yǔ)義方面,采用 TF-IDF (詞頻-逆文檔頻率) 技術(shù)有效解決文本描述的長(zhǎng)尾分布,通過(guò)在視覺和語(yǔ)義兩個(gè)方面的協(xié)同優(yōu)化,大幅提升了視覺模式語(yǔ)義概念的均衡性。
- 研發(fā)圖文檢索系統(tǒng),進(jìn)一步改進(jìn)數(shù)據(jù)分布
Seedream 3.0 團(tuán)隊(duì)研發(fā)了一套圖文檢索系統(tǒng),該系統(tǒng)在公開的評(píng)測(cè)集上取得相對(duì)領(lǐng)先的性能?;谶@個(gè)圖文檢索系統(tǒng),團(tuán)隊(duì)對(duì)現(xiàn)有數(shù)據(jù)集進(jìn)行了過(guò)濾和分布的校準(zhǔn),進(jìn)一步提升了訓(xùn)練數(shù)據(jù)的質(zhì)量,為文生圖大模型的訓(xùn)練打下了基礎(chǔ)。 2. 預(yù)訓(xùn)練:聚焦多分辨率生成和語(yǔ)義對(duì)齊
在預(yù)訓(xùn)練階段,團(tuán)隊(duì)針對(duì)多語(yǔ)言語(yǔ)義理解、更加精準(zhǔn)的文字渲染、多分辨率高質(zhì)量圖像直出等目標(biāo),對(duì)模型架構(gòu)和訓(xùn)練策略做了多個(gè)方面的改進(jìn):
- 跨模態(tài)旋轉(zhuǎn)位置編碼,進(jìn)一步加強(qiáng)文字渲染能力
為了進(jìn)一步加強(qiáng)圖文匹配能力,團(tuán)隊(duì)將上個(gè)版本提出的 Scaling RoPE 擴(kuò)展成了跨模態(tài)的旋轉(zhuǎn)位置編碼(Cross-modality RoPE)。傳統(tǒng)的方法中大多對(duì)圖像特征采用 2D RoPE 方案,而對(duì)文本特征采用 1D RoPE 的方案,不利于兩種模態(tài)特征的對(duì)齊。在 Cross-modality RoPE 中,團(tuán)隊(duì)將文本特征視為一個(gè)形狀為 [1, L] 的二維特征,并在上面施加 2D RoPE。同時(shí),文本的 2D RoPE 的起始列 ID 從圖像 2D RoPE 的結(jié)束列 ID 后開始計(jì)算。這樣的設(shè)計(jì)方式可以更好地建模不同模態(tài)間特征的相互關(guān)系和每個(gè)模態(tài)內(nèi)特征的相對(duì)位置,是 Seedream 3.0 模型能夠?qū)崿F(xiàn)更強(qiáng)文字渲染能力的關(guān)鍵因素之一。
- 多分辨率混合訓(xùn)練,讓2K圖像直出成為可能
上個(gè)版本模型采用了額外的 Refiner 來(lái)生成高分辨率的圖像,增加了額外的推理開銷。在 Seedream 3.0 中,團(tuán)隊(duì)借助了 Transformers 架構(gòu)對(duì)變長(zhǎng)輸入序列的靈活處理能力,采用了多分辨率混合訓(xùn)練的策略。預(yù)訓(xùn)練的第一階段,團(tuán)隊(duì)在平均分辨率為 256×256 的低分辨率圖像上進(jìn)行訓(xùn)練;在第二階段,團(tuán)隊(duì)將平均分辨率為 512×512 到 2048×2048 的不同分辨率和長(zhǎng)寬比的圖像進(jìn)行混合訓(xùn)練。為了提升訓(xùn)練效率,團(tuán)隊(duì)還設(shè)計(jì)了負(fù)載均衡策略保證不同 GPU 上的序列長(zhǎng)度大致相等。最終訓(xùn)練的模型能夠?qū)崿F(xiàn)多種分辨率的圖像生成,在不經(jīng)過(guò)額外 Refiner 的情況下實(shí)現(xiàn)2K圖像直出。
- 流匹配和特征對(duì)齊損失函數(shù),高效建模數(shù)據(jù)分布
不同于 Seedream 2.0 中采用了去噪擴(kuò)散模型的分?jǐn)?shù)匹配(Score Matching)損失函數(shù),Seedream 3.0 采用了流匹配(Flow Matching)的損失函數(shù)來(lái)實(shí)現(xiàn)條件速度場(chǎng)的預(yù)測(cè)。為了更好適配多分辨率混合訓(xùn)練的信噪比變化,團(tuán)隊(duì)根據(jù)不同訓(xùn)練階段的平均分辨率大小來(lái)動(dòng)態(tài)調(diào)整流匹配訓(xùn)練過(guò)程中的時(shí)間步的分布。除此之外,團(tuán)隊(duì)還采用了特征對(duì)齊損失函數(shù)(REPA)輔助模型在預(yù)訓(xùn)練階段更快地收斂,這也是特征對(duì)齊損失函數(shù)在工業(yè)級(jí)大規(guī)模文生圖模型上的一次有效驗(yàn)證。 3. 后訓(xùn)練RLHF:進(jìn)一步提升美感并拓展模型上限
在后訓(xùn)練階段,團(tuán)隊(duì)在 CT 和 SFT 階段設(shè)計(jì)了多版本的美感描述,并在 RLHF 階段通過(guò)擴(kuò)展獎(jiǎng)勵(lì)模型規(guī)模,使其具備多維度質(zhì)量判別能力,進(jìn)而全方位提升生成模型性能。
- 多粒度美感描述
Seedream 3.0 針對(duì) CT 和 SFT 階段的數(shù)據(jù)專門訓(xùn)練了多個(gè)版本的 Caption 模型。這些 Caption 模型在審美、風(fēng)格、排版等專業(yè)領(lǐng)域提供了精準(zhǔn)的描述。這確保了模型能夠更有效地響應(yīng)各種提示,這些多粒度的 Caption 不僅提升了模型的可控性,也有助于協(xié)同PE提升模型整體性能。
- 獎(jiǎng)勵(lì)模型拓展
不同于 Seedream 2.0 采用 CLIP 作為獎(jiǎng)勵(lì)模型,Seedream 3.0 進(jìn)一步優(yōu)化了獎(jiǎng)勵(lì)模型,并提升了其參數(shù)量。Seedream 3.0 采用視覺語(yǔ)言模型(VLM)作為獎(jiǎng)勵(lì)模型,團(tuán)隊(duì)借鑒 LLM 中生成式 RM 的經(jīng)驗(yàn)進(jìn)行獎(jiǎng)勵(lì)建模,這樣更易于通過(guò) LLM 原本的 Scaling 能力提升獎(jiǎng)勵(lì)準(zhǔn)確性與魯棒性;同時(shí),團(tuán)隊(duì)將獎(jiǎng)勵(lì)模型的參數(shù)量從 0.8B 拓展至 20B 以上,并發(fā)現(xiàn)一定的獎(jiǎng)勵(lì)模型 Scaling 規(guī)律。 4. 高效推理:1K 分辨率生圖端到端僅需 3 秒
Seedream 3.0 采用多種策略實(shí)現(xiàn)了推理加速。除了對(duì)模型進(jìn)行量化之外,對(duì)于擴(kuò)散模型的一個(gè)重要加速維度就是推理時(shí)采樣步數(shù)的蒸餾。Seedream 3.0 采用了自研推理加速算法,具體來(lái)說(shuō)包括以下幾個(gè)關(guān)鍵點(diǎn):
- 一致性噪聲預(yù)測(cè),提升采樣過(guò)程的平穩(wěn)性
傳統(tǒng)的擴(kuò)散模型在采樣過(guò)程中每個(gè)時(shí)間步的噪聲預(yù)測(cè)值的變化很大,這種采樣過(guò)程的不穩(wěn)定是其需要大量采樣步數(shù)的原因之一。為了解決這個(gè)問(wèn)題,團(tuán)隊(duì)提出了讓網(wǎng)絡(luò)來(lái)預(yù)測(cè)全局噪聲期望,這在整個(gè)采 樣過(guò)程中具有很強(qiáng)的一致性,從而能夠有效壓縮總采樣步數(shù)。
- 重要時(shí)間步采樣,加速模型蒸餾訓(xùn)練過(guò)程
為了提升模型蒸餾的效率,團(tuán)隊(duì)提出了重要時(shí)間步采樣技術(shù)。該技術(shù)訓(xùn)練了一個(gè)網(wǎng)絡(luò)來(lái)針對(duì)每個(gè)樣本預(yù)測(cè)重要的采樣時(shí)間步的分布,并基于這個(gè)分布得到最優(yōu)的時(shí)間步進(jìn)行模型蒸餾。結(jié)合重要時(shí)間步采樣技術(shù),團(tuán)隊(duì)能夠在 64 GPU days 之內(nèi)完成對(duì)模型的蒸餾訓(xùn)練過(guò)程。
利用上述技術(shù),團(tuán)隊(duì)實(shí)現(xiàn)了對(duì)模型的無(wú)損加速,能夠在保持圖文匹配、美學(xué)質(zhì)量、結(jié)構(gòu)準(zhǔn)確度等指標(biāo)幾乎不受影響的情況下實(shí)現(xiàn)高效生圖,1K 分辨率生圖端到端耗時(shí)僅需 3 秒。 寫在最后
Seedream 3.0 模型發(fā)布后,在海報(bào)創(chuàng)作、生成效率、結(jié)構(gòu)與美感等方面的提升獲得了一定認(rèn)可。
未來(lái),Seedream 團(tuán)隊(duì)期望嘗試在以下方向進(jìn)一步研究和探索:探索更高效的結(jié)構(gòu)設(shè)計(jì):構(gòu)建效果更好、成本更低、生成更快的文生圖模型;提升模型智能化水平:拓展模型對(duì)世界知識(shí)的理解,賦予模型交織生成等能力;探索數(shù)據(jù)、模型量級(jí)、獎(jiǎng)勵(lì)模型等維度 Scaling 現(xiàn)象,并將認(rèn)知積累應(yīng)用于下一代模型中。
后續(xù),團(tuán)隊(duì)還將持續(xù)分享技術(shù)經(jīng)驗(yàn),與業(yè)界共同推動(dòng)視覺生成領(lǐng)域的發(fā)展。