豆包文生圖技術(shù)報(bào)告發(fā)布!數(shù)據(jù)處理、預(yù)訓(xùn)練、RLHF全流程公開(kāi)
今天,豆包大模型團(tuán)隊(duì)正式發(fā)布文生圖技術(shù)報(bào)告,首次公開(kāi) Seedream 2.0 圖像生成模型技術(shù)細(xì)節(jié),覆蓋數(shù)據(jù)構(gòu)建、預(yù)訓(xùn)練框架、 后訓(xùn)練 RLHF 全流程。
該報(bào)告針對(duì) Seedream 2.0 原生中英雙語(yǔ)理解、文字渲染、高美感、分辨率與畫(huà)幅變換等特性的實(shí)現(xiàn),進(jìn)行了具體介紹。
本文將呈現(xiàn)其中精華內(nèi)容,報(bào)告完整版可通過(guò)下方鏈接獲?。?/span>
技術(shù)展示頁(yè):https://team.doubao.com/tech/seedream技術(shù)報(bào)告:https://arxiv.org/pdf/2503.07703
豆包大模型團(tuán)隊(duì)文生圖模型 Seedream 2.0 于 2024 年 12 月初在豆包 APP 和即夢(mèng)上線(xiàn),已服務(wù)上億 C 端用戶(hù),并成為國(guó)內(nèi)許多專(zhuān)業(yè)設(shè)計(jì)師輔助創(chuàng)作的首選模型。
相比 Ideogram 2.0、Midjourney V6.1、Flux 1.1 Pro 等主流模型,該模型更好解決了文本渲染能力欠佳、對(duì)中國(guó)文化理解不足等諸多實(shí)際問(wèn)題,支持原生中英雙語(yǔ),美感、指令遵循等能力有整體提升。
具體來(lái)看,模型支持中英文指令的高精度理解與遵循,能生成高美感度的圖像作品。
針對(duì)字體渲染和海報(bào)設(shè)計(jì)等實(shí)際場(chǎng)景,生成文字崩壞率大幅降低,且字體變化呈現(xiàn)更自然、更具美感。
對(duì)于國(guó)風(fēng)圖案與元素,比如國(guó)畫(huà)、泥塑、文玩、旗袍、書(shū)法等,Seedream 2.0 也可輸出高品質(zhì)的呈現(xiàn)結(jié)果。
團(tuán)隊(duì)為了較全面客觀(guān)地評(píng)估模型,圍繞圖文匹配度、結(jié)構(gòu)準(zhǔn)確率、美感等基礎(chǔ)維度,嚴(yán)格構(gòu)建了 Bench-240 評(píng)測(cè)基準(zhǔn)。
通過(guò)測(cè)試,團(tuán)隊(duì)發(fā)現(xiàn) Seedream 2.0 面向英文提示詞,其生成內(nèi)容的結(jié)構(gòu)合理性、文本理解準(zhǔn)確性高于主流模型。
注:面向英文提示詞,Seedream 2.0 在不同維度上的表現(xiàn)。本圖各維度數(shù)據(jù)以最佳指標(biāo)為參照系,已進(jìn)行歸一化調(diào)整。
中文綜合能力同樣突出,其生成與渲染文字可用率達(dá) 78%,完美響應(yīng)率為 63%,高于業(yè)界目前其他模型。
注:面向中文提示詞,Seedream 2.0 在不同維度上的表現(xiàn)。本圖各維度數(shù)據(jù)以最佳指標(biāo)為參照系,已進(jìn)行歸一化調(diào)整。
以下將從數(shù)據(jù)預(yù)處理、預(yù)訓(xùn)練、后訓(xùn)練維度介紹模型技術(shù)細(xì)節(jié)。
1. 深度融合知識(shí)的數(shù)據(jù)預(yù)處理框架
生成式 AI 技術(shù),正從規(guī)模至上的 “暴力美學(xué)” ,向滿(mǎn)足特定要求的 “精準(zhǔn)智能” 轉(zhuǎn)變,與之同步,數(shù)據(jù)預(yù)處理也演變?yōu)閺?fù)雜的系統(tǒng)工程。
面對(duì)百億量級(jí)的中英多模態(tài)數(shù)據(jù),Seedream 2.0 團(tuán)隊(duì)構(gòu)建了以 “知識(shí)融合” 為核心的預(yù)處理框架,從以下三個(gè)方面實(shí)現(xiàn)技術(shù)突破。
- 四維數(shù)據(jù)架構(gòu),實(shí)現(xiàn)質(zhì)量與知識(shí)的動(dòng)態(tài)平衡
傳統(tǒng)圖像生成模型訓(xùn)練數(shù)據(jù)篩選常面臨 “質(zhì)量-規(guī)?!?的兩難抉擇,數(shù)據(jù)量級(jí)是模型能力的基礎(chǔ),但大規(guī)模數(shù)據(jù)構(gòu)建,往往伴隨質(zhì)量下滑,進(jìn)而影響模型表現(xiàn)。
為此,團(tuán)隊(duì)創(chuàng)新設(shè)計(jì)了四維拓?fù)渚W(wǎng)絡(luò),突破單一模態(tài)限制。該架構(gòu)包含四個(gè)數(shù)據(jù)層:
1)優(yōu)質(zhì)數(shù)據(jù)層:精選高分辨率、知識(shí)密度強(qiáng)的數(shù)據(jù)(如科學(xué)圖解、藝術(shù)創(chuàng)作),奠定質(zhì)量基礎(chǔ);
2)分布維持層:采用雙層級(jí)降采樣策略,從數(shù)據(jù)源維度對(duì)頭部平臺(tái)等比降維,從語(yǔ)義維度通過(guò) 10 萬(wàn)級(jí)細(xì)粒度聚類(lèi)維持多樣性;
3)知識(shí)注入層:構(gòu)建 3 萬(wàn)+ 名詞和 2000+ 動(dòng)詞分類(lèi)體系,結(jié)合百億級(jí)跨模態(tài)檢索,為數(shù)據(jù)注入文化特征;
4)定向增強(qiáng)層:建立 “缺陷發(fā)現(xiàn)-數(shù)據(jù)補(bǔ)充-效果驗(yàn)證” 閉環(huán),優(yōu)化動(dòng)作序列、反現(xiàn)實(shí)生成等場(chǎng)景。
這一架構(gòu)有效平衡了數(shù)據(jù)質(zhì)量與知識(shí)多樣性,為模型訓(xùn)練提供堅(jiān)實(shí)的數(shù)據(jù)支撐。
- 智能標(biāo)注引擎:三級(jí)認(rèn)知進(jìn)化
傳統(tǒng)標(biāo)注的 Caption 系統(tǒng)受單模態(tài)理解局限,對(duì)圖像內(nèi)容描述不夠全面精準(zhǔn)。團(tuán)隊(duì)在其基礎(chǔ)上,實(shí)現(xiàn)了智能標(biāo)注引擎的三級(jí)認(rèn)知進(jìn)化,提升模型理解、識(shí)別能力。
首先,構(gòu)建分層描述體系,通過(guò)短、長(zhǎng)和特殊場(chǎng)景 Caption 結(jié)合,實(shí)現(xiàn)多維度、多層級(jí)精準(zhǔn)圖片描述,既能捕捉圖像核心內(nèi)容,又能提供豐富細(xì)節(jié)與藝術(shù)解釋。
其次,建立文化專(zhuān)有名詞映射庫(kù),實(shí)現(xiàn)跨語(yǔ)言對(duì)齊,將中英文生成質(zhì)量差異壓縮至 2% 以?xún)?nèi),提升模型在多語(yǔ)言環(huán)境下表現(xiàn)。
最后,引入動(dòng)態(tài)質(zhì)檢機(jī)制,利用 LLM 進(jìn)行預(yù)篩選,通過(guò) Badcase 驅(qū)動(dòng) prompt 模板迭代,優(yōu)化描述質(zhì)量,確保數(shù)據(jù)質(zhì)量與可靠性。
- 工程化重構(gòu):百億數(shù)據(jù)的流水線(xiàn)并行處理
工程化方面,傳統(tǒng) ETL 流程存在算力錯(cuò)配與迭代遲滯痛點(diǎn)。
這不僅導(dǎo)致非核心任務(wù)占用大量高算力資源,擠占核心任務(wù)資源,也造成數(shù)據(jù)處理流程難以適應(yīng)業(yè)務(wù)與數(shù)據(jù)變化,限制整體效能。
團(tuán)隊(duì)從兩方面重構(gòu)工程系統(tǒng)。
一方面通過(guò)異構(gòu)調(diào)度,將水印檢測(cè)等非核心任務(wù)遷移至低算力集群,釋放高算力資源用于關(guān)鍵任務(wù)。另一方面,采用 “分片-校驗(yàn)-裝載” 三級(jí)流水線(xiàn)并行處理方法,打包速度提升 8 倍。
這些改進(jìn)大幅提高數(shù)據(jù)處理效率與質(zhì)量,為大規(guī)模數(shù)據(jù)管理利用奠定基礎(chǔ)。
2. 預(yù)訓(xùn)練聚焦雙語(yǔ)理解與文字渲染
在預(yù)訓(xùn)練階段,團(tuán)隊(duì)基于大量用戶(hù)調(diào)研與技術(shù)預(yù)判認(rèn)為,多語(yǔ)言語(yǔ)義理解、雙語(yǔ)文字渲染和多分辨率場(chǎng)景適配等模塊的突破,對(duì)于圖像生成技術(shù)發(fā)展極為關(guān)鍵,可大幅提升模型適用性與用戶(hù)體驗(yàn),滿(mǎn)足不同語(yǔ)言文化背景的用戶(hù)需求,并拓展應(yīng)用場(chǎng)景。
因此,Seedream 2.0 采用了全新的預(yù)訓(xùn)練架構(gòu)設(shè)計(jì),其整體框圖如下。
具體來(lái)看,Seedream 2.0 從三個(gè)方面實(shí)現(xiàn)了關(guān)鍵技術(shù)升級(jí)。
- 原生雙語(yǔ)對(duì)齊方案,打破語(yǔ)言視覺(jué)次元壁
面向雙語(yǔ)文生圖場(chǎng)景,傳統(tǒng)的 CLIP/T5 編碼器對(duì)中文語(yǔ)義和文化細(xì)節(jié)的捕捉能力有限,大語(yǔ)言模型雖具備多語(yǔ)言理解能力,但文本嵌入與圖像特征的空間分布差異卻導(dǎo)致擴(kuò)散模型訓(xùn)練難以收斂。
為此,團(tuán)隊(duì)提出基于 LLM 的雙語(yǔ)對(duì)齊方案。通過(guò)大規(guī)模文本-圖像對(duì)數(shù)據(jù),微調(diào) Decoder-Only 架構(gòu)的 LLM,使文本 Embedding 與視覺(jué)特征形成空間映射對(duì)齊。
同時(shí),針對(duì)中文書(shū)法、方言俚語(yǔ)、專(zhuān)業(yè)術(shù)語(yǔ)等場(chǎng)景構(gòu)建專(zhuān)用數(shù)據(jù)集,加強(qiáng)模型對(duì)文化符號(hào)的深度理解與感知。
這種“預(yù)訓(xùn)練對(duì)齊 + 領(lǐng)域增強(qiáng)”的雙軌策略,使模型能夠直接從大量中英文數(shù)據(jù)中習(xí)得“地道”的本土知識(shí),進(jìn)而,準(zhǔn)確生成具有文化細(xì)微差別的中文或英文美學(xué)表達(dá)圖像,打破不同語(yǔ)言與視覺(jué)的次元壁。
- 讓模型既看懂文本,又關(guān)注字體字形
在過(guò)去,圖像生成模型的文本渲染常面臨兩難困境:依賴(lài) ByT5 等字形模型易導(dǎo)致長(zhǎng)文本布局混亂,而引入 OCR 圖像特征又需額外布局規(guī)劃模塊。
為此,團(tuán)隊(duì)構(gòu)建了雙模態(tài)編碼融合系統(tǒng)—— LLM 負(fù)責(zé)解析“文本要表達(dá)什么”,ByT5 專(zhuān)注刻畫(huà)“文字應(yīng)該長(zhǎng)什么樣”。
具體來(lái)說(shuō),通過(guò) MLP 投影層,將 ByT5 的字形特征對(duì)齊到 LLM 語(yǔ)義空間,二者拼接后輸入擴(kuò)散模型。
此種方法下,字體、顏色、大小、位置等渲染屬性不再依賴(lài)預(yù)設(shè)模板,而是通過(guò) LLM 直接描述文本特征,進(jìn)行端到端訓(xùn)練。
如此一來(lái),模型既能從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)文本渲染特征,也可以基于編碼后的渲染特征,高效學(xué)習(xí)渲染文本的字形特征。
- 三重升級(jí) DiT 架構(gòu),讓圖像生成縮放自如
多分辨率生成是圖像生成場(chǎng)景的常用需求,團(tuán)隊(duì)在 SD3 的 MMDiT 架構(gòu)基礎(chǔ)上,進(jìn)行了兩重升級(jí):
其一,在訓(xùn)練穩(wěn)定性方面。團(tuán)隊(duì)引入 QK-Norm 抑制注意力矩陣的數(shù)值波動(dòng),結(jié)合全分片數(shù)據(jù)并行策略(FSDP),使模型訓(xùn)練收斂速度提升 300%。
其二,團(tuán)隊(duì)設(shè)計(jì)了 Scaling ROPE 技術(shù)方案。傳統(tǒng)二維旋轉(zhuǎn)位置編碼(RoPE)在分辨率變化時(shí),可能會(huì)導(dǎo)致位置標(biāo)識(shí)錯(cuò)位。Seedream 2.0 通過(guò)動(dòng)態(tài)縮放因子調(diào)整編碼,使圖像中心區(qū)域在不同寬高比下,保持空間一致性。這使得模型在推理過(guò)程中,能夠生成從未訓(xùn)練過(guò)的圖像尺寸和各種分辨率。
3. 后訓(xùn)練 RLHF 突破能力瓶頸
Seedream 2.0 的后訓(xùn)練過(guò)程包含四個(gè)階段:
其中,CT 和 SFT 增強(qiáng)模型美學(xué)吸引力;人類(lèi)反饋對(duì)齊(RLHF)利用自研獎(jiǎng)勵(lì)模型與反饋算法,提升模型整體性能;Prompt Engineering 借助微調(diào)大語(yǔ)言模型優(yōu)化美學(xué)與多樣性表現(xiàn);超分模型提高圖像分辨率并修復(fù)細(xì)微結(jié)構(gòu)錯(cuò)誤。
其中最值得一提的是,團(tuán)隊(duì)開(kāi)發(fā)了基于人類(lèi)反饋對(duì)齊的(RLHF)優(yōu)化系統(tǒng),提升了 Seedream 2.0 整體性能。
其核心工作包含以下三個(gè)方面:
- 多維度偏好數(shù)據(jù)體系,提升模型偏好上限
團(tuán)隊(duì)收集并整理了一個(gè)多功能的 Prompt 集合,專(zhuān)門(mén)用于獎(jiǎng)勵(lì)模型(RM)訓(xùn)練和反饋學(xué)習(xí)階段,并通過(guò)構(gòu)建跨版本和跨模型標(biāo)注管道,增強(qiáng)了 RM 的領(lǐng)域適應(yīng)性,并擴(kuò)展了模型偏好的上限。
在標(biāo)注階段,團(tuán)隊(duì)構(gòu)建了多維融合注釋。這一做法成功擴(kuò)展了單一獎(jiǎng)勵(lì)模型的多維度偏好表征邊界,促進(jìn)模型在多個(gè)維度上實(shí)現(xiàn)帕累托最優(yōu)。
- 三個(gè)不同獎(jiǎng)勵(lì)模型,給予專(zhuān)項(xiàng)提升
Seedream 2.0 直接利用 CLIP 嵌入空間距離,作為基礎(chǔ)獎(jiǎng)勵(lì)值。這省去了回歸頭等冗余參數(shù)結(jié)構(gòu)以及不穩(wěn)定訓(xùn)練情況。
同時(shí),團(tuán)隊(duì)精心制作并訓(xùn)練了三個(gè)不同的獎(jiǎng)勵(lì)模型:圖像文本對(duì)齊 RM、美學(xué) RM 和文本渲染 RM。
其中,文本渲染 RM 引入了觸發(fā)式激活機(jī)制,在檢測(cè)到“文本生成”類(lèi)標(biāo)簽時(shí),模型將強(qiáng)化字符細(xì)節(jié)優(yōu)化能力,提升漢字生成準(zhǔn)確率。
- 反復(fù)學(xué)習(xí),驅(qū)動(dòng)模型進(jìn)化
團(tuán)隊(duì)通過(guò)直接最大化多個(gè) RM 的獎(jiǎng)勵(lì),以改進(jìn)擴(kuò)散模型。通過(guò)調(diào)整學(xué)習(xí)率、選擇合適的去噪時(shí)間步長(zhǎng)和實(shí)施權(quán)重指數(shù)滑動(dòng)平均,實(shí)現(xiàn)了穩(wěn)定的反饋學(xué)習(xí)訓(xùn)練。
在反饋學(xué)習(xí)階段,團(tuán)隊(duì)同時(shí)微調(diào) DiT 和文本編碼器。此種聯(lián)合訓(xùn)練顯著增強(qiáng)了模型在圖像文本對(duì)齊和美學(xué)改進(jìn)方面的能力。
經(jīng)過(guò) RLHF 階段對(duì)擴(kuò)散模型和獎(jiǎng)勵(lì)模型的多輪迭代,團(tuán)隊(duì)進(jìn)一步提高了模型性能。
獎(jiǎng)勵(lì)曲線(xiàn)顯示,在整個(gè)對(duì)齊過(guò)程中,不同獎(jiǎng)勵(lì)模型的表現(xiàn)分?jǐn)?shù)值都呈現(xiàn)穩(wěn)定且一致的上升趨勢(shì)。
4. 寫(xiě)在最后
此次技術(shù)報(bào)告的發(fā)布,旨在推動(dòng)圖像生成技術(shù)進(jìn)一步發(fā)展,加強(qiáng)業(yè)內(nèi)交流。
展望未來(lái),團(tuán)隊(duì)將持續(xù)探索更高效地 Scaling 模型參數(shù)及數(shù)據(jù)的創(chuàng)新技術(shù),進(jìn)一步提升模型的性能邊界。
伴隨 2025 年強(qiáng)化學(xué)習(xí)浪潮興起,團(tuán)隊(duì)將持續(xù)探索基于強(qiáng)化學(xué)習(xí)的優(yōu)化機(jī)制,包括如何更好地設(shè)計(jì)獎(jiǎng)勵(lì)模型及數(shù)據(jù)構(gòu)建方案。
后續(xù),豆包大模型團(tuán)隊(duì)也將持續(xù)分享技術(shù)經(jīng)驗(yàn),共同推動(dòng)行業(yè)發(fā)展。