多模態(tài)圖像生成模型Qwen2vl-Flux,利用Qwen2VL視覺(jué)語(yǔ)言能力增強(qiáng)FLUX,可集成ControlNet
本文經(jīng)AIGC Studio公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
Qwen2vl-Flux 是一種先進(jìn)的多模態(tài)圖像生成模型,它利用 Qwen2VL 的視覺(jué)語(yǔ)言理解能力增強(qiáng)了 FLUX。該模型擅長(zhǎng)根據(jù)文本提示和視覺(jué)參考生成高質(zhì)量圖像,提供卓越的多模態(tài)理解和控制。讓 FLUX 的多模態(tài)圖像理解和提示詞理解變得很強(qiáng)。
Qwen2vl-Flux有以下特點(diǎn):
- 無(wú)文本圖像直接基于圖像生成圖像;
- 類似 IPA 將圖片和文字結(jié)合生成對(duì)應(yīng)風(fēng)格的圖片;
- GridDot控制面板,細(xì)致的風(fēng)格提取;
- ControlNet 集成,支持 Depth 和 canny
相關(guān)鏈接
- 代碼:https://github.com/erwold/qwen2vl-flux
- 模型:https://huggingface.co/Djrango/Qwen2vl-Flux
模型架構(gòu)
該模型將 Qwen2VL 的視覺(jué)語(yǔ)言功能集成到 FLUX 框架中,從而實(shí)現(xiàn)更精確、更具情境感知的圖像生成。關(guān)鍵組件包括:
- 視覺(jué)語(yǔ)言理解模塊(Qwen2VL)
- 增強(qiáng)型 FLUX 主干
- 多模式生成管道
- 結(jié)構(gòu)控制集成
特征
- 增強(qiáng)視覺(jué)語(yǔ)言理解:利用 Qwen2VL 實(shí)現(xiàn)卓越的多模式理解
- 多種生成模式:支持變異、img2img、修復(fù)和控制網(wǎng)引導(dǎo)生成
- 結(jié)構(gòu)控制:集成深度估計(jì)和線路檢測(cè),實(shí)現(xiàn)精確的結(jié)構(gòu)引導(dǎo)
- 靈活的注意力機(jī)制:通過(guò)空間注意力控制支持焦點(diǎn)生成
- 高分辨率輸出:支持高達(dá) 1536x1024 的各種寬高比
生成示例
圖像變化
在保持原始圖像本質(zhì)的同時(shí),創(chuàng)造出多樣化的變化:
圖像混合
通過(guò)智能風(fēng)格轉(zhuǎn)換無(wú)縫融合多幅圖像:
文本引導(dǎo)的圖像混合
通過(guò)文本提示控制圖像生成:
基于網(wǎng)格的風(fēng)格遷移
應(yīng)用網(wǎng)格注意力的細(xì)粒度樣式控制: