DPG-Bench榜首!智譜開源文生圖模型CogView4:支持中英文輸入和生成,免費商用授權(quán)!
在圖像生成技術(shù)的浪潮中,智譜開源再次引領(lǐng)潮流,推出了全新的文生圖模型——CogView4。這款模型不僅支持中英雙語提示詞輸入,更擅長理解和遵循中文指令,讓創(chuàng)意表達(dá)無界限。尤為值得一提的是,CogView4開創(chuàng)了先河,成為首個能在畫面中直接生成漢字的開源文生圖模型,讓文字與圖像的融合更加自然流暢。
不僅如此,CogView4還具備極高的靈活性,支持生成任意寬高比的圖片,同時接受任意長度的提示詞輸入,滿足用戶多樣化的創(chuàng)作需求。更令人期待的是,后續(xù)還將開源對應(yīng)的Controlnet、Comfyui支持及模型微調(diào)工具,為用戶帶來更加便捷、高效的創(chuàng)作體驗。
在DPG-Bench基準(zhǔn)測試中,CogView4憑借卓越的表現(xiàn)榮獲綜合評分第一,彰顯了其在圖像生成領(lǐng)域的強(qiáng)大實力。今年,圖像模型領(lǐng)域終于迎來了新的突破,而CogView4無疑是這場變革中的佼佼者。
CogView4主要特點總結(jié)如下:
- 支持中英雙語提示詞輸入,擅長理解和遵循中文提示詞
- 首個能夠在畫面中生成漢字的開源文生圖模型
- 支持生成任意寬高的圖片以及任意長度提示詞輸入
相關(guān)鏈接
- 論文:https://arxiv.org/pdf/2403.05121
- 項目:github.com/THUDM/CogView4
- 模型:huggingface.co/THUDM/CogView4-6B
- 試用:https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
效果展示
推理要求與模型介紹
- 分辨率:寬度和高度必須介于512px和之間2048px,可被 整除32,并且確保最大像素數(shù)不超過2^21px。
- 精度:BF16 / FP32(不支持 FP16,因為它會導(dǎo)致溢出,從而導(dǎo)致圖像完全變黑) 使用BF16精度為batchsize=4進(jìn)行測試,內(nèi)存使用情況如下表所示: