自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<tfoot id="tj1sp"><rt id="tj1sp"></rt></tfoot>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

中文、日文、韓文等多種語言精準(zhǔn)生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘

發(fā)布于 2025-4-30 09:13

瀏覽

0收藏

中文、日文、韓文等多種語言精準(zhǔn)生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區(qū)

文章地址：https://arxiv.org/abs/2504.19724

項(xiàng)目鏈接：https://reptext.github.io/

Git鏈接：https://github.com/Shakker-Labs/RepText

亮點(diǎn)直擊

RepText，一個(gè)用于可控多語言視覺文本渲染的有效框架。
創(chuàng)新性地引入了字形隱空間變量復(fù)制技術(shù)，以提高排版準(zhǔn)確性并實(shí)現(xiàn)顏色控制。此外，采用區(qū)域掩碼來保證良好的視覺保真度，避免背景干擾。
定性實(shí)驗(yàn)表明，本方法優(yōu)于現(xiàn)有開源方案，并與原生多語言閉源模型取得了可比的結(jié)果。

中文、日文、韓文等多種語言精準(zhǔn)生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區(qū)

總結(jié)速覽

解決的問題

現(xiàn)有文本生成圖像模型在視覺文字渲染上的不足。當(dāng)前主流文本生成圖像模型（如 Stable Diffusion、DiT-based 模型）在生成精確的視覺文字（尤其是非拉丁字母）時(shí)表現(xiàn)不佳。主要原因是文本編碼器無法有效處理多語言輸入，或訓(xùn)練數(shù)據(jù)中多語言分布存在偏差。
替換文本編碼器（如采用多語言大語言模型）并從頭訓(xùn)練模型，但資源消耗高。
引入輔助模塊（如 ControlNet）控制文字渲染，但大多基于舊版 UNet 架構(gòu)（如 SD1.5/SDXL），生成質(zhì)量受限，且無法適配最新的 DiT-based 模型（如 SD3.5、FLUX）。
現(xiàn)有方法缺乏對字體、位置、顏色的靈活控制，且多語言支持不足。

提出的方案

提出RepText，通過字形復(fù)制（glyph replication）而非語義理解，實(shí)現(xiàn)多語言視覺文字的精確渲染。
基于 ControlNet 的文本復(fù)制框架，采用類似 ControlNet 的結(jié)構(gòu)，以canny 邊緣圖 + 文字位置圖作為條件輸入，指導(dǎo)模型復(fù)制字形。不依賴額外文本/圖像編碼器，避免多語言理解問題。
字形隱空間變量初始化（Glyph Latent Replication）。在推理時(shí)，直接用帶噪聲的文字字形隱空間變量初始化生成過程（而非隨機(jī)噪聲），提升文字準(zhǔn)確性。
區(qū)域掩碼控制（Region Masking）。限制特征注入僅作用于文字區(qū)域，避免背景失真。
文本感知損失（Text Perceptual Loss）。結(jié)合擴(kuò)散損失，進(jìn)一步優(yōu)化文字渲染的清晰度。

應(yīng)用的技術(shù)

基礎(chǔ)模型：適配最新的DiT-based 模型（如 SD3.5、FLUX），而非傳統(tǒng)的 UNet 架構(gòu)。
條件控制： Canny 邊緣檢測（字形結(jié)構(gòu)）、位置圖（文字布局）
優(yōu)化技術(shù)：字形隱空間變量初始化、區(qū)域掩碼約束、多模態(tài)損失函數(shù)（擴(kuò)散損失 + 文本感知損失）

達(dá)到的效果

多語言支持：無需理解語義，直接復(fù)制字形，支持任意語言（包括非拉丁字母）。
高精度渲染：文字準(zhǔn)確性優(yōu)于開源方案（如 GlyphControl、AnyText）。媲美閉源多語言模型（如 Seedream 3.0、GPT4o）。
靈活控制：用戶可自定義文字內(nèi)容、字體、位置、顏色。
兼容性與質(zhì)量：適配最新 DiT-based 模型，生成質(zhì)量優(yōu)于基于 SD1.5/SDXL 的方案。背景區(qū)域不受干擾，保持整體圖像和諧。

方法

動機(jī)

本文從一個(gè)簡單的哲學(xué)觀點(diǎn)出發(fā)：理解文本是否是渲染文本（尤其是筆畫簡單的文本）的必要且充分條件。本文提供幾個(gè)示例來說明這一點(diǎn)。首先，回想人類兒童如何學(xué)習(xí)寫字。大多數(shù)孩子最初通過涂鴉和繪畫開始書寫，并不真正理解所寫內(nèi)容，只是模仿周圍已有的文字，隨后才開始認(rèn)字，識字能力與書寫技能同步發(fā)展。另一個(gè)例子是字帖，它包含手寫范例和供學(xué)習(xí)者模仿的空白區(qū)域。對于某些復(fù)雜的藝術(shù)字體（特別是非拉丁文字如中國書法），模仿字形甚至可能早于識別文字。簡而言之，盡管識別和理解文本無疑對書寫有幫助，但本文認(rèn)為書寫也可以從模仿或復(fù)制開始，這一原則同樣適用于生成模型中的視覺文本渲染。

基于這一樸素假設(shè)，本文使用預(yù)訓(xùn)練的ControlNet-Union（在自然圖像上通過canny邊緣訓(xùn)練）作為文本渲染的初步工具。如附錄圖6所示，該方法已能展現(xiàn)一定程度的復(fù)制能力，盡管存在明顯的文字準(zhǔn)確性問題和圖像質(zhì)量下降。這促使本文在其基礎(chǔ)上開發(fā)一種方法，能夠利用現(xiàn)有的單語言文本編碼器復(fù)制多語言、多字體文本。

RepText

框架。如圖2所示，RepText是一個(gè)類ControlNet框架，主要受GlyphControl和JoyTypes啟發(fā)。為了融入細(xì)粒度字形信息并實(shí)現(xiàn)多語言渲染，本文沒有像GlyphControl那樣直接使用渲染的字形圖像（依賴文本編碼器理解詞語語義），而是采用更強(qiáng)的文本提示——從圖像提取的canny邊緣。此外，為了提供位置信息，本文還使用輔助位置圖像輔助文本渲染。canny和位置圖像分別經(jīng)過VAE編碼器處理，并在通道維度拼接后輸入ControlNet分支。需要渲染的文本內(nèi)容不會手動添加到提示詞中。

中文、日文、韓文等多種語言精準(zhǔn)生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區(qū)

中文、日文、韓文等多種語言精準(zhǔn)生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區(qū)

文本感知損失表示為

中文、日文、韓文等多種語言精準(zhǔn)生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區(qū)

中文、日文、韓文等多種語言精準(zhǔn)生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區(qū)

中文、日文、韓文等多種語言精準(zhǔn)生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區(qū)

推理策略。在推理階段，本文引入了如圖3所示的若干關(guān)鍵技術(shù)來穩(wěn)定并提升文本渲染性能：

基于字形隱空間變量的復(fù)制。受字帖啟發(fā)，本文采用無噪字形隱空間變量而非隨機(jī)高斯噪聲進(jìn)行初始化（即復(fù)制機(jī)制），在去噪步驟初期提供字形引導(dǎo)信息。僅復(fù)制無噪字形隱空間變量的文本區(qū)域并粘貼回隨機(jī)噪聲中。本文發(fā)現(xiàn)這一簡單步驟對提升渲染文本準(zhǔn)確性具有重要作用。得益于該設(shè)計(jì)，RepText進(jìn)一步支持用戶指定文本顏色，而無需通過可學(xué)習(xí)層隱式編碼顏色信息。

在實(shí)現(xiàn)過程中，本文發(fā)現(xiàn)直接復(fù)制粘貼會導(dǎo)致圖像質(zhì)量顯著下降（因無噪?yún)^(qū)域不符合高斯噪聲分布）。因此引入權(quán)重系數(shù)控制字形隱空間變量的影響程度。初始化隱空間變量定義如下：

中文、日文、韓文等多種語言精準(zhǔn)生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區(qū)

中文、日文、韓文等多種語言精準(zhǔn)生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區(qū)

文本區(qū)域的區(qū)域掩碼。傳統(tǒng) ControlNet 通常使用全局提示作為條件（例如 canny 和深度圖是基于整張圖像計(jì)算的），而在本文的場景中，條件圖像是稀疏的，僅文本區(qū)域有效。因此，為避免去噪過程中對非文本區(qū)域的干擾，本文額外使用區(qū)域掩碼截?cái)?ControlNet 的輸出。區(qū)域掩碼為二值圖像，文本框標(biāo)注的文本區(qū)域設(shè)為 1。

實(shí)驗(yàn)

實(shí)現(xiàn)細(xì)節(jié)

在廣泛使用的開源文本生成圖像模型 FLUX-dev上實(shí)現(xiàn)了本文的方法。文本 ControlNet 分支包含 6 個(gè)雙塊和 0 個(gè)單塊（遵循 ControlNet-Union-Pro-2.0 ），并基于 FLUX-dev 初始化。使用 Anytext-3M 作為預(yù)訓(xùn)練數(shù)據(jù)集（所有圖像尺寸為 512x512）。訓(xùn)練分辨率設(shè)為 512，采用 AdamW 優(yōu)化器，學(xué)習(xí)率為 2e-5，批量大小為 256。OCR 損失縮放因子設(shè)為 0.05，文本丟棄率為 0.3。此外，收集了包含 10K 張圖像的高質(zhì)量數(shù)據(jù)集進(jìn)行微調(diào)，這些圖像均為自然場景（如路牌、商店招牌等）而非合成圖像。微調(diào)時(shí)啟用多比例訓(xùn)練桶（buckets），學(xué)習(xí)率降至 5e-6，OCR 損失縮放因子增至 0.10，文本丟棄率提升至 0.4。

中文、日文、韓文等多種語言精準(zhǔn)生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區(qū)

定性結(jié)果

針對多場景進(jìn)行了定性評估，包括多語言（尤其是非拉丁文字）、多字體、多顏色和多行文本。多語言生成結(jié)果如圖4所示，其他結(jié)果詳見附錄圖7、圖8和圖9（為節(jié)省篇幅）。得益于字形復(fù)制機(jī)制，RepText能生成準(zhǔn)確且可控的文本內(nèi)容。更多生成樣本見附錄圖10和圖11。

中文、日文、韓文等多種語言精準(zhǔn)生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區(qū)

中文、日文、韓文等多種語言精準(zhǔn)生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區(qū)

中文、日文、韓文等多種語言精準(zhǔn)生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區(qū)

中文、日文、韓文等多種語言精準(zhǔn)生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區(qū)

中文、日文、韓文等多種語言精準(zhǔn)生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區(qū)

中文、日文、韓文等多種語言精準(zhǔn)生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區(qū)

與現(xiàn)有方法的對比

基線方法：為全面對比，本文比較了具備單語言/多語言文本渲染能力的開源與閉源模型。開源模型均使用官方代碼推理（特殊說明除外），閉源模型使用其產(chǎn)品或API推理。

單語言對比：

開源模型：Stable Diffusion 3.5 large、FLUX-dev、HiDream-I1-Dev
閉源模型：FLUX 1.1 Pro Ultra、Ideogram 3.0 、Reve Image (Halfmoon)、Recraft V3
可控文本渲染方法：TextDiffuser、TextDiffuser2、GlyphControl （本文在FLUX-dev上復(fù)現(xiàn)）
Recraft V3 使用其基于TextDiffuser2的"Frame"功能進(jìn)行可控渲染（結(jié)果見附錄圖12）

中文、日文、韓文等多種語言精準(zhǔn)生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區(qū)

中文、日文、韓文等多種語言精準(zhǔn)生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區(qū)

對于拉丁文本，由于基礎(chǔ)模型本身具備優(yōu)秀理解能力，RepText主要作為位置引導(dǎo)和字體指定工具。實(shí)驗(yàn)未采用在提示詞中顯式添加待渲染文本（英文）的策略。

多語言對比：

開源模型：Kolors 1.0 、Cogview4
閉源模型：Kolors 1.5 、Gemini Flash 2.0、Wan2.1 Pro、GPT-4o、Seedream 3.0、Kolors 2.0注：Hunyuan-DiT雖采用mT5文本編碼器，但不支持多語言文本渲染（結(jié)果見附錄圖13）。

中文、日文、韓文等多種語言精準(zhǔn)生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區(qū)

中文、日文、韓文等多種語言精準(zhǔn)生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區(qū)

對比結(jié)論：

相比開源方法：在文本準(zhǔn)確性和圖像質(zhì)量上具有顯著優(yōu)勢
相比采用多語言文本編碼器的閉源模型：具備更好的可控性
局限性：必須承認(rèn)，由于GPT-4o、Seedream 3.0、Kolors 2.0等最先進(jìn)模型具備原生多語言理解能力，其在文本內(nèi)容渲染靈活性上優(yōu)于本方法。

與現(xiàn)有工作的兼容性

為展示本方法的兼容性和有效性，為RepText配備了常用的插件模型，包括風(fēng)格LoRA、其他ControlNet和IP-Adapter。

LoRA：本文使用了HuggingFace上的三個(gè)開源LoRA。具體選擇了提供膠片質(zhì)感的FilmPortrait1、創(chuàng)作毛線藝術(shù)的FLUX.1-dev-LoRA-MiaoKa-Yarn-World2以及簡筆畫風(fēng)格的FLUX.1-dev-LoRA-Children-Simple-Sketch3。如圖5所示，本文的工作完全兼容社區(qū)LoRA的風(fēng)格化處理。

其他ControlNet：使用ControlNet-Union-Pro-2.0和ControlNet-Inpainting來實(shí)現(xiàn)空間控制和文本編輯。結(jié)果如附錄圖14所示。

中文、日文、韓文等多種語言精準(zhǔn)生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區(qū)

中文、日文、韓文等多種語言精準(zhǔn)生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區(qū)

IP-Adapter：以FLUX.1-dev-IP-Adapter為例。如附錄圖15所示，本文方法可以與IP-Adapter一起使用。

中文、日文、韓文等多種語言精準(zhǔn)生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區(qū)

消融研究

ControlNet條件的選擇：進(jìn)行了實(shí)驗(yàn)來分析不同ControlNet條件的影響。在僅使用位置條件的情況下，它只提供位置引導(dǎo)；在僅使用Canny條件的情況下，可以渲染相應(yīng)的文本，但準(zhǔn)確性和和諧性有限；而在聯(lián)合使用Canny和位置條件時(shí)，可以準(zhǔn)確地渲染和諧的文本。結(jié)果見附錄圖16。

中文、日文、韓文等多種語言精準(zhǔn)生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區(qū)

字形隱空間變量復(fù)制的效果：如附錄圖17（左）所示，從字形隱空間變量初始化可以無損提高排版準(zhǔn)確性。此外，如附錄圖17（右）所示，它允許用戶指定顏色，而無需依賴額外的顏色編碼器。

中文、日文、韓文等多種語言精準(zhǔn)生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區(qū)

區(qū)域掩碼的效果：與其他ControlNet通常使用全局密集控制信號不同，文本是局部稀疏控制。發(fā)現(xiàn)，在推理階段引入?yún)^(qū)域掩碼有助于提高非文本背景的質(zhì)量，如附錄圖18所示。

中文、日文、韓文等多種語言精準(zhǔn)生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區(qū)

局限性與未來工作

典型失敗案例：盡管RepText展示了良好的文本渲染能力和兼容性，但由于其自身缺乏對文本的理解，仍然存在一些局限性。本文討論以下幾種常見的失敗情況：

與場景不協(xié)調(diào)：盡管訓(xùn)練數(shù)據(jù)集中包含大量自然場景（如路標(biāo)）的文本數(shù)據(jù)，但文本編碼器（T5-XXL）本身并不理解需要渲染的文本內(nèi)容（即使將文本內(nèi)容添加到提示詞中），特別是非拉丁文本，因此有時(shí)文本會像簽名或水印一樣生硬地粘貼在生成的圖像上，導(dǎo)致與場景不協(xié)調(diào)，如附錄圖19（a）所示。

中文、日文、韓文等多種語言精準(zhǔn)生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區(qū)

文本精度有限：對于藏文等筆畫復(fù)雜的文本或小字體，即使使用本文的框架，渲染精度仍然較差，如附錄圖19（b）所示。其中一個(gè)原因是控制條件不夠精確，而且當(dāng)前VAE的壓縮率也會導(dǎo)致小字符的渲染效果不佳。

渲染額外文本. 發(fā)現(xiàn)即使使用區(qū)域掩碼，一些額外的文本仍會出現(xiàn)在非渲染文本區(qū)域，如附錄圖19（c）所示，這些文本通常是無意義、不可識別或重復(fù)的。

文本多樣性有限。 受限于文本編碼器，本文必須使用額外的條件，無法通過提示詞靈活控制文本屬性，包括其位置、顏色、材質(zhì)等。

不支持精確的顏色控制。 雖然從字形隱空間變量初始化可以實(shí)現(xiàn)粗略的顏色控制，但無法嚴(yán)格渲染細(xì)粒度的顏色，這限制了其在實(shí)際場景中的應(yīng)用。

缺乏扭曲與透視效果。 由于文本內(nèi)容完全由正視角字形控制，受限于前端渲染機(jī)制，難以靈活生成帶有變形和透視效果的文本，也無法生成具有扭曲風(fēng)格的藝術(shù)字。

未來工作方向。如前述章節(jié)所述，承認(rèn)最靈活有效的文本渲染方式是讓模型理解每個(gè)詞語的具體含義——即采用多語言文本編碼器或MLLM（多模態(tài)大語言模型），從而實(shí)現(xiàn)自然場景或海報(bào)場景的文本渲染。核心問題在于：除了替換文本編碼器并從頭訓(xùn)練之外，是否存在一種低成本方案（使用更少的訓(xùn)練參數(shù)和數(shù)據(jù)），能在不損害原有生成能力的前提下，使現(xiàn)有文本生成圖像模型具備多語言文本識別與渲染能力？例如MetaQuery研究表明，當(dāng)MLLM主干和Diffusion主干均保持凍結(jié)、僅訓(xùn)練輕量級連接器時(shí)，MLLM的理解與推理能力可增強(qiáng)圖像生成——類似方法或可應(yīng)用于視覺文本渲染領(lǐng)域。

結(jié)論

本研究受書法字帖啟發(fā)，提出了一種簡單高效的框架RepText，用于可控多語言視覺文本渲染。該方法使預(yù)訓(xùn)練的單語言文本生成圖像模型具備生成多語言、多字體、多色彩可讀文本的能力。

具體而言：

無需額外圖像/文本編碼器理解語義，通過結(jié)合canny邊緣與位置圖像的ControlNet實(shí)現(xiàn)字形復(fù)制；
創(chuàng)新性引入字形隱空間變量復(fù)制技術(shù)提升文本精度并支持色彩控制；
采用區(qū)域掩碼方案確保生成質(zhì)量不受文本信息干擾。

實(shí)驗(yàn)表明，本方法優(yōu)于現(xiàn)有開源方案，并與原生多語言閉源模型效果相當(dāng)。后續(xù)將探索如何高效賦予單語言模型多語言理解能力，從而進(jìn)一步提升文本渲染的靈活性與準(zhǔn)確性。

本文轉(zhuǎn)自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/kiO4JfjR-9E1gpTXfS9A_A??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

【深度解析】自然語言生成中的“幻覺”現(xiàn)象

zhcs333 ? 3704瀏覽 ? 0回復(fù)
TAVGBench: 文本生成語音-視頻最新基準(zhǔn)

angel ? 2795瀏覽 ? 0回復(fù)
打破壁壘：生成式人工智能如何重塑數(shù)據(jù)分析場景

51CTO內(nèi)容精選 ? 2473瀏覽 ? 0回復(fù)
阿里巴巴AI研究團(tuán)隊(duì)打破視頻生成技術(shù)壁壘，EasyAnimate實(shí)現(xiàn)高質(zhì)量長視頻生成

Syrupup ? 3704瀏覽 ? 0回復(fù)
如何評估大語言模型生成結(jié)果的多樣性

sbf_2000 ? 2945瀏覽 ? 1回復(fù)
精準(zhǔn)可控新視角視頻生成+場景級3D生成！北大&港中文&騰訊等開源ViewCrafter

angel ? 2440瀏覽 ? 0回復(fù)
打破視覺-語言預(yù)訓(xùn)練的瓶頸：新算法解決噪聲和標(biāo)注問題

AI論文解讀 ? 2822瀏覽 ? 0回復(fù)
阿里商業(yè)級視頻生成框架——軌跡控制版視頻生成 Tora 重磅開源！

angel ? 2305瀏覽 ? 0回復(fù)
Meta AI 開源 Llama 3.3：全新 70B 多語言大語言模型 (LLM)

Halo咯咯 ? 2891瀏覽 ? 0回復(fù)
多提示視頻生成最新SOTA！港中文&騰訊等發(fā)布DiTCtrl：基于MM-DiT架構(gòu)

angel ? 2642瀏覽 ? 0回復(fù)
生成式大語言模型的安全問題

zhcs333 ? 1782瀏覽 ? 0回復(fù)
港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp

angel ? 1757瀏覽 ? 0回復(fù)
尋找樂子人｜ “多語言、精準(zhǔn)定位”上海導(dǎo)游智能體搭建方案

Wordsworth_Jin ? 2114瀏覽 ? 2回復(fù)
Qwen AI發(fā)布Qwen2.5-VL：打破視覺與語言的壁壘，助力AI更智能地理解和互動

Halo咯咯 ? 2175瀏覽 ? 0回復(fù)
有望重新定義語言生成技術(shù)的擴(kuò)散模型——LLaDA?

51CTO內(nèi)容精選 ? 1275瀏覽 ? 0回復(fù)
大語言模型增強(qiáng)的文本到 SQL 生成：綜述

AIGC前沿技術(shù)追蹤 ? 1214瀏覽 ? 0回復(fù)
ScholarCopilot：借助精準(zhǔn)引用訓(xùn)練大語言模型助力學(xué)術(shù)寫作

柏企閱文 ? 497瀏覽 ? 0回復(fù)
Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布！中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva！

angel ? 2066瀏覽 ? 0回復(fù)
語言與擴(kuò)散模型的精準(zhǔn)控制

ceesoft ? 245瀏覽 ? 0回復(fù)
OpenING：用于評估開放式交錯(cuò)圖文生成的綜合基準(zhǔn)

AIRoobt ? 193瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布！中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva！ 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：外科手術(shù)式編輯圖片！賓大突破性算法CoLan ：15萬場景概念庫讓AI秒懂你的P圖意圖！

社區(qū)精華內(nèi)容

目錄

<legend id="xogj0"><track id="xogj0"></track></legend>

<sub id="xogj0"></sub><cite id="xogj0"></cite>