自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<nobr id="nxqhj"><legend id="nxqhj"><address id="nxqhj"></address></legend></nobr>

<button id="nxqhj"></button>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!

發(fā)布于 2024-10-24 10:34

瀏覽

0收藏

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2410.13861
項(xiàng)目鏈接：https://github.com/rongyaofang/PUMA

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

亮點(diǎn)直擊
多粒度特征處理: PUMA 能夠同時處理粗粒度和細(xì)粒度的視覺特征，適應(yīng)不同任務(wù)的需求，如文本到圖像生成和圖像編輯，解決了現(xiàn)有模型在多樣性和精確可控性之間的平衡問題。
統(tǒng)一多模態(tài)框架: PUMA 通過統(tǒng)一的多模態(tài)大模型框架，無縫集成圖像生成與理解，適用于從多樣化圖像生成到精確圖像編輯等多種任務(wù)，擴(kuò)展了多模態(tài)模型的應(yīng)用范圍。
兩階段訓(xùn)練策略: 首先微調(diào)預(yù)訓(xùn)練的擴(kuò)散模型進(jìn)行圖像解碼，然后訓(xùn)練自回歸多模態(tài)模型生成多尺度圖像特征，優(yōu)化了多任務(wù)處理的性能。
廣泛的多模態(tài)任務(wù)適應(yīng)性: PUMA 通過在語言-視覺數(shù)據(jù)集上的大規(guī)模預(yù)訓(xùn)練和指令微調(diào)，展示了其在圖像理解、文本到圖像生成、圖像修復(fù)等多種任務(wù)中的出色表現(xiàn)。

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

a）圖像生成任務(wù)中的多樣性和可控性權(quán)衡：多樣化的文本到圖像生成需要高多樣性和保真度，而條件生成和修剪等任務(wù)需要對圖像進(jìn)行高可控性。
b）引入的PUMA是一種統(tǒng)一的多模態(tài)大語言模型，可以處理和生成多粒度視覺表示，平衡視覺生成任務(wù)的多樣性和可控性。它擅長圖像理解、多樣化的文本到圖像生成、編輯、修復(fù)、著色和條件圖像生成。

總結(jié)速覽

解決的問題:
現(xiàn)有的多模態(tài)大模型（MLLMs）在視覺內(nèi)容生成方面沒有充分解決不同圖像生成任務(wù)對粒度的需求差異，尤其是從文本到圖像生成的多樣性需求以及圖像編輯中的精確可控性。

提出的方案:
提出了一種名為PUMA（emPowering Unified MLLM with Multi-grAnular visual generation）的模型，旨在通過統(tǒng)一多粒度視覺特征作為MLLMs的輸入和輸出，優(yōu)雅地解決不同任務(wù)的粒度需求。

應(yīng)用的技術(shù):
采用了多模態(tài)預(yù)訓(xùn)練和任務(wù)特定的指令微調(diào)，將多粒度視覺生成功能融入到統(tǒng)一的MLLM框架中。

達(dá)到的效果:
PUMA在廣泛的多模態(tài)任務(wù)中表現(xiàn)出色，能夠適應(yīng)不同視覺任務(wù)的粒度需求，向真正統(tǒng)一的MLLM邁出了重要一步。

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

方法

現(xiàn)有的方法通常僅優(yōu)化細(xì)粒度或粗粒度特征，從而在精確控制和生成多樣性之間存在權(quán)衡。為克服這一局限性，本文提出了PUMA，一個統(tǒng)一的多粒度MLLM范式。本文的方法能夠在統(tǒng)一的MLLM框架中同時處理多個層次的特征粒度，促進(jìn)跨多種多模態(tài)任務(wù)的無縫轉(zhuǎn)換。

本文的框架包括三個關(guān)鍵組成部分：圖像編碼器、基于不同粒度特征的圖像解碼器集合以及多粒度自回歸MLLM。這些組件協(xié)同工作，以提取、處理和生成多尺度圖像特征，適應(yīng)各種任務(wù)特定的粒度需求。為了優(yōu)化MLLM，采用了預(yù)訓(xùn)練和指令微調(diào)的兩階段過程，使其能夠執(zhí)行包括圖像理解、生成、編輯和條件圖像生成在內(nèi)的多種任務(wù)。

圖像編碼與多粒度特征提取

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

多粒度視覺解碼

不同粒度的圖像特征編碼了不同層次的信息。采用基于擴(kuò)散模型的解碼器，因?yàn)樗鼈兡軌蜢`活處理多尺度特征。在處理粗粒度語義特征時，解碼器能夠有效地利用它們學(xué)習(xí)到的圖像先驗(yàn)，補(bǔ)充缺失的細(xì)粒度信息，并生成多樣化且語義對齊的圖像。另一方面，在處理細(xì)粒度特征時，它們能夠準(zhǔn)確重構(gòu)精確的圖像細(xì)節(jié)。這種在不同粒度下生成或重構(gòu)圖像的多樣性使基于擴(kuò)散模型的解碼器非常適合多粒度的方法。

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

下圖4展示了不同粒度圖像解碼的訓(xùn)練過程，其中圖像編碼器被凍結(jié)以保留語義屬性。

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

下圖3展示了多粒度解碼器的視覺解碼能力。這些可視化結(jié)果顯示了在不同粒度下解碼圖像的保真度，細(xì)粒度特征能夠生成與原始輸入更接近的重構(gòu)圖像，而粗粒度特征則根據(jù)輸入圖像的語義引導(dǎo)生成圖像。這驗(yàn)證了本文方法在保留和利用多粒度視覺信息方面的有效性。

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

該多粒度解碼框架與層次化特征提取相結(jié)合，為MLLM架構(gòu)的后續(xù)階段奠定了基礎(chǔ)，為后期訓(xùn)練階段中的多樣化視覺任務(wù)鋪平了道路。

自回歸MLLM中的漸進(jìn)多粒度圖像建模

為了利用一個能夠適應(yīng)各種具有不同粒度需求的視覺-語言任務(wù)的統(tǒng)一框架，設(shè)計了一個自回歸MLLM來處理和生成文本tokens及多粒度圖像特征。

自回歸MLLM，記為 M，逐步處理文本和多粒度圖像特征，如下圖2所示。模型逐個tokens地處理特征，在每個粒度級別內(nèi)依次預(yù)測每個token，并從最粗的粒度級別N逐漸過渡到最細(xì)的粒度級別0。這種方法允許模型在獲取更多詳細(xì)信息時逐步改進(jìn)其預(yù)測。

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

將輸入序列構(gòu)建為文本tokens和來自多個粒度級別的展平圖像特征tokens的拼接。該漸進(jìn)方法使模型能夠捕捉不同尺度間的依賴關(guān)系，從粗略的全局結(jié)構(gòu)到精細(xì)的局部細(xì)節(jié)。

MLLM通過自回歸的下一個token預(yù)測目標(biāo)進(jìn)行訓(xùn)練，結(jié)合了文本和圖像的損失。

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

多模態(tài)預(yù)訓(xùn)練和指令微調(diào)

為了展示統(tǒng)一多粒度范式的有效性，為PUMA實(shí)施了一個全面的兩階段訓(xùn)練流程：首先是多模態(tài)預(yù)訓(xùn)練，隨后是任務(wù)特定的指令微調(diào)。這種方法使模型首先獲得廣泛的多模態(tài)能力，然后在后續(xù)的指令微調(diào)階段專注于目標(biāo)視覺語言任務(wù)。

多模態(tài)預(yù)訓(xùn)練：多模態(tài)預(yù)訓(xùn)練利用了一組多樣化的大規(guī)模數(shù)據(jù)集：Laion-2B、Laion-Aesthetics、GRIT、The Pile、OCR-VQA-200K 和 LLaVAR。這些數(shù)據(jù)集的組合提供了豐富的圖文對、文本數(shù)據(jù)和特定的視覺問答樣本。為了增強(qiáng)模型對圖文關(guān)系的雙向理解，采用了一種動態(tài)訓(xùn)練策略，隨機(jī)交替每個圖文對的文本生成圖像和圖像生成文本任務(wù)。

指令微調(diào)：在預(yù)訓(xùn)練之后，進(jìn)行針對性的指令微調(diào)，使模型適應(yīng)特定的視覺語言任務(wù)。為了評估PUMA在不同任務(wù)類型上的表現(xiàn)，針對四種任務(wù)分別微調(diào)了四個模型，每個模型都從預(yù)訓(xùn)練檢查點(diǎn)初始化。

高質(zhì)量的文本生成圖像：利用 Laion-Aesthetics 和 JourneyDB 數(shù)據(jù)集，專注于生成美觀且多樣化的圖像。
精確的圖像操作：通過SEED-Edit數(shù)據(jù)集進(jìn)行訓(xùn)練，實(shí)現(xiàn)準(zhǔn)確且可控的圖像編輯。
條件圖像生成：利用 MultiGen-20M 數(shù)據(jù)集的子集（包括輪廓生成、修復(fù)、和著色）使模型具備在特定條件和限制下生成圖像的能力。
圖像理解：通過 LLaVA-OneVision 和 Cambrian 數(shù)據(jù)集的子集進(jìn)行微調(diào)，以增強(qiáng)模型的圖像理解能力。數(shù)據(jù)集中關(guān)于數(shù)學(xué)/推理以及重復(fù)數(shù)據(jù)被移除。

實(shí)驗(yàn)

實(shí)驗(yàn)結(jié)果如下：首先詳細(xì)描述了實(shí)驗(yàn)設(shè)置。再評估了多粒度特征編碼和基于擴(kuò)散的多粒度圖像解碼器的有效性。隨后展示了 PUMA 在多項(xiàng)任務(wù)中的多功能性：多樣化的文本生成圖像、圖像編輯、條件圖像生成和視覺語言理解。

設(shè)置

統(tǒng)一多粒度多模態(tài)語言模型 (MLLM) 采用 LLaMA-3 8B 作為語言模型骨干，使用 CLIP-Large (224×224 輸入) 作為圖像編碼器。圖像解碼器則初始化自預(yù)訓(xùn)練的 SDXL 模型。

多粒度視覺解碼

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

細(xì)粒度圖像重構(gòu)

細(xì)粒度圖像重構(gòu)對于保持圖像細(xì)節(jié)至關(guān)重要，但對模型如 SEED-LLaMA、SEED-X 和 Emu2 而言是個重大挑戰(zhàn)。SEED-LLaMA 和 SEED-X 在詳細(xì)重構(gòu)上表現(xiàn)不佳，限制了它們在不使用如條件圖像輸入（SEED-X 中使用的）等額外技術(shù)的情況下精確操作圖像的能力。Emu2 嘗試通過將其圖像編碼器擴(kuò)大至40億參數(shù)來改進(jìn)重構(gòu)。本文的方法則通過更高效的架構(gòu)實(shí)現(xiàn)了優(yōu)越的重構(gòu)質(zhì)量。

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

下圖5也直觀展示了本文方法在重構(gòu)質(zhì)量上的優(yōu)越性。

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

語義引導(dǎo)的生成

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

多樣化文本生成圖像

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

為定量評估，在 MSCOCO 30K 驗(yàn)證數(shù)據(jù)集上評估了模型，并在下表2中展示了 CLIP-I、CLIP-T 和 LPIPSd 指標(biāo)，前兩者衡量一致性，而 LPIPSd 衡量生成多樣性。與近期工作相比，本文的模型在生成質(zhì)量、多樣性和提示詞相關(guān)性上表現(xiàn)出了優(yōu)越的性能。

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

圖像編輯

為了評估PUMA的圖像編輯能力，在Emu-Edit測試基準(zhǔn)上進(jìn)行了評估。結(jié)果顯示在下表3中，包括CLIP-I、CLIP-T和DINO得分。CLIP-I和DINO得分衡量模型保留源圖像元素的能力，而CLIP-T反映輸出圖像與目標(biāo)標(biāo)題之間的一致性。

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

發(fā)現(xiàn)表明，PUMA展示了強(qiáng)大的保留能力，僅次于當(dāng)前的最先進(jìn)模型EMU-Edit。值得注意的是，PUMA在CLIP-T得分上顯著更高，甚至超越了最先進(jìn)模型，這表明其在編輯圖像與目標(biāo)標(biāo)題之間的對齊能力更強(qiáng)。圖8中的可視化結(jié)果展示了PUMA在圖像操控任務(wù)中的有效性。

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

條件圖像生成

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

圖像理解

在多個MLLM基準(zhǔn)（如MMB、MME、GQA、VQAv2、POPE和Vizwiz）上評估了PUMA的圖像理解性能。該評估的結(jié)果見下表4。盡管PUMA的參數(shù)數(shù)量相對較少（8B參數(shù)），且使用了224 × 224分辨率的圖像編碼器，但它在圖像理解性能上展現(xiàn)出競爭力，并且在許多情況下優(yōu)于其他統(tǒng)一理解和生成模型。

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

值得注意的是，在某些指標(biāo)上，PUMA的表現(xiàn)甚至超過了一些僅進(jìn)行理解的基線模型。這種性能可以歸因于PUMA使用多粒度連續(xù)視覺tokens作為輸入到MLLM。關(guān)于不同尺度特征輸入對圖像理解任務(wù)影響的詳細(xì)消融研究可在附錄中找到，為PUMA的多粒度策略的有效性提供了進(jìn)一步的見解。

消融研究

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

結(jié)論

本文介紹了PUMA，一種新的統(tǒng)一多粒度MLLM，它整合了視覺生成和理解中的各種粒度任務(wù)。通過利用多粒度表示，PUMA有效地解決了圖像生成任務(wù)中平衡多樣性和可控性的挑戰(zhàn)。本文的方法在多種視覺任務(wù)中展示了優(yōu)越的性能，包括多樣化的文本到圖像生成、圖像編輯、修復(fù)、上色、條件生成和理解。PUMA在單一框架內(nèi)適應(yīng)不同粒度需求的能力標(biāo)志著MLLM能力的重大進(jìn)步。這項(xiàng)工作為更通用和強(qiáng)大的多模態(tài)人工智能系統(tǒng)開辟了新可能性，助力實(shí)現(xiàn)多模態(tài)領(lǐng)域的人工通用智能的更廣泛目標(biāo)。

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!-AI.x社區(qū)

本文轉(zhuǎn)自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/ZFJ1f7YZZEKoEs5Ie1YAbA??

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

SEED-Bench：基于生成理解的多模態(tài)大語言模型基準(zhǔn)測試（CVPR2024）

AIRoobt ? 5287瀏覽 ? 0回復(fù)
大模型的條件推理和模態(tài)推理

xuxiangda ? 2957瀏覽 ? 0回復(fù)
超越Text2Video-Zero｜無需額外訓(xùn)練，條件生成、專門生成和指令引導(dǎo)的視頻編輯全搞定！

angel ? 2337瀏覽 ? 0回復(fù)
字節(jié)跳動發(fā)布統(tǒng)一多模態(tài)大模型 Show-o!

AI論文解讀 ? 3820瀏覽 ? 0回復(fù)
多模態(tài)大語言模型的演變?nèi)仡櫍。ㄒ曈X定位、圖像生成、編輯、理解）

angel ? 3469瀏覽 ? 0回復(fù)
從OmniGen的數(shù)據(jù)、模型設(shè)計與訓(xùn)練策略中深度了解多模態(tài)統(tǒng)一生成模型

shizhi02 ? 4659瀏覽 ? 0回復(fù)
Janus 統(tǒng)一多模態(tài)理解和生成

kede96 ? 2288瀏覽 ? 0回復(fù)
Emu3: 統(tǒng)一多模態(tài)輸入與生成

kede96 ? 1827瀏覽 ? 0回復(fù)
多模態(tài)大模型能力評測基準(zhǔn)全面綜述：理解、推理、生成、應(yīng)用、趨勢

十一月雨_55 ? 8179瀏覽 ? 0回復(fù)
自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成！DeepSeek&北大等開源JanusFlow

angel ? 2336瀏覽 ? 0回復(fù)
文檔截圖嵌入統(tǒng)一多模態(tài)檢索方法原理

大模型自然語言處理 ? 1861瀏覽 ? 0回復(fù)
適用于多圖的多模態(tài)大模型：粗粒度離散表征+細(xì)粒度連續(xù)表征提升圖像編碼準(zhǔn)確性

海因斯DK ? 2758瀏覽 ? 0回復(fù)
15M數(shù)據(jù)實(shí)現(xiàn)顛覆性統(tǒng)一多模態(tài)大模型！華為諾亞提出ILLUME

angel ? 2656瀏覽 ? 0回復(fù)
PartGen：基于多視圖擴(kuò)散模型的多模態(tài)部件級3D生成和重建！

angel ? 1879瀏覽 ? 0回復(fù)
NeurIPS 2024 | 像素級LLM實(shí)現(xiàn)圖像視頻理解、生成、分割和編輯大統(tǒng)一

angel ? 3450瀏覽 ? 0回復(fù)
Phi-4-multimodal：圖、文、音頻統(tǒng)一的多模態(tài)大模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)

大模型自然語言處理 ? 1791瀏覽 ? 0回復(fù)
多模態(tài)理解和生成：多模態(tài)理解與生成統(tǒng)一獎勵模型；將獎勵模型多模態(tài)情緒識別上

AI研究前瞻 ? 1629瀏覽 ? 0回復(fù)
浙大&上交等發(fā)布統(tǒng)一多模態(tài)視頻生成框架OmniCam

angel ? 1042瀏覽 ? 0回復(fù)
單模型統(tǒng)一多圖個性化生成！字節(jié)重磅開源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開源！

angel ? 1470瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布！中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva！ 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇： Scaling laws在視覺自回歸模型上失效了？谷歌聯(lián)合MIT發(fā)布Fluid：文生圖質(zhì)量刷新紀(jì)錄！

下一篇：靈活精確可控編輯！Dice:首個離散擴(kuò)散模型精確反演方法！

社區(qū)精華內(nèi)容

目錄