自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<u id="k1byf"></u>

<center id="k1byf"></center>

<pre id="k1byf"><button id="k1byf"></button></pre>

<kbd id="k1byf"><samp id="k1byf"></samp></kbd>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

清華朱軍團隊開源首個基于Transformer的多模態(tài)擴散大模型，文圖互生、改寫全拿下

作者：機器之心 2023-03-13 15:56:00

人工智能新聞

該論文提出了一個為多模態(tài)設(shè)計的概率建?？蚣?UniDiffuser，除了單向的文生圖，還能實現(xiàn)圖生文、圖文聯(lián)合生成、無條件圖文生成、圖文改寫等多種功能。

據(jù)悉 GPT-4 將于本周發(fā)布，多模態(tài)將成為其一大亮點。當(dāng)前的大語言模型正在成為理解各種模態(tài)的通用接口，能夠根據(jù)不同模態(tài)信息來給出回復(fù)文本，但大語言模型生成的內(nèi)容也僅僅局限于文本。另一方面，當(dāng)前的擴散模型 DALL?E 2、Imagen、Stable Diffusion 等在視覺創(chuàng)作上掀起一場革命，但這些模型僅僅支持文到圖的單一跨模態(tài)功能，離通用式生成模型還有一定距離。而多模態(tài)大模型將能夠打通各種模態(tài)能力，實現(xiàn)任意模態(tài)之間轉(zhuǎn)化，被認為是通用式生成模型的未來發(fā)展方向。

清華大學(xué)計算機系朱軍教授帶領(lǐng)的 TSAIL 團隊近期公開的一篇論文《One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale》，率先發(fā)布了對多模態(tài)生成式模型的一些探索工作，實現(xiàn)了任意模態(tài)之間的相互轉(zhuǎn)化。

論文鏈接：https://ml.cs.tsinghua.edu.cn/diffusion/unidiffuser.pdf

開源代碼：https://github.com/thu-ml/unidiffuser

該論文提出了一個為多模態(tài)設(shè)計的概率建?？蚣?UniDiffuser，并采用該團隊提出的基于 transformer 的網(wǎng)絡(luò)架構(gòu) U-ViT，在開源的大規(guī)模圖文數(shù)據(jù)集 LAION-5B 上訓(xùn)練了一個十億參數(shù)量的模型，使得一個底層模型能夠高質(zhì)量地完成多種生成任務(wù)（圖 1）。簡單來講，除了單向的文生圖，還能實現(xiàn)圖生文、圖文聯(lián)合生成、無條件圖文生成、圖文改寫等多種功能，大幅提升文圖內(nèi)容的生產(chǎn)效率，也進一步提升了生成式模型的應(yīng)用想象力。

該論文一作鮑凡目前博士在讀，是此前 Analytic-DPM 的提出者，憑借在擴散模型方面的優(yōu)秀工作榮獲 ICLR 2022 的 outstanding paper award（目前唯一一篇大陸單位獨立完成的獲獎?wù)撐模?/span>

此外，機器之心之前還報道過 TSAIL 團隊提出的 DPM-Solver 快速算法，目前仍是擴散模型最快的生成算法。多模態(tài)大模型正是該團隊在深度概率模型的算法和原理方面上長期深入積累的一個集中展示。該工作的合作者包括人民大學(xué)高瓴人工智能學(xué)院的李崇軒、北京智源研究院的曹越等。

值得注意的是，該項目的論文和代碼均已開源。

效果展示

如下的圖 8 展示了 UniDiffuser 在圖文聯(lián)合生成的效果：

如下的圖 9 展示了 UniDiffuser 在文到圖上的效果：

如下的圖 10 展示了 UniDiffuser 在圖到文上的效果：

如下的圖 11 展示了 UniDiffuser 在無條件圖像生成上的效果：

如下的圖 12 展示了 UniDiffuser 在圖像改寫上的效果：

如下的圖 15 展示了 UniDiffuser 能夠?qū)崿F(xiàn)在圖文兩個模態(tài)之間的來回跳躍：

如下圖 16 展示了 UniDiffuser 能對真實的兩張圖像進行插值：

方法概覽

研究團隊將針對通用生成式模型的設(shè)計劃分成了兩個子問題：

概率建?？蚣埽菏欠衲軐ふ业揭粋€概率建模框架，能同時建模出模態(tài)之間所有的分布，例如圖文之間的邊緣分布、條件分布、聯(lián)合分布等？
網(wǎng)絡(luò)架構(gòu)：是否能設(shè)計出一個統(tǒng)一的網(wǎng)絡(luò)架構(gòu)，來支持各種不同模態(tài)的輸入？

概率建?？蚣?/strong>

針對概率建?？蚣?，研究團隊提出 UniDiffuser，一個基于擴散模型的概率建?？蚣?。UniDiffuser 能夠顯示地建模多模態(tài)數(shù)據(jù)中包括邊緣分布、條件分布、聯(lián)合分布在內(nèi)的所有分布。研究團隊發(fā)現(xiàn)，關(guān)于不同分布的擴散模型學(xué)習(xí)都可以統(tǒng)一成一個視角：首先向兩個模態(tài)的數(shù)據(jù)分別加入某種大小的噪聲，然后再預(yù)測兩個模態(tài)數(shù)據(jù)上的噪聲。其中兩個模態(tài)數(shù)據(jù)上的噪聲大小決定了具體的分布。例如，將文本的噪聲大小設(shè)置為 0，則對應(yīng)了文生圖的條件分布；將文本噪聲大小設(shè)置為最大值，則對應(yīng)了無條件圖像生成的分布；將圖文噪聲大小設(shè)置為相同，則對應(yīng)了圖文的聯(lián)合分布。根據(jù)該統(tǒng)一的視角，UniDiffuser 只需要將原始擴散模型的訓(xùn)練算法做少許的修改，便能同時學(xué)習(xí)上述的所有分布 — 如下圖所示，UniDiffuser 同時向所有模態(tài)加噪而非單個模態(tài)，輸入所有模態(tài)對應(yīng)的噪聲大小，以及預(yù)測所有模態(tài)上的噪聲。

以雙模態(tài)為例子，最終的訓(xùn)練目標函數(shù)如下所示：

其中

代表數(shù)據(jù)，

代表加入到兩個模態(tài)中的標準高斯噪聲，

代表兩個模態(tài)加入噪聲的大?。磿r間），兩者獨立的從 {1,2,…,T} 中采樣，

為噪聲預(yù)測網(wǎng)絡(luò)，同時預(yù)測兩個模態(tài)上的噪聲。

在訓(xùn)練后，通過向噪聲預(yù)測網(wǎng)絡(luò)設(shè)置兩個模態(tài)合適的時間，UniDiffuser 能夠?qū)崿F(xiàn)無條件、條件以及聯(lián)合生成。例如將文本的時間設(shè)置為 0，可以實現(xiàn)文到圖生成；將文本的時間設(shè)置為最大值，可以實現(xiàn)無條件圖像生成；將圖文時間設(shè)置為相同值，可以實現(xiàn)圖文聯(lián)合生成。

下面羅列了 UniDiffuser 的訓(xùn)練和采樣算法，可見這些算法相對原始的擴散模型均只做了微小的改動，易于實現(xiàn)。

此外，由于 UniDiffuser 同時建模了條件分布和無條件分布，因此 UniDiffuser 天然地支持 classifier-free guidance。下面的圖 3 展示了 UniDiffuser 的條件生成和聯(lián)合生成在不同的 guidance scale 下的效果：

網(wǎng)絡(luò)架構(gòu)

針對網(wǎng)絡(luò)架構(gòu)，研究團隊提出使用基于 transformer 的架構(gòu)來參數(shù)化噪聲預(yù)測網(wǎng)絡(luò)。具體地，研究團隊采用了最近提出的 U-ViT 架構(gòu)。U-ViT 將所有的輸入都視作 token，并在 transformer 塊之間加入了 U 型連接。研究團隊也采用了 Stable Diffusion 的策略，將不同模態(tài)的數(shù)據(jù)都轉(zhuǎn)換到了隱空間再進行擴散模型的建模。值得注意的是，U-ViT 架構(gòu)同樣來自該研究團隊，并且已被開源在 https://github.com/baofff/U-ViT。

實驗結(jié)果

UniDiffuser 首先和 Versatile Diffusion 進行了比較。Versatile Diffusion 是過去的一個基于多任務(wù)框架的多模態(tài)擴散模型。首先 UniDiffuser 和 Versatile Diffusion 進行了文到圖上的效果比較。如下面的圖 5 所示，在不同的 classifier-free guidance scale 下，UniDiffuser 在 CLIP Score 和 FID 指標上均要好于 Versatile Diffusion。

然后 UniDiffuser 和 Versatile Diffusion 進行了圖到文上的效果比較。如下面的圖 6 所示，UniDiffuser 在圖到文上有更好的 CLIP Score。

UniDiffuser 也和專用的文到圖模型在 MS-COCO 上進行了 zero-shot FID 的比較。如下面的表 1 所示，UniDiffuser 可以和專用的文到圖模型取得可比的效果。

責(zé)任編輯：張燕妮來源：機器之心

模型框架

分享到微信

微信掃碼分享

分享到微博

相關(guān)推薦

擊敗擴散模型，清華朱軍團隊基于薛定諤橋的新語音合成系統(tǒng)來了
本次語音合成領(lǐng)域的最新研究工作，BridgeTTS，憑借其基于薛定諤橋的生成框架，實現(xiàn)了「數(shù)據(jù)到數(shù)據(jù)」的生成過程，首次將語音合成的先驗信息由噪聲修改為干凈數(shù)據(jù)，由分布修改為確定性表征。

2023-12-23 23:08:21

語音數(shù)據(jù)

首個Mamba+Transformer混合架構(gòu)多模態(tài)大模型來了，實現(xiàn)單卡千圖推理
LongLLaVA（長上下文大型語言和視覺助手）這一創(chuàng)新性混合架構(gòu)模型，在長上下文多模態(tài)理解方面表現(xiàn)出色。

2024-09-23 08:20:00

模型訓(xùn)練

劍橋團隊開源：賦能多模態(tài)大模型RAG應(yīng)用，首個預(yù)訓(xùn)練通用多模態(tài)后期交互知識檢索器
PreFLMR模型是一個通用的預(yù)訓(xùn)練多模態(tài)知識檢索器，可用于搭建多模態(tài)RAG應(yīng)用。模型基于發(fā)表于NeurIPS2023的FinegrainedLateinteractionMultimodalRetriever(FLMR)并進行了模型改進和M2KR上的大規(guī)模預(yù)訓(xùn)練。

2024-03-25 12:30:18

AI 訓(xùn)練開源

清華系面壁智能開源中文多模態(tài)大模型VisCPM ：支持對話文圖雙向生成，吟詩作畫能力驚艷
再現(xiàn)破壁式成就，VisCPM強勢來襲！

2023-07-03 16:27:24

模型 AI

清華團隊攻破GPT-4V、谷歌Bard等模型，商用多模態(tài)大模型也脆弱？
為了更好地理解商用MLLMs的漏洞，清華朱軍教授領(lǐng)銜的人工智能基礎(chǔ)理論創(chuàng)新團隊圍繞商用MLLM的對抗魯棒性展開了研究。

2023-10-17 12:34:04

一文看完多模態(tài)：從視覺表征到多模態(tài)大模型
本文梳理了2019年之后視覺表征和多模態(tài)表征的一些變化，主要涉及視覺表征和視覺預(yù)訓(xùn)練、多模態(tài)表征對齊（或融合）和多模態(tài)預(yù)訓(xùn)練、多模態(tài)大模型技術(shù)的相關(guān)工作。

2024-11-13 09:39:13

清華朱軍團隊新作：使用4位整數(shù)訓(xùn)練Transformer，比FP16快2.2倍，提速35.1%，加速AGI到來！
清華朱軍團隊提出的INT4算法，解決了超低INT精度訓(xùn)練的挑戰(zhàn)。LLM訓(xùn)練效率要起飛了！

2023-07-03 09:41:12

算法 AI

北大彭宇新教授團隊開源細粒度多模態(tài)大模型Finedefics
北京大學(xué)彭宇新教授團隊系統(tǒng)地分析了多模態(tài)大模型在細粒度視覺識別上所需的3項能力。

2025-02-18 09:10:00

阿里7B多模態(tài)文檔理解大模型拿下新SOTA
本文從最近發(fā)布的7B最強多模態(tài)文檔理解大模型mPLUGDocOwl1.5出發(fā)，總結(jié)了不依賴OCR的情況下，進行多模態(tài)文檔理解的關(guān)鍵四個關(guān)鍵挑戰(zhàn)和阿里巴巴mPLUG團隊給出的解決方案。

2024-04-02 09:17:50

AI 數(shù)據(jù)開源

【多模態(tài)&LLM】POINTS多模態(tài)大模型淺談
NaViT利用序列打包訓(xùn)練，處理任意分辨率和長寬比的輸入，在大規(guī)模監(jiān)督和對比圖像文本預(yù)訓(xùn)練中提高了訓(xùn)練效率，可以用于圖像和視頻分類、目標檢測和語義分割，并在魯棒性和公平性基準測試中取得了改進的結(jié)果。

2025-01-08 08:21:16

首個開源多模態(tài)大模型通用評測器LLaVA-Critic
LLaVACritic是首個通用的開源多模態(tài)大模型評測器，能夠在多個開放式多模態(tài)場景中評測模型表現(xiàn)。

2024-10-14 14:10:00

大模型 AI 開源

開源模型突破原生多模態(tài)大模型性能瓶頸，上海AI Lab代季峰團隊出品
上海AILab代季峰老師團隊，提出了全新的原生多模態(tài)大模型MonoInternVL。

2024-10-25 14:30:00

模型 AI

多模態(tài)引導(dǎo)的基于文生圖大模型的圖像編輯綜述
綜述提出的統(tǒng)一框架將編輯過程表示為不同算法族的組合，并通過全面的定性和定量實驗來說明各種組合的特性以及適應(yīng)場景。

2024-07-01 10:19:22

一行代碼、無需訓(xùn)練突破視頻生成時長「魔咒」，清華朱軍團隊開源全新解決方案RIFLEx
Vidu團隊帶來了一個簡潔優(yōu)雅的解決方案——RIFLEx。新方案僅需一行代碼、無需額外訓(xùn)練即可突破視頻生成模型現(xiàn)有長度限制，打破「短視頻魔咒」。

2025-03-12 09:05:02

一文看懂多模態(tài)視覺-語言大模型的架構(gòu)演進
本文回顧了多模態(tài)LLM(視覺語言模型)近一年來的模型架構(gòu)演進，對其中有代表性的工作進行了精煉總結(jié)。

2024-07-23 10:34:57

從Transformer到擴散模型，一文了解基于序列建模的強化學(xué)習(xí)方法
本文將簡單談?wù)劵谛蛄薪５膹娀瘜W(xué)習(xí)方法。

2022-08-26 14:44:32

強化學(xué)習(xí)AI

首個多模態(tài)連續(xù)學(xué)習(xí)綜述，港中文、清華、UIC聯(lián)合發(fā)布
本文呈現(xiàn)了一份最新的多模態(tài)連續(xù)學(xué)習(xí)（MMCL）綜述，提供了MMCL方法的結(jié)構(gòu)化分類、基本背景知識、數(shù)據(jù)集和基準的總結(jié)。

2024-11-13 15:00:00

模型數(shù)據(jù)

相似話題

機器學(xué)習(xí)
2031內(nèi)容

深度學(xué)習(xí)
1694內(nèi)容

自然語言處理
 110內(nèi)容

語音識別
 107內(nèi)容
全部話題

同話題下的熱門內(nèi)容

DeepSeek R2提前泄露？周二或周三發(fā)布？海外謠言一夜刷屏，HggingFace CEO一帖子引瘋狂猜想，DS又被消費了深夜突襲，阿里Qwen3登頂全球開源王座！暴擊DeepSeek-R1，2小時狂攬17k星僅用3周時間，就打造出Manus開源平替！貢獻源代碼，免費用 MCP 服務(wù)器很危險！這里有安全使用指南！剛剛，Qwen3強勢登頂，成開源新王！國內(nèi)首個混合推理模型，235B擊敗R1、o1!源神火力全開：全系列8個模型一口氣開源！Kimi-Audio開源橫掃全場景，1300萬+小時數(shù)據(jù)煉成語音世界“大一統(tǒng)”看不懂GitHub代碼？剛剛這個AI工具讓全球每個GitHub項目開口說話一文詳解深度學(xué)習(xí)中的標量、向量、矩陣、張量

相關(guān)專題更多

解讀惠普Z系列工作站ZBook Ultra G1a高性能移動

HPE ProLiant DL145 Gen11 服務(wù)器解讀

2025-04-21 09:59:50

開發(fā)者成長學(xué)院 | 成長有徑 · 代碼有方

2025-04-23 08:49:09

我收藏的內(nèi)容

微博

QQ

微信

復(fù)制鏈接

微信掃碼分享

51CTO業(yè)務(wù)

媒體
51CTO CIOAge HC3i Techplur
社區(qū)
51CTO博客軟考社區(qū)鴻蒙開發(fā)者社區(qū)AI.x社區(qū)
教育
51CTO學(xué)堂精培企業(yè)培訓(xùn)CTO訓(xùn)練營

51CTO學(xué)堂

51CTO學(xué)堂企業(yè)版

51CTO官微

51CTO

關(guān)于我們&條款

關(guān)于我們

新聞動態(tài)

站點地圖

意見反饋

English

用戶協(xié)議

隱私協(xié)議

北京市海淀區(qū)中關(guān)村南1條甲1號ECO中科愛克大廈6-7層

北京市公安局海淀分局備案編號：110108002980號
營業(yè)執(zhí)照京ICP備09067568號

Copyright ? 2005-2025 51CTO.COM 京ICP證060544 版權(quán)所有未經(jīng)許可請勿轉(zhuǎn)載

營業(yè)執(zhí)照出版物經(jīng)營許可證

友情鏈接

新浪科技騰訊科技網(wǎng)易科技鳳凰科技驅(qū)動科技科技行者 TechWeb 艾瑞網(wǎng)站長之家速途網(wǎng)中國經(jīng)濟新聞網(wǎng)IT之家工聯(lián)網(wǎng)極客公園 236視頻會議中國IDC圈企業(yè)網(wǎng)D1Net 投資界次方元火山引擎

51CTO技術(shù)棧公眾號

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

在線客服

媒體
51CTO CIOAge HC3i

社區(qū)
51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育
51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

感谢您访问我们的网站，您可能还对以下资源感兴趣：
自拍偷在线精品自拍偷