自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

最強(qiáng)開源多模態(tài)生成模型MM-Interleaved:首創(chuàng)特征同步器

人工智能 新聞
最近,上海人工智能實(shí)驗(yàn)室聯(lián)合香港中文大學(xué)多媒體實(shí)驗(yàn)室(MMLab)、清華大學(xué)、商湯科技、多倫多大學(xué)等多家高校、機(jī)構(gòu),共同發(fā)布了一個(gè)多才多藝的最強(qiáng)開源多模態(tài)生成模型 MM-Interleaved。

想象一下,AI 不僅會(huì)聊天,還長(zhǎng)了「眼睛」,能看懂圖片,甚至還會(huì)通過畫畫來表達(dá)自己!這意味著,你可以和它們談天說地,分享圖片或視頻,它們也同樣能用圖文并茂的方式回應(yīng)你。

最近,上海人工智能實(shí)驗(yàn)室聯(lián)合香港中文大學(xué)多媒體實(shí)驗(yàn)室(MMLab)、清華大學(xué)、商湯科技、多倫多大學(xué)等多家高校、機(jī)構(gòu),共同發(fā)布了一個(gè)多才多藝的最強(qiáng)開源多模態(tài)生成模型 MM-Interleaved,借助全新提出的多模態(tài)特征同步器刷新多項(xiàng)任務(wù) SOTA。它擁有對(duì)高分辨率圖像細(xì)節(jié)和微妙語義的精準(zhǔn)理解能力,支持任意穿插的圖文輸入和輸出,帶來了多模態(tài)生成大模型的嶄新突破。

圖片


論文地址:https://arxiv.org/pdf/2401.10208.pdf

項(xiàng)目地址:https://github.com/OpenGVLab/MM-Interleaved

模型地址:https://huggingface.co/OpenGVLab/MM-Interleaved/tree/main/mm_interleaved_pretrain

MM-Interleaved 可以輕松編寫引人入勝的旅游日志和童話故事,準(zhǔn)確理解機(jī)器人操作,就連分析電腦和手機(jī)的 GUI 界面、創(chuàng)作獨(dú)特風(fēng)格的精美圖片都不在話下。甚至,它還能教你做菜,陪你玩游戲,成為隨時(shí)聽候指揮的個(gè)人助理!話不多說,直接看效果:

輕松理解復(fù)雜多模態(tài)上下文

MM-Interleaved 可以根據(jù)圖文上下文自主推理生成符合要求的文本答復(fù),它既能算水果數(shù)學(xué)題:

圖片

也能結(jié)合常識(shí)推理出 Logo 圖像對(duì)應(yīng)的公司并進(jìn)行介紹:

圖片

還能精確識(shí)別用紅色圓圈標(biāo)注出的手寫文字內(nèi)容:

圖片

此外,模型也能直接理解通過序列圖像表示的機(jī)器人動(dòng)作:

圖片

以及在 Minecraft 中如何建造圍欄這樣的游戲操作:

圖片

甚至能結(jié)合上下文,手把手地教用戶如何在手機(jī) UI 界面上配置灰度:

圖片

以及精準(zhǔn)定位找到那架藏在后面的飛機(jī):

圖片

腦洞全開生成不同風(fēng)格圖像

MM-Interleaved 模型同樣可以出色地完成各種復(fù)雜的圖像生成任務(wù)。比如根據(jù)用戶提供的詳細(xì)描述生成一張三角鋼琴的剪影:

圖片

或者當(dāng)用戶以多種形式指定所需生成的圖像應(yīng)當(dāng)包含的物體或風(fēng)格時(shí),MM-Interleaved 框架也可輕松應(yīng)對(duì)。

比如生成一張水彩風(fēng)格的大象:

圖片

按照狗的風(fēng)格生成一張貓的畫:

圖片

在向日葵花叢里的一座木房子:

圖片

以及在生成海浪圖像時(shí),根據(jù)上下文智能推斷相應(yīng)的風(fēng)格。

圖像生成兼顧空間一致性

更令人驚喜的是,MM-Interleaved 還具備根據(jù)輸入的分割圖和對(duì)應(yīng)的文本描述生成圖像的能力,并確保生成的圖像與分割圖在空間布局上保持一致。

圖片

這一功能不僅展示了模型在圖文生成任務(wù)中的卓越表現(xiàn),同時(shí)也為用戶提供了更加靈活和直觀的操作體驗(yàn)。

自主生成圖文并茂的文章

此外,只需提供一個(gè)簡(jiǎn)單的開頭,MM-Interleaved 就能自主進(jìn)行續(xù)寫,生成語義連貫、圖文并茂的文章,題材多樣。

無論是關(guān)于一朵玫瑰的童話故事:

圖片

教你制作蘋果汁的教程指南:

圖片

還是卡通動(dòng)漫中的情節(jié)片段:

圖片

MM-Interleaved 框架都展現(xiàn)出了卓越的創(chuàng)造力。這使得 MM-Interleaved 框架成為了一個(gè)無限創(chuàng)意的智能合作者,能夠幫助用戶輕松打造引人入勝的圖文作品。

MM-Interleaved 致力于解決圖文交錯(cuò)多模態(tài)大模型訓(xùn)練中的核心問題,通過深入研究提出了一種全新的端到端預(yù)訓(xùn)練框架。

基于 MM-Interleaved 訓(xùn)練的模型,在參數(shù)量更少、不使用私有數(shù)據(jù)的情況下,不僅在多個(gè)零樣本多模態(tài)理解任務(wù)上表現(xiàn)優(yōu)越,領(lǐng)先于國內(nèi)外最新研究工作,如 Flamingo、Emu2 等。

還能進(jìn)一步通過監(jiān)督微調(diào)的方式,在視覺問答(VQA),圖像描述(image caption)、指代理解(referring expression comprehension)、圖生圖(segment-to-image generation)、視覺故事生成(visual storytelling)等多個(gè)下游任務(wù)上取得更為優(yōu)異的綜合性能。

目前模型的預(yù)訓(xùn)練權(quán)重及相應(yīng)代碼實(shí)現(xiàn)均已在 GitHub 開源。

圖片

多模態(tài)特征同步器攜手全新端到端訓(xùn)練框架

圖片

MM-Interleaved 提出了一種全新的端到端訓(xùn)練框架,專門面向圖文交錯(cuò)數(shù)據(jù)。

該框架支持多尺度的圖像特征作為輸入,不對(duì)圖像和文本的中間特征添加任何額外約束,而是直接采用預(yù)測(cè)下一個(gè)文本 token 或下一張圖像的自監(jiān)督訓(xùn)練目標(biāo),實(shí)現(xiàn)單階段的統(tǒng)一預(yù)訓(xùn)練范式。

與以往方法相比,MM-Interleaved 不僅支持交錯(cuò)生成文本和圖像,還能高效捕捉圖像中更多的細(xì)節(jié)信息。

圖片

此外,MM-Interleaved 的關(guān)鍵實(shí)現(xiàn)還包括一個(gè)通用的多模態(tài)特征同步器(Multi-modal Feature Synchronizer)。

該同步器能夠動(dòng)態(tài)注入多張高分辨率圖像的細(xì)粒度特征到多模態(tài)大模型和圖像解碼器中,實(shí)現(xiàn)了對(duì)文本和圖像的解碼生成的同時(shí)進(jìn)行跨模態(tài)的特征同步。

這一創(chuàng)新設(shè)計(jì)使得 MM-Interleaved 為多模態(tài)大模型領(lǐng)域的發(fā)展注入了新的活力。

多項(xiàng)任務(wù)性能領(lǐng)先

圖片

圖片

如表 1 和表 3 所示,MM-Interleaved 在零樣本多模態(tài)理解和生成任務(wù)上均取得了卓越的性能。這一成就不僅證明了該框架的強(qiáng)大能力,也突顯了其在應(yīng)對(duì)多樣化任務(wù)時(shí)的強(qiáng)大通用性。

圖片


圖片

表 2 和表 4 展現(xiàn)了 MM-Interleaved 在進(jìn)行進(jìn)一步微調(diào)后的實(shí)驗(yàn)結(jié)果,其在指代理解、基于分割圖生成圖像、圖文交錯(cuò)生成等多個(gè)下游任務(wù)上的性能也十分優(yōu)異。

這表明 MM-Interleaved 不僅在預(yù)訓(xùn)練階段表現(xiàn)出色,而且在具體任務(wù)微調(diào)后依然能夠保持領(lǐng)先地位,從而為多模態(tài)大模型的廣泛應(yīng)用提供了可靠的支持。

結(jié)論

MM-Interleaved 的問世標(biāo)志著多模態(tài)大模型的發(fā)展朝著實(shí)現(xiàn)全面端到端的統(tǒng)一建模和訓(xùn)練邁出了關(guān)鍵一步。

這一框架的成功不但體現(xiàn)在其預(yù)訓(xùn)練階段所展現(xiàn)的卓越性能,而且還體現(xiàn)在微調(diào)后在各個(gè)具體下游任務(wù)上的全面表現(xiàn)。

其獨(dú)特的貢獻(xiàn)不僅在于展示了強(qiáng)大的多模態(tài)處理能力,更為開源社區(qū)構(gòu)建新一代多模態(tài)大模型開啟了更為廣闊的可能性。

MM-Interleaved 也為未來圖文交錯(cuò)數(shù)據(jù)的處理提供了新的思路和工具,為實(shí)現(xiàn)更加智能、靈活的圖文生成和理解奠定了堅(jiān)實(shí)基礎(chǔ)。

我們期待看到這一創(chuàng)新為更多領(lǐng)域相關(guān)應(yīng)用帶來更多驚喜。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-04-08 04:20:00

2024-08-30 14:35:00

2025-04-14 09:17:00

2023-06-06 14:09:32

模型開源

2025-03-19 09:30:00

2020-06-18 10:50:56

Java并發(fā)同步器

2025-01-08 08:21:16

2024-07-04 10:13:18

2024-04-30 08:28:44

開源大模型Llama

2021-04-12 08:21:48

AQSjavajvm

2021-04-13 14:07:22

JUC解析AQS抽象

2024-04-23 07:00:00

2024-03-25 12:30:18

AI訓(xùn)練開源

2025-04-08 03:00:00

2012-06-05 02:12:55

Java多線程

2025-03-07 09:57:01

2024-05-28 13:03:50

2023-02-03 16:31:02

模型

2024-01-22 13:59:00

模型訓(xùn)練

2017-11-06 08:52:59

Linux終端模擬器Java 9
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)