自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="modik"></pre>

<abbr id="modik"><tt id="modik"><mark id="modik"></mark></tt></abbr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

最強(qiáng)開源多模態(tài)生成模型MM-Interleaved：首創(chuàng)特征同步器

作者：機(jī)器之心 2024-02-01 13:03:00

人工智能新聞

最近，上海人工智能實(shí)驗(yàn)室聯(lián)合香港中文大學(xué)多媒體實(shí)驗(yàn)室（MMLab）、清華大學(xué)、商湯科技、多倫多大學(xué)等多家高校、機(jī)構(gòu)，共同發(fā)布了一個(gè)多才多藝的最強(qiáng)開源多模態(tài)生成模型 MM-Interleaved。

想象一下，AI 不僅會(huì)聊天，還長(zhǎng)了「眼睛」，能看懂圖片，甚至還會(huì)通過畫畫來表達(dá)自己！這意味著，你可以和它們談天說地，分享圖片或視頻，它們也同樣能用圖文并茂的方式回應(yīng)你。

最近，上海人工智能實(shí)驗(yàn)室聯(lián)合香港中文大學(xué)多媒體實(shí)驗(yàn)室（MMLab）、清華大學(xué)、商湯科技、多倫多大學(xué)等多家高校、機(jī)構(gòu)，共同發(fā)布了一個(gè)多才多藝的最強(qiáng)開源多模態(tài)生成模型 MM-Interleaved，借助全新提出的多模態(tài)特征同步器刷新多項(xiàng)任務(wù) SOTA。它擁有對(duì)高分辨率圖像細(xì)節(jié)和微妙語義的精準(zhǔn)理解能力，支持任意穿插的圖文輸入和輸出，帶來了多模態(tài)生成大模型的嶄新突破。

論文地址：https://arxiv.org/pdf/2401.10208.pdf

項(xiàng)目地址：https://github.com/OpenGVLab/MM-Interleaved

模型地址：https://huggingface.co/OpenGVLab/MM-Interleaved/tree/main/mm_interleaved_pretrain

MM-Interleaved 可以輕松編寫引人入勝的旅游日志和童話故事，準(zhǔn)確理解機(jī)器人操作，就連分析電腦和手機(jī)的 GUI 界面、創(chuàng)作獨(dú)特風(fēng)格的精美圖片都不在話下。甚至，它還能教你做菜，陪你玩游戲，成為隨時(shí)聽候指揮的個(gè)人助理！話不多說，直接看效果：

輕松理解復(fù)雜多模態(tài)上下文

MM-Interleaved 可以根據(jù)圖文上下文自主推理生成符合要求的文本答復(fù)，它既能算水果數(shù)學(xué)題：

也能結(jié)合常識(shí)推理出 Logo 圖像對(duì)應(yīng)的公司并進(jìn)行介紹：

還能精確識(shí)別用紅色圓圈標(biāo)注出的手寫文字內(nèi)容：

此外，模型也能直接理解通過序列圖像表示的機(jī)器人動(dòng)作：

以及在 Minecraft 中如何建造圍欄這樣的游戲操作：

甚至能結(jié)合上下文，手把手地教用戶如何在手機(jī) UI 界面上配置灰度：

以及精準(zhǔn)定位找到那架藏在后面的飛機(jī)：

腦洞全開生成不同風(fēng)格圖像

MM-Interleaved 模型同樣可以出色地完成各種復(fù)雜的圖像生成任務(wù)。比如根據(jù)用戶提供的詳細(xì)描述生成一張三角鋼琴的剪影：

或者當(dāng)用戶以多種形式指定所需生成的圖像應(yīng)當(dāng)包含的物體或風(fēng)格時(shí)，MM-Interleaved 框架也可輕松應(yīng)對(duì)。

比如生成一張水彩風(fēng)格的大象：

按照狗的風(fēng)格生成一張貓的畫：

在向日葵花叢里的一座木房子：

以及在生成海浪圖像時(shí)，根據(jù)上下文智能推斷相應(yīng)的風(fēng)格。

圖像生成兼顧空間一致性

更令人驚喜的是，MM-Interleaved 還具備根據(jù)輸入的分割圖和對(duì)應(yīng)的文本描述生成圖像的能力，并確保生成的圖像與分割圖在空間布局上保持一致。

這一功能不僅展示了模型在圖文生成任務(wù)中的卓越表現(xiàn)，同時(shí)也為用戶提供了更加靈活和直觀的操作體驗(yàn)。

自主生成圖文并茂的文章

此外，只需提供一個(gè)簡(jiǎn)單的開頭，MM-Interleaved 就能自主進(jìn)行續(xù)寫，生成語義連貫、圖文并茂的文章，題材多樣。

無論是關(guān)于一朵玫瑰的童話故事：

教你制作蘋果汁的教程指南：

還是卡通動(dòng)漫中的情節(jié)片段：

MM-Interleaved 框架都展現(xiàn)出了卓越的創(chuàng)造力。這使得 MM-Interleaved 框架成為了一個(gè)無限創(chuàng)意的智能合作者，能夠幫助用戶輕松打造引人入勝的圖文作品。

MM-Interleaved 致力于解決圖文交錯(cuò)多模態(tài)大模型訓(xùn)練中的核心問題，通過深入研究提出了一種全新的端到端預(yù)訓(xùn)練框架。

基于 MM-Interleaved 訓(xùn)練的模型，在參數(shù)量更少、不使用私有數(shù)據(jù)的情況下，不僅在多個(gè)零樣本多模態(tài)理解任務(wù)上表現(xiàn)優(yōu)越，領(lǐng)先于國內(nèi)外最新研究工作，如 Flamingo、Emu2 等。

還能進(jìn)一步通過監(jiān)督微調(diào)的方式，在視覺問答（VQA），圖像描述（image caption）、指代理解（referring expression comprehension）、圖生圖（segment-to-image generation）、視覺故事生成（visual storytelling）等多個(gè)下游任務(wù)上取得更為優(yōu)異的綜合性能。

目前模型的預(yù)訓(xùn)練權(quán)重及相應(yīng)代碼實(shí)現(xiàn)均已在 GitHub 開源。

多模態(tài)特征同步器攜手全新端到端訓(xùn)練框架

MM-Interleaved 提出了一種全新的端到端訓(xùn)練框架，專門面向圖文交錯(cuò)數(shù)據(jù)。

該框架支持多尺度的圖像特征作為輸入，不對(duì)圖像和文本的中間特征添加任何額外約束，而是直接采用預(yù)測(cè)下一個(gè)文本 token 或下一張圖像的自監(jiān)督訓(xùn)練目標(biāo)，實(shí)現(xiàn)單階段的統(tǒng)一預(yù)訓(xùn)練范式。

與以往方法相比，MM-Interleaved 不僅支持交錯(cuò)生成文本和圖像，還能高效捕捉圖像中更多的細(xì)節(jié)信息。

此外，MM-Interleaved 的關(guān)鍵實(shí)現(xiàn)還包括一個(gè)通用的多模態(tài)特征同步器（Multi-modal Feature Synchronizer）。

該同步器能夠動(dòng)態(tài)注入多張高分辨率圖像的細(xì)粒度特征到多模態(tài)大模型和圖像解碼器中，實(shí)現(xiàn)了對(duì)文本和圖像的解碼生成的同時(shí)進(jìn)行跨模態(tài)的特征同步。

這一創(chuàng)新設(shè)計(jì)使得 MM-Interleaved 為多模態(tài)大模型領(lǐng)域的發(fā)展注入了新的活力。

多項(xiàng)任務(wù)性能領(lǐng)先

如表 1 和表 3 所示，MM-Interleaved 在零樣本多模態(tài)理解和生成任務(wù)上均取得了卓越的性能。這一成就不僅證明了該框架的強(qiáng)大能力，也突顯了其在應(yīng)對(duì)多樣化任務(wù)時(shí)的強(qiáng)大通用性。

表 2 和表 4 展現(xiàn)了 MM-Interleaved 在進(jìn)行進(jìn)一步微調(diào)后的實(shí)驗(yàn)結(jié)果，其在指代理解、基于分割圖生成圖像、圖文交錯(cuò)生成等多個(gè)下游任務(wù)上的性能也十分優(yōu)異。

這表明 MM-Interleaved 不僅在預(yù)訓(xùn)練階段表現(xiàn)出色，而且在具體任務(wù)微調(diào)后依然能夠保持領(lǐng)先地位，從而為多模態(tài)大模型的廣泛應(yīng)用提供了可靠的支持。

結(jié)論

MM-Interleaved 的問世標(biāo)志著多模態(tài)大模型的發(fā)展朝著實(shí)現(xiàn)全面端到端的統(tǒng)一建模和訓(xùn)練邁出了關(guān)鍵一步。

這一框架的成功不但體現(xiàn)在其預(yù)訓(xùn)練階段所展現(xiàn)的卓越性能，而且還體現(xiàn)在微調(diào)后在各個(gè)具體下游任務(wù)上的全面表現(xiàn)。

其獨(dú)特的貢獻(xiàn)不僅在于展示了強(qiáng)大的多模態(tài)處理能力，更為開源社區(qū)構(gòu)建新一代多模態(tài)大模型開啟了更為廣闊的可能性。

MM-Interleaved 也為未來圖文交錯(cuò)數(shù)據(jù)的處理提供了新的思路和工具，為實(shí)現(xiàn)更加智能、靈活的圖文生成和理解奠定了堅(jiān)實(shí)基礎(chǔ)。

我們期待看到這一創(chuàng)新為更多領(lǐng)域相關(guān)應(yīng)用帶來更多驚喜。

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<ol id="yzqsj"><li id="yzqsj"></li></ol>