自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

賈佳亞團(tuán)隊(duì)新模型對(duì)標(biāo)ChatGPT+DALL-E 3王炸組合!讀懂梗圖刷爆榜單,代碼復(fù)現(xiàn)數(shù)學(xué)函數(shù)

人工智能
賈佳亞團(tuán)隊(duì)提出VLM模型Mini-Gemini,堪比GPT-4+DALL-E 3王炸組合,一上線就刷爆了多模態(tài)任務(wù)榜單!讀得懂梗圖,做得了學(xué)術(shù),用代碼就能復(fù)現(xiàn)數(shù)學(xué)函數(shù)圖。

刷爆多模態(tài)任務(wù)榜單,超強(qiáng)視覺語言模型Mini-Gemini來了!

效果堪稱是開源社區(qū)版的GPT-4+DALL-E 3王炸組合。

不僅如此,這款由港中文終身教授賈佳亞團(tuán)隊(duì)提出的多模態(tài)模型,一經(jīng)發(fā)布便登上了PaperWithCode熱榜。

圖片圖片

Demo地址: http://103.170.5.190:7860/

論文地址:https://arxiv.org/pdf/2403.18814.pdf

具體來說,Mini-Gemini提供了2B小杯到34B的超大杯的不同選擇。

憑借超強(qiáng)的圖文理解力,Mini-Gemini在多個(gè)指標(biāo)上,直接媲美Gemini Pro,GPT-4V。

圖片圖片

目前,研究團(tuán)隊(duì)將Mini-Gemini的代碼、模型、數(shù)據(jù)全部開源。

更有意思的是,超會(huì)玩梗的Mini-Gemini線上Demo已經(jīng)發(fā)布,人人皆可上手試玩。

Mini-Gemini Demo放出后受到廣大網(wǎng)友關(guān)注,一番「嘗鮮」后,有人認(rèn)為:Mini-Gemini跟商業(yè)模型差不了多少!

圖片圖片

為何這么說?

圖片理解天花板

當(dāng)前,絕大多數(shù)多模態(tài)模型僅支持低分辨率圖像輸入和文字輸出。

而在實(shí)際場(chǎng)景中,許多任務(wù)都需要對(duì)高清圖像進(jìn)行解析,并用圖像的形式進(jìn)行展現(xiàn)。

舉個(gè)例子,Mini-Gemini能夠看懂面包九宮格圖片教程,并進(jìn)行手把手教學(xué)。

圖片圖片

拍一張?zhí)O果店Mac電腦信息圖,Mini-Gemini能夠?qū)煞N尺寸的Mac不同參數(shù)進(jìn)行對(duì)比。

有網(wǎng)友看過后表示,「媽媽再也不用擔(dān)心我的生活了」。

圖片

更重要的是,Mini-Gemini在保留超強(qiáng)的圖像理解和推理能力的同時(shí),還解鎖了圖像的生成能力,就如同ChatGPT和生成模型的結(jié)合。

下面,讓我們通過幾個(gè)例子來更直觀地感受這種能力:

推理再生成,更精準(zhǔn)了

還記得谷歌Gemini的官方演示視頻么?

當(dāng)用戶給出兩個(gè)毛線團(tuán)并問出能用它們做什么時(shí),Gemini可以識(shí)別出圖片內(nèi)容并給出相應(yīng)的建議。

圖片圖片

圖片

圖片

當(dāng)我們把相似的輸入給到Mini-Gemini,它會(huì)怎么回答呢?

圖片圖片

可以發(fā)現(xiàn),Mini-Gemini也可以識(shí)別出圖片中的元素,并且合理地建議,同時(shí)生成了一只對(duì)應(yīng)的毛線小熊。

圖片圖片

通過一些抽象的多模態(tài)指令來讓模型給出推理,并生成合適的圖片,這個(gè)操作就很像是ChatGPT和DALLE3的聯(lián)動(dòng)了!

接下來讓Mini-Gemini做自己最擅長的推理和圖片理解,看看它表現(xiàn)。

比如,理解圖片中的矛盾點(diǎn)并舉一反三。

輸入冰川中的仙人掌,它會(huì)解釋其中的矛盾并生成一張熱帶雨林中北極熊的圖片:

圖片圖片

圖片呈現(xiàn)了仙人掌的典型棲息地與冰的存在之間的視覺矛盾,因?yàn)樵谏衬h(huán)境中自然不會(huì)出現(xiàn)冰。

Mini-Gemini正是理解了這種矛盾點(diǎn),才生成了一張北極熊出現(xiàn)在熱帶雨林的圖片。

這種并置創(chuàng)造了一個(gè)引人注目且超現(xiàn)實(shí)的視覺效果,挑戰(zhàn)觀眾的期待,并可能引發(fā)人們對(duì)氣候變化、環(huán)境適應(yīng)或不同生態(tài)系統(tǒng)融合的思考。

同時(shí),正如ChatGPT+DALLE3的夢(mèng)幻結(jié)合一樣,Mini-Gemini的「推理生成」功能還可以在多輪對(duì)話中通過簡(jiǎn)單指令生成連環(huán)小故事。

比方說,讓它根據(jù)用戶輸入講一個(gè)貴族小老鼠的故事。

Mini-Gemini會(huì)根據(jù)前文的文字生成結(jié)果和用戶輸入進(jìn)行推理,在保持一致性的情況下對(duì)圖片進(jìn)行修改,使其更符合用戶的要求。

圖片圖片

圖片

當(dāng)然,Mini-Gemini對(duì)于多模態(tài)模型的傳統(tǒng)技能圖片理解也不在話下。

比方讓模型理解輸入曲線圖的數(shù)學(xué)意義(高斯分布),并讓它使用代碼復(fù)現(xiàn)這張圖。

通過運(yùn)行生成的代碼,模型可以高質(zhì)量地還原曲線圖,節(jié)省了復(fù)現(xiàn)的時(shí)間。

圖片圖片

圖片圖片

超會(huì)玩梗

又或者讓Mini-Gemini理解梗圖,通過其強(qiáng)大的OCR和推理能力,也可以準(zhǔn)確指出笑點(diǎn)。

一張將麥當(dāng)勞P成GYM表情包,外加對(duì)話圖,搞笑點(diǎn)在哪?

圖片圖片

Mini-Gemini可以準(zhǔn)確理解圖中諷刺含義,并給出了正確的解釋。

圖片圖片

圖片圖片

還有這張「當(dāng)某媒體說AI將接管世界,實(shí)際上我的神經(jīng)網(wǎng)絡(luò)連貓未能識(shí)別」的梗圖。

圖片圖片

Mini-Gemini也是可以理解,是在說AI犯錯(cuò)的例子,并且與公眾接受到的預(yù)期并不一樣。

圖片圖片

圖中細(xì)節(jié)的幽默之處,它都能get得明明白白。

圖片圖片

高清復(fù)雜的多圖表理解和歸納也是小菜一碟,Mini-Gemini直接秒變打工人效率提升的超級(jí)外掛。

圖片圖片

圖片圖片

英文圖表太復(fù)雜,讀起來太費(fèi)腦子?它直觀地用中文整理出了內(nèi)容——「比較不同籠養(yǎng)系統(tǒng)中母雞所承受的平均疼痛天數(shù)」。

圖片圖片

技術(shù)細(xì)節(jié)

如上演示中,Mini-Gemini是怎樣做到這種驚艷的效果呢?

圖片圖片

論文地址:https://arxiv.org/pdf/2403.18814.pdf

Github地址:https://github.com/dvlab-research/MiniGemini

模型地址:https://huggingface.co/collections/YanweiLi/mini-gemini-6603c50b9b43d044171d0854

數(shù)據(jù)地址:https://huggingface.co/collections/YanweiLi/mini-gemini-data-660463ea895a01d8f367624e

大道至簡(jiǎn),Mini-Gemini的整體思路并不復(fù)雜。其中的Gemini(雙子座)表達(dá)的是使用視覺雙分支的信息挖掘(Miraing-Info in Gemini)解決高清圖像理解問題。

而其中的核心在于三點(diǎn):

(1)用于高清圖像的雙編碼器機(jī)制;

(2)更高質(zhì)量的數(shù)據(jù);

(3)訓(xùn)練階段結(jié)合生成模型數(shù)據(jù)拓展。

詳細(xì)來說,Mini-Gemini將傳統(tǒng)所使用的ViT當(dāng)做低分辨率的Query,而使用卷積網(wǎng)絡(luò)(ConvNet)將高分辨率的圖像編碼成Key和Value。

使用Transformer中常用的Attention機(jī)制,來挖掘每個(gè)低分辨率Query所對(duì)應(yīng)的高分辨率區(qū)域。

從而在保持最終視覺Token數(shù)目不變的情況下去提升對(duì)高清圖像的響應(yīng),保證了在大語言模型(LLM)中對(duì)于高清圖像的高效編碼。

值得一提的是,由于高分辨率分支卷積網(wǎng)絡(luò)的使用,可以根據(jù)需要對(duì)圖像所需的分辨率自適應(yīng)調(diào)整,能夠遇強(qiáng)則強(qiáng)。

對(duì)于圖像的生成部分,Mini-Gemini借助了SDXL,使用LLM推理后所生成的文本鏈接兩個(gè)模型,類似于DALLE3的流程。

圖片圖片

而對(duì)于數(shù)據(jù)這個(gè)「萬金油」,Mini-Gemini進(jìn)一步收集并優(yōu)化了訓(xùn)練數(shù)據(jù)的質(zhì)量,并加入了跟生成模型結(jié)合的文本數(shù)據(jù)進(jìn)行訓(xùn)練。

在僅使用2-3M數(shù)據(jù)的情況下,實(shí)現(xiàn)了對(duì)圖像理解、推理、和生成的統(tǒng)一流程。

Mini-Gemini在各種Zero-shot的榜單上毫不遜色于各種大廠用大量數(shù)據(jù)訓(xùn)練出來的模型,可謂是「平、靚、正」 !

媲美Gemini Pro和GPT-4V

可以看出,Mini-Gemini提供了多種普通和高清版本的模型,并且覆蓋了2B的小杯到34B的超大杯。

各個(gè)版本都取得了相似參數(shù)量下領(lǐng)先的效果,在許多指標(biāo)上甚至超越Gemini Pro和GPT-4V。

圖片圖片

人人在線可玩

值得一提的是,Mini-Gemini的圖像理解和生成能力已經(jīng)出了Demo,可以在線跟自定義圖像對(duì)話的那種。

操作也極其簡(jiǎn)單,直接跟輸入圖像或文字進(jìn)行對(duì)話即可,歡迎來撩!

圖片圖片

Demo地址:http://103.170.5.190:7860/

參考資料:

https://arxiv.org/pdf/2403.18814.pdf

https://github.com/dvlab-research/MiniGemini

https://huggingface.co/collections/YanweiLi/mini-gemini-6603c50b9b43d044171d0854

https://huggingface.co/collections/YanweiLi/mini-gemini-data-660463ea895a01d8f367624e

http://103.170.5.190:7860/

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2024-04-15 12:28:00

AI模型

2023-10-04 18:30:52

MetaAI

2024-07-18 12:56:29

2023-09-21 10:31:06

人工智能模型

2024-07-08 08:38:00

模型推理

2023-05-06 08:23:36

ChatGPT自然語言技術(shù)

2023-10-04 10:38:38

模型方法

2025-01-24 14:14:35

模型框架視頻

2023-08-09 17:38:47

模型AI

2024-04-03 13:33:43

2022-09-29 13:52:55

WindowsPython代碼

2023-03-01 16:29:51

ChatGPT人工智能

2023-12-06 13:59:00

數(shù)據(jù)訓(xùn)練

2023-10-09 12:44:19

2023-10-09 12:36:08

人工智能數(shù)據(jù)

2023-12-10 15:05:47

AI模型

2023-10-20 08:26:50

2023-10-23 09:25:08

模型AI

2014-07-01 09:30:54

機(jī)器學(xué)習(xí)

2025-04-03 11:16:10

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)