自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<s id="iix2l"><li id="iix2l"></li></s>

<sub id="iix2l"><rt id="iix2l"></rt></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

賈佳亞團(tuán)隊(duì)新模型對(duì)標(biāo)ChatGPT+DALL-E 3王炸組合！讀懂梗圖刷爆榜單，代碼復(fù)現(xiàn)數(shù)學(xué)函數(shù)

作者：新智元 2024-04-15 12:54:39

賈佳亞團(tuán)隊(duì)提出VLM模型Mini-Gemini，堪比GPT-4+DALL-E 3王炸組合，一上線就刷爆了多模態(tài)任務(wù)榜單！讀得懂梗圖，做得了學(xué)術(shù)，用代碼就能復(fù)現(xiàn)數(shù)學(xué)函數(shù)圖。

刷爆多模態(tài)任務(wù)榜單，超強(qiáng)視覺語言模型Mini-Gemini來了！

效果堪稱是開源社區(qū)版的GPT-4+DALL-E 3王炸組合。

不僅如此，這款由港中文終身教授賈佳亞團(tuán)隊(duì)提出的多模態(tài)模型，一經(jīng)發(fā)布便登上了PaperWithCode熱榜。

圖片

Demo地址: http://103.170.5.190:7860/

論文地址：https://arxiv.org/pdf/2403.18814.pdf

具體來說，Mini-Gemini提供了2B小杯到34B的超大杯的不同選擇。

憑借超強(qiáng)的圖文理解力，Mini-Gemini在多個(gè)指標(biāo)上，直接媲美Gemini Pro，GPT-4V。

圖片

目前，研究團(tuán)隊(duì)將Mini-Gemini的代碼、模型、數(shù)據(jù)全部開源。

更有意思的是，超會(huì)玩梗的Mini-Gemini線上Demo已經(jīng)發(fā)布，人人皆可上手試玩。

Mini-Gemini Demo放出后受到廣大網(wǎng)友關(guān)注，一番「嘗鮮」后，有人認(rèn)為：Mini-Gemini跟商業(yè)模型差不了多少！

圖片

為何這么說？

圖片理解天花板

當(dāng)前，絕大多數(shù)多模態(tài)模型僅支持低分辨率圖像輸入和文字輸出。

而在實(shí)際場(chǎng)景中，許多任務(wù)都需要對(duì)高清圖像進(jìn)行解析，并用圖像的形式進(jìn)行展現(xiàn)。

舉個(gè)例子，Mini-Gemini能夠看懂面包九宮格圖片教程，并進(jìn)行手把手教學(xué)。

圖片

拍一張?zhí)O果店Mac電腦信息圖，Mini-Gemini能夠?qū)煞N尺寸的Mac不同參數(shù)進(jìn)行對(duì)比。

有網(wǎng)友看過后表示，「媽媽再也不用擔(dān)心我的生活了」。

更重要的是，Mini-Gemini在保留超強(qiáng)的圖像理解和推理能力的同時(shí)，還解鎖了圖像的生成能力，就如同ChatGPT和生成模型的結(jié)合。

下面，讓我們通過幾個(gè)例子來更直觀地感受這種能力：

推理再生成，更精準(zhǔn)了

還記得谷歌Gemini的官方演示視頻么？

當(dāng)用戶給出兩個(gè)毛線團(tuán)并問出能用它們做什么時(shí)，Gemini可以識(shí)別出圖片內(nèi)容并給出相應(yīng)的建議。

圖片

當(dāng)我們把相似的輸入給到Mini-Gemini，它會(huì)怎么回答呢？

圖片

可以發(fā)現(xiàn)，Mini-Gemini也可以識(shí)別出圖片中的元素，并且合理地建議，同時(shí)生成了一只對(duì)應(yīng)的毛線小熊。

圖片

通過一些抽象的多模態(tài)指令來讓模型給出推理，并生成合適的圖片，這個(gè)操作就很像是ChatGPT和DALLE3的聯(lián)動(dòng)了！

接下來讓Mini-Gemini做自己最擅長的推理和圖片理解，看看它表現(xiàn)。

比如，理解圖片中的矛盾點(diǎn)并舉一反三。

輸入冰川中的仙人掌，它會(huì)解釋其中的矛盾并生成一張熱帶雨林中北極熊的圖片：

圖片

圖片呈現(xiàn)了仙人掌的典型棲息地與冰的存在之間的視覺矛盾，因?yàn)樵谏衬h(huán)境中自然不會(huì)出現(xiàn)冰。

Mini-Gemini正是理解了這種矛盾點(diǎn)，才生成了一張北極熊出現(xiàn)在熱帶雨林的圖片。

這種并置創(chuàng)造了一個(gè)引人注目且超現(xiàn)實(shí)的視覺效果，挑戰(zhàn)觀眾的期待，并可能引發(fā)人們對(duì)氣候變化、環(huán)境適應(yīng)或不同生態(tài)系統(tǒng)融合的思考。

同時(shí)，正如ChatGPT+DALLE3的夢(mèng)幻結(jié)合一樣，Mini-Gemini的「推理生成」功能還可以在多輪對(duì)話中通過簡(jiǎn)單指令生成連環(huán)小故事。

比方說，讓它根據(jù)用戶輸入講一個(gè)貴族小老鼠的故事。

Mini-Gemini會(huì)根據(jù)前文的文字生成結(jié)果和用戶輸入進(jìn)行推理，在保持一致性的情況下對(duì)圖片進(jìn)行修改，使其更符合用戶的要求。

圖片

當(dāng)然，Mini-Gemini對(duì)于多模態(tài)模型的傳統(tǒng)技能圖片理解也不在話下。

比方讓模型理解輸入曲線圖的數(shù)學(xué)意義（高斯分布），并讓它使用代碼復(fù)現(xiàn)這張圖。

通過運(yùn)行生成的代碼，模型可以高質(zhì)量地還原曲線圖，節(jié)省了復(fù)現(xiàn)的時(shí)間。

圖片

圖片

超會(huì)玩梗

又或者讓Mini-Gemini理解梗圖，通過其強(qiáng)大的OCR和推理能力，也可以準(zhǔn)確指出笑點(diǎn)。

一張將麥當(dāng)勞P成GYM表情包，外加對(duì)話圖，搞笑點(diǎn)在哪？

圖片

Mini-Gemini可以準(zhǔn)確理解圖中諷刺含義，并給出了正確的解釋。

圖片

圖片

還有這張「當(dāng)某媒體說AI將接管世界，實(shí)際上我的神經(jīng)網(wǎng)絡(luò)連貓未能識(shí)別」的梗圖。

圖片

Mini-Gemini也是可以理解，是在說AI犯錯(cuò)的例子，并且與公眾接受到的預(yù)期并不一樣。

圖片

圖中細(xì)節(jié)的幽默之處，它都能get得明明白白。

圖片

高清復(fù)雜的多圖表理解和歸納也是小菜一碟，Mini-Gemini直接秒變打工人效率提升的超級(jí)外掛。

圖片

圖片

英文圖表太復(fù)雜，讀起來太費(fèi)腦子？它直觀地用中文整理出了內(nèi)容——「比較不同籠養(yǎng)系統(tǒng)中母雞所承受的平均疼痛天數(shù)」。

圖片

技術(shù)細(xì)節(jié)

如上演示中，Mini-Gemini是怎樣做到這種驚艷的效果呢？

圖片

論文地址：https://arxiv.org/pdf/2403.18814.pdf

Github地址：https://github.com/dvlab-research/MiniGemini

模型地址：https://huggingface.co/collections/YanweiLi/mini-gemini-6603c50b9b43d044171d0854

數(shù)據(jù)地址：https://huggingface.co/collections/YanweiLi/mini-gemini-data-660463ea895a01d8f367624e

大道至簡(jiǎn)，Mini-Gemini的整體思路并不復(fù)雜。其中的Gemini（雙子座）表達(dá)的是使用視覺雙分支的信息挖掘（Miraing-Info in Gemini）解決高清圖像理解問題。

而其中的核心在于三點(diǎn)：

（1）用于高清圖像的雙編碼器機(jī)制；

（2）更高質(zhì)量的數(shù)據(jù)；

（3）訓(xùn)練階段結(jié)合生成模型數(shù)據(jù)拓展。

詳細(xì)來說，Mini-Gemini將傳統(tǒng)所使用的ViT當(dāng)做低分辨率的Query，而使用卷積網(wǎng)絡(luò)（ConvNet）將高分辨率的圖像編碼成Key和Value。

使用Transformer中常用的Attention機(jī)制，來挖掘每個(gè)低分辨率Query所對(duì)應(yīng)的高分辨率區(qū)域。

從而在保持最終視覺Token數(shù)目不變的情況下去提升對(duì)高清圖像的響應(yīng)，保證了在大語言模型（LLM）中對(duì)于高清圖像的高效編碼。

值得一提的是，由于高分辨率分支卷積網(wǎng)絡(luò)的使用，可以根據(jù)需要對(duì)圖像所需的分辨率自適應(yīng)調(diào)整，能夠遇強(qiáng)則強(qiáng)。

對(duì)于圖像的生成部分，Mini-Gemini借助了SDXL，使用LLM推理后所生成的文本鏈接兩個(gè)模型，類似于DALLE3的流程。

圖片

而對(duì)于數(shù)據(jù)這個(gè)「萬金油」，Mini-Gemini進(jìn)一步收集并優(yōu)化了訓(xùn)練數(shù)據(jù)的質(zhì)量，并加入了跟生成模型結(jié)合的文本數(shù)據(jù)進(jìn)行訓(xùn)練。

在僅使用2-3M數(shù)據(jù)的情況下，實(shí)現(xiàn)了對(duì)圖像理解、推理、和生成的統(tǒng)一流程。

Mini-Gemini在各種Zero-shot的榜單上毫不遜色于各種大廠用大量數(shù)據(jù)訓(xùn)練出來的模型，可謂是「平、靚、正」！

媲美Gemini Pro和GPT-4V

可以看出，Mini-Gemini提供了多種普通和高清版本的模型，并且覆蓋了2B的小杯到34B的超大杯。

各個(gè)版本都取得了相似參數(shù)量下領(lǐng)先的效果，在許多指標(biāo)上甚至超越Gemini Pro和GPT-4V。

圖片

人人在線可玩

值得一提的是，Mini-Gemini的圖像理解和生成能力已經(jīng)出了Demo，可以在線跟自定義圖像對(duì)話的那種。

操作也極其簡(jiǎn)單，直接跟輸入圖像或文字進(jìn)行對(duì)話即可，歡迎來撩！

圖片

Demo地址：http://103.170.5.190:7860/

參考資料：

https://arxiv.org/pdf/2403.18814.pdf

https://github.com/dvlab-research/MiniGemini

https://huggingface.co/collections/YanweiLi/mini-gemini-6603c50b9b43d044171d0854

https://huggingface.co/collections/YanweiLi/mini-gemini-data-660463ea895a01d8f367624e

http://103.170.5.190:7860/

責(zé)任編輯：武曉燕來源：新智元

ChatGPT DALL-E 3 代碼

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="4e21b"></cite>

<s id="4e21b"><li id="4e21b"></li></s>

<style id="4e21b"></style>