刷爆多模態(tài)任務(wù)榜單!賈佳亞團(tuán)隊(duì)Mini-Gemini登熱榜,代碼、模型、數(shù)據(jù)全部開源
更高清圖像的精確理解、更高質(zhì)量的訓(xùn)練數(shù)據(jù)、更強(qiáng)的圖像解析推理能力,還能結(jié)合圖像推理和生成,香港中文大學(xué)終身教授賈佳亞團(tuán)隊(duì)提出的這款多模態(tài)模型 Mini-Gemini 堪稱絕絕子,相當(dāng)于開源社區(qū)的 GPT4+DALLE3 的王炸組合!
- Github 地址:https://github.com/dvlab-research/MiniGemini
- Demo 地址: http://103.170.5.190:7860/
- 論文地址:https://arxiv.org/pdf/2403.18814.pdf
- 模型地址:https://huggingface.co/collections/YanweiLi/mini-gemini-6603c50b9b43d044171d0854
- 數(shù)據(jù)地址:https://huggingface.co/collections/YanweiLi/mini-gemini-data-660463ea895a01d8f367624e
Mini-Gemini 還提供了 2B 小杯到 34B 的超大杯,最強(qiáng)模型在多個指標(biāo)上相比 Google Gemini Pro 甚至 GPT-4V 都不遑多讓。目前,Mini-Gemini 從代碼、模型、到數(shù)據(jù)已全部開源,還登上了 PaperWithCode 熱榜。
值得一提的是,Mini-Gemini 的圖像理解和生成能力已經(jīng)出了 Demo,可以在線跟自定義圖像對話的那種。
操作也極其簡單,直接跟輸入圖像或文字進(jìn)行對話即可,歡迎來撩!
Mini-Gemini Demo 放出后受到廣大網(wǎng)友關(guān)注,一番 “品嘗” 后,他們認(rèn)為 Mini-Gemini 跟商業(yè)模型差不了多少!
效果展示
目前,絕大多數(shù)多模態(tài)模型僅支持低分辨率圖像輸入和文字輸出,而在實(shí)際場景中,許多任務(wù)都需要對高清圖像進(jìn)行解析,并用圖像的形式進(jìn)行展現(xiàn)。
如上圖所示,Mini-Gemini 不僅能夠根據(jù)圖片對做面包的過程進(jìn)行手把手教學(xué),也能夠準(zhǔn)確將不同電腦根據(jù)圖片中的各種參數(shù)進(jìn)行對比。網(wǎng)友表示:媽媽再也不用擔(dān)心我的生活了。
更重要的是,Mini-Gemini 在保留超強(qiáng)的圖像理解和推理能力的同時,還解鎖了圖像的生成能力,就如同 ChatGPT 和生成模型的結(jié)合。
下面,讓我們通過幾個例子來更直觀地感受這種能力:
還記得 Google Gemini 的官方演示視頻么?當(dāng)用戶給出兩個毛線團(tuán)并問出能用它們做什么時,Gemini 可以識別出圖片內(nèi)容并給出相應(yīng)的建議。
當(dāng)我們把相似的輸入給到 Mini-Gemini,它會怎么回答呢?
可以發(fā)現(xiàn),Mini-Gemini 也可以識別出圖片中的元素,并且給出合理的建議,同時生成了一只對應(yīng)的毛線小熊。
通過一些抽象的多模態(tài)指令來讓模型給出推理,并生成合適的圖片,這個操作就很像是 ChatGPT 和 DALLE3 的聯(lián)動了!
接下來讓 Mini-Gemini 做自己最擅長的推理和圖片理解,看看它表現(xiàn):
比如理解圖片中的矛盾點(diǎn)并舉一反三:輸入冰川中的仙人掌,它會解釋其中的矛盾并生成一張熱帶雨林中北極熊的圖片:
圖片呈現(xiàn)了仙人掌的典型棲息地與冰的存在之間的視覺矛盾,因?yàn)樵谏衬h(huán)境中自然不會出現(xiàn)冰。這種矛盾的類似例子可能是一只北極熊出現(xiàn)在熱帶雨林中,因?yàn)楸睒O熊適應(yīng)于寒冷、覆蓋著冰的環(huán)境,在炎熱潮濕的氣候中無法生存。這種并置創(chuàng)造了一個引人注目且超現(xiàn)實(shí)的視覺效果,挑戰(zhàn)觀眾的期待,并可能引發(fā)人們對氣候變化、環(huán)境適應(yīng)或不同生態(tài)系統(tǒng)融合的思考。
同時,正如 ChatGPT+DALLE3 的夢幻結(jié)合一樣,Mini-Gemini 的推理生成功能還可以在多輪對話中通過簡單指令生成連環(huán)小故事。
比方說,讓它根據(jù)用戶輸入講一個貴族小老鼠的故事。Mini-Gemini 會根據(jù)前文的文字生成結(jié)果和用戶輸入進(jìn)行推理,在保持一致性的情況下對圖片進(jìn)行修改,使其更符合用戶的要求。
當(dāng)然,Mini-Gemini 對于多模態(tài)模型的傳統(tǒng)技能圖片理解也不在話下。比如讓模型理解輸入曲線圖(上圖)的數(shù)學(xué)意義(高斯分布),并讓它使用代碼復(fù)現(xiàn)這張圖,通過運(yùn)行生成的代碼,模型可以高質(zhì)量地還原曲線圖,節(jié)省了復(fù)現(xiàn)的時間。
又或者讓 Mini-Gemini 理解梗圖,通過其強(qiáng)大的 OCR 和推理能力,也可以準(zhǔn)確指出笑點(diǎn)。
高清復(fù)雜的多圖表理解和歸納也是小菜一碟。
Mini-Gemini 背后的技術(shù)
大道至簡,Mini-Gemini的整體思路并不復(fù)雜。其中的Gemini(雙子座)表達(dá)的是使用視覺雙分支的信息挖掘(Mining-Info in Gemini)解決高清圖像理解問題。
詳細(xì)來說,Mini-Gemini 將傳統(tǒng)所使用的 ViT 當(dāng)做低分辨率的 Query,而使用卷積網(wǎng)絡(luò) (ConvNet) 將高分辨率的圖像編碼成 Key 和 Value。使用 Transformer 中常用的 Attention 機(jī)制,來挖掘每個低分辨率 Query 所對應(yīng)的高分辨率區(qū)域。從而在保持最終視覺 Token 數(shù)目不變的情況下去提升對高清圖像的響應(yīng),保證了在大語言模型 (LLM) 中對于高清圖像的高效編碼。值得一提的是,由于高分辨率分支卷積網(wǎng)絡(luò)的使用,可以根據(jù)需要對圖像所需的分辨率自適應(yīng)調(diào)整,能夠遇強(qiáng)則強(qiáng)。對于圖像的生成部分,Mini-Gemini 借助了 SDXL,使用 LLM 推理后所生成的文本鏈接兩個模型,類似于 DALLE3 的流程。
而對于數(shù)據(jù)這個萬金油,Mini-Gemini 進(jìn)一步收集并優(yōu)化了訓(xùn)練數(shù)據(jù)的模型結(jié)合的文本數(shù)據(jù)進(jìn)行訓(xùn)練。在僅使用 2-3M 數(shù)據(jù)的情況下,實(shí)現(xiàn)了對圖像理解、推理、和生成的統(tǒng)一流程。
實(shí)驗(yàn)結(jié)果
Mini-Gemini 在各種 Zero-shot 的榜單上毫不遜色于各種大廠用大量數(shù)據(jù)訓(xùn)練出來的模型,可謂是 “平、靚、正” !
量化指標(biāo)
可以看出,Mini-Gemini 提供了多種普通和高清版本的模型,并且覆蓋了 2B 的小杯到 34B 的超大杯,各個版本都取得了相似參數(shù)量下領(lǐng)先的效果,在許多指標(biāo)上甚至超越 Gemini Pro 和 GPT-4V。