自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

正面硬剛GPT-4V!浙大校友開源多模態(tài)大模型LLaVA-1.5,130億參數(shù)8個(gè)A100一天訓(xùn)完

人工智能 新聞
GPT-4V風(fēng)頭正盛,LLaVA-1.5就來(lái)踢館了!它不僅在11個(gè)基準(zhǔn)測(cè)試上都實(shí)現(xiàn)了SOTA,而且13B模型的訓(xùn)練,只用8個(gè)A100就可以在1天內(nèi)完成。

9月底,OpenAI宣布ChatGPT多模態(tài)能力解禁。多模態(tài)GPT-4V的神奇能力讓眾人驚呼:這就是GPT-4.5吧?

這才沒過多久,GPT-4V的開源競(jìng)爭(zhēng)對(duì)手——LLaVA-1.5,就已經(jīng)來(lái)了!

4月,來(lái)自威斯康星大學(xué)麥迪遜分校、微軟研究院以及哥倫比亞大學(xué)的研究人員開源了一款全新的端到端多模態(tài)大模型LLaVA。

而現(xiàn)在,升級(jí)后的LLaVA-1.5,不僅在11個(gè)基準(zhǔn)測(cè)試上實(shí)現(xiàn)了SOTA,甚至還可以直接對(duì)打GPT-4V。

研究人員通過使用帶有MLP映射的CLIP-ViT-L-336px,并添加具有簡(jiǎn)單響應(yīng)格式提示的、面向?qū)W術(shù)任務(wù)的VQA數(shù)據(jù),大幅提升了LLaVA-1.5的性能。

結(jié)果顯示,架構(gòu)更加簡(jiǎn)單的LLaVA-1.5只需要120萬(wàn)公開數(shù)據(jù),即可超越用了14.5億訓(xùn)練數(shù)據(jù)的Qwen-VL和1.3億數(shù)據(jù)的HuggingFace IDEFICS(一個(gè)類似Flamingo的80B模型)。

其中,13B模型的訓(xùn)練,只需要8個(gè)A100就可以在1天內(nèi)完成。

LLaVA-1.5硬杠GPT-4V

號(hào)稱能和GPT-4V對(duì)打,那LLaVA-1.5的實(shí)力究竟如何?

我們來(lái)讓GPT-4V、LLaVA和LLaVA-1.5來(lái)pk一下。

項(xiàng)目地址:https://llava-vl.github.io/

提問:「如果有事實(shí)性錯(cuò)誤,請(qǐng)指出來(lái)。如果沒有,請(qǐng)告訴我,沙漠中正在發(fā)生什么?」

圖片

GPT-4V的回答有點(diǎn)蠢:「對(duì)不起,我回答不了這個(gè)問題,因?yàn)椴]有上下文顯示您提到的那片沙漠?!?/span>

而LLaVA則將錯(cuò)就錯(cuò)地回答:「在圖中,城市和海灘組成了城市天際線,人們正在享受日落。這個(gè)海灘場(chǎng)景居然在沙漠中,還挺不尋常的?!?/span>

唯一的滿分選手LLaVA-1.5給出了完美答案:「圖中根本沒有沙漠,有的是棕櫚樹海灘、城市天際線和一大片水域?!?/span>

另外,LLaVA-1.5還可以從圖中提取信息,按照要求的格式進(jìn)行回答,比如以JSON格式輸出。

圖片

可以看到,LLaVA-1.5基本完成了任務(wù),和GPT-4V相比還有一些瑕疵。

同樣地,給LLaVA-1.5一張滿是水果蔬菜的圖片,它也能像GPT-4V一樣,把圖片轉(zhuǎn)化JSON。

可視化分析和智能數(shù)據(jù)轉(zhuǎn)換,就是這么簡(jiǎn)單!

下面這道題,可就沒那么容易了——這幅圖是什么意思?

圖片

原來(lái),這是一張根據(jù)諾蘭《盜夢(mèng)空間》繪制的簡(jiǎn)化草圖,為了提高難度,角色名字被改成了假名。

LLaVA-1.5可沒有被難倒,它自信滿滿地作答:「這是一張關(guān)于電影《盜夢(mèng)空間》的圖。它顯示了夢(mèng)境世界中的不同層次,每一層次用一條線表示。圖寫在一張紙上,紙放在一個(gè)臺(tái)面上。」

圖片

吃貨們有福了!看到一張讓人垂涎欲滴的照片,特別想吃到嘴里,怎么辦?

直接發(fā)給LLaVA-1.5,它火速就給你生成一份菜譜。

而且,LLaVA-1.5不用「越獄」就可以識(shí)別出驗(yàn)證碼。

它還能檢測(cè)出,圖中是哪種硬幣。

尤為令人印象深刻的是,LLaVA-1.5還能告訴你圖中的汪星人是什么品種。

圖片

有網(wǎng)友用Bing生成了一張?jiān)陉?yáng)光明媚的夏季海灘上穿著冬季外套的男人的圖片,并請(qǐng)LLaVA 1.5指出圖中有哪些問題。

它的慧眼十分犀利——

這是一張經(jīng)過處理或PS的照片,照片中一名男子穿著夾克,站在海灘上。該男子敞開外套,陽(yáng)光照在他身上。

這張圖片的問題在于,它并非真實(shí)的海灘場(chǎng)景。該男子實(shí)際上并沒有站在沙灘上,陽(yáng)光也沒有照在他身上。

這張圖是p出來(lái)的,營(yíng)造出了一種海灘場(chǎng)景的假象,但它并沒有真實(shí)地再現(xiàn)這個(gè)場(chǎng)景。

不過,在根據(jù)設(shè)計(jì)編寫前端代碼方面,LLaVA-1.5的能力就要弱一些了。

從結(jié)果來(lái)看,它的產(chǎn)出確實(shí)還比較簡(jiǎn)陋……

8個(gè)A100,一天就訓(xùn)完

LLaVA模型的架構(gòu),是將一個(gè)預(yù)訓(xùn)練的視覺編碼器(CLIP ViT-L/14)與一個(gè)大規(guī)模語(yǔ)言模型(Vicuna)連接在一起。

這兩個(gè)模型通過一個(gè)簡(jiǎn)單的映射矩陣連接,這個(gè)矩陣負(fù)責(zé)將視覺和語(yǔ)言特征對(duì)齊或轉(zhuǎn)換,以便在一個(gè)統(tǒng)一的空間內(nèi)對(duì)它們進(jìn)行操作。

在多模態(tài)指令跟隨數(shù)據(jù)集上,LLaVA表現(xiàn)出色,跟GPT-4相比,分?jǐn)?shù)達(dá)到了85.1%。在Science QA上,LLaVA的準(zhǔn)確率刷新了紀(jì)錄,達(dá)到92.53%。

這次,研究人員基于LLaVA框架,建立了更強(qiáng)大、更有實(shí)用性的基線。

論文地址:https://browse.arxiv.org/pdf/2310.03744.pdf

MLP跨模態(tài)連接器和合并學(xué)術(shù)任務(wù)相關(guān)數(shù)據(jù)(如VQA),給LLaVA帶來(lái)了更強(qiáng)的多模態(tài)理解能力。

與InstructBLIP或Qwen-VL在數(shù)億甚至數(shù)十幾億的圖像文本配對(duì)數(shù)據(jù)上訓(xùn)練的、專門設(shè)計(jì)的視覺重新采樣器相比,LLaVA用的是最簡(jiǎn)單的LMM架構(gòu)設(shè)計(jì),只需要在600K個(gè)圖像-文本對(duì)上,訓(xùn)練一個(gè)簡(jiǎn)單的完全連接映射層即可。

最終的模型在8個(gè)A100上,1天內(nèi)就能訓(xùn)完,并且在各種基準(zhǔn)測(cè)試中都取得了SOTA。

此外,Qwen-VL在訓(xùn)練時(shí)包含了內(nèi)部數(shù)據(jù),但LLaVA需要的,僅僅是公開數(shù)據(jù)。

毫無(wú)疑問,這些經(jīng)過改進(jìn)、易于重現(xiàn)的基線能,會(huì)為開源LMM的未來(lái)提供很有價(jià)值的參考。

性能大幅提升,刷新11項(xiàng)SOTA

作為一款開源視覺指令微調(diào)模型,LLaVA在視覺推理能力方面的表現(xiàn)十分出色——在基于現(xiàn)實(shí)生活的視覺指令跟隨任務(wù)的基準(zhǔn)測(cè)試中,LLaVA甚至超過了最新的模型。

不過,在通常需要簡(jiǎn)短答案(如單詞)的學(xué)術(shù)基準(zhǔn)測(cè)試中,LLaVA的表現(xiàn)卻不盡如人意。其原因在于,LLaVA沒有在大規(guī)模數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練。

模型縮放

首先,研究人員提高了輸入圖像的分辨率,使LLM能夠清晰地「看到」圖像的細(xì)節(jié),并添加了GQA數(shù)據(jù)集,作為額外的視覺知識(shí)源。并且,還加入ShareGPT數(shù)據(jù),將LLM放大到13B。

MM-Vet的結(jié)果顯示,當(dāng)LLM擴(kuò)展到13B時(shí),改進(jìn)最為顯著,這也表明了,基礎(chǔ)LLM在視覺對(duì)話方面的能力非常重要。

經(jīng)過所有改進(jìn)后的最終模型,被稱為L(zhǎng)LaVA-1.5,它的性能令人印象深刻,大大超過了原始LLaVA。

圖片

針對(duì)數(shù)據(jù)、模型和分辨率的縮放結(jié)果

與SOTA比較

隨后,研究人員在一系列學(xué)術(shù)VQA基準(zhǔn)和專為指令跟隨LMM提出的基準(zhǔn)上對(duì)LLaVA-1.5進(jìn)行了測(cè)試。

結(jié)果表明,LLaVA-1.5不僅可以使用更少的預(yù)訓(xùn)練和指令微調(diào)數(shù)據(jù),而且還可以利用最簡(jiǎn)單的架構(gòu)、學(xué)術(shù)計(jì)算和公共數(shù)據(jù)集來(lái)實(shí)現(xiàn)最佳的性能——在12個(gè)基準(zhǔn)中的11個(gè)上取得了SOTA。

此外,研究還發(fā)現(xiàn),在提高LMM能力方面,視覺指令微調(diào)比預(yù)訓(xùn)練發(fā)揮著更重要的作用。

而這也讓我們重新思考視覺采樣器的優(yōu)勢(shì),以及額外的大規(guī)模預(yù)訓(xùn)練在多模態(tài)指令跟隨能力方面的必要性。

在12個(gè)基準(zhǔn)上與SOTA方法進(jìn)行比較

響應(yīng)格式提示

研究人員發(fā)現(xiàn),此前的InstructBLIP等方法無(wú)法在短格式和長(zhǎng)格式的VQA之間取得平衡,主要原因在于——

首先,與回答格式有關(guān)的提示含糊不清。

例如,「Q:{問題} A: {答案}」并沒有明確指出理想的輸出格式,即使是自然的視覺對(duì)話,也可能導(dǎo)致LLM過度擬合到短格式的答案上。

第二,沒有對(duì)LLM進(jìn)行微調(diào)。

比如,InstructBLIP只對(duì)Qformer進(jìn)行了指令微調(diào)。雖然可以由此利用Qformer的視覺輸出token來(lái)控制LLM輸出的長(zhǎng)度,但Qformer與LLaMA等LLM相比容量相對(duì)有限,因此可能無(wú)法正確地做到這一點(diǎn)。

為了解決這個(gè)問題,研究人員建議在VQA問題的末尾,添加一個(gè)可以明確輸出格式的提示,進(jìn)而讓模型生成簡(jiǎn)短回答。比如:「用一個(gè)單詞或短語(yǔ)回答問題」。

當(dāng)LLM使用這種提示進(jìn)行微調(diào)時(shí),LLaVA能夠根據(jù)用戶的指示正確微調(diào)輸出格式,并且不需要使用ChatGPT對(duì)VQA數(shù)據(jù)進(jìn)行額外處理。

結(jié)果顯示,僅在訓(xùn)練中加入VQAv2,LLaVA在MME上的性能就顯著提高(1323.8 vs 502.8),比InstructBLIP高出了111分!

圖片

面向?qū)W術(shù)任務(wù)的數(shù)據(jù)

研究人員進(jìn)一步增加了面向?qū)W術(shù)任務(wù)的VQA數(shù)據(jù)集,用于VQA、OCR和區(qū)域級(jí)感知,從不同方面提高模型的能力。

他們首先包含了InstructBLIP使用的四個(gè)額外數(shù)據(jù)集:開放知識(shí)VQA。

其中,A-OKVQA被轉(zhuǎn)換成多選題的形式,并使用特定的回答格式提示——直接用給定選項(xiàng)中的字母作答。

僅使用了InstructBLIP所用數(shù)據(jù)集的一個(gè)子集,LLaVA就已經(jīng)在表1中的三項(xiàng)任務(wù)中全部超越了InstructBLIP,這表明,LLaVA的設(shè)計(jì)非常有效。

此外,研究人員還發(fā)現(xiàn),通過進(jìn)一步添加區(qū)域級(jí)VQA數(shù)據(jù)集,可以提高模型定位細(xì)顆粒度視覺細(xì)節(jié)的能力。

Zero-shot格式指令泛化

雖然LLaVA-1.5只用了有限的格式指令進(jìn)行訓(xùn)練,但它可以泛化到其他格式指令。

比如,VizWiz要求模型在所提供的內(nèi)容不足以回答問題時(shí),輸出「無(wú)法回答」,而LLaVA的回答格式提示就能有效地指示模型這樣做(無(wú)法回答的問題占11.1%→67.8%)。

Zero-shot多語(yǔ)言能力

與此同時(shí),LLaVA-1.5也沒有針對(duì)多語(yǔ)言指令進(jìn)行微調(diào)。但由于ShareGPT中包含有大量的相關(guān)數(shù)據(jù),因此它依然能夠?qū)崿F(xiàn)多種語(yǔ)言的多模態(tài)指令跟隨。

研究人員在MMBenchCN上定量評(píng)估了模型對(duì)中文的泛化能力,其中MMBench的問題被轉(zhuǎn)換為中文。

值得注意的是,LLaVA-1.5比Qwen-VL-Chat的準(zhǔn)確率高出7.3%(63.6% vs 56.7%)。其中,Qwen在中文多模態(tài)指令上進(jìn)行了微調(diào),而LLaVA-1.5沒有。

計(jì)算成本

對(duì)于LLaVA-1.5,研究人員使用了與LCS-558K相同的預(yù)訓(xùn)練數(shù)據(jù)集,并保持與LLaVA大致相同的指令微調(diào)訓(xùn)練迭代次數(shù)和批大小。

由于圖像輸入分辨率提高到336px,LLaVA-1.5的訓(xùn)練時(shí)間是LLaVA的2倍:使用8個(gè)A100進(jìn)行6小時(shí)的預(yù)訓(xùn)練和20小時(shí)的視覺指令微調(diào)。

局限性

盡管LLaVA-1.5取得了非常不錯(cuò)的成績(jī),但必須承認(rèn)的是,它還存在一些局限性。

首先,LLaVA使用了完整的圖像patch,這可能會(huì)延長(zhǎng)每次訓(xùn)練迭代的時(shí)間。

其次,LLaVA-1.5還不能處理多幅圖像,原因是缺乏此類指令跟隨數(shù)據(jù),以及上下文長(zhǎng)度的限制。

第三,盡管LLaVA-1.5能熟練地遵循復(fù)雜指令,但其解決問題的能力在某些領(lǐng)域仍會(huì)受到限制,這可以通過更強(qiáng)大的語(yǔ)言模型和高質(zhì)量、有針對(duì)性的視覺指令微調(diào)數(shù)據(jù)來(lái)改善。

最后,LLaVA-1.5難免會(huì)產(chǎn)生幻覺和錯(cuò)誤信息,因此在關(guān)鍵應(yīng)用(如醫(yī)療)中應(yīng)謹(jǐn)慎使用。

作者介紹

Haotian Liu

圖片

Haotian Liu是威斯康星大學(xué)麥迪遜分校計(jì)算機(jī)科學(xué)的博士生,導(dǎo)師是Yong Jae Lee教授。此前,他在浙江大學(xué)獲得了學(xué)士學(xué)位。

他的研究方向是計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí),尤其是視覺感知和理解方面的高效算法。最近的研究重點(diǎn)是根據(jù)人類的意圖建立可定制的大模型。

Chunyuan Li

圖片

Chunyuan Li是微軟雷德蒙德研究院的首席研究員。

此前,他在杜克大學(xué)獲得了機(jī)器學(xué)習(xí)博士學(xué)位,導(dǎo)師是Lawrence Carin教授。并曾擔(dān)任過NeurIPS、ICML、ICLR、EMNLP和AAAI的領(lǐng)域主席,以及IJCV的客座編輯。

他最近的研究重點(diǎn)是計(jì)算機(jī)視覺和自然語(yǔ)言處理中的大規(guī)模預(yù)訓(xùn)練。比如,構(gòu)建遵循人類意圖的大規(guī)模多模態(tài)模型、視覺和語(yǔ)言預(yù)訓(xùn)練、大規(guī)模深度生成模型。

Yuheng Li

Yuheng Li是威斯康星大學(xué)麥迪遜分校計(jì)算機(jī)科學(xué)的博士生,導(dǎo)師是Yong Jae Lee教授。此前,他在華中科技大學(xué)獲得學(xué)士學(xué)位。

他的研究方向是可控的多模態(tài)圖像生成與處理,以及其他與創(chuàng)意視覺相關(guān)的問題。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-10-12 09:28:17

2023-10-09 13:22:00

AI數(shù)據(jù)

2024-01-03 12:56:39

2024-02-06 09:00:00

GPT-4VLLaVA大型語(yǔ)言

2024-06-27 13:10:21

2023-04-07 09:28:31

模型訓(xùn)練

2023-10-17 12:34:04

2024-04-14 19:53:44

2023-07-17 09:21:12

Meta模型

2024-02-02 21:53:58

AI訓(xùn)練

2023-10-10 13:42:56

訓(xùn)練數(shù)據(jù)

2023-04-28 15:27:06

微軟模型

2023-10-12 13:05:00

谷歌AI

2024-06-04 14:11:00

2024-10-14 14:10:00

大模型AI開源

2023-07-21 15:05:27

超算算力

2024-08-08 13:04:28

2024-04-19 09:17:33

AI模型

2024-05-15 09:58:06

谷歌大模型

2023-04-24 09:23:27

數(shù)據(jù)訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)