自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

超越GPT-4!華人團(tuán)隊(duì)爆火InstructBLIP搶跑看圖聊天,開(kāi)源項(xiàng)目橫掃多項(xiàng)SOTA

開(kāi)源 新聞
碾壓GPT-4識(shí)圖能力的多模態(tài)生成模型來(lái)了。華人團(tuán)隊(duì)最新提出的InstructBLIP在多項(xiàng)任務(wù)上實(shí)現(xiàn)SOTA。

GPT-4看圖聊天還沒(méi)上線,就已經(jīng)被超越了。

近來(lái),華人團(tuán)隊(duì)開(kāi)源了多模態(tài)基礎(chǔ)模型InstructBLIP,是從BLIP2模型微調(diào)而來(lái)的模型。

圖片

BLIP家族中增加了一個(gè)新成員:InstructBLIP

據(jù)介紹,InstructBLIP模型更擅長(zhǎng)「看」、「推理」和「說(shuō)」,即能夠?qū)?fù)雜圖像進(jìn)行理解、推理、描述,還支持多輪對(duì)話等。

比如,下圖這一場(chǎng)景可能發(fā)生了什么?

InstructBLIP推理出,可能颶風(fēng),或者惡劣的天氣因素造成的。

圖片

給我介紹下這幅畫(huà)

圖片

進(jìn)行多輪對(duì)話

圖片

研究人員表示,正是基于強(qiáng)大BLIP-2,才使得InstructBLIP「看」的更好。

最最重要的是,InstructBLIP在多個(gè)任務(wù)上實(shí)現(xiàn)了最先進(jìn)的性能,甚至在圖片解釋和推理上表現(xiàn)優(yōu)于GPT4。

為啥如此之強(qiáng)?

新王者:InstructBLIP

InstructBLIP的主要意義就在于解決視覺(jué)-語(yǔ)言指令微調(diào)中的挑戰(zhàn),并對(duì)模型未見(jiàn)過(guò)的數(shù)據(jù)和任務(wù)的改進(jìn)泛化能力進(jìn)行系統(tǒng)研究。

論文地址:https://arxiv.org/pdf/2305.06500.pdf

在論文中,研究人員首先介紹了指令微調(diào)數(shù)據(jù)的構(gòu)建,然后則是具體的訓(xùn)練過(guò)程。

之后,分別從模型和數(shù)據(jù)的角度闡述了兩種提高指令微調(diào)性能的技術(shù)。

為了保證指令微調(diào)數(shù)據(jù)的多樣性,同時(shí)考慮到它們的可及性,研究人員收集了大量公開(kāi)可用的視覺(jué)語(yǔ)言數(shù)據(jù)集,并將它們轉(zhuǎn)化為指令微調(diào)格式。

下圖中,研究人員最終收集的數(shù)據(jù)涵蓋了11個(gè)任務(wù)類(lèi)別和28個(gè)數(shù)據(jù)集。

其中包括圖像字幕、帶有閱讀理解的圖像字幕、視覺(jué)推理、圖像問(wèn)題回答、基于知識(shí)的圖像問(wèn)題回答,帶閱讀理解的圖像問(wèn)題回答,圖像問(wèn)題的生成(與QA數(shù)據(jù)集相反),視頻問(wèn)題回答,視覺(jué)對(duì)話問(wèn)題回答,圖像分類(lèi),以及LLaVA-Instruct-150K。

圖片

對(duì)于每一項(xiàng)任務(wù),研究人員都會(huì)用自然語(yǔ)言制作10-15個(gè)不同的指令模板。這些模板是構(gòu)建指令微調(diào)數(shù)據(jù)的基礎(chǔ),它闡明了任務(wù)并劃定了目標(biāo)。

對(duì)于固有的偏向于短反應(yīng)的公共數(shù)據(jù)集,研究人員在一些相應(yīng)的指令模板中使用較短的術(shù)語(yǔ),以減少模型適應(yīng)總是生成短回應(yīng)的風(fēng)險(xiǎn)。

對(duì)于LLaVA-Instruct-150K數(shù)據(jù)集,研究人員沒(méi)有加入額外的指令模板,因?yàn)樗亲匀唤Y(jié)構(gòu)的指令格式。

現(xiàn)有的零樣本圖像到文本的生成方法,包括BLIP-2,在提取視覺(jué)特征時(shí)采取了與指令并無(wú)關(guān)系的方法。

也就是說(shuō),LLM中的視覺(jué)輸入是不知道指令的,這并不利于該模型在不同任務(wù)中的靈活性。

圖片

相比之下,指令感知的視覺(jué)模型可以提高模型從不同指令中學(xué)習(xí)的能力。

舉例來(lái)說(shuō),咱們考慮兩種情況:輸入同一圖像,模型被要求完成兩個(gè)不同的任務(wù);以及,給定兩個(gè)不同的圖像,模型被指示完成同一任務(wù)。

在第一種情況中,一個(gè)指令感知的視覺(jué)模型可以根據(jù)指令從同一圖像中提取不同的特征,在解決不同任務(wù)時(shí)呈現(xiàn)出更多的信息特征。

而在第二種情況中,一個(gè)指令感知的視覺(jué)模型可以利用指令中體現(xiàn)的共同知識(shí)來(lái)提取兩個(gè)不同圖像的特征,從而實(shí)現(xiàn)圖像之間更好的信息轉(zhuǎn)移。

InstructBLIP通過(guò)充分利用BLIP-2模型中的Q-Former架構(gòu),提出了一種指令感知的視覺(jué)特征提取方法。

圖片

如上圖所示,Q-Former被設(shè)計(jì)用來(lái)從一個(gè)凍結(jié)的圖像編碼器的輸出中提取視覺(jué)特征。

根據(jù)BLIP-2的論文,Q-Former已經(jīng)分成兩個(gè)階段進(jìn)行了預(yù)訓(xùn)練,通過(guò)預(yù)訓(xùn)練,它學(xué)會(huì)了提取可以被LLM消化的文本對(duì)齊的視覺(jué)特征。

在推理過(guò)程中,一個(gè)指令被附加在視覺(jué)提示之后,就可以指導(dǎo)LLM按照規(guī)定執(zhí)行不同的任務(wù)。

而在InstructBLIP中,指令文本不僅作為輸入給到LLM,同時(shí)也給到了QFormer。

由于訓(xùn)練數(shù)據(jù)集的數(shù)量眾多,而且每個(gè)數(shù)據(jù)集的大小差異很大,均勻地混合這些數(shù)據(jù)集可能會(huì)導(dǎo)致模型在較小的數(shù)據(jù)集上過(guò)度擬合,而在較大的數(shù)據(jù)集上擬合不足。

為了緩解這樣的問(wèn)題,研究人員建議按照數(shù)據(jù)集的大?。从?xùn)練樣本的數(shù)量)進(jìn)行采樣,并進(jìn)行平方根平滑處理。一般來(lái)說(shuō),給定D個(gè)數(shù)據(jù)集的大?。?/span>

圖片

在訓(xùn)練期間,數(shù)據(jù)樣本從數(shù)據(jù)集d中被選中的概率被表述為,

除了這個(gè)加權(quán)公式外,研究人員還對(duì)某些數(shù)據(jù)集的權(quán)重進(jìn)行了手動(dòng)微調(diào),以提高其收斂性。

這是必要的環(huán)節(jié),因?yàn)楦鞣N數(shù)據(jù)集和任務(wù)的內(nèi)在差異,需要不同程度的訓(xùn)練強(qiáng)度,即使它們有類(lèi)似的規(guī)模也是如此。

具體來(lái)說(shuō),研究人員降低了A-OKVQA(多選)的權(quán)重,增加了OKVQA的權(quán)重。

圖片

實(shí)驗(yàn)結(jié)果

零樣本評(píng)估

研究人員首先在13個(gè)數(shù)據(jù)集上評(píng)估InstructBLIP模型,并將InstructBLIP與之前的SOTA模型BLIP-2和Flamingo進(jìn)行比較。

如表所示,InstructBLIP在所有的數(shù)據(jù)集上都取得了新的零樣本的SOTA結(jié)果。

并且在所有的LLM上都超過(guò)了BLIP-2,這表明了視覺(jué)指令微調(diào)的有效性。

圖片

此外,指令微調(diào)提高了對(duì)未見(jiàn)過(guò)的任務(wù)類(lèi)別(如視頻QA)的零樣本泛化能力。

盡管從未用時(shí)間視頻數(shù)據(jù)進(jìn)行訓(xùn)練,但I(xiàn)nstructBLIP在MSRVTT-QA上比之前的SOTA提高了47.1%。

最后,研究人員用最小的InstructBLIP FlanT5XL(4B)在所有六個(gè)共享評(píng)估數(shù)據(jù)集上評(píng)估,其表現(xiàn)優(yōu)于Flamingo-80B,平均相對(duì)改善率為24.8%。

指令調(diào)優(yōu)的消融研究

為了研究指令感知的視覺(jué)特征提取和數(shù)據(jù)集平衡策略的影響,研究人員通過(guò)在指令微調(diào)過(guò)程中分別移除它們來(lái)進(jìn)行消融研究。

圖片

在所有的數(shù)據(jù)集中,視覺(jué)特征中缺乏指令感知會(huì)使性能明顯下降。在涉及空間視覺(jué)推理(如ScienceQA)或時(shí)間視覺(jué)推理(如iVQA)的數(shù)據(jù)集中,這種性能下降更為嚴(yán)重。

在這些數(shù)據(jù)集中,給Q-Former輸入指令可,以引導(dǎo)它更多地關(guān)注信息量更大的圖像嵌入。

關(guān)于數(shù)據(jù)平衡策略,移除它會(huì)導(dǎo)致不穩(wěn)定的訓(xùn)練模式,因?yàn)椴煌臄?shù)據(jù)集在明顯不同的訓(xùn)練步驟中達(dá)到最佳性能。因此,這種不穩(wěn)定性損害了整體性能。

定性評(píng)估

此外,研究人員進(jìn)一步使用更加多樣化的圖像和說(shuō)明對(duì)Instruct-BLIP進(jìn)行了定性研究。

比如使用GPT-4技術(shù)報(bào)告中的一張圖?!高@張圖有什么不對(duì)勁的地方?」

從給出的回答中看出, InstructBLIP比GPT-4更全面,比LLaVA更視覺(jué)化,比MiniGPT-4更有邏輯性。

圖片

對(duì)于「蒙娜麗莎」這幅畫(huà)是誰(shuí)畫(huà)的問(wèn)題,InstructBLIP回答非常簡(jiǎn)短。

在這里,研究人員認(rèn)為長(zhǎng)回應(yīng)不總是可取的。Instruct-BLIP 可以通過(guò)自適應(yīng)調(diào)整響應(yīng)長(zhǎng)度直接解決用戶的意圖。

而其他模型傾向于生成較長(zhǎng)的段落,以及較不相關(guān)的句子。

圖片

Instructlip能夠取得這些優(yōu)勢(shì),是使用多樣化的指令調(diào)優(yōu)數(shù)據(jù)和有效的架構(gòu)設(shè)計(jì)的結(jié)果。

另外,通過(guò)研究發(fā)現(xiàn),指令調(diào)整是提高模型零樣本泛化能力的關(guān)鍵。

圖片

基于BLIP-2 FlanT5XL的指令調(diào)優(yōu)和多任務(wù)訓(xùn)練的比較

此外,研究人員進(jìn)一步對(duì)InstructBLIP模型進(jìn)行微調(diào),研究其在學(xué)習(xí)特定數(shù)據(jù)集上的表現(xiàn)。

與大多數(shù)以前的方法(如Flamingo,BLIP-2)相比,InstructBLIP在指令微調(diào)期間保持相同的圖像分辨率(224×224),并在微調(diào)期間保持視覺(jué)編碼器的凍結(jié)狀態(tài)。

這大大減少了可訓(xùn)練參數(shù)的數(shù)量,從1.2B到188M,從而大大提高了微調(diào)效率。

圖片

作者介紹

Wenliang Dai

Wenliang Dai (戴文亮)是香港科技大學(xué)的博士研究生,導(dǎo)師是Pascale Fung教授。在此之前,他曾獲得倫敦大學(xué)學(xué)院碩士學(xué)位,諾丁漢大學(xué)計(jì)算機(jī)學(xué)士學(xué)位。

圖片

Junnan Li

Salesforce亞洲研究院科學(xué)家,香港大學(xué)電子工程學(xué)學(xué)士,新加坡國(guó)立大學(xué)計(jì)算機(jī)博士,主要研究方向計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)、非監(jiān)督式學(xué)習(xí),弱監(jiān)督學(xué)習(xí),遷移學(xué)習(xí)和社交場(chǎng)景理解。

圖片

其他SOTA

網(wǎng)友表示,近來(lái)提出類(lèi)似InstructBLIP的多模態(tài)模型還有,MiniGPT-4,以及LLaVA。

圖片

MiniGPT-4也能夠看圖聊天,比如傳一張海鮮大餐照片上去,就能直接獲得菜譜。

圖片

對(duì)于,MiniGPT-4能夠做到這么好的效果,實(shí)現(xiàn)起來(lái)卻并不復(fù)雜。

把圖像編碼器與開(kāi)源語(yǔ)言模型Vicuna整合起來(lái),并且凍結(jié)了這兩者大部分參數(shù),只需要訓(xùn)練很少一部分。

另外,團(tuán)隊(duì)讓MiniGPT-4與ChatGPT合作創(chuàng)建了3500個(gè)圖像文本的高質(zhì)量數(shù)據(jù)集,也一并開(kāi)源。

還有LLaVA,是用一個(gè)小的多模態(tài)指令數(shù)據(jù)集訓(xùn)練的,但它在一些示例上展示了與多模態(tài)模型 GPT-4 非常相似的推理結(jié)果。

圖片

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-01-19 12:51:00

AI數(shù)據(jù)

2023-10-19 08:27:31

AI模型

2023-12-11 19:08:59

AI模型

2023-08-15 10:33:06

微軟必應(yīng)人工智能

2023-12-26 08:17:23

微軟GPT-4

2023-12-12 13:57:00

GPT-3.5MistralAI

2023-03-24 16:02:59

GPT-4測(cè)評(píng)

2024-07-09 12:54:57

2023-09-11 15:57:16

人工智能模型GPT-4

2024-03-27 13:32:00

AI數(shù)據(jù)

2023-06-19 10:09:01

數(shù)學(xué)AI

2023-06-19 08:19:50

2023-06-01 12:46:46

GPT-4數(shù)學(xué)OpenAI

2023-11-10 09:48:34

2023-03-28 08:23:38

2023-04-21 09:49:36

GPTAI

2024-02-07 12:39:00

AI數(shù)據(jù)

2025-04-16 09:35:03

2023-04-24 09:23:27

數(shù)據(jù)訓(xùn)練

2024-06-24 17:45:16

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)