GPT-5前瞻!艾倫人工智能研究所發(fā)布最強(qiáng)多模態(tài)模型,預(yù)測(cè)GPT-5新能力
GPT-5何時(shí)到來(lái),會(huì)有什么能力?
來(lái)自艾倫人工智能研究所(Allen Institute for AI)的新模型告訴你答案。
艾倫人工智能研究所推出的Unified-IO 2是第一個(gè)可以處理和生成文本、圖像、音頻、視頻和動(dòng)作序列的模型。
這個(gè)新的高級(jí)人工智能模型使用幾十億個(gè)數(shù)據(jù)點(diǎn)進(jìn)行訓(xùn)練,雖然模型大小只有7B,卻展現(xiàn)出迄今為止最廣泛的多模態(tài)能力。
論文地址:https://arxiv.org/pdf/2312.17172.pdf
那么,Unified-IO 2和GPT-5有什么關(guān)系呢?
早在2022年6月,艾倫人工智能研究所就推出了第一代Unified-IO,它是首批能夠處理圖像和語(yǔ)言的多模態(tài)模型之一。
大約在同一時(shí)間,OpenAI正在內(nèi)部測(cè)試GPT-4,并在2023年3月正式發(fā)布。
所以,Unified-IO可以看作是對(duì)于未來(lái)大規(guī)模AI模型的前瞻。
也就是說(shuō),OpenAI可能正在內(nèi)部測(cè)試GPT-5,并將在幾個(gè)月后發(fā)布。
而本次Unified-IO 2向我們展現(xiàn)的能力,也將是我們?cè)谛碌囊荒昕梢云诖膬?nèi)容:
GPT-5等新的AI模型可以處理更多模態(tài),通過廣泛的學(xué)習(xí)以本地方式執(zhí)行許多任務(wù),并且對(duì)與物體和機(jī)器人的交互有基本的了解。
Unified-IO 2的訓(xùn)練數(shù)據(jù)包括:10億個(gè)圖像-文本對(duì)、1 萬(wàn)億個(gè)文本標(biāo)記、1.8億個(gè)視頻剪輯、1.3億張帶文本的圖像、300萬(wàn)個(gè)3D資產(chǎn)和100萬(wàn)個(gè)機(jī)器人代理運(yùn)動(dòng)序列。
研究團(tuán)隊(duì)將總共120多個(gè)數(shù)據(jù)集組合成一個(gè)600 TB的包,涵蓋220個(gè)視覺、語(yǔ)言、聽覺和動(dòng)作任務(wù)。
Unified-IO 2采用編碼器-解碼器架構(gòu),并進(jìn)行了一些更改,以穩(wěn)定訓(xùn)練并有效利用多模態(tài)信號(hào)。
模型可以回答問題、根據(jù)指令撰寫文本、以及分析文本內(nèi)容。
模型還可以識(shí)別圖像內(nèi)容,提供圖像描述,執(zhí)行圖像處理任務(wù),并根據(jù)文本描述創(chuàng)建新圖像。
它還可以根據(jù)描述或說(shuō)明生成音樂或聲音,以及分析視頻并回答有關(guān)視頻的問題。
通過使用機(jī)器人數(shù)據(jù)進(jìn)行訓(xùn)練,Unified-IO 2還可以為機(jī)器人系統(tǒng)生成動(dòng)作,例如將指令轉(zhuǎn)換為機(jī)器人的動(dòng)作序列。
由于多模態(tài)訓(xùn)練,它還可以處理不同的模態(tài),例如,在圖像上標(biāo)記某個(gè)音軌使用的樂器。
Unified-IO 2在超過35個(gè)基準(zhǔn)測(cè)試中表現(xiàn)良好,包括圖像生成和理解、自然語(yǔ)言理解、視頻和音頻理解以及機(jī)器人操作。
在大多數(shù)任務(wù)中,它能夠比肩專用模型,甚至更勝一籌。
在圖像任務(wù)的GRIT基準(zhǔn)測(cè)試中,Unified-IO 2獲得了目前的最高分(GRIT用于測(cè)試模型如何處理圖像噪聲和其他問題)。
研究人員現(xiàn)在計(jì)劃進(jìn)一步擴(kuò)展Unified-IO 2,提高數(shù)據(jù)質(zhì)量,并將編碼器-解碼器模型,轉(zhuǎn)換為行業(yè)標(biāo)準(zhǔn)的解碼器模型架構(gòu)。
Unified-IO 2
Unified-IO 2是第一個(gè)能夠理解和生成圖像、文本、音頻和動(dòng)作的自回歸多模態(tài)模型。
為了統(tǒng)一不同的模態(tài),研究人員將輸入和輸出(圖像、文本、音頻、動(dòng)作、邊界框等)標(biāo)記到一個(gè)共享的語(yǔ)義空間中,然后使用單個(gè)編碼器-解碼器轉(zhuǎn)換器模型對(duì)其進(jìn)行處理。
由于訓(xùn)練模型所采用的數(shù)據(jù)量龐大,而且來(lái)自各種不同的模態(tài),研究人員采取了一系列技術(shù)來(lái)改進(jìn)整個(gè)訓(xùn)練過程。
為了有效地促進(jìn)跨多種模態(tài)的自監(jiān)督學(xué)習(xí)信號(hào),研究人員開發(fā)了一種新型的去噪器目標(biāo)的多模態(tài)混合,結(jié)合了跨模態(tài)的去噪和生成。
還開發(fā)了動(dòng)態(tài)打包,可將訓(xùn)練吞吐量提高4倍,以處理高度可變的序列。
為了克服訓(xùn)練中的穩(wěn)定性和可擴(kuò)展性問題,研究人員在感知器重采樣器上做了架構(gòu)更改,包括2D旋轉(zhuǎn)嵌入、QK歸一化和縮放余弦注意力機(jī)制。
對(duì)于指令調(diào)整,確保每個(gè)任務(wù)都有一個(gè)明確的提示,無(wú)論是使用現(xiàn)有任務(wù)還是制作新任務(wù)。另外還包括開放式任務(wù),并為不太常見的模式創(chuàng)建合成任務(wù),以增強(qiáng)任務(wù)和教學(xué)的多樣性。
統(tǒng)一任務(wù)表示
將多模態(tài)數(shù)據(jù)編碼到共享表示空間中的標(biāo)記序列,包括以下幾個(gè)方面:
文本、稀疏結(jié)構(gòu)和操作
文本輸入和輸出使用LLaMA中的字節(jié)對(duì)編碼進(jìn)行標(biāo)記化,邊界框、關(guān)鍵點(diǎn)和相機(jī)姿勢(shì)等稀疏結(jié)構(gòu)被離散化,然后使用添加到詞匯表中的1000個(gè)特殊標(biāo)記進(jìn)行編碼。
點(diǎn)使用兩個(gè)標(biāo)記(x,y)進(jìn)行編碼,盒子用四個(gè)標(biāo)記(左上角和右下角)的序列進(jìn)行編碼,3D長(zhǎng)方體用12個(gè)標(biāo)記表示(編碼投影中心、虛擬深度、對(duì)數(shù)歸一化框尺寸、和連續(xù)同心旋轉(zhuǎn))。
對(duì)于具身任務(wù),離散的機(jī)器人動(dòng)作被生成為文本命令(例如,「向前移動(dòng)」)。特殊標(biāo)記用于對(duì)機(jī)器人的狀態(tài)進(jìn)行編碼(例如位置和旋轉(zhuǎn))。
圖像和密集結(jié)構(gòu)
圖像使用預(yù)先訓(xùn)練的視覺轉(zhuǎn)換器(ViT)進(jìn)行編碼。將ViT的第二層和倒數(shù)第二層的補(bǔ)丁特征連接起來(lái),以捕獲低級(jí)和高級(jí)視覺信息。
生成圖像時(shí),使用VQ-GAN將圖像轉(zhuǎn)換為離散標(biāo)記,這里采用patch大小為8 × 8的密集預(yù)訓(xùn)練VQ-GAN模型,將256 × 256的圖像編碼為1024個(gè)token,碼本大小為16512。
然后將每個(gè)像素的標(biāo)簽(包括深度、表面法線和二進(jìn)制分割掩碼)表示為RGB圖像。
音頻
U-IO 2將長(zhǎng)達(dá)4.08秒的音頻編碼為頻譜圖,然后使用預(yù)先訓(xùn)練的音頻頻譜圖轉(zhuǎn)換器(AST)對(duì)頻譜圖進(jìn)行編碼,并通過連接AST的第二層和倒數(shù)第二層特征并應(yīng)用線性層來(lái)構(gòu)建輸入嵌入,就像圖像ViT一樣。
生成音頻時(shí),使用ViT-VQGAN將音頻轉(zhuǎn)換為離散的標(biāo)記,模型的patch大小為8 × 8,將256 × 128的頻譜圖編碼為512個(gè)token,碼本大小為8196。
圖像和音頻歷史記錄
模型最多允許提供四個(gè)額外的圖像和音頻片段作為輸入,這些元素也使用ViT或AST進(jìn)行編碼,隨后使用感知器重采樣器,進(jìn)一步將特征壓縮為較少數(shù)量(圖像為32個(gè),音頻為16個(gè))。
這大大縮短了序列長(zhǎng)度,并允許模型在使用歷史記錄中的元素作為上下文時(shí),以高細(xì)節(jié)檢查圖像或音頻片段。
穩(wěn)定訓(xùn)練的模型架構(gòu)和技術(shù)
研究人員觀察到,隨著我們集成其他模式,使用 U-IO 之后的標(biāo)準(zhǔn)實(shí)現(xiàn)會(huì)導(dǎo)致訓(xùn)練越來(lái)越不穩(wěn)定。
如下圖(a)和(b)所示,僅對(duì)圖像生成(綠色曲線)進(jìn)行訓(xùn)練會(huì)導(dǎo)致穩(wěn)定的損失和梯度范數(shù)收斂。
與單一模態(tài)相比,引入圖像和文本任務(wù)的組合(橙色曲線)略微增加了梯度范數(shù),但保持穩(wěn)定。然而,包含視頻模態(tài)(藍(lán)色曲線)會(huì)導(dǎo)致梯度范數(shù)的無(wú)限制升級(jí)。
如圖中(c)和(d)所示,當(dāng)模型的XXL版本在所有模態(tài)上訓(xùn)練時(shí),損失在350k步后爆炸,下一個(gè)標(biāo)記預(yù)測(cè)精度在400k步時(shí)顯著下降。
為了解決這個(gè)問題,研究人員進(jìn)行了各種架構(gòu)更改:
在每個(gè)Transformer層應(yīng)用旋轉(zhuǎn)位置嵌入(RoPE)。對(duì)于非文本模態(tài),將RoPE擴(kuò)展到二維位置;當(dāng)包括圖像和音頻模態(tài)時(shí),將LayerNorm應(yīng)用于點(diǎn)積注意力計(jì)算之前的Q和K。
另外,使用感知器重采樣器,將每個(gè)圖像幀和音頻片段壓縮成固定數(shù)量的標(biāo)記,并使用縮放余弦注意力在感知者中應(yīng)用更嚴(yán)格的歸一化,這顯著穩(wěn)定了訓(xùn)練。
為了避免數(shù)值不穩(wěn)定,還啟用了float32注意力對(duì)數(shù),并在預(yù)訓(xùn)練期間凍結(jié)ViT和 AST,并在指令調(diào)整結(jié)束時(shí)對(duì)其進(jìn)行微調(diào)。
上圖顯示,盡管輸入和輸出模態(tài)存在異質(zhì)性,但模型的預(yù)訓(xùn)練損失是穩(wěn)定的。
多模態(tài)訓(xùn)練目標(biāo)
本文遵循UL2范式。對(duì)于圖像和音頻目標(biāo),這里定義了兩種類似的范式:
[R]:掩碼去噪,隨機(jī)屏蔽x%的輸入圖像或音頻補(bǔ)丁特征,并讓模型重新構(gòu)建它;
[S]:要求模型在其他輸入模態(tài)條件下生成目標(biāo)模態(tài)。
在訓(xùn)練期間,用模態(tài)標(biāo)記([Text]、[Image] 或 [Audio])和范式標(biāo)記([R]、[S] 或 [X])作為輸入文本的前綴,以指示任務(wù),并使用動(dòng)態(tài)遮罩進(jìn)行自回歸。
如上圖所示,圖像和音頻屏蔽去噪的一個(gè)問題是解碼器側(cè)的信息泄漏。
這里的解決方案是在解碼器中屏蔽token(除非在預(yù)測(cè)這個(gè)token),這不會(huì)干擾因果預(yù)測(cè),同時(shí)又消除了數(shù)據(jù)泄漏。
效率優(yōu)化
對(duì)大量多模態(tài)數(shù)據(jù)進(jìn)行訓(xùn)練,會(huì)導(dǎo)致轉(zhuǎn)換器輸入和輸出的序列長(zhǎng)度高度可變。
這里使用打包來(lái)解決這個(gè)問題:多個(gè)示例的標(biāo)記被打包到一個(gè)序列中,并屏蔽注意力以防止轉(zhuǎn)換器在示例之間交叉參與。
在訓(xùn)練過程中,使用啟發(fā)式算法來(lái)重新排列流式傳輸?shù)侥P偷臄?shù)據(jù),以便將長(zhǎng)樣本與可以打包的短樣本相匹配。本文的動(dòng)態(tài)打包使訓(xùn)練吞吐量增加了近4倍。
指令調(diào)優(yōu)
多模態(tài)指令調(diào)優(yōu)是使模型具備各種模態(tài)的不同技能和能力,甚至適應(yīng)新的和獨(dú)特的指令的關(guān)鍵過程。
研究人員通過結(jié)合廣泛的監(jiān)督數(shù)據(jù)集和任務(wù)來(lái)構(gòu)建多模態(tài)指令調(diào)優(yōu)數(shù)據(jù)集。
指令調(diào)諧數(shù)據(jù)的分布如上圖所示??傮w而言,指令調(diào)優(yōu)組合包括60%的提示數(shù)據(jù)、30%從預(yù)訓(xùn)練中繼承下來(lái)的數(shù)據(jù)(為了避免災(zāi)難性的遺忘)、6%使用現(xiàn)有數(shù)據(jù)源構(gòu)建的任務(wù)增強(qiáng)數(shù)據(jù)、以及4%自由格式文本(以實(shí)現(xiàn)類似聊天的回復(fù))。