自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT-5前瞻!艾倫人工智能研究所發(fā)布最強(qiáng)多模態(tài)模型,預(yù)測(cè)GPT-5新能力

人工智能 新聞
近日,艾倫人工智能研究所發(fā)布了Unified-IO 2,——第一代Unified-IO曾預(yù)測(cè)了GPT-4等模型的能力,所以我們可以從新一代的模型中一窺GPT-5的真面目。

GPT-5何時(shí)到來(lái),會(huì)有什么能力?

來(lái)自艾倫人工智能研究所(Allen Institute for AI)的新模型告訴你答案。

艾倫人工智能研究所推出的Unified-IO 2是第一個(gè)可以處理和生成文本、圖像、音頻、視頻和動(dòng)作序列的模型。

這個(gè)新的高級(jí)人工智能模型使用幾十億個(gè)數(shù)據(jù)點(diǎn)進(jìn)行訓(xùn)練,雖然模型大小只有7B,卻展現(xiàn)出迄今為止最廣泛的多模態(tài)能力。

論文地址:https://arxiv.org/pdf/2312.17172.pdf

那么,Unified-IO 2和GPT-5有什么關(guān)系呢?

早在2022年6月,艾倫人工智能研究所就推出了第一代Unified-IO,它是首批能夠處理圖像和語(yǔ)言的多模態(tài)模型之一。

大約在同一時(shí)間,OpenAI正在內(nèi)部測(cè)試GPT-4,并在2023年3月正式發(fā)布。

所以,Unified-IO可以看作是對(duì)于未來(lái)大規(guī)模AI模型的前瞻。

也就是說(shuō),OpenAI可能正在內(nèi)部測(cè)試GPT-5,并將在幾個(gè)月后發(fā)布。

而本次Unified-IO 2向我們展現(xiàn)的能力,也將是我們?cè)谛碌囊荒昕梢云诖膬?nèi)容:

GPT-5等新的AI模型可以處理更多模態(tài),通過廣泛的學(xué)習(xí)以本地方式執(zhí)行許多任務(wù),并且對(duì)與物體和機(jī)器人的交互有基本的了解。

Unified-IO 2的訓(xùn)練數(shù)據(jù)包括:10億個(gè)圖像-文本對(duì)、1 萬(wàn)億個(gè)文本標(biāo)記、1.8億個(gè)視頻剪輯、1.3億張帶文本的圖像、300萬(wàn)個(gè)3D資產(chǎn)和100萬(wàn)個(gè)機(jī)器人代理運(yùn)動(dòng)序列。

研究團(tuán)隊(duì)將總共120多個(gè)數(shù)據(jù)集組合成一個(gè)600 TB的包,涵蓋220個(gè)視覺、語(yǔ)言、聽覺和動(dòng)作任務(wù)。

Unified-IO 2采用編碼器-解碼器架構(gòu),并進(jìn)行了一些更改,以穩(wěn)定訓(xùn)練并有效利用多模態(tài)信號(hào)。

模型可以回答問題、根據(jù)指令撰寫文本、以及分析文本內(nèi)容。

模型還可以識(shí)別圖像內(nèi)容,提供圖像描述,執(zhí)行圖像處理任務(wù),并根據(jù)文本描述創(chuàng)建新圖像。

它還可以根據(jù)描述或說(shuō)明生成音樂或聲音,以及分析視頻并回答有關(guān)視頻的問題。

通過使用機(jī)器人數(shù)據(jù)進(jìn)行訓(xùn)練,Unified-IO 2還可以為機(jī)器人系統(tǒng)生成動(dòng)作,例如將指令轉(zhuǎn)換為機(jī)器人的動(dòng)作序列。

由于多模態(tài)訓(xùn)練,它還可以處理不同的模態(tài),例如,在圖像上標(biāo)記某個(gè)音軌使用的樂器。

Unified-IO 2在超過35個(gè)基準(zhǔn)測(cè)試中表現(xiàn)良好,包括圖像生成和理解、自然語(yǔ)言理解、視頻和音頻理解以及機(jī)器人操作。

在大多數(shù)任務(wù)中,它能夠比肩專用模型,甚至更勝一籌。

在圖像任務(wù)的GRIT基準(zhǔn)測(cè)試中,Unified-IO 2獲得了目前的最高分(GRIT用于測(cè)試模型如何處理圖像噪聲和其他問題)。

研究人員現(xiàn)在計(jì)劃進(jìn)一步擴(kuò)展Unified-IO 2,提高數(shù)據(jù)質(zhì)量,并將編碼器-解碼器模型,轉(zhuǎn)換為行業(yè)標(biāo)準(zhǔn)的解碼器模型架構(gòu)。

Unified-IO 2

Unified-IO 2是第一個(gè)能夠理解和生成圖像、文本、音頻和動(dòng)作的自回歸多模態(tài)模型。

為了統(tǒng)一不同的模態(tài),研究人員將輸入和輸出(圖像、文本、音頻、動(dòng)作、邊界框等)標(biāo)記到一個(gè)共享的語(yǔ)義空間中,然后使用單個(gè)編碼器-解碼器轉(zhuǎn)換器模型對(duì)其進(jìn)行處理。

由于訓(xùn)練模型所采用的數(shù)據(jù)量龐大,而且來(lái)自各種不同的模態(tài),研究人員采取了一系列技術(shù)來(lái)改進(jìn)整個(gè)訓(xùn)練過程。

為了有效地促進(jìn)跨多種模態(tài)的自監(jiān)督學(xué)習(xí)信號(hào),研究人員開發(fā)了一種新型的去噪器目標(biāo)的多模態(tài)混合,結(jié)合了跨模態(tài)的去噪和生成。

還開發(fā)了動(dòng)態(tài)打包,可將訓(xùn)練吞吐量提高4倍,以處理高度可變的序列。

為了克服訓(xùn)練中的穩(wěn)定性和可擴(kuò)展性問題,研究人員在感知器重采樣器上做了架構(gòu)更改,包括2D旋轉(zhuǎn)嵌入、QK歸一化和縮放余弦注意力機(jī)制。

對(duì)于指令調(diào)整,確保每個(gè)任務(wù)都有一個(gè)明確的提示,無(wú)論是使用現(xiàn)有任務(wù)還是制作新任務(wù)。另外還包括開放式任務(wù),并為不太常見的模式創(chuàng)建合成任務(wù),以增強(qiáng)任務(wù)和教學(xué)的多樣性。

統(tǒng)一任務(wù)表示

將多模態(tài)數(shù)據(jù)編碼到共享表示空間中的標(biāo)記序列,包括以下幾個(gè)方面:

文本、稀疏結(jié)構(gòu)和操作

文本輸入和輸出使用LLaMA中的字節(jié)對(duì)編碼進(jìn)行標(biāo)記化,邊界框、關(guān)鍵點(diǎn)和相機(jī)姿勢(shì)等稀疏結(jié)構(gòu)被離散化,然后使用添加到詞匯表中的1000個(gè)特殊標(biāo)記進(jìn)行編碼。

點(diǎn)使用兩個(gè)標(biāo)記(x,y)進(jìn)行編碼,盒子用四個(gè)標(biāo)記(左上角和右下角)的序列進(jìn)行編碼,3D長(zhǎng)方體用12個(gè)標(biāo)記表示(編碼投影中心、虛擬深度、對(duì)數(shù)歸一化框尺寸、和連續(xù)同心旋轉(zhuǎn))。

對(duì)于具身任務(wù),離散的機(jī)器人動(dòng)作被生成為文本命令(例如,「向前移動(dòng)」)。特殊標(biāo)記用于對(duì)機(jī)器人的狀態(tài)進(jìn)行編碼(例如位置和旋轉(zhuǎn))。

圖像和密集結(jié)構(gòu)

圖像使用預(yù)先訓(xùn)練的視覺轉(zhuǎn)換器(ViT)進(jìn)行編碼。將ViT的第二層和倒數(shù)第二層的補(bǔ)丁特征連接起來(lái),以捕獲低級(jí)和高級(jí)視覺信息。

生成圖像時(shí),使用VQ-GAN將圖像轉(zhuǎn)換為離散標(biāo)記,這里采用patch大小為8 × 8的密集預(yù)訓(xùn)練VQ-GAN模型,將256 × 256的圖像編碼為1024個(gè)token,碼本大小為16512。

然后將每個(gè)像素的標(biāo)簽(包括深度、表面法線和二進(jìn)制分割掩碼)表示為RGB圖像。

音頻

U-IO 2將長(zhǎng)達(dá)4.08秒的音頻編碼為頻譜圖,然后使用預(yù)先訓(xùn)練的音頻頻譜圖轉(zhuǎn)換器(AST)對(duì)頻譜圖進(jìn)行編碼,并通過連接AST的第二層和倒數(shù)第二層特征并應(yīng)用線性層來(lái)構(gòu)建輸入嵌入,就像圖像ViT一樣。

生成音頻時(shí),使用ViT-VQGAN將音頻轉(zhuǎn)換為離散的標(biāo)記,模型的patch大小為8 × 8,將256 × 128的頻譜圖編碼為512個(gè)token,碼本大小為8196。

圖像和音頻歷史記錄

模型最多允許提供四個(gè)額外的圖像和音頻片段作為輸入,這些元素也使用ViT或AST進(jìn)行編碼,隨后使用感知器重采樣器,進(jìn)一步將特征壓縮為較少數(shù)量(圖像為32個(gè),音頻為16個(gè))。

這大大縮短了序列長(zhǎng)度,并允許模型在使用歷史記錄中的元素作為上下文時(shí),以高細(xì)節(jié)檢查圖像或音頻片段。

穩(wěn)定訓(xùn)練的模型架構(gòu)和技術(shù)

研究人員觀察到,隨著我們集成其他模式,使用 U-IO 之后的標(biāo)準(zhǔn)實(shí)現(xiàn)會(huì)導(dǎo)致訓(xùn)練越來(lái)越不穩(wěn)定。

如下圖(a)和(b)所示,僅對(duì)圖像生成(綠色曲線)進(jìn)行訓(xùn)練會(huì)導(dǎo)致穩(wěn)定的損失和梯度范數(shù)收斂。

與單一模態(tài)相比,引入圖像和文本任務(wù)的組合(橙色曲線)略微增加了梯度范數(shù),但保持穩(wěn)定。然而,包含視頻模態(tài)(藍(lán)色曲線)會(huì)導(dǎo)致梯度范數(shù)的無(wú)限制升級(jí)。

圖片

如圖中(c)和(d)所示,當(dāng)模型的XXL版本在所有模態(tài)上訓(xùn)練時(shí),損失在350k步后爆炸,下一個(gè)標(biāo)記預(yù)測(cè)精度在400k步時(shí)顯著下降。

為了解決這個(gè)問題,研究人員進(jìn)行了各種架構(gòu)更改:

在每個(gè)Transformer層應(yīng)用旋轉(zhuǎn)位置嵌入(RoPE)。對(duì)于非文本模態(tài),將RoPE擴(kuò)展到二維位置;當(dāng)包括圖像和音頻模態(tài)時(shí),將LayerNorm應(yīng)用于點(diǎn)積注意力計(jì)算之前的Q和K。

另外,使用感知器重采樣器,將每個(gè)圖像幀和音頻片段壓縮成固定數(shù)量的標(biāo)記,并使用縮放余弦注意力在感知者中應(yīng)用更嚴(yán)格的歸一化,這顯著穩(wěn)定了訓(xùn)練。

為了避免數(shù)值不穩(wěn)定,還啟用了float32注意力對(duì)數(shù),并在預(yù)訓(xùn)練期間凍結(jié)ViT和 AST,并在指令調(diào)整結(jié)束時(shí)對(duì)其進(jìn)行微調(diào)。

上圖顯示,盡管輸入和輸出模態(tài)存在異質(zhì)性,但模型的預(yù)訓(xùn)練損失是穩(wěn)定的。

多模態(tài)訓(xùn)練目標(biāo)

本文遵循UL2范式。對(duì)于圖像和音頻目標(biāo),這里定義了兩種類似的范式:

[R]:掩碼去噪,隨機(jī)屏蔽x%的輸入圖像或音頻補(bǔ)丁特征,并讓模型重新構(gòu)建它;

[S]:要求模型在其他輸入模態(tài)條件下生成目標(biāo)模態(tài)。

在訓(xùn)練期間,用模態(tài)標(biāo)記([Text]、[Image] 或 [Audio])和范式標(biāo)記([R]、[S] 或 [X])作為輸入文本的前綴,以指示任務(wù),并使用動(dòng)態(tài)遮罩進(jìn)行自回歸。

如上圖所示,圖像和音頻屏蔽去噪的一個(gè)問題是解碼器側(cè)的信息泄漏。

這里的解決方案是在解碼器中屏蔽token(除非在預(yù)測(cè)這個(gè)token),這不會(huì)干擾因果預(yù)測(cè),同時(shí)又消除了數(shù)據(jù)泄漏。

效率優(yōu)化

對(duì)大量多模態(tài)數(shù)據(jù)進(jìn)行訓(xùn)練,會(huì)導(dǎo)致轉(zhuǎn)換器輸入和輸出的序列長(zhǎng)度高度可變。

這里使用打包來(lái)解決這個(gè)問題:多個(gè)示例的標(biāo)記被打包到一個(gè)序列中,并屏蔽注意力以防止轉(zhuǎn)換器在示例之間交叉參與。

在訓(xùn)練過程中,使用啟發(fā)式算法來(lái)重新排列流式傳輸?shù)侥P偷臄?shù)據(jù),以便將長(zhǎng)樣本與可以打包的短樣本相匹配。本文的動(dòng)態(tài)打包使訓(xùn)練吞吐量增加了近4倍。

指令調(diào)優(yōu)

多模態(tài)指令調(diào)優(yōu)是使模型具備各種模態(tài)的不同技能和能力,甚至適應(yīng)新的和獨(dú)特的指令的關(guān)鍵過程。

研究人員通過結(jié)合廣泛的監(jiān)督數(shù)據(jù)集和任務(wù)來(lái)構(gòu)建多模態(tài)指令調(diào)優(yōu)數(shù)據(jù)集。

指令調(diào)諧數(shù)據(jù)的分布如上圖所示??傮w而言,指令調(diào)優(yōu)組合包括60%的提示數(shù)據(jù)、30%從預(yù)訓(xùn)練中繼承下來(lái)的數(shù)據(jù)(為了避免災(zāi)難性的遺忘)、6%使用現(xiàn)有數(shù)據(jù)源構(gòu)建的任務(wù)增強(qiáng)數(shù)據(jù)、以及4%自由格式文本(以實(shí)現(xiàn)類似聊天的回復(fù))。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-11-09 12:41:04

AI模型

2024-01-22 13:57:00

模型訓(xùn)練

2024-04-01 00:50:00

吳恩達(dá)智能體

2024-01-18 12:30:03

2024-12-02 08:20:00

2024-08-08 14:00:00

2023-04-13 13:38:59

2023-11-16 15:57:00

數(shù)據(jù)訓(xùn)練

2025-02-13 10:52:56

2023-06-08 07:58:29

2024-04-10 11:47:41

人工智能ChatGPT

2023-12-19 19:50:49

GPT-5OpenIA風(fēng)險(xiǎn)

2025-02-05 10:26:23

2023-05-05 13:29:04

模型推理

2023-09-03 12:56:43

2023-06-16 13:02:22

GPT-5GPT-4AI

2023-08-02 13:52:59

GPT-5模型

2024-03-21 14:06:50

2023-08-02 00:19:46

2025-02-13 09:10:47

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)