自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="bieuj"><rt id="bieuj"></rt></sub><sub id="bieuj"></sub>

<blockquote id="bieuj"><i id="bieuj"><video id="bieuj"></video></i></blockquote>

<sub id="bieuj"><p id="bieuj"></p></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

GPT-5前瞻！艾倫人工智能研究所發(fā)布最強(qiáng)多模態(tài)模型，預(yù)測(cè)GPT-5新能力

作者：新智元 2024-01-09 12:53:16

人工智能新聞

近日，艾倫人工智能研究所發(fā)布了Unified-IO 2，——第一代Unified-IO曾預(yù)測(cè)了GPT-4等模型的能力，所以我們可以從新一代的模型中一窺GPT-5的真面目。

GPT-5何時(shí)到來(lái)，會(huì)有什么能力？

來(lái)自艾倫人工智能研究所（Allen Institute for AI）的新模型告訴你答案。

艾倫人工智能研究所推出的Unified-IO 2是第一個(gè)可以處理和生成文本、圖像、音頻、視頻和動(dòng)作序列的模型。

這個(gè)新的高級(jí)人工智能模型使用幾十億個(gè)數(shù)據(jù)點(diǎn)進(jìn)行訓(xùn)練，雖然模型大小只有7B，卻展現(xiàn)出迄今為止最廣泛的多模態(tài)能力。

論文地址：https://arxiv.org/pdf/2312.17172.pdf

那么，Unified-IO 2和GPT-5有什么關(guān)系呢？

早在2022年6月，艾倫人工智能研究所就推出了第一代Unified-IO，它是首批能夠處理圖像和語(yǔ)言的多模態(tài)模型之一。

大約在同一時(shí)間，OpenAI正在內(nèi)部測(cè)試GPT-4，并在2023年3月正式發(fā)布。

所以，Unified-IO可以看作是對(duì)于未來(lái)大規(guī)模AI模型的前瞻。

也就是說(shuō)，OpenAI可能正在內(nèi)部測(cè)試GPT-5，并將在幾個(gè)月后發(fā)布。

而本次Unified-IO 2向我們展現(xiàn)的能力，也將是我們?cè)谛碌囊荒昕梢云诖膬?nèi)容：

GPT-5等新的AI模型可以處理更多模態(tài)，通過廣泛的學(xué)習(xí)以本地方式執(zhí)行許多任務(wù)，并且對(duì)與物體和機(jī)器人的交互有基本的了解。

Unified-IO 2的訓(xùn)練數(shù)據(jù)包括：10億個(gè)圖像-文本對(duì)、1 萬(wàn)億個(gè)文本標(biāo)記、1.8億個(gè)視頻剪輯、1.3億張帶文本的圖像、300萬(wàn)個(gè)3D資產(chǎn)和100萬(wàn)個(gè)機(jī)器人代理運(yùn)動(dòng)序列。

研究團(tuán)隊(duì)將總共120多個(gè)數(shù)據(jù)集組合成一個(gè)600 TB的包，涵蓋220個(gè)視覺、語(yǔ)言、聽覺和動(dòng)作任務(wù)。

Unified-IO 2采用編碼器-解碼器架構(gòu)，并進(jìn)行了一些更改，以穩(wěn)定訓(xùn)練并有效利用多模態(tài)信號(hào)。

模型可以回答問題、根據(jù)指令撰寫文本、以及分析文本內(nèi)容。

模型還可以識(shí)別圖像內(nèi)容，提供圖像描述，執(zhí)行圖像處理任務(wù)，并根據(jù)文本描述創(chuàng)建新圖像。

它還可以根據(jù)描述或說(shuō)明生成音樂或聲音，以及分析視頻并回答有關(guān)視頻的問題。

通過使用機(jī)器人數(shù)據(jù)進(jìn)行訓(xùn)練，Unified-IO 2還可以為機(jī)器人系統(tǒng)生成動(dòng)作，例如將指令轉(zhuǎn)換為機(jī)器人的動(dòng)作序列。

由于多模態(tài)訓(xùn)練，它還可以處理不同的模態(tài)，例如，在圖像上標(biāo)記某個(gè)音軌使用的樂器。

Unified-IO 2在超過35個(gè)基準(zhǔn)測(cè)試中表現(xiàn)良好，包括圖像生成和理解、自然語(yǔ)言理解、視頻和音頻理解以及機(jī)器人操作。

在大多數(shù)任務(wù)中，它能夠比肩專用模型，甚至更勝一籌。

在圖像任務(wù)的GRIT基準(zhǔn)測(cè)試中，Unified-IO 2獲得了目前的最高分（GRIT用于測(cè)試模型如何處理圖像噪聲和其他問題）。

研究人員現(xiàn)在計(jì)劃進(jìn)一步擴(kuò)展Unified-IO 2，提高數(shù)據(jù)質(zhì)量，并將編碼器-解碼器模型，轉(zhuǎn)換為行業(yè)標(biāo)準(zhǔn)的解碼器模型架構(gòu)。

Unified-IO 2

Unified-IO 2是第一個(gè)能夠理解和生成圖像、文本、音頻和動(dòng)作的自回歸多模態(tài)模型。

為了統(tǒng)一不同的模態(tài)，研究人員將輸入和輸出（圖像、文本、音頻、動(dòng)作、邊界框等）標(biāo)記到一個(gè)共享的語(yǔ)義空間中，然后使用單個(gè)編碼器-解碼器轉(zhuǎn)換器模型對(duì)其進(jìn)行處理。

由于訓(xùn)練模型所采用的數(shù)據(jù)量龐大，而且來(lái)自各種不同的模態(tài)，研究人員采取了一系列技術(shù)來(lái)改進(jìn)整個(gè)訓(xùn)練過程。

為了有效地促進(jìn)跨多種模態(tài)的自監(jiān)督學(xué)習(xí)信號(hào)，研究人員開發(fā)了一種新型的去噪器目標(biāo)的多模態(tài)混合，結(jié)合了跨模態(tài)的去噪和生成。

還開發(fā)了動(dòng)態(tài)打包，可將訓(xùn)練吞吐量提高4倍，以處理高度可變的序列。

為了克服訓(xùn)練中的穩(wěn)定性和可擴(kuò)展性問題，研究人員在感知器重采樣器上做了架構(gòu)更改，包括2D旋轉(zhuǎn)嵌入、QK歸一化和縮放余弦注意力機(jī)制。

對(duì)于指令調(diào)整，確保每個(gè)任務(wù)都有一個(gè)明確的提示，無(wú)論是使用現(xiàn)有任務(wù)還是制作新任務(wù)。另外還包括開放式任務(wù)，并為不太常見的模式創(chuàng)建合成任務(wù)，以增強(qiáng)任務(wù)和教學(xué)的多樣性。

統(tǒng)一任務(wù)表示

將多模態(tài)數(shù)據(jù)編碼到共享表示空間中的標(biāo)記序列，包括以下幾個(gè)方面：

文本、稀疏結(jié)構(gòu)和操作

文本輸入和輸出使用LLaMA中的字節(jié)對(duì)編碼進(jìn)行標(biāo)記化，邊界框、關(guān)鍵點(diǎn)和相機(jī)姿勢(shì)等稀疏結(jié)構(gòu)被離散化，然后使用添加到詞匯表中的1000個(gè)特殊標(biāo)記進(jìn)行編碼。

點(diǎn)使用兩個(gè)標(biāo)記（x，y）進(jìn)行編碼，盒子用四個(gè)標(biāo)記（左上角和右下角）的序列進(jìn)行編碼，3D長(zhǎng)方體用12個(gè)標(biāo)記表示（編碼投影中心、虛擬深度、對(duì)數(shù)歸一化框尺寸、和連續(xù)同心旋轉(zhuǎn)）。

對(duì)于具身任務(wù)，離散的機(jī)器人動(dòng)作被生成為文本命令（例如，「向前移動(dòng)」）。特殊標(biāo)記用于對(duì)機(jī)器人的狀態(tài)進(jìn)行編碼（例如位置和旋轉(zhuǎn)）。

圖像和密集結(jié)構(gòu)

圖像使用預(yù)先訓(xùn)練的視覺轉(zhuǎn)換器（ViT）進(jìn)行編碼。將ViT的第二層和倒數(shù)第二層的補(bǔ)丁特征連接起來(lái)，以捕獲低級(jí)和高級(jí)視覺信息。

生成圖像時(shí)，使用VQ-GAN將圖像轉(zhuǎn)換為離散標(biāo)記，這里采用patch大小為8 × 8的密集預(yù)訓(xùn)練VQ-GAN模型，將256 × 256的圖像編碼為1024個(gè)token，碼本大小為16512。

然后將每個(gè)像素的標(biāo)簽（包括深度、表面法線和二進(jìn)制分割掩碼）表示為RGB圖像。

音頻

U-IO 2將長(zhǎng)達(dá)4.08秒的音頻編碼為頻譜圖，然后使用預(yù)先訓(xùn)練的音頻頻譜圖轉(zhuǎn)換器（AST）對(duì)頻譜圖進(jìn)行編碼，并通過連接AST的第二層和倒數(shù)第二層特征并應(yīng)用線性層來(lái)構(gòu)建輸入嵌入，就像圖像ViT一樣。

生成音頻時(shí)，使用ViT-VQGAN將音頻轉(zhuǎn)換為離散的標(biāo)記，模型的patch大小為8 × 8，將256 × 128的頻譜圖編碼為512個(gè)token，碼本大小為8196。

圖像和音頻歷史記錄

模型最多允許提供四個(gè)額外的圖像和音頻片段作為輸入，這些元素也使用ViT或AST進(jìn)行編碼，隨后使用感知器重采樣器，進(jìn)一步將特征壓縮為較少數(shù)量（圖像為32個(gè)，音頻為16個(gè)）。

這大大縮短了序列長(zhǎng)度，并允許模型在使用歷史記錄中的元素作為上下文時(shí)，以高細(xì)節(jié)檢查圖像或音頻片段。

穩(wěn)定訓(xùn)練的模型架構(gòu)和技術(shù)

研究人員觀察到，隨著我們集成其他模式，使用 U-IO 之后的標(biāo)準(zhǔn)實(shí)現(xiàn)會(huì)導(dǎo)致訓(xùn)練越來(lái)越不穩(wěn)定。

如下圖（a）和（b）所示，僅對(duì)圖像生成（綠色曲線）進(jìn)行訓(xùn)練會(huì)導(dǎo)致穩(wěn)定的損失和梯度范數(shù)收斂。

與單一模態(tài)相比，引入圖像和文本任務(wù)的組合（橙色曲線）略微增加了梯度范數(shù)，但保持穩(wěn)定。然而，包含視頻模態(tài)（藍(lán)色曲線）會(huì)導(dǎo)致梯度范數(shù)的無(wú)限制升級(jí)。

如圖中（c）和（d）所示，當(dāng)模型的XXL版本在所有模態(tài)上訓(xùn)練時(shí)，損失在350k步后爆炸，下一個(gè)標(biāo)記預(yù)測(cè)精度在400k步時(shí)顯著下降。

為了解決這個(gè)問題，研究人員進(jìn)行了各種架構(gòu)更改：

在每個(gè)Transformer層應(yīng)用旋轉(zhuǎn)位置嵌入（RoPE）。對(duì)于非文本模態(tài)，將RoPE擴(kuò)展到二維位置；當(dāng)包括圖像和音頻模態(tài)時(shí)，將LayerNorm應(yīng)用于點(diǎn)積注意力計(jì)算之前的Q和K。

另外，使用感知器重采樣器，將每個(gè)圖像幀和音頻片段壓縮成固定數(shù)量的標(biāo)記，并使用縮放余弦注意力在感知者中應(yīng)用更嚴(yán)格的歸一化，這顯著穩(wěn)定了訓(xùn)練。

為了避免數(shù)值不穩(wěn)定，還啟用了float32注意力對(duì)數(shù)，并在預(yù)訓(xùn)練期間凍結(jié)ViT和 AST，并在指令調(diào)整結(jié)束時(shí)對(duì)其進(jìn)行微調(diào)。

上圖顯示，盡管輸入和輸出模態(tài)存在異質(zhì)性，但模型的預(yù)訓(xùn)練損失是穩(wěn)定的。

多模態(tài)訓(xùn)練目標(biāo)

本文遵循UL2范式。對(duì)于圖像和音頻目標(biāo)，這里定義了兩種類似的范式：

[R]：掩碼去噪，隨機(jī)屏蔽x%的輸入圖像或音頻補(bǔ)丁特征，并讓模型重新構(gòu)建它；

[S]：要求模型在其他輸入模態(tài)條件下生成目標(biāo)模態(tài)。

在訓(xùn)練期間，用模態(tài)標(biāo)記（[Text]、[Image] 或 [Audio]）和范式標(biāo)記（[R]、[S] 或 [X]）作為輸入文本的前綴，以指示任務(wù)，并使用動(dòng)態(tài)遮罩進(jìn)行自回歸。

如上圖所示，圖像和音頻屏蔽去噪的一個(gè)問題是解碼器側(cè)的信息泄漏。

這里的解決方案是在解碼器中屏蔽token（除非在預(yù)測(cè)這個(gè)token），這不會(huì)干擾因果預(yù)測(cè)，同時(shí)又消除了數(shù)據(jù)泄漏。

效率優(yōu)化

對(duì)大量多模態(tài)數(shù)據(jù)進(jìn)行訓(xùn)練，會(huì)導(dǎo)致轉(zhuǎn)換器輸入和輸出的序列長(zhǎng)度高度可變。

這里使用打包來(lái)解決這個(gè)問題：多個(gè)示例的標(biāo)記被打包到一個(gè)序列中，并屏蔽注意力以防止轉(zhuǎn)換器在示例之間交叉參與。

在訓(xùn)練過程中，使用啟發(fā)式算法來(lái)重新排列流式傳輸?shù)侥Ｐ偷臄?shù)據(jù)，以便將長(zhǎng)樣本與可以打包的短樣本相匹配。本文的動(dòng)態(tài)打包使訓(xùn)練吞吐量增加了近4倍。

指令調(diào)優(yōu)

多模態(tài)指令調(diào)優(yōu)是使模型具備各種模態(tài)的不同技能和能力，甚至適應(yīng)新的和獨(dú)特的指令的關(guān)鍵過程。

研究人員通過結(jié)合廣泛的監(jiān)督數(shù)據(jù)集和任務(wù)來(lái)構(gòu)建多模態(tài)指令調(diào)優(yōu)數(shù)據(jù)集。

指令調(diào)諧數(shù)據(jù)的分布如上圖所示?？傮w而言，指令調(diào)優(yōu)組合包括60%的提示數(shù)據(jù)、30%從預(yù)訓(xùn)練中繼承下來(lái)的數(shù)據(jù)（為了避免災(zāi)難性的遺忘）、6%使用現(xiàn)有數(shù)據(jù)源構(gòu)建的任務(wù)增強(qiáng)數(shù)據(jù)、以及4%自由格式文本（以實(shí)現(xiàn)類似聊天的回復(fù)）。

責(zé)任編輯：張燕妮來(lái)源：新智元

模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<style id="sxou9"></style>

^{<thead id="sxou9"></thead>}