自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Transformers回顧：從BERT到GPT4

作者：佚名 2023-05-09 15:41:03

人工智能已成為近年來(lái)最受關(guān)注的話題之一，由于神經(jīng)網(wǎng)絡(luò)的發(fā)展，曾經(jīng)被認(rèn)為純粹是科幻小說(shuō)中的服務(wù)現(xiàn)在正在成為現(xiàn)實(shí)。從對(duì)話代理到媒體內(nèi)容生成，人工智能正在改變我們與技術(shù)互動(dòng)的方式。特別是機(jī)器學(xué)習(xí) (ML) 模型在自然語(yǔ)言處理 (NLP) 領(lǐng)域取得了重大進(jìn)展。

人工智能已成為近年來(lái)最受關(guān)注的話題之一，由于神經(jīng)網(wǎng)絡(luò)的發(fā)展，曾經(jīng)被認(rèn)為純粹是科幻小說(shuō)中的服務(wù)現(xiàn)在正在成為現(xiàn)實(shí)。從對(duì)話代理到媒體內(nèi)容生成，人工智能正在改變我們與技術(shù)互動(dòng)的方式。特別是機(jī)器學(xué)習(xí) (ML) 模型在自然語(yǔ)言處理 (NLP) 領(lǐng)域取得了重大進(jìn)展。一個(gè)關(guān)鍵的突破是引入了“自注意力”和用于序列處理的Transformers架構(gòu)，這使得之前主導(dǎo)該領(lǐng)域的幾個(gè)關(guān)鍵問(wèn)題得以解決。

在本文中，我們將研究革命性的Transformers架構(gòu)以及它如何改變NLP，我們還將全面回顧從BERT到Alpaca的Transformers模型，重點(diǎn)介紹每種模型的主要特征及其潛在應(yīng)用。

類似bert的文本模型

第一部分是基于Transformer編碼器的模型，用于向量化、分類、序列標(biāo)記、QA(問(wèn)答)、NER(命名實(shí)體識(shí)別)等。

1、BERT Google / 2018

Transformer 編碼器，wordpiece tokenization（30K 詞匯量）。輸入嵌入由三個(gè)向量組成：標(biāo)記向量、可訓(xùn)練位置向量和片段向量（第一個(gè)文本或第二個(gè)文本）。模型輸入是 CLS 標(biāo)記嵌入、第一個(gè)文本的嵌入和第二個(gè)文本的嵌入。

BERT 有兩個(gè)訓(xùn)練任務(wù)：Masked Language Modeling (MLM) 和 Next Sentence Prediction (NSP)。在 MLM 中，15% 的令牌被屏蔽，80% 被 MASK 令牌替換，10% 被隨機(jī)令牌替換，10% 保持不變。模型會(huì)預(yù)測(cè)正確的令牌，而損失僅在這 15% 的屏蔽令牌上計(jì)算。在 NSP 中，模型預(yù)測(cè)第二個(gè)文本是否跟在第一個(gè)文本之后。預(yù)測(cè)是在 CLS 令牌的輸出向量上進(jìn)行的。

為了加快訓(xùn)練速度，首先90%的訓(xùn)練在序列長(zhǎng)度為 128 個(gè)標(biāo)記上進(jìn)行，然后剩下的10% 的時(shí)間在 512 個(gè)標(biāo)記上訓(xùn)練模型以獲得更有效的位置嵌入。

2、RoBERTa Facebook / 2019

BERT的改進(jìn)版本，它只在MLM上訓(xùn)練(因?yàn)镹SP被認(rèn)為不太有用)，訓(xùn)練序列更長(zhǎng)(512個(gè)令牌)。使用動(dòng)態(tài)屏蔽(當(dāng)再次處理相同的數(shù)據(jù)時(shí)，不同的令牌被屏蔽)，訓(xùn)練超參數(shù)是精心選擇的。

3、XLM Facebook / 2019

訓(xùn)練多語(yǔ)言模型的方法之一是使用不同的基本模型(目前最流行的模型是基于RoBERTa的XLM-R)。在最初的XLM中，所有語(yǔ)言都有一個(gè)共享的BPE詞匯表。

XLM 有兩個(gè)訓(xùn)練任務(wù):MLM和翻譯。翻譯本質(zhì)上與一對(duì)文本上的 MLM 相同，但文本是彼此的平行翻譯，具有隨機(jī)掩碼和段嵌入編碼語(yǔ)言。

4、Transformer-XL Carnegie Mellon University / 2019

該模型設(shè)計(jì)用于處理長(zhǎng)序列，主要有兩個(gè)思想:片段的循環(huán)處理和相對(duì)位置編碼。

長(zhǎng)文本被分成幾個(gè)片段，每次處理一個(gè)片段。前一段的輸出被緩存，在計(jì)算當(dāng)前段中的自我關(guān)注時(shí)，鍵和值是基于當(dāng)前段和前一段的輸出計(jì)算的(只是簡(jiǎn)單地連接在一起)。梯度也只在當(dāng)前段內(nèi)計(jì)算。

這種方法不適用于絕對(duì)位置。所以模型中重新參數(shù)化了注意力權(quán)重公式。絕對(duì)的位置編碼向量被一個(gè)固定的矩陣取代，該矩陣基于標(biāo)記位置之間距離的正弦值和對(duì)所有位置共有的可訓(xùn)練向量。

5、ERNIE 清華大學(xué)，華為 / 2019

將知識(shí)圖譜中有關(guān)命名實(shí)體的信息嵌入到 BERT 中。輸入由一組文本標(biāo)記和一組實(shí)體標(biāo)記組成（每個(gè)標(biāo)記代表整個(gè)實(shí)體）。文本標(biāo)記由 BERT 編碼。在 BERT 之上，有一組 K 編碼器塊（約占網(wǎng)絡(luò)參數(shù)的 3%）。在這些塊中：

文本標(biāo)記的更新向量和實(shí)體標(biāo)記的原始向量首先獨(dú)立地計(jì)算自注意力；
實(shí)體向量與它們?cè)谖谋局谐霈F(xiàn)的第一個(gè)標(biāo)記相匹配；
使用GeLU 激活，并且用于獲得文本標(biāo)記的新隱藏表示；
文本和實(shí)體標(biāo)記的新向量從隱藏表示中獲得，并作為輸入傳遞給下一個(gè)編碼器塊。

在預(yù)訓(xùn)練期間，計(jì)算三種損失：MLM、NSP 和來(lái)自令牌的實(shí)體預(yù)測(cè)（如自編碼器），自編碼器使用下面規(guī)則：

在 5% 的情況下，實(shí)體被替換為錯(cuò)誤的實(shí)體，但匹配被保留，模型必須預(yù)測(cè)正確的實(shí)體；
在 15% 的情況下，匹配被移除，模型必須僅基于文本來(lái)預(yù)測(cè)實(shí)體；
在其他情況下，是正常的。

預(yù)訓(xùn)練模型可以像常規(guī) BERT 模型一樣進(jìn)行微調(diào)（有 CLS 令牌）。也可以使用額外的程序進(jìn)行微調(diào)以確定實(shí)體及其類型之間的關(guān)系。

6、XLNet Carnegie Mellon University / 2019

因?yàn)锽ERT訓(xùn)練過(guò)程存在問(wèn)題：

在訓(xùn)練期間，損失計(jì)算僅計(jì)算掩碼標(biāo)記。
只有個(gè)別標(biāo)記被屏蔽，一個(gè)屏蔽標(biāo)記的預(yù)測(cè)不會(huì)影響其他標(biāo)記的預(yù)測(cè)。
模型在訓(xùn)練期間主動(dòng)看到的實(shí)際應(yīng)用程序中沒(méi)有 MASK 令牌。

XLNet 基于 Transformer-XL，除了替換語(yǔ)言建模 (PLM) 任務(wù)外，它學(xué)習(xí)在短的上下文中預(yù)測(cè)標(biāo)記，而不是直接使用 MASK。這確保了梯度會(huì)計(jì)算所有標(biāo)記并消除了對(duì)特殊掩碼標(biāo)記的需要。

上下文中的標(biāo)記被打亂（比如：可以根據(jù)第 i-2個(gè)和第i+1個(gè)標(biāo)記預(yù)測(cè)第 i 個(gè)標(biāo)記），但它們的位置仍然是已知的。這無(wú)法通過(guò)當(dāng)前的位置編碼（包括 Transformer-XL）實(shí)現(xiàn)。當(dāng)嘗試在給定上下文的一部分的情況下預(yù)測(cè)令牌的概率時(shí)，模型不應(yīng)該知道本身的令牌，但應(yīng)該知道令牌在上下文中的位置。為了解決這個(gè)問(wèn)題，他們將self-attention 分為兩個(gè)流：

在每個(gè)標(biāo)記位置，有兩個(gè)向量而不是一個(gè)：內(nèi)容向量和查詢向量。
內(nèi)容向量包含有關(guān)令牌的完整信息，而查詢向量?jī)H包含位置信息。
token 的兩個(gè)向量都是基于上下文向量計(jì)算的，但是 self-attention 中的查詢向量是使用過(guò)去的內(nèi)容向量計(jì)算的，內(nèi)容向量是使用過(guò)去的查詢向量計(jì)算的。
query vector 不接收關(guān)于相應(yīng) token 的內(nèi)容的信息，但知道上下文的所有信息，而 content vector 包含完整的信息。

在微調(diào)期間，如果忽略查詢向量，模型將像常規(guī)的 Transformer-XL 一樣工作。

在實(shí)踐中該模型的要求上下文必須足夠長(zhǎng)，以便模型能夠正確學(xué)習(xí)。它在與 RoBERTa 相同數(shù)量的數(shù)據(jù)上學(xué)習(xí)，結(jié)果相似，但由于實(shí)現(xiàn)的復(fù)雜性，該模型并沒(méi)有像 RoBERTa 那樣流行。

7、ALBERT Google / 2019

在不犧牲質(zhì)量的情況下簡(jiǎn)化BERT:

在不同的編碼器塊中使用共同的參數(shù)，并且已經(jīng)證明可以共享自注意力的權(quán)重，但是分離全連接層的權(quán)重會(huì)導(dǎo)致質(zhì)量下降。
與BERT相比，使用了更小的輸入嵌入和更大的隱藏層向量。這可以通過(guò)在網(wǎng)絡(luò)輸入處使用一個(gè)額外的投影矩陣來(lái)實(shí)現(xiàn)，這樣也可以將嵌入的大小與隱藏表示的大小解耦。
模型的參數(shù)減少了18倍，運(yùn)行速度提高了1.7倍。

模型在MLM和句子順序預(yù)測(cè)(SOP)上進(jìn)行訓(xùn)練。

8、DistilBERT Google / 2019

另一種優(yōu)化BERT的方法是蒸餾:

編碼器塊的數(shù)量減半
三個(gè)損失成分:MLM、與教師模型輸出的交叉熵，以及相應(yīng)層輸出之間的余弦距離。
模型比教師模型小40%，速度快60%，并且在各種任務(wù)上保持了97%的質(zhì)量。

9、LaBSE Google / 2020

基于BERT的多語(yǔ)言矢量化模型。它在MLM和TLM上進(jìn)行訓(xùn)練(20%的標(biāo)記被屏蔽)，然后對(duì)其進(jìn)行微調(diào)。它支持100多種語(yǔ)言，包含500K個(gè)標(biāo)記的詞匯表。

10、ELECTRA Google, Stanford University / 2020

使用生成對(duì)抗方法加速BERT訓(xùn)練:

訓(xùn)練了兩個(gè)類bert模型:一個(gè)小型生成器和一個(gè)主鑒別器
生成器在MLM上進(jìn)行訓(xùn)練，然后填充掩碼令牌
鑒別器被訓(xùn)練來(lái)預(yù)測(cè)由生成器生成的文本的原創(chuàng)性(替換檢測(cè)任務(wù))
訓(xùn)練完成后，去掉生成器，用鑒別器進(jìn)行微調(diào)

訓(xùn)練數(shù)據(jù)的數(shù)量與RoBERTa或XLNet相同，并且模型比BERT、RoBERTa和ALBERT更快地學(xué)習(xí)到相似的質(zhì)量水平。訓(xùn)練時(shí)間越長(zhǎng)，它的表現(xiàn)就越好。

11、DeBERTa Microsoft / 2020

另一種將標(biāo)記向量的內(nèi)容和位置分離為兩個(gè)單獨(dú)的向量的模型:

位置向量在所有層之間共享，并且是相對(duì)的，即標(biāo)記之間的每個(gè)可能距離都有一個(gè)。
為它們添加了兩個(gè)新的權(quán)重矩陣K_pos和Q_pos。
對(duì)注意力權(quán)重計(jì)算進(jìn)行修改，簡(jiǎn)化為三個(gè)乘積的和:Q_cont * K_cont + Q_cont * K_pos + K_cont * Q_pos
與ALBERT中一樣，使用投影矩陣將嵌入大小與隱藏標(biāo)記表示向量的大小解耦。

類似GPT 和T5的而模型

基于完整Transformers的模型。它的應(yīng)用范圍非常廣泛：除了上一節(jié)的任務(wù)外，它還包括會(huì)話代理、機(jī)器翻譯、邏輯和數(shù)學(xué)推理、代碼分析和生成，以及基本上文本生成。最大和“最智能”的模型通?；诮獯a器架構(gòu)。此類模型通常在 few-shot 和 zero-shot 模式下無(wú)需微調(diào)即可表現(xiàn)良好。

1、GPT-2 OpenAI / 2018

解碼器在因果LM的任務(wù)上進(jìn)行訓(xùn)練(根據(jù)左側(cè)上下文預(yù)測(cè)下一個(gè)令牌)。從體系結(jié)構(gòu)的角度來(lái)看，有一些小的變化:從每個(gè)解碼器塊中移除交叉注意層，并使用了LayerNorm

使用的標(biāo)記器是字節(jié)級(jí)BPE (50K詞匯表)，沒(méi)有使用類似的子字符串例如（“dog”、“dog!”、“dog.”）。最大序列長(zhǎng)度為 1024。層輸出緩存所有先前生成的標(biāo)記。

2、T5 Google / 2019

在MLM上進(jìn)行完整的預(yù)訓(xùn)練(15%的令牌被屏蔽)，跨度由代碼掩碼(<X>， <Y>，…)屏蔽。輸出預(yù)測(cè)序列<X>span<Y>span…

LayerNorm在自注意力層和全連接層輸入之前應(yīng)用。使用相對(duì)位置編碼:

位置由可學(xué)習(xí)的嵌入編碼，其中每個(gè)“嵌入”只是在計(jì)算注意力權(quán)重時(shí)添加相應(yīng)logit的標(biāo)量。

矩陣B是跨層共享的，但對(duì)于不同的自注意力注頭是不同的。

每一層考慮令牌之間的128個(gè)距離，其余的歸零，這樣可以對(duì)比訓(xùn)練期間看到的序列更長(zhǎng)的序列進(jìn)行推理。

標(biāo)記化使用sentencepece (32K詞匯表)完成，在預(yù)訓(xùn)練期間最大序列長(zhǎng)度為512。

3、BART Facebook / 2019

另一個(gè)完整的transformers，但是用GeLU取代了ReLU。訓(xùn)練它從噪聲文本(AE去噪)中預(yù)測(cè)原始文本，噪聲類型如下:

令牌屏蔽
刪除令牌
令牌填充
句子中令牌順序顛倒
使隨機(jī)令牌成為序列的開(kāi)始

使用字節(jié)級(jí)BPE(詞匯表大小為50K)

4、CTRL Salesforce / 2019

使用前綴代碼令牌(例如，<Horror> input text…)控制生成的解碼器。在訓(xùn)練期間將代碼分配給適當(dāng)?shù)奈谋荆缓笤谕评砥陂g使用代碼生成相應(yīng)樣式的文本。該模型是在因果LM上訓(xùn)練的，并且沒(méi)有使用額外的損失。使用的標(biāo)記化是BPE，詞匯表大小為250K。

5、GPT-3 OpenAI / 2020

這是一個(gè)具有Sparse Transformer架構(gòu)的GPT-2模型，并且增加了2048個(gè)令牌的序列長(zhǎng)度。還記的那句話嗎：別問(wèn)，問(wèn)就是GPT3

6、mT5 Google / 2020

基于T5模型，具有類似的訓(xùn)練，但使用多語(yǔ)言數(shù)據(jù)。ReLU激活被替換為GeGLU，詞匯表擴(kuò)展到250K個(gè)標(biāo)記。

7、GLAM Google / 2021

這個(gè)模型在概念上類似于Switch Transformer，但更側(cè)重于在少樣本的模式下工作，而不是微調(diào)。不同規(guī)模的模型使用32到256個(gè)專家層，K=2。使用來(lái)自Transformer-XL的相對(duì)位置編碼。在處理令牌時(shí)，只有不到10%的網(wǎng)絡(luò)參數(shù)被激活。

8、 LaMDA Google / 2021

類似gpt的模型。該模型是一個(gè)會(huì)話模型，在因果LM上進(jìn)行了預(yù)訓(xùn)練，并在生成和判別任務(wù)上進(jìn)行了微調(diào)。該模型還可以對(duì)外部系統(tǒng)(搜索、翻譯)的調(diào)用。

9、GPT-NeoX-20B EleutherAI / 2022

這個(gè)模型類似于GPT-J，也使用旋轉(zhuǎn)位置編碼。模型權(quán)重使用float16表示。最大序列長(zhǎng)度為2048。

10、BLOOM BigScience / 2022

這是46種語(yǔ)言和13種編程語(yǔ)言的最大開(kāi)源模型。為了訓(xùn)練模型，使用一個(gè)名為ROOTS的大型聚合數(shù)據(jù)集，其中包括大約500個(gè)開(kāi)放數(shù)據(jù)集。

11、PaLM Google / 2022

這是一個(gè)大型多語(yǔ)言解碼器模型，使用Adafactor進(jìn)行訓(xùn)練，在預(yù)訓(xùn)練時(shí)禁用dropout，在微調(diào)時(shí)使用0.1。

12、LLaMA Meta / 2023

用于科學(xué)研究的開(kāi)源大型gpt類LM，已用于訓(xùn)練多個(gè)指令模型。該模型使用了pre-LayerNorm、SwiGLU激活和RoPE位置嵌入。因?yàn)殚_(kāi)源所以這是彎道超車的主要模型之一。

文本的指導(dǎo)模型

這些模型抓喲用于校正模型輸出（例如 RLHF）以提高對(duì)話和任務(wù)解決期間的響應(yīng)質(zhì)量。

1、InstructGPT OpenAI / 2022

這項(xiàng)工作調(diào)整GPT-3以有效地遵循指示。該模型在一個(gè)由提示和答案組成的數(shù)據(jù)集上進(jìn)行微調(diào)，這些提示和答案是人類根據(jù)一套標(biāo)準(zhǔn)認(rèn)為好的?；贗nstructGPT，OpenAI 創(chuàng)建了一個(gè)被我們現(xiàn)在熟知的模型ChatGPT。

2、Flan-T5 Google / 2022

適用于T5的指導(dǎo)模型。在某些任務(wù)中，F(xiàn)lan-T5 11B在沒(méi)有這種微調(diào)的情況下優(yōu)于PaLM 62B。這些模型已經(jīng)作為開(kāi)源發(fā)布。

3、Sparrow DeepMind / 2022

基本模型是通過(guò)在選定的高質(zhì)量對(duì)話上對(duì)Chinchilla進(jìn)行微調(diào)獲得的，前80%的層被凍結(jié)。然后該模型被進(jìn)一步訓(xùn)練，使用一個(gè)大提示來(lái)引導(dǎo)它進(jìn)行對(duì)話。有幾個(gè)獎(jiǎng)勵(lì)模型也在Chinchilla的基礎(chǔ)上進(jìn)行訓(xùn)練。該模型可以訪問(wèn)搜索引擎并檢索最多500個(gè)字符的片段，這些片段可以成為響應(yīng)。

在推理過(guò)程中，獎(jiǎng)勵(lì)模型用于對(duì)候選人進(jìn)行排序。候選項(xiàng)要么由模型生成，要么從搜索中獲得，然后最好的一個(gè)成為響應(yīng)。

4、Alpaca Stanford University / 2023

上面LLaMA 的指導(dǎo)模型。主要重點(diǎn)是使用GPT-3構(gòu)建數(shù)據(jù)集的過(guò)程:

目標(biāo)是獲得一組Task-Input-Output三元組，其中Input可以為空。
人類會(huì)生成175個(gè)帶有答案的任務(wù)提示，這些提示被輸入到GPT-3中，GPT-3會(huì)生成新的任務(wù)。
生成過(guò)程是迭代的，在每個(gè)步驟中，都提供了一些來(lái)自人類的任務(wù)示例和一些來(lái)自先前生成的任務(wù)示例。
GPT-3將生成的任務(wù)分為分類任務(wù)或非分類任務(wù)，并根據(jù)此生成不同的輸入和輸出。
三元組根據(jù)質(zhì)量和與數(shù)據(jù)庫(kù)中現(xiàn)有三元組的不相似度進(jìn)行過(guò)濾。

總共生成了52K個(gè)唯一的三元組，并對(duì)LLaMA 7B進(jìn)行了微調(diào)。

5、Koala Berkeley University / 2023

這是在指令數(shù)據(jù)上對(duì)LLaMA進(jìn)行微調(diào)，但與上面的Alpaca不同的是，它不僅在GPT-3等大型模型生成的數(shù)據(jù)上進(jìn)行微調(diào)。還數(shù)據(jù)集的組成為:

30k個(gè)關(guān)于數(shù)學(xué)、詩(shī)歌和對(duì)話的說(shuō)明和回答樣本;
52K個(gè)Alpaca 數(shù)據(jù)集的樣本;
160K對(duì)用戶對(duì)有用性和危害偏好的模型響應(yīng);
20K對(duì)帶有用戶問(wèn)題和評(píng)分的模型回答;
93K個(gè)總結(jié)，用戶對(duì)其質(zhì)量評(píng)分;

與GPT-3相比，沒(méi)有質(zhì)量的增加。但是在盲測(cè)中，用戶更喜歡Koala 的回答，而不是Alpaca 的回答。

從文本生成圖像的模型

基于文本描述的圖像生成器。擴(kuò)散模型與transformers 相結(jié)合在這一領(lǐng)域占據(jù)主導(dǎo)地位，不僅可以生成圖像，還可以進(jìn)行內(nèi)容操作和分辨率增強(qiáng)。

1、DALL-E OpenAI / 2021

這項(xiàng)工作分兩個(gè)階段進(jìn)行:對(duì)圖像的標(biāo)記進(jìn)行訓(xùn)練，然后學(xué)習(xí)文本和圖像的聯(lián)合生成模型。

在第一階段，訓(xùn)練dVAE，其中將圖像從256x256x3空間轉(zhuǎn)換為32x32xdim并返回，其中dim是隱藏表示向量的維度?？偣灿?192個(gè)這樣的標(biāo)記向量，這些標(biāo)記向量將在模型中進(jìn)一步使用。

使用的主要模型是稀疏transformer 解碼器。文本令牌和圖像令牌作為輸入，模型學(xué)習(xí)聯(lián)合分布(Causal LM)，之后可以基于文本生成圖像令牌。dVAE基于這些相同的令牌生成一個(gè)映像。文本標(biāo)記的損失權(quán)重是1/8，圖像標(biāo)記的權(quán)重?fù)p失是7/8。

對(duì)于文本標(biāo)記，有常規(guī)嵌入和位置嵌入，對(duì)于圖像標(biāo)記，有常規(guī)的、按列定位的和按行定位的嵌入。文本標(biāo)記序列的最大長(zhǎng)度為256，標(biāo)記化為BPE (16K詞匯表)。

2、GLIDE OpenAI / 2021

一種在像素級(jí)操作并由文本控制的擴(kuò)散模型(DM)。它基于U-Net架構(gòu)，具有卷積、注意和殘差連接。使用不同的方法來(lái)控制生成。使用CLIP獲得的圖像向量和文本向量的標(biāo)量積

3、Latent Diffusion [Stable Diffusion] CompVis [Stability AI] / 2021 [2022]

在像素空間中工作的擴(kuò)散模型，主要包含2個(gè)模型：

一種用于從潛在空間降維和生成的VAE自編碼器
內(nèi)部表征的DM

自編碼器以類似gan的方式進(jìn)行訓(xùn)練，在其結(jié)果上使用鑒別器，并將額外的正則化表示與標(biāo)準(zhǔn)正態(tài)分布的接近程度。

結(jié)果在潛在空間中進(jìn)入DM解碼:如果條件是一個(gè)向量，則在步驟的輸入處與潛在向量連接，如果是一個(gè)向量序列，則用于不同U-Net層的交叉注意。對(duì)于文本提示使用CLIP向量。

這個(gè)通用的模型可以被訓(xùn)練用于不同的任務(wù):文本到圖像，著色，繪畫，超分辨率。

4、Imagen Google / 2022

Imagen背后的主要思想是增加文本編碼器的大小比增加DM的大小可以給生成模型帶來(lái)更多的好處。所以CLIP被替換為T5-XXL。

從圖像生成文本的模型

本節(jié)中的模型通常被稱為多模態(tài)模型，因?yàn)樗鼈冊(cè)谏晌谋镜耐瑫r(shí)能夠分析不同性質(zhì)的數(shù)據(jù)。生成的文本可以是自然語(yǔ)言，也可以是一組命令，例如機(jī)器人的命令。

1、CoCa Google / 2022

一個(gè)單獨(dú)的圖像編碼器(ViT或CNN) +一個(gè)共享解碼器，其中前半部分處理文本，后半部分與圖像編碼器的輸出共同處理文本。

288x288的圖像被切成18x18的塊，編碼器將其轉(zhuǎn)換為向量+基于所有這些向量的共享注意力池向量。

解碼器的前半部分的輸出是文本向量和序列末尾的CLS標(biāo)記向量，使用sentencepece (64K詞匯表)進(jìn)行標(biāo)記化。文本和圖像矢量通過(guò)交叉注意在解碼器的后半部分合并。

兩個(gè)損失的權(quán)重分別:

圖像的注意力池向量與圖像描述對(duì)的文本的CLS標(biāo)記向量之間的相似性。
整個(gè)解碼器輸出的自回歸損失(以圖像為條件)。

在微調(diào)過(guò)程中，圖像編碼器可以被凍結(jié)，只有注意力池可以被微調(diào)。

2、PaLM-E Google / 2023

圖像由ViT編碼，輸出向量以及文本令牌和命令被輸入PaLM, PaLM生成輸出文本。

PaLM-E用于所有任務(wù)，包括 VQA、對(duì)象檢測(cè)和機(jī)器人操作。

3、GPT-4 OpenAI / 2023

這是一個(gè)具有少量已知細(xì)節(jié)的封閉模型。據(jù)推測(cè)，它有一個(gè)具有稀疏注意力和多模態(tài)輸入的解碼器。它使用自回歸訓(xùn)練和微調(diào)RLHF，序列長(zhǎng)度從8K到32K。

它已經(jīng)在人類考試中進(jìn)行了零樣本和少樣本的測(cè)試，并達(dá)到了類似人類的水平。它可以立即和逐步解決基于圖像的問(wèn)題(包括數(shù)學(xué)問(wèn)題)，理解和解釋圖像，并可以分析和生成代碼。還適用于不同的語(yǔ)言，包括小語(yǔ)種。

總結(jié)

下面是簡(jiǎn)短結(jié)論。它們可能不完整，或者根本不正確，所以僅供參考。

自動(dòng)顯卡不能挖礦以后，各種大型模型蜂擁而至，模型的基數(shù)一直在增長(zhǎng)，但是簡(jiǎn)單的層的增加和數(shù)據(jù)集的增長(zhǎng)被各種更好的技術(shù)替代，這些技術(shù)允許質(zhì)量改進(jìn)(使用外部數(shù)據(jù)和工具，改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)和新的微調(diào)技術(shù))。但是越來(lái)越多的工作表明訓(xùn)練數(shù)據(jù)的質(zhì)量比數(shù)量更重要：正確選擇和形成數(shù)據(jù)集可以減少訓(xùn)練時(shí)間并提高結(jié)果質(zhì)量。

OpenAI現(xiàn)在正在走向閉源，他們已經(jīng)嘗試過(guò)不釋放GPT-2的權(quán)重但沒(méi)有成功。但是GPT4是黑盒，近幾個(gè)月來(lái)改進(jìn)和優(yōu)化開(kāi)源模型的微調(diào)成本和推理速度的趨勢(shì)在很大程度上降低了大型私有模型作為產(chǎn)品的價(jià)值，開(kāi)源模型在質(zhì)量上也正迅速趕上巨頭，這又可以彎道超車了。

最后開(kāi)源模型的總結(jié)如下：

在編碼器模型塊中，XLM-RoBERTa 和 LaBSE 模型被認(rèn)為是可靠的多語(yǔ)言解決方案；
在開(kāi)放的生成模型中，最有趣的是 LLaMA 和來(lái)自 EleutherAI 的模型（都有它們所有的微調(diào)版本）、Dolly-2、BLOOM（同樣有指令微調(diào)選項(xiàng)）；
代碼方面，SantaCoder的模型還不錯(cuò)，但是總體來(lái)說(shuō)質(zhì)量也明顯落后于ChatGPT/GPT-4；
Transformer-XL 和 Sparse Transformer 實(shí)現(xiàn)了其他模型中使用的技術(shù)，可以仔細(xì)研究；

以上，僅供參考。

責(zé)任編輯：華軒來(lái)源： DeepHub IMBA

人工智能機(jī)器學(xué)習(xí)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="jcyrf"></cite>

<cite id="jcyrf"><track id="jcyrf"></track></cite>