自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Transformers回顧 :從BERT到GPT4

人工智能
人工智能已成為近年來(lái)最受關(guān)注的話題之一,由于神經(jīng)網(wǎng)絡(luò)的發(fā)展,曾經(jīng)被認(rèn)為純粹是科幻小說(shuō)中的服務(wù)現(xiàn)在正在成為現(xiàn)實(shí)。從對(duì)話代理到媒體內(nèi)容生成,人工智能正在改變我們與技術(shù)互動(dòng)的方式。特別是機(jī)器學(xué)習(xí) (ML) 模型在自然語(yǔ)言處理 (NLP) 領(lǐng)域取得了重大進(jìn)展。

人工智能已成為近年來(lái)最受關(guān)注的話題之一,由于神經(jīng)網(wǎng)絡(luò)的發(fā)展,曾經(jīng)被認(rèn)為純粹是科幻小說(shuō)中的服務(wù)現(xiàn)在正在成為現(xiàn)實(shí)。從對(duì)話代理到媒體內(nèi)容生成,人工智能正在改變我們與技術(shù)互動(dòng)的方式。特別是機(jī)器學(xué)習(xí) (ML) 模型在自然語(yǔ)言處理 (NLP) 領(lǐng)域取得了重大進(jìn)展。一個(gè)關(guān)鍵的突破是引入了“自注意力”和用于序列處理的Transformers架構(gòu),這使得之前主導(dǎo)該領(lǐng)域的幾個(gè)關(guān)鍵問(wèn)題得以解決。

圖片

在本文中,我們將研究革命性的Transformers架構(gòu)以及它如何改變NLP,我們還將全面回顧從BERT到Alpaca的Transformers模型,重點(diǎn)介紹每種模型的主要特征及其潛在應(yīng)用。

類似bert的文本模型

第一部分是基于Transformer編碼器的模型,用于向量化、分類、序列標(biāo)記、QA(問(wèn)答)、NER(命名實(shí)體識(shí)別)等。

1、BERT Google / 2018

Transformer 編碼器,wordpiece tokenization(30K 詞匯量)。輸入嵌入由三個(gè)向量組成:標(biāo)記向量、可訓(xùn)練位置向量和片段向量(第一個(gè)文本或第二個(gè)文本)。模型輸入是 CLS 標(biāo)記嵌入、第一個(gè)文本的嵌入和第二個(gè)文本的嵌入。

BERT 有兩個(gè)訓(xùn)練任務(wù):Masked Language Modeling (MLM) 和 Next Sentence Prediction (NSP)。在 MLM 中,15% 的令牌被屏蔽,80% 被 MASK 令牌替換,10% 被隨機(jī)令牌替換,10% 保持不變。模型會(huì)預(yù)測(cè)正確的 令牌,而損失僅在這 15% 的屏蔽令牌上計(jì)算。在 NSP 中,模型預(yù)測(cè)第二個(gè)文本是否跟在第一個(gè)文本之后。預(yù)測(cè)是在 CLS 令牌的輸出向量上進(jìn)行的。

為了加快訓(xùn)練速度,首先90%的訓(xùn)練在序列長(zhǎng)度為 128 個(gè)標(biāo)記上進(jìn)行,然后剩下的10% 的時(shí)間在 512 個(gè)標(biāo)記上訓(xùn)練模型以獲得更有效的位置嵌入。

2、RoBERTa Facebook / 2019

BERT的改進(jìn)版本,它只在MLM上訓(xùn)練(因?yàn)镹SP被認(rèn)為不太有用),訓(xùn)練序列更長(zhǎng)(512個(gè)令牌)。使用動(dòng)態(tài)屏蔽(當(dāng)再次處理相同的數(shù)據(jù)時(shí),不同的令牌被屏蔽),訓(xùn)練超參數(shù)是精心選擇的。

3、XLM Facebook / 2019

訓(xùn)練多語(yǔ)言模型的方法之一是使用不同的基本模型(目前最流行的模型是基于RoBERTa的XLM-R)。在最初的XLM中,所有語(yǔ)言都有一個(gè)共享的BPE詞匯表。

XLM 有兩個(gè)訓(xùn)練任務(wù):MLM和翻譯。翻譯本質(zhì)上與一對(duì)文本上的 MLM 相同,但文本是彼此的平行翻譯,具有隨機(jī)掩碼和段嵌入編碼語(yǔ)言。

4、Transformer-XL Carnegie Mellon University / 2019

該模型設(shè)計(jì)用于處理長(zhǎng)序列,主要有兩個(gè)思想:片段的循環(huán)處理和相對(duì)位置編碼。

長(zhǎng)文本被分成幾個(gè)片段,每次處理一個(gè)片段。前一段的輸出被緩存,在計(jì)算當(dāng)前段中的自我關(guān)注時(shí),鍵和值是基于當(dāng)前段和前一段的輸出計(jì)算的(只是簡(jiǎn)單地連接在一起)。梯度也只在當(dāng)前段內(nèi)計(jì)算。

這種方法不適用于絕對(duì)位置。所以模型中重新參數(shù)化了注意力權(quán)重公式。絕對(duì)的位置編碼向量被一個(gè)固定的矩陣取代,該矩陣基于標(biāo)記位置之間距離的正弦值和對(duì)所有位置共有的可訓(xùn)練向量。

5、ERNIE 清華大學(xué),華為 / 2019

將知識(shí)圖譜中有關(guān)命名實(shí)體的信息嵌入到 BERT 中。輸入由一組文本標(biāo)記和一組實(shí)體標(biāo)記組成(每個(gè)標(biāo)記代表整個(gè)實(shí)體)。文本標(biāo)記由 BERT 編碼。在 BERT 之上,有一組 K 編碼器塊(約占網(wǎng)絡(luò)參數(shù)的 3%)。在這些塊中:

  • 文本標(biāo)記的更新向量和實(shí)體標(biāo)記的原始向量首先獨(dú)立地計(jì)算自注意力;
  • 實(shí)體向量與它們?cè)谖谋局谐霈F(xiàn)的第一個(gè)標(biāo)記相匹配;
  • 使用GeLU 激活,并且用于獲得文本標(biāo)記的新隱藏表示;
  • 文本和實(shí)體標(biāo)記的新向量從隱藏表示中獲得,并作為輸入傳遞給下一個(gè)編碼器塊。

在預(yù)訓(xùn)練期間,計(jì)算三種損失:MLM、NSP 和來(lái)自令牌的實(shí)體預(yù)測(cè)(如自編碼器),自編碼器使用下面規(guī)則:

  • 在 5% 的情況下,實(shí)體被替換為錯(cuò)誤的實(shí)體,但匹配被保留,模型必須預(yù)測(cè)正確的實(shí)體;
  • 在 15% 的情況下,匹配被移除,模型必須僅基于文本來(lái)預(yù)測(cè)實(shí)體;
  • 在其他情況下,是正常的。

預(yù)訓(xùn)練模型可以像常規(guī) BERT 模型一樣進(jìn)行微調(diào)(有 CLS 令牌)。也可以使用額外的程序進(jìn)行微調(diào)以確定實(shí)體及其類型之間的關(guān)系。

6、XLNet Carnegie Mellon University / 2019

因?yàn)锽ERT訓(xùn)練過(guò)程存在問(wèn)題:

  • 在訓(xùn)練期間,損失計(jì)算僅計(jì)算掩碼標(biāo)記。
  • 只有個(gè)別標(biāo)記被屏蔽,一個(gè)屏蔽標(biāo)記的預(yù)測(cè)不會(huì)影響其他標(biāo)記的預(yù)測(cè)。
  • 模型在訓(xùn)練期間主動(dòng)看到的實(shí)際應(yīng)用程序中沒(méi)有 MASK 令牌。

XLNet 基于 Transformer-XL,除了替換語(yǔ)言建模 (PLM) 任務(wù)外,它學(xué)習(xí)在短的上下文中預(yù)測(cè)標(biāo)記,而不是直接使用 MASK。這確保了梯度會(huì)計(jì)算所有標(biāo)記并消除了對(duì)特殊掩碼標(biāo)記的需要。

上下文中的標(biāo)記被打亂(比如:可以根據(jù)第 i-2個(gè)和第i+1個(gè)標(biāo)記預(yù)測(cè)第 i 個(gè)標(biāo)記),但它們的位置仍然是已知的。這無(wú)法通過(guò)當(dāng)前的位置編碼(包括 Transformer-XL)實(shí)現(xiàn)。當(dāng)嘗試在給定上下文的一部分的情況下預(yù)測(cè)令牌的概率時(shí),模型不應(yīng)該知道本身的令牌,但應(yīng)該知道令牌在上下文中的位置。為了解決這個(gè)問(wèn)題,他們將self-attention 分為兩個(gè)流:

  • 在每個(gè)標(biāo)記位置,有兩個(gè)向量而不是一個(gè):內(nèi)容向量和查詢向量。
  • 內(nèi)容向量包含有關(guān)令牌的完整信息,而查詢向量?jī)H包含位置信息。
  • token 的兩個(gè)向量都是基于上下文向量計(jì)算的,但是 self-attention 中的查詢向量是使用過(guò)去的內(nèi)容向量計(jì)算的,內(nèi)容向量是使用過(guò)去的查詢向量計(jì)算的。
  • query vector 不接收關(guān)于相應(yīng) token 的內(nèi)容的信息,但知道上下文的所有信息,而 content vector 包含完整的信息。

在微調(diào)期間,如果忽略查詢向量,模型將像常規(guī)的 Transformer-XL 一樣工作。

在實(shí)踐中該模型的要求上下文必須足夠長(zhǎng),以便模型能夠正確學(xué)習(xí)。它在與 RoBERTa 相同數(shù)量的數(shù)據(jù)上學(xué)習(xí),結(jié)果相似,但由于實(shí)現(xiàn)的復(fù)雜性,該模型并沒(méi)有像 RoBERTa 那樣流行。

7、ALBERT Google / 2019

在不犧牲質(zhì)量的情況下簡(jiǎn)化BERT:

  • 在不同的編碼器塊中使用共同的參數(shù),并且已經(jīng)證明可以共享自注意力的權(quán)重,但是分離全連接層的權(quán)重會(huì)導(dǎo)致質(zhì)量下降。
  • 與BERT相比,使用了更小的輸入嵌入和更大的隱藏層向量。這可以通過(guò)在網(wǎng)絡(luò)輸入處使用一個(gè)額外的投影矩陣來(lái)實(shí)現(xiàn),這樣也可以將嵌入的大小與隱藏表示的大小解耦。
  • 模型的參數(shù)減少了18倍,運(yùn)行速度提高了1.7倍。

模型在MLM和句子順序預(yù)測(cè)(SOP)上進(jìn)行訓(xùn)練。

8、DistilBERT Google / 2019

另一種優(yōu)化BERT的方法是蒸餾:

  • 編碼器塊的數(shù)量減半
  • 三個(gè)損失成分:MLM、與教師模型輸出的交叉熵,以及相應(yīng)層輸出之間的余弦距離。
  • 模型比教師模型小40%,速度快60%,并且在各種任務(wù)上保持了97%的質(zhì)量。

9、LaBSE Google / 2020

基于BERT的多語(yǔ)言矢量化模型。它在MLM和TLM上進(jìn)行訓(xùn)練(20%的標(biāo)記被屏蔽),然后對(duì)其進(jìn)行微調(diào)。它支持100多種語(yǔ)言,包含500K個(gè)標(biāo)記的詞匯表。

10、ELECTRA Google, Stanford University / 2020

使用生成對(duì)抗方法加速BERT訓(xùn)練:

  • 訓(xùn)練了兩個(gè)類bert模型:一個(gè)小型生成器和一個(gè)主鑒別器
  • 生成器在MLM上進(jìn)行訓(xùn)練,然后填充掩碼令牌
  • 鑒別器被訓(xùn)練來(lái)預(yù)測(cè)由生成器生成的文本的原創(chuàng)性(替換檢測(cè)任務(wù))
  • 訓(xùn)練完成后,去掉生成器,用鑒別器進(jìn)行微調(diào)

訓(xùn)練數(shù)據(jù)的數(shù)量與RoBERTa或XLNet相同,并且模型比BERT、RoBERTa和ALBERT更快地學(xué)習(xí)到相似的質(zhì)量水平。訓(xùn)練時(shí)間越長(zhǎng),它的表現(xiàn)就越好。

11、DeBERTa Microsoft / 2020

另一種將標(biāo)記向量的內(nèi)容和位置分離為兩個(gè)單獨(dú)的向量的模型:

  • 位置向量在所有層之間共享,并且是相對(duì)的,即標(biāo)記之間的每個(gè)可能距離都有一個(gè)。
  • 為它們添加了兩個(gè)新的權(quán)重矩陣K_pos和Q_pos。
  • 對(duì)注意力權(quán)重計(jì)算進(jìn)行修改,簡(jiǎn)化為三個(gè)乘積的和:Q_cont * K_cont + Q_cont * K_pos + K_cont * Q_pos
  • 與ALBERT中一樣,使用投影矩陣將嵌入大小與隱藏標(biāo)記表示向量的大小解耦。

類似GPT 和T5的而模型

基于完整Transformers的模型。它的應(yīng)用范圍非常廣泛:除了上一節(jié)的任務(wù)外,它還包括會(huì)話代理、機(jī)器翻譯、邏輯和數(shù)學(xué)推理、代碼分析和生成,以及基本上文本生成。最大和“最智能”的模型通?;诮獯a器架構(gòu)。此類模型通常在 few-shot 和 zero-shot 模式下無(wú)需微調(diào)即可表現(xiàn)良好。

1、GPT-2 OpenAI / 2018

解碼器在因果LM的任務(wù)上進(jìn)行訓(xùn)練(根據(jù)左側(cè)上下文預(yù)測(cè)下一個(gè)令牌)。從體系結(jié)構(gòu)的角度來(lái)看,有一些小的變化:從每個(gè)解碼器塊中移除交叉注意層,并使用了LayerNorm

使用的標(biāo)記器是字節(jié)級(jí)BPE (50K詞匯表),沒(méi)有使用類似的子字符串例如(“dog”、“dog!”、“dog.”)。最大序列長(zhǎng)度為 1024。層輸出緩存所有先前生成的標(biāo)記。

2、T5 Google / 2019

在MLM上進(jìn)行完整的預(yù)訓(xùn)練(15%的令牌被屏蔽),跨度由代碼掩碼(<X><Y>,…)屏蔽。輸出預(yù)測(cè)序列<X>span<Y>span…

LayerNorm在自注意力層和全連接層輸入之前應(yīng)用。使用相對(duì)位置編碼:

位置由可學(xué)習(xí)的嵌入編碼,其中每個(gè)“嵌入”只是在計(jì)算注意力權(quán)重時(shí)添加相應(yīng)logit的標(biāo)量。

矩陣B是跨層共享的,但對(duì)于不同的自注意力注頭是不同的。

每一層考慮令牌之間的128個(gè)距離,其余的歸零,這樣可以對(duì)比訓(xùn)練期間看到的序列更長(zhǎng)的序列進(jìn)行推理。

標(biāo)記化使用sentencepece (32K詞匯表)完成,在預(yù)訓(xùn)練期間最大序列長(zhǎng)度為512。

3、BART Facebook / 2019

另一個(gè)完整的transformers,但是用GeLU取代了ReLU。訓(xùn)練它從噪聲文本(AE去噪)中預(yù)測(cè)原始文本,噪聲類型如下:

  • 令牌屏蔽
  • 刪除令牌
  • 令牌填充
  • 句子中令牌順序顛倒
  • 使隨機(jī)令牌成為序列的開(kāi)始

使用字節(jié)級(jí)BPE(詞匯表大小為50K)

4、CTRL Salesforce / 2019

使用前綴代碼令牌(例如,<Horror> input text…)控制生成的解碼器。在訓(xùn)練期間將代碼分配給適當(dāng)?shù)奈谋荆缓笤谕评砥陂g使用代碼生成相應(yīng)樣式的文本。該模型是在因果LM上訓(xùn)練的,并且沒(méi)有使用額外的損失。使用的標(biāo)記化是BPE,詞匯表大小為250K。

5、GPT-3 OpenAI / 2020

這是一個(gè)具有Sparse Transformer架構(gòu)的GPT-2模型,并且增加了2048個(gè)令牌的序列長(zhǎng)度。還記的那句話嗎:別問(wèn),問(wèn)就是GPT3

6、mT5 Google / 2020

基于T5模型,具有類似的訓(xùn)練,但使用多語(yǔ)言數(shù)據(jù)。ReLU激活被替換為GeGLU,詞匯表擴(kuò)展到250K個(gè)標(biāo)記。

7、GLAM Google / 2021

這個(gè)模型在概念上類似于Switch Transformer,但更側(cè)重于在少樣本的模式下工作,而不是微調(diào)。不同規(guī)模的模型使用32到256個(gè)專家層,K=2。使用來(lái)自Transformer-XL的相對(duì)位置編碼。在處理令牌時(shí),只有不到10%的網(wǎng)絡(luò)參數(shù)被激活。

8、 LaMDA Google / 2021

類似gpt的模型。該模型是一個(gè)會(huì)話模型,在因果LM上進(jìn)行了預(yù)訓(xùn)練,并在生成和判別任務(wù)上進(jìn)行了微調(diào)。該模型還可以對(duì)外部系統(tǒng)(搜索、翻譯)的調(diào)用。

9、GPT-NeoX-20B EleutherAI / 2022

這個(gè)模型類似于GPT-J,也使用旋轉(zhuǎn)位置編碼。模型權(quán)重使用float16表示。最大序列長(zhǎng)度為2048。

10、BLOOM BigScience / 2022

這是46種語(yǔ)言和13種編程語(yǔ)言的最大開(kāi)源模型。為了訓(xùn)練模型,使用一個(gè)名為ROOTS的大型聚合數(shù)據(jù)集,其中包括大約500個(gè)開(kāi)放數(shù)據(jù)集。

11、PaLM Google / 2022

這是一個(gè)大型多語(yǔ)言解碼器模型,使用Adafactor進(jìn)行訓(xùn)練,在預(yù)訓(xùn)練時(shí)禁用dropout,在微調(diào)時(shí)使用0.1。

12、LLaMA Meta / 2023

用于科學(xué)研究的開(kāi)源大型gpt類LM,已用于訓(xùn)練多個(gè)指令模型。該模型使用了pre-LayerNorm、SwiGLU激活和RoPE位置嵌入。因?yàn)殚_(kāi)源所以這是彎道超車的主要模型之一。

文本的指導(dǎo)模型

這些模型抓喲用于校正模型輸出(例如 RLHF)以提高對(duì)話和任務(wù)解決期間的響應(yīng)質(zhì)量。

1、InstructGPT OpenAI / 2022

這項(xiàng)工作調(diào)整GPT-3以有效地遵循指示。該模型在一個(gè)由提示和答案組成的數(shù)據(jù)集上進(jìn)行微調(diào),這些提示和答案是人類根據(jù)一套標(biāo)準(zhǔn)認(rèn)為好的?;贗nstructGPT,OpenAI 創(chuàng)建了一個(gè)被我們現(xiàn)在熟知的模型ChatGPT。

2、Flan-T5 Google / 2022

適用于T5的指導(dǎo)模型。在某些任務(wù)中,F(xiàn)lan-T5 11B在沒(méi)有這種微調(diào)的情況下優(yōu)于PaLM 62B。這些模型已經(jīng)作為開(kāi)源發(fā)布。

3、Sparrow DeepMind / 2022

基本模型是通過(guò)在選定的高質(zhì)量對(duì)話上對(duì)Chinchilla進(jìn)行微調(diào)獲得的,前80%的層被凍結(jié)。然后該模型被進(jìn)一步訓(xùn)練,使用一個(gè)大提示來(lái)引導(dǎo)它進(jìn)行對(duì)話。有幾個(gè)獎(jiǎng)勵(lì)模型也在Chinchilla的基礎(chǔ)上進(jìn)行訓(xùn)練。該模型可以訪問(wèn)搜索引擎并檢索最多500個(gè)字符的片段,這些片段可以成為響應(yīng)。

在推理過(guò)程中,獎(jiǎng)勵(lì)模型用于對(duì)候選人進(jìn)行排序。候選項(xiàng)要么由模型生成,要么從搜索中獲得,然后最好的一個(gè)成為響應(yīng)。

4、Alpaca Stanford University / 2023

上面LLaMA 的指導(dǎo)模型。主要重點(diǎn)是使用GPT-3構(gòu)建數(shù)據(jù)集的過(guò)程:

  • 目標(biāo)是獲得一組Task-Input-Output三元組,其中Input可以為空。
  • 人類會(huì)生成175個(gè)帶有答案的任務(wù)提示,這些提示被輸入到GPT-3中,GPT-3會(huì)生成新的任務(wù)。
  • 生成過(guò)程是迭代的,在每個(gè)步驟中,都提供了一些來(lái)自人類的任務(wù)示例和一些來(lái)自先前生成的任務(wù)示例。
  • GPT-3將生成的任務(wù)分為分類任務(wù)或非分類任務(wù),并根據(jù)此生成不同的輸入和輸出。
  • 三元組根據(jù)質(zhì)量和與數(shù)據(jù)庫(kù)中現(xiàn)有三元組的不相似度進(jìn)行過(guò)濾。

總共生成了52K個(gè)唯一的三元組,并對(duì)LLaMA 7B進(jìn)行了微調(diào)。

5、Koala Berkeley University / 2023

這是在指令數(shù)據(jù)上對(duì)LLaMA進(jìn)行微調(diào),但與上面的Alpaca不同的是,它不僅在GPT-3等大型模型生成的數(shù)據(jù)上進(jìn)行微調(diào)。還數(shù)據(jù)集的組成為:

  • 30k個(gè)關(guān)于數(shù)學(xué)、詩(shī)歌和對(duì)話的說(shuō)明和回答樣本;
  • 52K個(gè)Alpaca 數(shù)據(jù)集的樣本;
  • 160K對(duì)用戶對(duì)有用性和危害偏好的模型響應(yīng);
  • 20K對(duì)帶有用戶問(wèn)題和評(píng)分的模型回答;
  • 93K個(gè)總結(jié),用戶對(duì)其質(zhì)量評(píng)分;

與GPT-3相比,沒(méi)有質(zhì)量的增加。但是在盲測(cè)中,用戶更喜歡Koala 的回答,而不是Alpaca 的回答。

從文本生成圖像的模型

基于文本描述的圖像生成器。擴(kuò)散模型與transformers 相結(jié)合在這一領(lǐng)域占據(jù)主導(dǎo)地位,不僅可以生成圖像,還可以進(jìn)行內(nèi)容操作和分辨率增強(qiáng)。

1、DALL-E OpenAI / 2021

這項(xiàng)工作分兩個(gè)階段進(jìn)行:對(duì)圖像的標(biāo)記進(jìn)行訓(xùn)練,然后學(xué)習(xí)文本和圖像的聯(lián)合生成模型。

在第一階段,訓(xùn)練dVAE,其中將圖像從256x256x3空間轉(zhuǎn)換為32x32xdim并返回,其中dim是隱藏表示向量的維度??偣灿?192個(gè)這樣的標(biāo)記向量,這些標(biāo)記向量將在模型中進(jìn)一步使用。

使用的主要模型是稀疏transformer 解碼器。文本令牌和圖像令牌作為輸入,模型學(xué)習(xí)聯(lián)合分布(Causal LM),之后可以基于文本生成圖像令牌。dVAE基于這些相同的令牌生成一個(gè)映像。文本標(biāo)記的損失權(quán)重是1/8,圖像標(biāo)記的權(quán)重?fù)p失是7/8。

對(duì)于文本標(biāo)記,有常規(guī)嵌入和位置嵌入,對(duì)于圖像標(biāo)記,有常規(guī)的、按列定位的和按行定位的嵌入。文本標(biāo)記序列的最大長(zhǎng)度為256,標(biāo)記化為BPE (16K詞匯表)。

2、GLIDE OpenAI / 2021

一種在像素級(jí)操作并由文本控制的擴(kuò)散模型(DM)。它基于U-Net架構(gòu),具有卷積、注意和殘差連接。使用不同的方法來(lái)控制生成。使用CLIP獲得的圖像向量和文本向量的標(biāo)量積

3、Latent Diffusion [Stable Diffusion] CompVis [Stability AI] / 2021 [2022]

在像素空間中工作的擴(kuò)散模型,主要包含2個(gè)模型:

  • 一種用于從潛在空間降維和生成的VAE自編碼器
  • 內(nèi)部表征的DM

自編碼器以類似gan的方式進(jìn)行訓(xùn)練,在其結(jié)果上使用鑒別器,并將額外的正則化表示與標(biāo)準(zhǔn)正態(tài)分布的接近程度。

結(jié)果在潛在空間中進(jìn)入DM解碼:如果條件是一個(gè)向量,則在步驟的輸入處與潛在向量連接,如果是一個(gè)向量序列,則用于不同U-Net層的交叉注意。對(duì)于文本提示使用CLIP向量。

這個(gè)通用的模型可以被訓(xùn)練用于不同的任務(wù):文本到圖像,著色,繪畫,超分辨率。

4、Imagen Google / 2022

Imagen背后的主要思想是增加文本編碼器的大小比增加DM的大小可以給生成模型帶來(lái)更多的好處。所以CLIP被替換為T5-XXL。

從圖像生成文本的模型

本節(jié)中的模型通常被稱為多模態(tài)模型,因?yàn)樗鼈冊(cè)谏晌谋镜耐瑫r(shí)能夠分析不同性質(zhì)的數(shù)據(jù)。生成的文本可以是自然語(yǔ)言,也可以是一組命令,例如機(jī)器人的命令。

1、CoCa Google / 2022

一個(gè)單獨(dú)的圖像編碼器(ViT或CNN) +一個(gè)共享解碼器,其中前半部分處理文本,后半部分與圖像編碼器的輸出共同處理文本。

288x288的圖像被切成18x18的塊,編碼器將其轉(zhuǎn)換為向量+基于所有這些向量的共享注意力池向量。

解碼器的前半部分的輸出是文本向量和序列末尾的CLS標(biāo)記向量,使用sentencepece (64K詞匯表)進(jìn)行標(biāo)記化。文本和圖像矢量通過(guò)交叉注意在解碼器的后半部分合并。

兩個(gè)損失的權(quán)重分別:

  • 圖像的注意力池向量與圖像描述對(duì)的文本的CLS標(biāo)記向量之間的相似性。
  • 整個(gè)解碼器輸出的自回歸損失(以圖像為條件)。

在微調(diào)過(guò)程中,圖像編碼器可以被凍結(jié),只有注意力池可以被微調(diào)。

2、PaLM-E Google / 2023

圖像由ViT編碼,輸出向量以及文本令牌和命令被輸入PaLM, PaLM生成輸出文本。

PaLM-E用于所有任務(wù),包括 VQA、對(duì)象檢測(cè)和機(jī)器人操作。

3、GPT-4 OpenAI / 2023

這是一個(gè)具有少量已知細(xì)節(jié)的封閉模型。據(jù)推測(cè),它有一個(gè)具有稀疏注意力和多模態(tài)輸入的解碼器。它使用自回歸訓(xùn)練和微調(diào)RLHF,序列長(zhǎng)度從8K到32K。

它已經(jīng)在人類考試中進(jìn)行了零樣本和少樣本的測(cè)試,并達(dá)到了類似人類的水平。它可以立即和逐步解決基于圖像的問(wèn)題(包括數(shù)學(xué)問(wèn)題),理解和解釋圖像,并可以分析和生成代碼。還適用于不同的語(yǔ)言,包括小語(yǔ)種。

總結(jié)

下面是簡(jiǎn)短結(jié)論。它們可能不完整,或者根本不正確,所以僅供參考。

自動(dòng)顯卡不能挖礦以后,各種大型模型蜂擁而至,模型的基數(shù)一直在增長(zhǎng),但是簡(jiǎn)單的層的增加和數(shù)據(jù)集的增長(zhǎng)被各種更好的技術(shù)替代,這些技術(shù)允許質(zhì)量改進(jìn)(使用外部數(shù)據(jù)和工具,改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)和新的微調(diào)技術(shù))。但是越來(lái)越多的工作表明訓(xùn)練數(shù)據(jù)的質(zhì)量比數(shù)量更重要:正確選擇和形成數(shù)據(jù)集可以減少訓(xùn)練時(shí)間并提高結(jié)果質(zhì)量。

OpenAI現(xiàn)在正在走向閉源,他們已經(jīng)嘗試過(guò)不釋放GPT-2的權(quán)重但沒(méi)有成功。但是GPT4是黑盒,近幾個(gè)月來(lái)改進(jìn)和優(yōu)化開(kāi)源模型的微調(diào)成本和推理速度的趨勢(shì)在很大程度上降低了大型私有模型作為產(chǎn)品的價(jià)值,開(kāi)源模型在質(zhì)量上也正迅速趕上巨頭,這又可以彎道超車了。

最后開(kāi)源模型的總結(jié)如下:

  • 在編碼器模型塊中,XLM-RoBERTa 和 LaBSE 模型被認(rèn)為是可靠的多語(yǔ)言解決方案;
  • 在開(kāi)放的生成模型中,最有趣的是 LLaMA 和來(lái)自 EleutherAI 的模型(都有它們所有的微調(diào)版本)、Dolly-2、BLOOM(同樣有指令微調(diào)選項(xiàng));
  • 代碼方面,SantaCoder的模型還不錯(cuò),但是總體來(lái)說(shuō)質(zhì)量也明顯落后于ChatGPT/GPT-4;
  • Transformer-XL 和 Sparse Transformer 實(shí)現(xiàn)了其他模型中使用的技術(shù),可以仔細(xì)研究;

以上,僅供參考。

責(zé)任編輯:華軒 來(lái)源: DeepHub IMBA
相關(guān)推薦

2024-06-11 09:20:48

2024-04-08 10:12:20

GPT4AgentAI

2023-08-02 08:44:33

人工智能Kaggle科研繪圖

2023-04-25 15:41:59

2025-03-07 08:41:50

2023-03-16 10:38:37

GPT4ChatGPT

2023-08-17 08:00:00

2023-05-30 11:16:15

人工智能GPT4

2023-10-29 18:14:08

GPT4機(jī)器人算法

2024-06-21 08:42:54

BERTNLP自然語(yǔ)言處理

2024-03-05 09:16:32

AI模型GPT-4

2023-04-20 14:43:38

Linux模型GPT4

2024-02-27 11:45:59

2023-05-17 15:15:16

2023-06-25 09:38:04

GPT-4研究

2023-03-15 14:15:06

GPT4ChatGPT網(wǎng)站

2022-11-25 14:24:27

2024-05-10 08:29:59

2010-06-02 09:15:15

Android

2023-04-02 18:00:56

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)