自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

探索Transformer的演變:從基礎(chǔ)到高級架構(gòu)

譯文 精選
人工智能
本文探討了Transformer從原始模型到高級架構(gòu)的演變過程,并重點(diǎn)介紹這一過程中取得的重大進(jìn)展。

譯者 | 李睿

審校 | 重樓

Vaswani等研究人員在2017年發(fā)表的開創(chuàng)性論文《注意力是你所需要的一切》中介紹了Transformer架構(gòu),該架構(gòu)不僅徹底改變了語音識別技術(shù),也改變了許多其他領(lǐng)域。本文探討了Transformer的演變,追溯其從最初設(shè)計到最先進(jìn)模型的發(fā)展軌跡,并重點(diǎn)介紹這一過程中取得的重大進(jìn)展。

原始Transformer

原始Transformer模型引入了幾個突破性的概念:

  • 自關(guān)注機(jī)制:這讓模型確定每個組件在輸入序列中的重要性。
  • 位置編碼:在序列中添加有關(guān)令牌位置的信息,使模型能夠捕獲序列的順序。
  • 多頭注意力:這一功能允許模型同時關(guān)注輸入序列的不同部分,增強(qiáng)其理解復(fù)雜關(guān)系的能力。
  • 編碼器-解碼器架構(gòu):分離輸入和輸出序列的處理,實現(xiàn)更高效的序列到序列學(xué)習(xí)。

這些元素結(jié)合在一起,創(chuàng)建了一個強(qiáng)大而靈活的架構(gòu),其性能優(yōu)于之前的序列到序列(S2S)模型,特別是在機(jī)器翻譯任務(wù)中。

編碼器-解碼器 Transformer 及其超越發(fā)展

最初的編碼器-解碼器架構(gòu)已經(jīng)被改編和修改,并取得了一些顯著的進(jìn)步:

  • BART (雙向和自回歸Transformer):結(jié)合了雙向編碼和自回歸解碼,在文本生成方面取得了顯著的成功。
  • T5 (文本到文本遷移轉(zhuǎn)換器):將所有NLP任務(wù)重新轉(zhuǎn)換為文本到文本的問題,促進(jìn)多任務(wù)處理和遷移學(xué)習(xí)。
  • mT5(多語言T5):將T5的功能擴(kuò)展到101種語言,展示了其對多語言環(huán)境的適應(yīng)性。
  • MASS (掩碼序列到序列預(yù)訓(xùn)練):為序列到序列學(xué)習(xí)引入新的預(yù)訓(xùn)練目標(biāo),提高了模型性能。
  • UniLM(統(tǒng)一語言模型):集成雙向、單向和序列到序列語言建模,為各種NLP任務(wù)提供統(tǒng)一的方法。

BERT和預(yù)訓(xùn)練的興起

谷歌公司于2018年推出的BERT(基于Transformer的雙向編碼器表示)是自然語言處理領(lǐng)域的一個重要里程碑。BERT推廣并完善了在大型文本語料庫上進(jìn)行預(yù)訓(xùn)練的概念,導(dǎo)致了NLP任務(wù)方法的范式轉(zhuǎn)變。以下了解BERT的創(chuàng)新及其影響。

掩碼語言建模(MLM)

  • 過程:隨機(jī)屏蔽每個序列中15%的令牌。然后,該模型嘗試根據(jù)周圍的場景來預(yù)測這些被屏蔽的令牌。
  • 雙向場景:與之前從左到右或從右到左處理文本的模型不同,掩碼語言建模(MLM)。
  • 允許BERT同時從兩個方向考慮場景。
  • 深入理解:這種方法迫使模型對語言有更深入的了解,包括語法、語義和場景關(guān)系。
  • 變體掩碼:為了防止模型在微調(diào)過程中過度依賴[MASK]令牌(因為[MASK]在推理過程中不會出現(xiàn)),80%的掩碼令牌被[MASK]替換,10%被隨機(jī)單詞替換,10%保持不變。

下句預(yù)測(NSP)

  • 過程:模型接收成對的句子,并且預(yù)測原文中的第二個句子是否緊跟著第一個句子。
  • 執(zhí)行:50%的時間,第二個句子是實際的下一個句子,50%是從語料庫中隨機(jī)抽取的句子。
  • 目的:這項任務(wù)幫助BERT理解句子之間的關(guān)系,這對于問答和自然語言推理等任務(wù)至關(guān)重要。

子單詞令牌化

  • 過程:將單詞劃分為子單詞單元,平衡詞匯量的大小和處理詞匯外單詞的能力。
  • 優(yōu)點(diǎn):這種方法使BERT能夠處理各種語言,并有效地處理形態(tài)豐富的語言。

GPT:生成式預(yù)訓(xùn)練Transformer

OpenAI公司的生成式預(yù)訓(xùn)練Transformer (GPT)系列代表了語言建模方面的重大進(jìn)步,重點(diǎn)關(guān)注用于生成任務(wù)的Transformer解碼器架構(gòu)。GPT的每次迭代都在規(guī)模、功能和對自然語言處理的影響方面帶來了實質(zhì)性的改進(jìn)。

GPT-1 (2018年發(fā)布)

第一個GPT模型引入了大規(guī)模無監(jiān)督語言理解的預(yù)訓(xùn)練概念:

  • 架構(gòu):基于12層和1.17億個參數(shù)的Transformer解碼器。
  • 預(yù)訓(xùn)練:利用各種在線文本。
  • 任務(wù):根據(jù)前面的單詞預(yù)測下一個單詞。
  • 創(chuàng)新:證明了一個單一的無監(jiān)督模型可以針對不同的下游任務(wù)進(jìn)行微調(diào),在沒有特定任務(wù)架構(gòu)的情況下實現(xiàn)高性能。
  • 影響:GPT-1展示了NLP中遷移學(xué)習(xí)的潛力,其中在大型語料庫上預(yù)訓(xùn)練的模型可以通過相對較少的標(biāo)記數(shù)據(jù)對特定任務(wù)進(jìn)行微調(diào)。

GPT-2 (2019年發(fā)布)

GPT-2顯著增加了模型大小,并表現(xiàn)出令人印象深刻的零樣本學(xué)習(xí)能力:

  • 架構(gòu):最大的版本有15億個參數(shù),是GPT-1的10倍多。
  • 訓(xùn)練數(shù)據(jù):使用更大、更多樣化的網(wǎng)頁數(shù)據(jù)集。
  • 特點(diǎn):能夠在各種主題和風(fēng)格上生成連貫和場景相關(guān)的文本。
  • 零樣本學(xué)習(xí): 通過簡單地在輸入提示中提供指令,展示了執(zhí)行未經(jīng)專門訓(xùn)練的任務(wù)的能力。
  • 影響:GPT-2強(qiáng)調(diào)了語言模型的可擴(kuò)展性,并引發(fā)了關(guān)于強(qiáng)大文本生成系統(tǒng)的倫理影響的討論。

GPT-3 (2020年發(fā)布)

GPT-3代表了規(guī)模和能力的巨大飛躍:

  • 架構(gòu):由1750億個參數(shù)組成,比GPT-2大100多倍。
  • 訓(xùn)練數(shù)據(jù):利用來自互聯(lián)網(wǎng)、書籍和維基百科的大量文本。
  • 少樣本學(xué)習(xí):在不需要微調(diào)的情況下,只用少量例子或提示就能完成新任務(wù)。
  • 多功能性:展示了在各種任務(wù)中的熟練程度,包括翻譯、問答、文本摘要,甚至基本的編碼。

GPT-4 (2023年發(fā)布)

GPT-4在之前版本模型奠定的基礎(chǔ)上,進(jìn)一步拓展了語言模型的可能性。

  • 架構(gòu):雖然具體的架構(gòu)細(xì)節(jié)和參數(shù)數(shù)量尚未公開披露,但GPT-4被認(rèn)為比GPT-3更大、更復(fù)雜,其底層架構(gòu)得到了增強(qiáng),以提高效率和性能。
  • 訓(xùn)練數(shù)據(jù):GPT-4在更廣泛和多樣化的數(shù)據(jù)集上進(jìn)行了訓(xùn)練,包括廣泛的互聯(lián)網(wǎng)文本、學(xué)術(shù)論文、書籍和其他來源,確保了對各種學(xué)科的全面理解。
  • 先進(jìn)的少樣本和零樣本學(xué)習(xí):GPT-4表現(xiàn)出更強(qiáng)的能力,以最少的例子執(zhí)行新任務(wù),進(jìn)一步減少了對特定任務(wù)微調(diào)的需要。
  • 增強(qiáng)的場景理解:場景感知的改進(jìn)使GPT-4能夠生成更準(zhǔn)確、更符合場景的響應(yīng),使其在對話系統(tǒng)、內(nèi)容生成和復(fù)雜問題解決等應(yīng)用程序中更加有效。
  • 多模態(tài)功能:GPT-4將文本與其他模態(tài)(例如圖像和可能的音頻)集成在一起,實現(xiàn)了更復(fù)雜、更通用的人工智能應(yīng)用程序,可以處理和生成不同媒體類型的內(nèi)容。
  • 倫理考慮和安全:OpenAI公司非常重視GPT-4的倫理部署,實施先進(jìn)的安全機(jī)制來減少潛在的濫用,并確保負(fù)責(zé)任地使用該技術(shù)。

注意力機(jī)制的創(chuàng)新

研究人員對注意力機(jī)制提出了各種修改,并取得了重大進(jìn)展:

  • 稀疏注意力:通過關(guān)注相關(guān)元素的子集,可以更有效地處理長序列。
  • 自適應(yīng)注意力:根據(jù)輸入動態(tài)調(diào)整注意力持續(xù)時間,增強(qiáng)模型處理不同任務(wù)的能力。
  • 交叉注意力變體:改進(jìn)解碼器處理編碼器輸出的方式,從而產(chǎn)生更準(zhǔn)確和場景相關(guān)的生成。

結(jié)論

Transformer架構(gòu)的演變是顯著的。從最初的介紹到現(xiàn)在最先進(jìn)的模型,Transformer一直在突破人工智能的極限。編碼器-解碼器結(jié)構(gòu)的多功能性,加上注意力機(jī)制和模型架構(gòu)的不斷創(chuàng)新,將繼續(xù)推動NLP及其他領(lǐng)域的進(jìn)步。隨著研究的繼續(xù),人們可以期待進(jìn)一步的創(chuàng)新,將這些強(qiáng)大的模型的功能和應(yīng)用擴(kuò)展到各個領(lǐng)域。

原文標(biāo)題:Exploring the Evolution of Transformers: From Basic To Advanced Architectures,作者:Suri Nuthalapati

責(zé)任編輯:姜華 來源: 51CTO內(nèi)容精選
相關(guān)推薦

2020-09-24 08:45:10

React架構(gòu)源碼

2019-07-04 15:16:42

數(shù)據(jù)架構(gòu)Flink數(shù)據(jù)倉庫

2024-09-25 11:14:33

2024-11-27 15:49:46

字符串Python

2018-06-05 08:36:47

內(nèi)部部署云存儲

2023-08-09 08:00:00

數(shù)據(jù)倉庫數(shù)據(jù)架構(gòu)

2024-10-17 09:57:30

2020-09-30 09:15:24

React架構(gòu)遞歸

2013-05-29 10:33:16

2024-01-22 11:33:17

C++編程語言開發(fā)

2024-07-09 09:33:18

2024-12-30 09:55:44

2023-10-27 08:42:56

Python字典

2024-04-01 09:32:23

AccumulatePython工具

2015-06-15 09:29:56

聯(lián)想互聯(lián)網(wǎng)

2025-03-04 09:02:25

JavaSPI機(jī)制

2023-10-09 23:00:00

jsonPython

2024-10-16 15:25:15

2020-09-24 22:54:46

大數(shù)據(jù)IT技術(shù)

2025-01-21 08:00:00

自適應(yīng)框架框架開發(fā)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號