自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

探索Transformer的演變:從基礎(chǔ)到高級(jí)架構(gòu) 原創(chuàng)

發(fā)布于 2024-8-14 08:12
瀏覽
0收藏

本文探討了Transformer從原始模型到高級(jí)架構(gòu)的演變過(guò)程,并重點(diǎn)介紹這一過(guò)程中取得的重大進(jìn)展。

Vaswani等研究人員在2017年發(fā)表的開(kāi)創(chuàng)性論文《注意力是你所需要的一切》中介紹了Transformer架構(gòu),該架構(gòu)不僅徹底改變了語(yǔ)音識(shí)別技術(shù),也改變了許多其他領(lǐng)域。本文探討了Transformer的演變,追溯其從最初設(shè)計(jì)到最先進(jìn)模型的發(fā)展軌跡,并重點(diǎn)介紹這一過(guò)程中取得的重大進(jìn)展。

原始Transformer

原始Transformer模型引入了幾個(gè)突破性的概念:

  • 自關(guān)注機(jī)制:這讓模型確定每個(gè)組件在輸入序列中的重要性。
  • 位置編碼:在序列中添加有關(guān)令牌位置的信息,使模型能夠捕獲序列的順序。
  • 多頭注意力:這一功能允許模型同時(shí)關(guān)注輸入序列的不同部分,增強(qiáng)其理解復(fù)雜關(guān)系的能力。
  • 編碼器-解碼器架構(gòu):分離輸入和輸出序列的處理,實(shí)現(xiàn)更高效的序列到序列學(xué)習(xí)。

探索Transformer的演變:從基礎(chǔ)到高級(jí)架構(gòu)-AI.x社區(qū)

這些元素結(jié)合在一起,創(chuàng)建了一個(gè)強(qiáng)大而靈活的架構(gòu),其性能優(yōu)于之前的序列到序列(S2S)模型,特別是在機(jī)器翻譯任務(wù)中。

編碼器-解碼器 Transformer 及其超越發(fā)展

最初的編碼器-解碼器架構(gòu)已經(jīng)被改編和修改,并取得了一些顯著的進(jìn)步:

  • BART (雙向和自回歸Transformer):結(jié)合了雙向編碼和自回歸解碼,在文本生成方面取得了顯著的成功。
  • T5 (文本到文本遷移轉(zhuǎn)換器):將所有NLP任務(wù)重新轉(zhuǎn)換為文本到文本的問(wèn)題,促進(jìn)多任務(wù)處理和遷移學(xué)習(xí)。
  • mT5(多語(yǔ)言T5):將T5的功能擴(kuò)展到101種語(yǔ)言,展示了其對(duì)多語(yǔ)言環(huán)境的適應(yīng)性。
  • MASS (掩碼序列到序列預(yù)訓(xùn)練):為序列到序列學(xué)習(xí)引入新的預(yù)訓(xùn)練目標(biāo),提高了模型性能。
  • UniLM(統(tǒng)一語(yǔ)言模型):集成雙向、單向和序列到序列語(yǔ)言建模,為各種NLP任務(wù)提供統(tǒng)一的方法。

BERT和預(yù)訓(xùn)練的興起

谷歌公司于2018年推出的BERT(基于Transformer的雙向編碼器表示)是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要里程碑。BERT推廣并完善了在大型文本語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練的概念,導(dǎo)致了NLP任務(wù)方法的范式轉(zhuǎn)變。以下了解BERT的創(chuàng)新及其影響。

掩碼語(yǔ)言建模(MLM)

  • 過(guò)程:隨機(jī)屏蔽每個(gè)序列中15%的令牌。然后,該模型嘗試根據(jù)周圍的場(chǎng)景來(lái)預(yù)測(cè)這些被屏蔽的令牌。
  • 雙向場(chǎng)景:與之前從左到右或從右到左處理文本的模型不同,掩碼語(yǔ)言建模(MLM)
  • 允許BERT同時(shí)從兩個(gè)方向考慮場(chǎng)景。
  • 深入理解:這種方法迫使模型對(duì)語(yǔ)言有更深入的了解,包括語(yǔ)法、語(yǔ)義和場(chǎng)景關(guān)系。
  • 變體掩碼:為了防止模型在微調(diào)過(guò)程中過(guò)度依賴[MASK]令牌(因?yàn)閇MASK]在推理過(guò)程中不會(huì)出現(xiàn)),80%的掩碼令牌被[MASK]替換,10%被隨機(jī)單詞替換,10%保持不變。

探索Transformer的演變:從基礎(chǔ)到高級(jí)架構(gòu)-AI.x社區(qū)

下句預(yù)測(cè)(NSP)

  • 過(guò)程:模型接收成對(duì)的句子,并且預(yù)測(cè)原文中的第二個(gè)句子是否緊跟著第一個(gè)句子。
  • 執(zhí)行:50%的時(shí)間,第二個(gè)句子是實(shí)際的下一個(gè)句子,50%是從語(yǔ)料庫(kù)中隨機(jī)抽取的句子。
  • 目的:這項(xiàng)任務(wù)幫助BERT理解句子之間的關(guān)系,這對(duì)于問(wèn)答和自然語(yǔ)言推理等任務(wù)至關(guān)重要。

探索Transformer的演變:從基礎(chǔ)到高級(jí)架構(gòu)-AI.x社區(qū)

子單詞令牌化

  • 過(guò)程:將單詞劃分為子單詞單元,平衡詞匯量的大小和處理詞匯外單詞的能力。
  • 優(yōu)點(diǎn):這種方法使BERT能夠處理各種語(yǔ)言,并有效地處理形態(tài)豐富的語(yǔ)言。

探索Transformer的演變:從基礎(chǔ)到高級(jí)架構(gòu)-AI.x社區(qū)

GPT:生成式預(yù)訓(xùn)練Transformer

OpenAI公司的生成式預(yù)訓(xùn)練Transformer (GPT)系列代表了語(yǔ)言建模方面的重大進(jìn)步,重點(diǎn)關(guān)注用于生成任務(wù)的Transformer解碼器架構(gòu)。GPT的每次迭代都在規(guī)模、功能和對(duì)自然語(yǔ)言處理的影響方面帶來(lái)了實(shí)質(zhì)性的改進(jìn)。

GPT-1 (2018年發(fā)布)

第一個(gè)GPT模型引入了大規(guī)模無(wú)監(jiān)督語(yǔ)言理解的預(yù)訓(xùn)練概念:

  • 架構(gòu):基于12層和1.17億個(gè)參數(shù)的Transformer解碼器。
  • 預(yù)訓(xùn)練:利用各種在線文本。
  • 任務(wù):根據(jù)前面的單詞預(yù)測(cè)下一個(gè)單詞。
  • 創(chuàng)新:證明了一個(gè)單一的無(wú)監(jiān)督模型可以針對(duì)不同的下游任務(wù)進(jìn)行微調(diào),在沒(méi)有特定任務(wù)架構(gòu)的情況下實(shí)現(xiàn)高性能。
  • 影響:GPT-1展示了NLP中遷移學(xué)習(xí)的潛力,其中在大型語(yǔ)料庫(kù)上預(yù)訓(xùn)練的模型可以通過(guò)相對(duì)較少的標(biāo)記數(shù)據(jù)對(duì)特定任務(wù)進(jìn)行微調(diào)。

探索Transformer的演變:從基礎(chǔ)到高級(jí)架構(gòu)-AI.x社區(qū)

GPT-2 (2019年發(fā)布)

GPT-2顯著增加了模型大小,并表現(xiàn)出令人印象深刻的零樣本學(xué)習(xí)能力:

  • 架構(gòu):最大的版本有15億個(gè)參數(shù),是GPT-1的10倍多。
  • 訓(xùn)練數(shù)據(jù):使用更大、更多樣化的網(wǎng)頁(yè)數(shù)據(jù)集。
  • 特點(diǎn):能夠在各種主題和風(fēng)格上生成連貫和場(chǎng)景相關(guān)的文本。
  • 零樣本學(xué)習(xí): 通過(guò)簡(jiǎn)單地在輸入提示中提供指令,展示了執(zhí)行未經(jīng)專門訓(xùn)練的任務(wù)的能力。
  • 影響:GPT-2強(qiáng)調(diào)了語(yǔ)言模型的可擴(kuò)展性,并引發(fā)了關(guān)于強(qiáng)大文本生成系統(tǒng)的倫理影響的討論。

探索Transformer的演變:從基礎(chǔ)到高級(jí)架構(gòu)-AI.x社區(qū)

GPT-3 (2020年發(fā)布)

GPT-3代表了規(guī)模和能力的巨大飛躍:

  • 架構(gòu):由1750億個(gè)參數(shù)組成,比GPT-2大100多倍。
  • 訓(xùn)練數(shù)據(jù):利用來(lái)自互聯(lián)網(wǎng)、書籍和維基百科的大量文本。
  • 少樣本學(xué)習(xí):在不需要微調(diào)的情況下,只用少量例子或提示就能完成新任務(wù)。
  • 多功能性:展示了在各種任務(wù)中的熟練程度,包括翻譯、問(wèn)答、文本摘要,甚至基本的編碼。

探索Transformer的演變:從基礎(chǔ)到高級(jí)架構(gòu)-AI.x社區(qū)

GPT-4 (2023年發(fā)布)

GPT-4在之前版本模型奠定的基礎(chǔ)上,進(jìn)一步拓展了語(yǔ)言模型的可能性。

  • 架構(gòu):雖然具體的架構(gòu)細(xì)節(jié)和參數(shù)數(shù)量尚未公開(kāi)披露,但GPT-4被認(rèn)為比GPT-3更大、更復(fù)雜,其底層架構(gòu)得到了增強(qiáng),以提高效率和性能。
  • 訓(xùn)練數(shù)據(jù):GPT-4在更廣泛和多樣化的數(shù)據(jù)集上進(jìn)行了訓(xùn)練,包括廣泛的互聯(lián)網(wǎng)文本、學(xué)術(shù)論文、書籍和其他來(lái)源,確保了對(duì)各種學(xué)科的全面理解。
  • 先進(jìn)的少樣本和零樣本學(xué)習(xí):GPT-4表現(xiàn)出更強(qiáng)的能力,以最少的例子執(zhí)行新任務(wù),進(jìn)一步減少了對(duì)特定任務(wù)微調(diào)的需要。
  • 增強(qiáng)的場(chǎng)景理解:場(chǎng)景感知的改進(jìn)使GPT-4能夠生成更準(zhǔn)確、更符合場(chǎng)景的響應(yīng),使其在對(duì)話系統(tǒng)、內(nèi)容生成和復(fù)雜問(wèn)題解決等應(yīng)用程序中更加有效。
  • 多模態(tài)功能:GPT-4將文本與其他模態(tài)(例如圖像和可能的音頻)集成在一起,實(shí)現(xiàn)了更復(fù)雜、更通用的人工智能應(yīng)用程序,可以處理和生成不同媒體類型的內(nèi)容。
  • 倫理考慮和安全:OpenAI公司非常重視GPT-4的倫理部署,實(shí)施先進(jìn)的安全機(jī)制來(lái)減少潛在的濫用,并確保負(fù)責(zé)任地使用該技術(shù)。

注意力機(jī)制的創(chuàng)新

研究人員對(duì)注意力機(jī)制提出了各種修改,并取得了重大進(jìn)展:

  • 稀疏注意力:通過(guò)關(guān)注相關(guān)元素的子集,可以更有效地處理長(zhǎng)序列。
  • 自適應(yīng)注意力:根據(jù)輸入動(dòng)態(tài)調(diào)整注意力持續(xù)時(shí)間,增強(qiáng)模型處理不同任務(wù)的能力。
  • 交叉注意力變體:改進(jìn)解碼器處理編碼器輸出的方式,從而產(chǎn)生更準(zhǔn)確和場(chǎng)景相關(guān)的生成。

結(jié)論

Transformer架構(gòu)的演變是顯著的。從最初的介紹到現(xiàn)在最先進(jìn)的模型,Transformer一直在突破人工智能的極限。編碼器-解碼器結(jié)構(gòu)的多功能性,加上注意力機(jī)制和模型架構(gòu)的不斷創(chuàng)新,將繼續(xù)推動(dòng)NLP及其他領(lǐng)域的進(jìn)步。隨著研究的繼續(xù),人們可以期待進(jìn)一步的創(chuàng)新,將這些強(qiáng)大的模型的功能和應(yīng)用擴(kuò)展到各個(gè)領(lǐng)域。

原文標(biāo)題:Exploring the Evolution of Transformers: From Basic To Advanced Architectures,作者:Suri Nuthalapati

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦