自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="ldelp"></style>

<blockquote id="ldelp"></blockquote>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

探索Transformer的演變：從基礎(chǔ)到高級架構(gòu)

作者：李睿 2024-08-14 08:16:53

本文探討了Transformer從原始模型到高級架構(gòu)的演變過程，并重點(diǎn)介紹這一過程中取得的重大進(jìn)展。

譯者 | 李睿

審校 | 重樓

Vaswani等研究人員在2017年發(fā)表的開創(chuàng)性論文《注意力是你所需要的一切》中介紹了Transformer架構(gòu)，該架構(gòu)不僅徹底改變了語音識別技術(shù)，也改變了許多其他領(lǐng)域。本文探討了Transformer的演變，追溯其從最初設(shè)計到最先進(jìn)模型的發(fā)展軌跡，并重點(diǎn)介紹這一過程中取得的重大進(jìn)展。

原始Transformer

原始Transformer模型引入了幾個突破性的概念：

自關(guān)注機(jī)制：這讓模型確定每個組件在輸入序列中的重要性。
位置編碼：在序列中添加有關(guān)令牌位置的信息，使模型能夠捕獲序列的順序。
多頭注意力：這一功能允許模型同時關(guān)注輸入序列的不同部分，增強(qiáng)其理解復(fù)雜關(guān)系的能力。
編碼器-解碼器架構(gòu)：分離輸入和輸出序列的處理，實現(xiàn)更高效的序列到序列學(xué)習(xí)。

這些元素結(jié)合在一起，創(chuàng)建了一個強(qiáng)大而靈活的架構(gòu)，其性能優(yōu)于之前的序列到序列(S2S)模型，特別是在機(jī)器翻譯任務(wù)中。

編碼器-解碼器 Transformer 及其超越發(fā)展

最初的編碼器-解碼器架構(gòu)已經(jīng)被改編和修改，并取得了一些顯著的進(jìn)步：

BART (雙向和自回歸Transformer)：結(jié)合了雙向編碼和自回歸解碼，在文本生成方面取得了顯著的成功。
T5 (文本到文本遷移轉(zhuǎn)換器)：將所有NLP任務(wù)重新轉(zhuǎn)換為文本到文本的問題，促進(jìn)多任務(wù)處理和遷移學(xué)習(xí)。
mT5(多語言T5)：將T5的功能擴(kuò)展到101種語言，展示了其對多語言環(huán)境的適應(yīng)性。
MASS (掩碼序列到序列預(yù)訓(xùn)練)：為序列到序列學(xué)習(xí)引入新的預(yù)訓(xùn)練目標(biāo)，提高了模型性能。
UniLM(統(tǒng)一語言模型)：集成雙向、單向和序列到序列語言建模，為各種NLP任務(wù)提供統(tǒng)一的方法。

BERT和預(yù)訓(xùn)練的興起

谷歌公司于2018年推出的BERT(基于Transformer的雙向編碼器表示)是自然語言處理領(lǐng)域的一個重要里程碑。BERT推廣并完善了在大型文本語料庫上進(jìn)行預(yù)訓(xùn)練的概念，導(dǎo)致了NLP任務(wù)方法的范式轉(zhuǎn)變。以下了解BERT的創(chuàng)新及其影響。

掩碼語言建模(MLM)

過程：隨機(jī)屏蔽每個序列中15%的令牌。然后，該模型嘗試根據(jù)周圍的場景來預(yù)測這些被屏蔽的令牌。
雙向場景：與之前從左到右或從右到左處理文本的模型不同，掩碼語言建模(MLM)。
允許BERT同時從兩個方向考慮場景。
深入理解：這種方法迫使模型對語言有更深入的了解，包括語法、語義和場景關(guān)系。
變體掩碼：為了防止模型在微調(diào)過程中過度依賴[MASK]令牌(因為[MASK]在推理過程中不會出現(xiàn))，80%的掩碼令牌被[MASK]替換，10%被隨機(jī)單詞替換，10%保持不變。

下句預(yù)測(NSP)

過程：模型接收成對的句子，并且預(yù)測原文中的第二個句子是否緊跟著第一個句子。
執(zhí)行：50%的時間，第二個句子是實際的下一個句子，50%是從語料庫中隨機(jī)抽取的句子。
目的：這項任務(wù)幫助BERT理解句子之間的關(guān)系，這對于問答和自然語言推理等任務(wù)至關(guān)重要。

子單詞令牌化

過程：將單詞劃分為子單詞單元，平衡詞匯量的大小和處理詞匯外單詞的能力。
優(yōu)點(diǎn)：這種方法使BERT能夠處理各種語言，并有效地處理形態(tài)豐富的語言。

GPT：生成式預(yù)訓(xùn)練Transformer

OpenAI公司的生成式預(yù)訓(xùn)練Transformer (GPT)系列代表了語言建模方面的重大進(jìn)步，重點(diǎn)關(guān)注用于生成任務(wù)的Transformer解碼器架構(gòu)。GPT的每次迭代都在規(guī)模、功能和對自然語言處理的影響方面帶來了實質(zhì)性的改進(jìn)。

GPT-1 (2018年發(fā)布)

第一個GPT模型引入了大規(guī)模無監(jiān)督語言理解的預(yù)訓(xùn)練概念：

架構(gòu)：基于12層和1.17億個參數(shù)的Transformer解碼器。
預(yù)訓(xùn)練：利用各種在線文本。
任務(wù)：根據(jù)前面的單詞預(yù)測下一個單詞。
創(chuàng)新：證明了一個單一的無監(jiān)督模型可以針對不同的下游任務(wù)進(jìn)行微調(diào)，在沒有特定任務(wù)架構(gòu)的情況下實現(xiàn)高性能。
影響：GPT-1展示了NLP中遷移學(xué)習(xí)的潛力，其中在大型語料庫上預(yù)訓(xùn)練的模型可以通過相對較少的標(biāo)記數(shù)據(jù)對特定任務(wù)進(jìn)行微調(diào)。

GPT-2 (2019年發(fā)布)

GPT-2顯著增加了模型大小，并表現(xiàn)出令人印象深刻的零樣本學(xué)習(xí)能力：

架構(gòu)：最大的版本有15億個參數(shù)，是GPT-1的10倍多。
訓(xùn)練數(shù)據(jù)：使用更大、更多樣化的網(wǎng)頁數(shù)據(jù)集。
特點(diǎn)：能夠在各種主題和風(fēng)格上生成連貫和場景相關(guān)的文本。
零樣本學(xué)習(xí)：通過簡單地在輸入提示中提供指令，展示了執(zhí)行未經(jīng)專門訓(xùn)練的任務(wù)的能力。
影響：GPT-2強(qiáng)調(diào)了語言模型的可擴(kuò)展性，并引發(fā)了關(guān)于強(qiáng)大文本生成系統(tǒng)的倫理影響的討論。

GPT-3 (2020年發(fā)布)

GPT-3代表了規(guī)模和能力的巨大飛躍：

架構(gòu)：由1750億個參數(shù)組成，比GPT-2大100多倍。
訓(xùn)練數(shù)據(jù)：利用來自互聯(lián)網(wǎng)、書籍和維基百科的大量文本。
少樣本學(xué)習(xí)：在不需要微調(diào)的情況下，只用少量例子或提示就能完成新任務(wù)。
多功能性：展示了在各種任務(wù)中的熟練程度，包括翻譯、問答、文本摘要，甚至基本的編碼。

GPT-4 (2023年發(fā)布)

GPT-4在之前版本模型奠定的基礎(chǔ)上，進(jìn)一步拓展了語言模型的可能性。

架構(gòu)：雖然具體的架構(gòu)細(xì)節(jié)和參數(shù)數(shù)量尚未公開披露，但GPT-4被認(rèn)為比GPT-3更大、更復(fù)雜，其底層架構(gòu)得到了增強(qiáng)，以提高效率和性能。
訓(xùn)練數(shù)據(jù)：GPT-4在更廣泛和多樣化的數(shù)據(jù)集上進(jìn)行了訓(xùn)練，包括廣泛的互聯(lián)網(wǎng)文本、學(xué)術(shù)論文、書籍和其他來源，確保了對各種學(xué)科的全面理解。
先進(jìn)的少樣本和零樣本學(xué)習(xí)：GPT-4表現(xiàn)出更強(qiáng)的能力，以最少的例子執(zhí)行新任務(wù)，進(jìn)一步減少了對特定任務(wù)微調(diào)的需要。
增強(qiáng)的場景理解：場景感知的改進(jìn)使GPT-4能夠生成更準(zhǔn)確、更符合場景的響應(yīng)，使其在對話系統(tǒng)、內(nèi)容生成和復(fù)雜問題解決等應(yīng)用程序中更加有效。
多模態(tài)功能：GPT-4將文本與其他模態(tài)(例如圖像和可能的音頻)集成在一起，實現(xiàn)了更復(fù)雜、更通用的人工智能應(yīng)用程序，可以處理和生成不同媒體類型的內(nèi)容。
倫理考慮和安全：OpenAI公司非常重視GPT-4的倫理部署，實施先進(jìn)的安全機(jī)制來減少潛在的濫用，并確保負(fù)責(zé)任地使用該技術(shù)。

注意力機(jī)制的創(chuàng)新

研究人員對注意力機(jī)制提出了各種修改，并取得了重大進(jìn)展：

稀疏注意力：通過關(guān)注相關(guān)元素的子集，可以更有效地處理長序列。
自適應(yīng)注意力：根據(jù)輸入動態(tài)調(diào)整注意力持續(xù)時間，增強(qiáng)模型處理不同任務(wù)的能力。
交叉注意力變體：改進(jìn)解碼器處理編碼器輸出的方式，從而產(chǎn)生更準(zhǔn)確和場景相關(guān)的生成。

結(jié)論

Transformer架構(gòu)的演變是顯著的。從最初的介紹到現(xiàn)在最先進(jìn)的模型，Transformer一直在突破人工智能的極限。編碼器-解碼器結(jié)構(gòu)的多功能性，加上注意力機(jī)制和模型架構(gòu)的不斷創(chuàng)新，將繼續(xù)推動NLP及其他領(lǐng)域的進(jìn)步。隨著研究的繼續(xù)，人們可以期待進(jìn)一步的創(chuàng)新，將這些強(qiáng)大的模型的功能和應(yīng)用擴(kuò)展到各個領(lǐng)域。

原文標(biāo)題：Exploring the Evolution of Transformers： From Basic To Advanced Architectures，作者：Suri Nuthalapati

責(zé)任編輯：姜華來源： 51CTO內(nèi)容精選

人工智能模型架構(gòu)? 編碼器

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="oyckv"></cite>

^{<blockquote id="oyckv"></blockquote>}

<cite id="oyckv"></cite>