自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="6ba1i"></sub>

<sup id="6ba1i"><rt id="6ba1i"></rt></sup>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

探索Transformer的演變：從基礎(chǔ)到高級(jí)架構(gòu) 原創(chuàng)

51CTO內(nèi)容精選

發(fā)布于 2024-8-14 08:12

瀏覽

0收藏

本文探討了Transformer從原始模型到高級(jí)架構(gòu)的演變過(guò)程，并重點(diǎn)介紹這一過(guò)程中取得的重大進(jìn)展。

Vaswani等研究人員在2017年發(fā)表的開(kāi)創(chuàng)性論文《注意力是你所需要的一切》中介紹了Transformer架構(gòu)，該架構(gòu)不僅徹底改變了語(yǔ)音識(shí)別技術(shù)，也改變了許多其他領(lǐng)域。本文探討了Transformer的演變，追溯其從最初設(shè)計(jì)到最先進(jìn)模型的發(fā)展軌跡，并重點(diǎn)介紹這一過(guò)程中取得的重大進(jìn)展。

原始Transformer

原始Transformer模型引入了幾個(gè)突破性的概念：

自關(guān)注機(jī)制：這讓模型確定每個(gè)組件在輸入序列中的重要性。
位置編碼：在序列中添加有關(guān)令牌位置的信息，使模型能夠捕獲序列的順序。
多頭注意力：這一功能允許模型同時(shí)關(guān)注輸入序列的不同部分，增強(qiáng)其理解復(fù)雜關(guān)系的能力。
編碼器-解碼器架構(gòu)：分離輸入和輸出序列的處理，實(shí)現(xiàn)更高效的序列到序列學(xué)習(xí)。

探索Transformer的演變：從基礎(chǔ)到高級(jí)架構(gòu)-AI.x社區(qū)

這些元素結(jié)合在一起，創(chuàng)建了一個(gè)強(qiáng)大而靈活的架構(gòu)，其性能優(yōu)于之前的序列到序列(S2S)模型，特別是在機(jī)器翻譯任務(wù)中。

編碼器-解碼器 Transformer 及其超越發(fā)展

最初的編碼器-解碼器架構(gòu)已經(jīng)被改編和修改，并取得了一些顯著的進(jìn)步：

BART (雙向和自回歸Transformer)：結(jié)合了雙向編碼和自回歸解碼，在文本生成方面取得了顯著的成功。
T5 (文本到文本遷移轉(zhuǎn)換器)：將所有NLP任務(wù)重新轉(zhuǎn)換為文本到文本的問(wèn)題，促進(jìn)多任務(wù)處理和遷移學(xué)習(xí)。
mT5(多語(yǔ)言T5)：將T5的功能擴(kuò)展到101種語(yǔ)言，展示了其對(duì)多語(yǔ)言環(huán)境的適應(yīng)性。
MASS (掩碼序列到序列預(yù)訓(xùn)練)：為序列到序列學(xué)習(xí)引入新的預(yù)訓(xùn)練目標(biāo)，提高了模型性能。
UniLM(統(tǒng)一語(yǔ)言模型)：集成雙向、單向和序列到序列語(yǔ)言建模，為各種NLP任務(wù)提供統(tǒng)一的方法。

BERT和預(yù)訓(xùn)練的興起

谷歌公司于2018年推出的BERT(基于Transformer的雙向編碼器表示)是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要里程碑。BERT推廣并完善了在大型文本語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練的概念，導(dǎo)致了NLP任務(wù)方法的范式轉(zhuǎn)變。以下了解BERT的創(chuàng)新及其影響。

掩碼語(yǔ)言建模(MLM)

過(guò)程：隨機(jī)屏蔽每個(gè)序列中15%的令牌。然后，該模型嘗試根據(jù)周圍的場(chǎng)景來(lái)預(yù)測(cè)這些被屏蔽的令牌。
雙向場(chǎng)景：與之前從左到右或從右到左處理文本的模型不同，掩碼語(yǔ)言建模(MLM)
允許BERT同時(shí)從兩個(gè)方向考慮場(chǎng)景。
深入理解：這種方法迫使模型對(duì)語(yǔ)言有更深入的了解，包括語(yǔ)法、語(yǔ)義和場(chǎng)景關(guān)系。
變體掩碼：為了防止模型在微調(diào)過(guò)程中過(guò)度依賴[MASK]令牌(因?yàn)閇MASK]在推理過(guò)程中不會(huì)出現(xiàn))，80%的掩碼令牌被[MASK]替換，10%被隨機(jī)單詞替換，10%保持不變。

探索Transformer的演變：從基礎(chǔ)到高級(jí)架構(gòu)-AI.x社區(qū)

下句預(yù)測(cè)(NSP)

過(guò)程：模型接收成對(duì)的句子，并且預(yù)測(cè)原文中的第二個(gè)句子是否緊跟著第一個(gè)句子。
執(zhí)行：50%的時(shí)間，第二個(gè)句子是實(shí)際的下一個(gè)句子，50%是從語(yǔ)料庫(kù)中隨機(jī)抽取的句子。
目的：這項(xiàng)任務(wù)幫助BERT理解句子之間的關(guān)系，這對(duì)于問(wèn)答和自然語(yǔ)言推理等任務(wù)至關(guān)重要。

探索Transformer的演變：從基礎(chǔ)到高級(jí)架構(gòu)-AI.x社區(qū)

子單詞令牌化

過(guò)程：將單詞劃分為子單詞單元，平衡詞匯量的大小和處理詞匯外單詞的能力。
優(yōu)點(diǎn)：這種方法使BERT能夠處理各種語(yǔ)言，并有效地處理形態(tài)豐富的語(yǔ)言。

探索Transformer的演變：從基礎(chǔ)到高級(jí)架構(gòu)-AI.x社區(qū)

GPT：生成式預(yù)訓(xùn)練Transformer

OpenAI公司的生成式預(yù)訓(xùn)練Transformer (GPT)系列代表了語(yǔ)言建模方面的重大進(jìn)步，重點(diǎn)關(guān)注用于生成任務(wù)的Transformer解碼器架構(gòu)。GPT的每次迭代都在規(guī)模、功能和對(duì)自然語(yǔ)言處理的影響方面帶來(lái)了實(shí)質(zhì)性的改進(jìn)。

GPT-1 (2018年發(fā)布)

第一個(gè)GPT模型引入了大規(guī)模無(wú)監(jiān)督語(yǔ)言理解的預(yù)訓(xùn)練概念：

架構(gòu)：基于12層和1.17億個(gè)參數(shù)的Transformer解碼器。
預(yù)訓(xùn)練：利用各種在線文本。
任務(wù)：根據(jù)前面的單詞預(yù)測(cè)下一個(gè)單詞。
創(chuàng)新：證明了一個(gè)單一的無(wú)監(jiān)督模型可以針對(duì)不同的下游任務(wù)進(jìn)行微調(diào)，在沒(méi)有特定任務(wù)架構(gòu)的情況下實(shí)現(xiàn)高性能。
影響：GPT-1展示了NLP中遷移學(xué)習(xí)的潛力，其中在大型語(yǔ)料庫(kù)上預(yù)訓(xùn)練的模型可以通過(guò)相對(duì)較少的標(biāo)記數(shù)據(jù)對(duì)特定任務(wù)進(jìn)行微調(diào)。

探索Transformer的演變：從基礎(chǔ)到高級(jí)架構(gòu)-AI.x社區(qū)

GPT-2 (2019年發(fā)布)

GPT-2顯著增加了模型大小，并表現(xiàn)出令人印象深刻的零樣本學(xué)習(xí)能力：

架構(gòu)：最大的版本有15億個(gè)參數(shù)，是GPT-1的10倍多。
訓(xùn)練數(shù)據(jù)：使用更大、更多樣化的網(wǎng)頁(yè)數(shù)據(jù)集。
特點(diǎn)：能夠在各種主題和風(fēng)格上生成連貫和場(chǎng)景相關(guān)的文本。
零樣本學(xué)習(xí)：通過(guò)簡(jiǎn)單地在輸入提示中提供指令，展示了執(zhí)行未經(jīng)專門訓(xùn)練的任務(wù)的能力。
影響：GPT-2強(qiáng)調(diào)了語(yǔ)言模型的可擴(kuò)展性，并引發(fā)了關(guān)于強(qiáng)大文本生成系統(tǒng)的倫理影響的討論。

探索Transformer的演變：從基礎(chǔ)到高級(jí)架構(gòu)-AI.x社區(qū)

GPT-3 (2020年發(fā)布)

GPT-3代表了規(guī)模和能力的巨大飛躍：

架構(gòu)：由1750億個(gè)參數(shù)組成，比GPT-2大100多倍。
訓(xùn)練數(shù)據(jù)：利用來(lái)自互聯(lián)網(wǎng)、書籍和維基百科的大量文本。
少樣本學(xué)習(xí)：在不需要微調(diào)的情況下，只用少量例子或提示就能完成新任務(wù)。
多功能性：展示了在各種任務(wù)中的熟練程度，包括翻譯、問(wèn)答、文本摘要，甚至基本的編碼。

探索Transformer的演變：從基礎(chǔ)到高級(jí)架構(gòu)-AI.x社區(qū)

GPT-4 (2023年發(fā)布)

GPT-4在之前版本模型奠定的基礎(chǔ)上，進(jìn)一步拓展了語(yǔ)言模型的可能性。

架構(gòu)：雖然具體的架構(gòu)細(xì)節(jié)和參數(shù)數(shù)量尚未公開(kāi)披露，但GPT-4被認(rèn)為比GPT-3更大、更復(fù)雜，其底層架構(gòu)得到了增強(qiáng)，以提高效率和性能。
訓(xùn)練數(shù)據(jù)：GPT-4在更廣泛和多樣化的數(shù)據(jù)集上進(jìn)行了訓(xùn)練，包括廣泛的互聯(lián)網(wǎng)文本、學(xué)術(shù)論文、書籍和其他來(lái)源，確保了對(duì)各種學(xué)科的全面理解。
先進(jìn)的少樣本和零樣本學(xué)習(xí)：GPT-4表現(xiàn)出更強(qiáng)的能力，以最少的例子執(zhí)行新任務(wù)，進(jìn)一步減少了對(duì)特定任務(wù)微調(diào)的需要。
增強(qiáng)的場(chǎng)景理解：場(chǎng)景感知的改進(jìn)使GPT-4能夠生成更準(zhǔn)確、更符合場(chǎng)景的響應(yīng)，使其在對(duì)話系統(tǒng)、內(nèi)容生成和復(fù)雜問(wèn)題解決等應(yīng)用程序中更加有效。
多模態(tài)功能：GPT-4將文本與其他模態(tài)(例如圖像和可能的音頻)集成在一起，實(shí)現(xiàn)了更復(fù)雜、更通用的人工智能應(yīng)用程序，可以處理和生成不同媒體類型的內(nèi)容。
倫理考慮和安全：OpenAI公司非常重視GPT-4的倫理部署，實(shí)施先進(jìn)的安全機(jī)制來(lái)減少潛在的濫用，并確保負(fù)責(zé)任地使用該技術(shù)。

注意力機(jī)制的創(chuàng)新

研究人員對(duì)注意力機(jī)制提出了各種修改，并取得了重大進(jìn)展：

稀疏注意力：通過(guò)關(guān)注相關(guān)元素的子集，可以更有效地處理長(zhǎng)序列。
自適應(yīng)注意力：根據(jù)輸入動(dòng)態(tài)調(diào)整注意力持續(xù)時(shí)間，增強(qiáng)模型處理不同任務(wù)的能力。
交叉注意力變體：改進(jìn)解碼器處理編碼器輸出的方式，從而產(chǎn)生更準(zhǔn)確和場(chǎng)景相關(guān)的生成。

結(jié)論

Transformer架構(gòu)的演變是顯著的。從最初的介紹到現(xiàn)在最先進(jìn)的模型，Transformer一直在突破人工智能的極限。編碼器-解碼器結(jié)構(gòu)的多功能性，加上注意力機(jī)制和模型架構(gòu)的不斷創(chuàng)新，將繼續(xù)推動(dòng)NLP及其他領(lǐng)域的進(jìn)步。隨著研究的繼續(xù)，人們可以期待進(jìn)一步的創(chuàng)新，將這些強(qiáng)大的模型的功能和應(yīng)用擴(kuò)展到各個(gè)領(lǐng)域。

原文標(biāo)題：Exploring the Evolution of Transformers： From Basic To Advanced Architectures，作者：Suri Nuthalapati

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

模型架構(gòu)

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

RAG全景圖：從RAG啟蒙到高級(jí)RAG之36技，再到終章Agentic RAG！

PaperAgent ? 4710瀏覽 ? 0回復(fù)
多模態(tài)大模型：基礎(chǔ)架構(gòu)

魯班模錘1 ? 2103瀏覽 ? 0回復(fù)
掌握BERT：自然語(yǔ)言處理（NLP）從初級(jí)到高級(jí)的綜合指南

石映飛云 ? 2232瀏覽 ? 0回復(fù)
從RAG到TAG：探索表增強(qiáng)生成（TAG）的力量

Halo咯咯 ? 3118瀏覽 ? 0回復(fù)
從 Llama 1 到 3.1：Llama 模型架構(gòu)演進(jìn)詳解

Baihai_IDP ? 3902瀏覽 ? 0回復(fù)
RAG 架構(gòu)圖解：從基礎(chǔ)到高級(jí)的七種模式

sulu637 ? 6314瀏覽 ? 0回復(fù)
Python語(yǔ)言openAI庫(kù)詳解：從入門到精通（從0到1手把手教程）

唐克 ? 4366瀏覽 ? 0回復(fù)
RAG從入門到精通系列：基礎(chǔ)RAG

PyTorch研習(xí)社 ? 2403瀏覽 ? 0回復(fù)
LLM架構(gòu)從基礎(chǔ)到精通之門控循環(huán)單元（GRUs）

柏企閱文 ? 2280瀏覽 ? 0回復(fù)
深入探究編碼器 - 解碼器架構(gòu)：從RNN到Transformer的自然語(yǔ)言處理模型

AI論文解讀 ? 3637瀏覽 ? 0回復(fù)
Python與OpenCV圖像處理：從基礎(chǔ)到高級(jí)的詳細(xì)教程

唐克 ? 2521瀏覽 ? 0回復(fù)
2025年大模型與Transformer架構(gòu)：技術(shù)前沿與未來(lái)趨勢(shì)報(bào)告

歐米伽未來(lái)研究所 ? 6056瀏覽 ? 0回復(fù)
2W8000字揭秘RAG：從基礎(chǔ)到高級(jí)的逆襲，徹底重塑大模型！

AI論文解讀 ? 3126瀏覽 ? 0回復(fù)
自動(dòng)化漏洞修復(fù)：從基于模板的方法到AI代理的演變

51CTO內(nèi)容精選 ? 1240瀏覽 ? 0回復(fù)
基礎(chǔ)探索

柏企閱文 ? 1130瀏覽 ? 0回復(fù)
探索智能代理增強(qiáng)檢索生成（Agentic RAG）：從基礎(chǔ)到實(shí)踐

Halo咯咯 ? 1386瀏覽 ? 0回復(fù)
MCP 架構(gòu)設(shè)計(jì)演進(jìn)：從 Local MCP Server 到 Remote MCP Server 開(kāi)源架構(gòu)設(shè)計(jì)實(shí)現(xiàn)

玄姐聊AGI ? 3518瀏覽 ? 0回復(fù)
AI Agents-6 | AI智能體架構(gòu)大揭秘：從基礎(chǔ)知識(shí)到前沿模式

Halo咯咯 ? 1749瀏覽 ? 0回復(fù)
從 MCP 到 A2A，AI Agent 應(yīng)用架構(gòu)設(shè)計(jì)演進(jìn)之路

玄姐聊AGI ? 943瀏覽 ? 0回復(fù)

51CTO內(nèi)容精選

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

OpenUI：從構(gòu)思到UI僅需數(shù)秒 11h前發(fā)布
MCP安全噩夢(mèng)終結(jié)者：Agent框架如何重構(gòu)AI防護(hù)新范式？? 1天前發(fā)布

熱門推薦

模型上下文協(xié)議（MCP）開(kāi)發(fā)實(shí)戰(zhàn)——構(gòu)建LangChain代理客戶端 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

上一篇：大型語(yǔ)言模型（LLM）的歷史與未來(lái)

下一篇： Meta SAM 2：令人印象深刻的對(duì)象分割模型

社區(qū)精華內(nèi)容

目錄

<cite id="cwb8c"></cite>

<cite id="cwb8c"></cite><cite id="cwb8c"></cite><blockquote id="cwb8c"><i id="cwb8c"><video id="cwb8c"></video></i></blockquote>