2025年大模型與Transformer架構(gòu):技術(shù)前沿與未來(lái)趨勢(shì)報(bào)告 精華
在人工智能的宏大版圖中,Transformer 架構(gòu)無(wú)疑是一顆璀璨的明星。它的出現(xiàn),徹底改變了自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等諸多領(lǐng)域的發(fā)展軌跡?!?025 年大模型與Transformer架構(gòu):技術(shù)前沿與未來(lái)趨勢(shì)報(bào)告》深入剖析了 Transformer 架構(gòu)的前世今生、優(yōu)勢(shì)局限以及未來(lái)走向,為我們?nèi)娉尸F(xiàn)了這一架構(gòu)在 AI 領(lǐng)域的核心地位與無(wú)限潛力。
一、Transformer 架構(gòu)誕生的靈感源泉
Transformer 架構(gòu)的誕生深受人類大腦信息處理機(jī)制的啟發(fā)。人類大腦在漫長(zhǎng)的進(jìn)化過(guò)程中,逐漸發(fā)展出一套極為高效的信息處理系統(tǒng)。隨著神經(jīng)元數(shù)量不斷增多、類型日益豐富、連接方式愈發(fā)復(fù)雜以及大腦區(qū)域持續(xù)擴(kuò)展,大腦得以在有限資源條件下,實(shí)現(xiàn)對(duì)海量信息的高效處理。其中,注意力機(jī)制發(fā)揮著舉足輕重的作用。它就像大腦的 “聚光燈”,能將有限的計(jì)算資源精準(zhǔn)地聚焦于重要任務(wù),使大腦迅速分析關(guān)鍵信息并做出合理決策。
在人工智能領(lǐng)域,研究人員從人類大腦的注意力機(jī)制中獲得靈感,開發(fā)出 “自注意力機(jī)制”。該機(jī)制通過(guò)計(jì)算輸入序列各部分之間的相似度,并為每個(gè)部分分配不同權(quán)重,進(jìn)而更精準(zhǔn)地理解句子含義。以理解一句話為例,自注意力機(jī)制能綜合考量整句話的內(nèi)容以及每個(gè)單詞間的關(guān)聯(lián),大大提升了對(duì)信息的理解能力??梢哉f(shuō),人工智能中的自注意力機(jī)制與人類大腦的注意力機(jī)制在功能上有著異曲同工之妙,都是在有限資源下高效處理信息、優(yōu)化決策過(guò)程。這一靈感的巧妙借鑒,為 Transformer 架構(gòu)的誕生奠定了堅(jiān)實(shí)的理論基石。
二、Transformer 架構(gòu)的崛起之路
2017 年,Google Brain 團(tuán)隊(duì)在《Attention Is All You Need》這一開創(chuàng)性論文中提出了 Transformer 架構(gòu)。一經(jīng)問(wèn)世,它便在自然語(yǔ)言處理領(lǐng)域迅速崛起,占據(jù)主導(dǎo)地位,并逐漸拓展至圖像處理、語(yǔ)音識(shí)別等眾多其他領(lǐng)域。
Transformer 架構(gòu)主要由編碼器和解碼器兩大部分構(gòu)成。編碼器包含輸入嵌入、位置編碼、多頭注意力、前饋網(wǎng)絡(luò)、殘差連接與層歸一化等組件;解碼器則涵蓋輸出嵌入、位置編碼、掩碼多頭注意力、編碼器 - 解碼器注意力、前饋網(wǎng)絡(luò)、殘差連接與層歸一化,最后經(jīng)線性層和 Softmax 層輸出最終結(jié)果。
Transformer 架構(gòu)的核心亮點(diǎn)在于自注意力機(jī)制和多頭注意力機(jī)制。自注意力機(jī)制賦予模型強(qiáng)大的能力,使其能夠同時(shí)計(jì)算輸入序列中所有位置之間的相互關(guān)系權(quán)重,并據(jù)此加權(quán)生成每個(gè)位置的特征表示。從數(shù)學(xué)角度來(lái)看,注意力機(jī)制將一個(gè)查詢(Query)和一組鍵值對(duì)(Key - Value)映射到一個(gè)輸出,輸出是計(jì)算值(Value)的加權(quán)和,而權(quán)重則基于查詢與相應(yīng)鍵之間的兼容性函數(shù)計(jì)算得出。
多頭注意力機(jī)制則是在單一注意力機(jī)制基礎(chǔ)上的創(chuàng)新拓展。它通過(guò)構(gòu)建多個(gè)并行的注意力機(jī)制組合,顯著拓寬了模型的視野。這使得模型能夠從多個(gè)不同角度同時(shí)關(guān)注輸入信息,進(jìn)而捕捉到更為豐富的特征和關(guān)系。多頭注意力機(jī)制不僅增強(qiáng)了模型對(duì)序列中依賴關(guān)系的學(xué)習(xí)能力,還有效緩解了單一注意力機(jī)制可能出現(xiàn)的有效分辨率降低問(wèn)題,極大地提升了模型的整體性能和準(zhǔn)確性。
三、Transformer 架構(gòu)的應(yīng)用場(chǎng)景
- 語(yǔ)言模型:
GPT 系列:如 GPT-3、GPT-4 等,具有驚人的語(yǔ)言生成能力和通用性,能生成類人的文本,回答各種問(wèn)題,甚至參與創(chuàng)意寫作。例如,用戶可以與 GPT 進(jìn)行對(duì)話,獲取信息、尋求建議等。
BERT:可用于文本分類、問(wèn)答系統(tǒng)等任務(wù)。它能夠理解上下文語(yǔ)義,在問(wèn)答任務(wù)中準(zhǔn)確理解問(wèn)題并給出高質(zhì)量答案。
- 機(jī)器翻譯:谷歌將 Transformer 應(yīng)用于其搜索引擎和翻譯服務(wù),提升了翻譯的準(zhǔn)確性和質(zhì)量。用戶在使用谷歌翻譯時(shí)能得到更精準(zhǔn)的翻譯結(jié)果。
- 預(yù)測(cè)文本:當(dāng)在手機(jī)鍵盤上輸入信息時(shí)看到的預(yù)測(cè)文本建議,可能就是 Transformer 的功勞。它能根據(jù)輸入的部分內(nèi)容預(yù)測(cè)接下來(lái)可能輸入的詞語(yǔ)。
- 語(yǔ)音識(shí)別:在智能音箱的語(yǔ)音識(shí)別中發(fā)揮作用,使得語(yǔ)音助手變得更加智能和實(shí)用。例如,能夠更準(zhǔn)確地識(shí)別用戶的語(yǔ)音指令并做出相應(yīng)的反應(yīng)。
- 跨領(lǐng)域應(yīng)用:
- DALL·E:從文本描述中生成圖像,展示了 Transformer 在圖像生成領(lǐng)域的應(yīng)用。
- GitHub Copilot:通過(guò)生成代碼片段來(lái)協(xié)助開發(fā)者,提高編程效率。
- 生物信息學(xué):研究人員使用 Transformer 來(lái)分析蛋白質(zhì)序列,幫助預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)和功能,這對(duì)藥物開發(fā)和疾病研究具有重要意義。
- 音樂(lè)生成:AI 作曲系統(tǒng)采用 Transformer 架構(gòu),能夠創(chuàng)作出令人驚嘆的音樂(lè)作品。
- 解決數(shù)學(xué)問(wèn)題:Meta AI 的研究發(fā)現(xiàn),Transformer 可以用于解決尋找全局李雅普諾夫函數(shù)的問(wèn)題。例如,通過(guò)后向生成技術(shù)訓(xùn)練模型,在穩(wěn)定性未知的隨機(jī)動(dòng)力系統(tǒng)上,能找到新的李亞普諾夫函數(shù),其準(zhǔn)確率超過(guò) 80%,而碩士生級(jí)別的人類數(shù)學(xué)家在該任務(wù)上的準(zhǔn)確率不到 10%。
- 視頻生成:OpenAI 推出的 Sora 模型使用 Transformer 架構(gòu),可根據(jù)文本指令創(chuàng)建近似現(xiàn)實(shí)且富有想象力的場(chǎng)景,生成多種風(fēng)格、不同畫幅、最長(zhǎng)為一分鐘的高清視頻。它還能夠根據(jù)靜態(tài)圖像生成視頻,或?qū)ΜF(xiàn)有視頻進(jìn)行擴(kuò)展或填充缺失的幀。
- 自動(dòng)提示工程系統(tǒng):北京大學(xué) - 百川聯(lián)合實(shí)驗(yàn)室提出的 PAS 自動(dòng)提示工程系統(tǒng),基于 Transformer 架構(gòu)。它能夠?qū)τ脩糨斎脒M(jìn)行簡(jiǎn)潔而有效的補(bǔ)充,在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)遠(yuǎn)超既有模型,且所需數(shù)據(jù)量更少。例如,在處理 “如果樹上有 10 只鳥,其中一只被射死了,地上有多少只鳥?” 的問(wèn)題時(shí),PAS 系統(tǒng)通過(guò)補(bǔ)充提示詞,引導(dǎo)模型成功規(guī)避邏輯陷阱,展示清晰的推理過(guò)程并給出正確答案。
四、Transformer 架構(gòu)的顯著優(yōu)勢(shì)
(一)處理長(zhǎng)距離依賴與并行計(jì)算的卓越能力
Transformer 模型借助位置編碼,為輸入序列中的各元素賦予順序信息,使其能夠清晰區(qū)分不同位置的元素,從而在處理長(zhǎng)距離依賴問(wèn)題上表現(xiàn)卓越。對(duì)比 Transformer 和 LSTM 在不同參數(shù)數(shù)量和上下文長(zhǎng)度下的測(cè)試損失可以發(fā)現(xiàn),Transformer 在處理長(zhǎng)上下文時(shí)優(yōu)勢(shì)明顯,能夠更好地利用長(zhǎng)上下文信息。而且,隨著參數(shù)和上下文長(zhǎng)度的增加,其性能提升更為顯著。與 RNN/LSTM 不同,Transformer 可同時(shí)處理所有標(biāo)記,有效避免了信息衰減或消失的問(wèn)題,并且能夠充分發(fā)揮 GPU 等現(xiàn)代計(jì)算設(shè)備的并行計(jì)算能力,大幅提升訓(xùn)練效率。例如,在處理百詞長(zhǎng)句時(shí),RNN 需要逐詞依次處理,而 Transformer 則可一次性完成,大大縮短了處理時(shí)間。
(二)推動(dòng)模型高效訓(xùn)練與規(guī)模拓展的強(qiáng)大動(dòng)力
Transformer 的并行計(jì)算優(yōu)勢(shì)為模型訓(xùn)練帶來(lái)了極大的便利,顯著提升了訓(xùn)練效率。在處理大規(guī)模數(shù)據(jù)集,如語(yǔ)言模型預(yù)訓(xùn)練、機(jī)器翻譯等任務(wù)時(shí),它能夠在更短的時(shí)間內(nèi)完成訓(xùn)練。以 GPT 系列模型為例,其快速預(yù)訓(xùn)練便得益于 Transformer 架構(gòu)的這一優(yōu)勢(shì)。訓(xùn)練效率的提高進(jìn)一步推動(dòng)了 Transformer 模型規(guī)模的不斷擴(kuò)大,更大規(guī)模的模型能夠?qū)W習(xí)到更豐富的特征和復(fù)雜模式。近年來(lái),像 GPT - 3、Megatron - LM 等超大規(guī)模 Transformer 模型相繼出現(xiàn),在自然語(yǔ)言處理領(lǐng)域取得了突破性成果,不斷刷新人們對(duì)語(yǔ)言模型能力的認(rèn)知。
(三)跨模態(tài)應(yīng)用的廣泛適應(yīng)性
Transformer 架構(gòu)憑借其高度的靈活性,成為眾多非自然語(yǔ)言處理領(lǐng)域先進(jìn)模型構(gòu)建的基礎(chǔ)框架。它具備一項(xiàng)關(guān)鍵能力,即能夠?qū)⒉煌B(tài)的數(shù)據(jù)映射到統(tǒng)一的特征表示空間。在多模態(tài)任務(wù)中,以文本與圖像處理為例,Transformer 首先將文本數(shù)據(jù)轉(zhuǎn)化為詞向量,同時(shí)把圖像數(shù)據(jù)轉(zhuǎn)換為像素特征向量。經(jīng)過(guò)這一轉(zhuǎn)換過(guò)程,來(lái)自不同模態(tài)的特征向量便能在同一特征空間內(nèi)進(jìn)行高效處理與交互。相比之下,Transformer 的前期架構(gòu),如 CNN 雖然在處理視覺(jué)數(shù)據(jù)方面表現(xiàn)出色,在圖像處理任務(wù)中有強(qiáng)大的優(yōu)勢(shì),但跨模態(tài)信息的融合能力相對(duì)較弱;RNN/LSTM 雖適合處理序列數(shù)據(jù),尤其是文本和語(yǔ)音數(shù)據(jù),但在跨模態(tài)任務(wù)中的長(zhǎng)程依賴處理和效率方面存在不足。Transformer 這種統(tǒng)一的特征表示方式,極大地降低了不同模態(tài)數(shù)據(jù)融合與比較的復(fù)雜度,有力地助力多模態(tài)模型更加高效地整合和分析來(lái)自多種數(shù)據(jù)源的豐富信息。
五、Transformer 架構(gòu)面臨的挑戰(zhàn)
盡管 Transformer 架構(gòu)取得了巨大的成功,但它并非完美無(wú)缺,在發(fā)展過(guò)程中也面臨著一些挑戰(zhàn)。
(一)居高不下的計(jì)算復(fù)雜度
自注意力機(jī)制的計(jì)算復(fù)雜度為,其中 N 代表序列長(zhǎng)度,d 表示 token 嵌入的維度。這意味著 Transformer 模型的計(jì)算復(fù)雜度會(huì)隨著輸入序列長(zhǎng)度(token 數(shù)量)的增加呈二次方增長(zhǎng)。當(dāng)處理長(zhǎng)序列數(shù)據(jù)時(shí),這種高計(jì)算復(fù)雜度會(huì)導(dǎo)致計(jì)算資源的大量消耗,對(duì)硬件性能提出了極高的要求,在一定程度上限制了模型的應(yīng)用范圍。
(二)高昂的訓(xùn)練和部署成本
隨著基于 Transformer 架構(gòu)的模型規(guī)模不斷擴(kuò)大,訓(xùn)練和部署成本也隨之大幅增加。在計(jì)算資源方面,這類模型不僅需要大量的計(jì)算資源來(lái)支撐復(fù)雜的運(yùn)算,還對(duì)并行處理能力有著較高的要求。訓(xùn)練成本不僅要涵蓋高性能的 GPU,還需要大量的存儲(chǔ)空間。并且,隨著序列長(zhǎng)度的增加,其平方級(jí)的擴(kuò)展會(huì)導(dǎo)致內(nèi)存使用量急劇上升,對(duì)內(nèi)存的需求也變得極為龐大。這使得訓(xùn)練和部署 Transformer 模型的成本居高不下,在一些資源受限的場(chǎng)景中,其應(yīng)用受到了明顯的限制。
(三)長(zhǎng)序列應(yīng)用的局限性
計(jì)算復(fù)雜度和計(jì)算成本帶來(lái)的直接影響是 Transformer 在長(zhǎng)序列應(yīng)用方面受到限制。雖然 Transformer 能夠精準(zhǔn)捕捉短距離的文本關(guān)系,但由于其注意力機(jī)制的計(jì)算復(fù)雜度會(huì)隨著序列長(zhǎng)度呈二次增長(zhǎng),處理長(zhǎng)文本時(shí)的計(jì)算成本會(huì)變得難以承受。因此,大部分基于 Transformer 架構(gòu)的大模型會(huì)將支持的上下文長(zhǎng)度限定在一定范圍內(nèi)。盡管目前研究人員意識(shí)到這一局限性后,對(duì)注意力機(jī)制等方面進(jìn)行了改進(jìn),使得上下文長(zhǎng)度有所拓展,但與一些新興架構(gòu)相比,仍存在一定差距。
六、Transformer 架構(gòu)的挑戰(zhàn)者
面對(duì) Transformer 架構(gòu)的局限性,研究人員積極探索創(chuàng)新,提出了多種潛在的替代架構(gòu),這些架構(gòu)各具特色,為人工智能的發(fā)展帶來(lái)了新的思路和方向。
(一)RetNet:融合創(chuàng)新的架構(gòu)典范
RetNet 引入了獨(dú)特的多尺度保留機(jī)制(Retention)來(lái)替代多頭注意力,巧妙地融合了 RNN 和 Transformer 的優(yōu)點(diǎn)。它具有并行、循環(huán)和分塊循環(huán)表征三種計(jì)算范式。并行表征使得訓(xùn)練能夠并行化,充分利用 GPU 設(shè)備的強(qiáng)大計(jì)算能力,加快訓(xùn)練速度;循環(huán)表征法在內(nèi)存和計(jì)算方面實(shí)現(xiàn)了高效的 O (1) 推理,大大降低了部署成本和延遲,并且無(wú)需鍵值緩存技巧,簡(jiǎn)化了實(shí)現(xiàn)過(guò)程;分塊循環(huán)表征法則能夠高效地進(jìn)行長(zhǎng)序列建模,通過(guò)對(duì)每個(gè)局部塊進(jìn)行并行編碼提高計(jì)算速度,同時(shí)對(duì)全局塊進(jìn)行循環(huán)編碼節(jié)省 GPU 內(nèi)存。
RetNet 架構(gòu)在訓(xùn)練過(guò)程中展現(xiàn)出了顯著的優(yōu)勢(shì),相比標(biāo)準(zhǔn) Transformer 能夠節(jié)省 25 - 50% 的內(nèi)存,實(shí)現(xiàn) 7 倍的加速,在高度優(yōu)化的 Flash Attention 方面也具有優(yōu)勢(shì)。在推理階段,其推理延遲對(duì)批大?。╞atch size)不敏感,能夠?qū)崿F(xiàn)巨大的吞吐量。對(duì)于 7B 模型和 8k 序列長(zhǎng)度,其解碼速度是帶鍵值緩存的 Transformers 的 8.4 倍,同時(shí)內(nèi)存節(jié)省 70%。然而,作為一種融合了 RNN 特點(diǎn)的架構(gòu),RetNet 的建模長(zhǎng)距離依賴能力仍有待進(jìn)一步驗(yàn)證,目前在實(shí)際落地應(yīng)用方面也相對(duì)較少,需要更多的實(shí)踐探索和優(yōu)化。
(二)Mamba:多框架融合的大膽嘗試
Mamba 創(chuàng)新性地集中了循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的循環(huán)框架、Transformer 的并行計(jì)算和注意力機(jī)制、狀態(tài)空間模型(SSM)的線性特性。它引入了一個(gè)簡(jiǎn)單而有效的選擇機(jī)制,能夠根據(jù)輸入對(duì) SSM 進(jìn)行重新參數(shù)化,從而在濾除不相關(guān)信息的同時(shí),無(wú)限期地保留必要和相關(guān)的數(shù)據(jù)。Mamba 還包含一種硬件感知型算法,采用掃描(scan)而非卷積來(lái)循環(huán)地計(jì)算模型,大大提升了計(jì)算速度。后續(xù)的迭代版本 Mamba - 2 利用結(jié)構(gòu)化空間狀態(tài)對(duì)偶(SSD/Structured Space - State Duality)構(gòu)建了一個(gè)穩(wěn)健的理論框架,使得原本為 Transformer 開發(fā)的算法和系統(tǒng)優(yōu)化技術(shù)能夠遷移應(yīng)用于 SSM。
Mamba 架構(gòu)以其線性增長(zhǎng)的低計(jì)算開銷和硬件感知型算法,在處理長(zhǎng)序列數(shù)據(jù)方面表現(xiàn)出色,顯著提升了計(jì)算速度和性能。與 Transformer 相比,Mamba 的計(jì)算開銷隨序列長(zhǎng)度線性增長(zhǎng),這使得它能夠處理更長(zhǎng)的文本序列,同時(shí)大幅降低計(jì)算成本。在 A100GPU 上,Mamba 使用掃描進(jìn)行循環(huán)計(jì)算,能夠?qū)⒂?jì)算速度提升 3 倍,進(jìn)一步增強(qiáng)了其在處理長(zhǎng)序列數(shù)據(jù)時(shí)的效率和性能。不過(guò),Mamba 架構(gòu)也存在一些問(wèn)題,如記憶丟失、難以泛化到不同任務(wù)、在復(fù)雜模式方面的表現(xiàn)不及基于 Transformer 的語(yǔ)言模型等。但開源的研究社區(qū)為 Mamba 架構(gòu)提出了許多改進(jìn)方案,隨著研究的不斷深入,其性能有望得到進(jìn)一步優(yōu)化。
(三)RWKV:RNN 變體的新突破
RWKV 是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一個(gè)創(chuàng)新變體。它的架構(gòu)由一系列堆疊的殘差塊組成,每個(gè)殘差塊包含具有循環(huán)結(jié)構(gòu)的時(shí)間混合(time - mixing)和通道混合(channel - mixing)子塊。其中,token shift 操作是 RWKV 的一大特色,通過(guò)將當(dāng)前輸入和上一時(shí)間步的輸入進(jìn)行線性插值,模型可以靈活控制每個(gè)時(shí)間步將多少新信息與舊信息分配給每個(gè)頭的接收、鍵、值和門向量。
RWKV 架構(gòu)處于不斷迭代發(fā)展之中。RWKV - 5 引入了多頭的、基于矩陣值的狀態(tài);RWKV - V6 在 RWKV - V5 的基礎(chǔ)上引入了基于低秩適應(yīng)(LoRA)的動(dòng)態(tài)遞歸機(jī)制,進(jìn)一步優(yōu)化了 Token Shift 和 time - mixing 過(guò)程;最新版本的 RWKV - 7 采用了動(dòng)態(tài)狀態(tài)演化(Dynamic State Evolution)。隨著版本的不斷更新,基于 RWKV 架構(gòu)的模型在長(zhǎng)序列任務(wù)上的表現(xiàn)越來(lái)越好,具有恒定的顯存占用、恒定的推理生成速度以及 “無(wú)限” 的上下文長(zhǎng)度,同時(shí)提供免費(fèi)的句嵌入,并且完全不含自注意力機(jī)制。在資源使用方面,RWKV 在運(yùn)行和訓(xùn)練時(shí)對(duì) VRAM、CPU、GPU 等資源的需求更低,與較大上下文的 Transformer 相比,其計(jì)算需求降低了 10 倍到 100 倍。此外,RWKV 支持以線性方式擴(kuò)展到任何上下文長(zhǎng)度,而 Transformer 則是以二次方擴(kuò)展。在答案質(zhì)量和泛化能力方面,RWKV 的表現(xiàn)與 Transformer 架構(gòu)相當(dāng)。然而,RWKV 基底模型對(duì)提示詞(prompt)的格式非常敏感,提示詞的格式對(duì)生成結(jié)果有較大影響。并且由于架構(gòu)設(shè)計(jì)的原因,RWKV 模型在需要回顧的任務(wù)上表現(xiàn)較弱,需要合理地對(duì)提示詞進(jìn)行排序,以確保模型能夠更好地理解和執(zhí)行任務(wù)。
(四)Hyena:高效低復(fù)雜度的全新嘗試
Hyena 由兩個(gè)高效的二次基元遞歸定義的算子 —— 交織隱式參數(shù)化的長(zhǎng)卷積和數(shù)據(jù)控制的門控組成,構(gòu)建了一個(gè)高效、靈活且計(jì)算復(fù)雜度低的注意力替代算法,旨在取代 Transformer 架構(gòu)中的注意力函數(shù)。Hyena 算子定義了兩種高效的亞二次基本操作:隱式長(zhǎng)卷積和數(shù)據(jù)控制的對(duì)角矩陣乘法。遞歸深度決定算子大小,Hyena 可表達(dá)為與數(shù)據(jù)相關(guān)的對(duì)角矩陣和托普利茨矩陣的乘積,具有亞線性參數(shù)縮放、不受限制的上下文及比注意力機(jī)制更低的時(shí)間復(fù)雜度,其時(shí)間復(fù)雜度為 O (n*log (n)) 而不是 O (n2)。
在實(shí)際應(yīng)用中,Hyena 能夠顯著縮小與注意力機(jī)制的差距,以較小的算力預(yù)算達(dá)到相同效果。當(dāng)序列長(zhǎng)度為 2K 時(shí),Hyena 將訓(xùn)練計(jì)算量減少了 20%,達(dá)到了 Transformer 的質(zhì)量;當(dāng)序列長(zhǎng)度為 8K 時(shí),Hyena 算子的速度是高度優(yōu)化注意力的兩倍;當(dāng)序列長(zhǎng)度為 64K 時(shí),速度更是達(dá)到了 100 倍。不過(guò),Hyena 運(yùn)算不支持 Mask(用于大語(yǔ)言模型預(yù)訓(xùn)練建模過(guò)程中的遮蓋),這使得使用 Hyena 架構(gòu)進(jìn)行生成式預(yù)訓(xùn)練建模時(shí)不夠靈活。目前,Hyena 的跟進(jìn)應(yīng)用相對(duì)較少,未來(lái)的應(yīng)用空間還需要進(jìn)一步探索和驗(yàn)證。
(五)線性注意力機(jī)制:改進(jìn) Transformer 的重要方向
線性注意力機(jī)制通過(guò)對(duì)傳統(tǒng)注意力機(jī)制中的 Softmax 操作進(jìn)行線性化處理,將時(shí)間復(fù)雜度降低到線性(O (N)),有效提高了 Transformer 模型的并行性能,降低了復(fù)雜度,在計(jì)算效率和模型表達(dá)能力等方面都具有一定優(yōu)勢(shì)。目前,Agent Attention、TransNormerLLM、MiniMax - 01 等模型在這方面的研究都取得了一定進(jìn)展。
Agent Attention 在傳統(tǒng)注意力模塊中引入一組額外的代理向量 A,實(shí)現(xiàn)了從鍵 K 和值 V 中高效聚合信息,并將這些信息有效廣播回查詢向量 Q。這一設(shè)計(jì)不僅顯著提升了計(jì)算效率,還保留了全局上下文建模的強(qiáng)大能力。它成功地將傳統(tǒng)的 Softmax 注意力與線性注意力無(wú)縫集成,形成了一種全新的注意力范式,在多種視覺(jué) Transformer 模型及不同視覺(jué)任務(wù)中均表現(xiàn)出色,尤其在處理高分辨率場(chǎng)景時(shí)效果更為顯著。此外,Agent Attention 還可應(yīng)用于預(yù)訓(xùn)練的大規(guī)模擴(kuò)散模型,有效加速圖像生成過(guò)程,并顯著提升生成圖像的質(zhì)量。
TransNormerLLM 是由上海人工智能實(shí)驗(yàn)室和 OpenNLPLab 開發(fā)的首個(gè)線性注意力 Transformer 大模型。該模型完全摒棄了傳統(tǒng)的 Softmax 注意力機(jī)制,轉(zhuǎn)而采用線性注意力機(jī)制,將 Softmax 注意力分解為多個(gè)線性運(yùn)算,從而將計(jì)算復(fù)雜度從平方級(jí)別降低到線性級(jí)別,極大地提高了模型的效率,使其能夠處理更長(zhǎng)的序列。為了進(jìn)一步提高線性注意力的計(jì)算效率,TransNormerLLM 引入了 Lightning Attention 技術(shù)。該技術(shù)將輸入數(shù)據(jù)分割成多個(gè)塊,并分別進(jìn)行計(jì)算,減少了內(nèi)存訪問(wèn)次數(shù),提高了計(jì)算速度。研究團(tuán)隊(duì)表示,Lightning Attention 可以將線性注意力在訓(xùn)練時(shí)的速度提升兩倍,并且通過(guò)感知 IO 將內(nèi)存用量減少 4 倍。
MiniMax - 01 系列模型首次將線性注意力機(jī)制擴(kuò)展到商用模型的級(jí)別。MiniMax - Text - 01 架構(gòu)以結(jié)構(gòu)化的方式整合了線性注意力和 Softmax 注意力機(jī)制。通過(guò)使用線性注意力,原生 Transformer 的計(jì)算復(fù)雜度可從 O (N2) 大幅下降到 O (N)?;?Lightning Attention,MiniMax 還提出了一種 Hybrid - lightning 方法,即每隔 8 層將 Lightning Attention 替換成 Softmax 注意力,這樣既解決了 Softmax 注意力的效率問(wèn)題,又提升了 Lightning Attention 的 scaling 能力。
不過(guò),線性注意力相比 Softmax 注意力在建模長(zhǎng)距離依賴能力方面仍存在一定差距,目前相關(guān)研究正在著重解決這一問(wèn)題,以進(jìn)一步提升線性注意力機(jī)制的性能。
(六)DeepSeek:探索大語(yǔ)言模型的創(chuàng)新先鋒
DeepSeek 作為大語(yǔ)言模型領(lǐng)域的重要參與者,在架構(gòu)設(shè)計(jì)、技術(shù)創(chuàng)新以及實(shí)際應(yīng)用方面展現(xiàn)出獨(dú)特的思路與潛力,致力于在提升性能的同時(shí),突破傳統(tǒng)模型的局限。
DeepSeek 的核心在于其基于混合專家(MoE)的創(chuàng)新架構(gòu)設(shè)計(jì)。以 DeepSeek-V3 為例,這是一款參數(shù)量高達(dá) 6710 億的 MoE 模型,激活規(guī)模為 370 億 。它通過(guò)精心設(shè)計(jì)的負(fù)載均衡策略和訓(xùn)練目標(biāo),實(shí)現(xiàn)了大規(guī)模 MoE 訓(xùn)練的高效性。在訓(xùn)練過(guò)程中,借助算法、框架和硬件的協(xié)同設(shè)計(jì),確保模型能夠充分利用計(jì)算資源,提升訓(xùn)練效率。同時(shí),DeepSeek 引入了從 DeepSeek-R1 系列模型中提取推理能力的創(chuàng)新方法,在保持對(duì)輸出風(fēng)格和長(zhǎng)度有效控制的前提下,增強(qiáng)了模型的推理性能。此外,模型還采用了如多頭潛在注意力(MLA)等先進(jìn)技術(shù),降低了顯存占用,進(jìn)一步優(yōu)化了模型的運(yùn)行效率。
在性能優(yōu)勢(shì)上,DeepSeek 表現(xiàn)卓越。在眾多測(cè)評(píng)任務(wù)中,它達(dá)到了開源模型的領(lǐng)先水平(sota),甚至能與頂尖的閉源模型相抗衡。在知識(shí)類任務(wù),像 MMLU(大規(guī)模多任務(wù)語(yǔ)言理解評(píng)估)和 GPQA(通用問(wèn)題回答)中,DeepSeek 展現(xiàn)出強(qiáng)大的知識(shí)儲(chǔ)備和理解能力;在數(shù)學(xué)競(jìng)賽類任務(wù),如 AIME 2024(美國(guó)數(shù)學(xué)邀請(qǐng)賽)、CNMO 2024(中國(guó)數(shù)學(xué)奧林匹克競(jìng)賽相關(guān)任務(wù)模擬評(píng)估)中,也有出色發(fā)揮,體現(xiàn)了其良好的邏輯推理和問(wèn)題解決能力;在代碼生成任務(wù)方面,DeepSeek 能夠生成高質(zhì)量、符合規(guī)范的代碼,滿足開發(fā)者的多種需求。而且,與其他同級(jí)別模型相比,DeepSeek 的訓(xùn)練成本大幅降低,例如 DeepSeek-V3 的訓(xùn)練成本僅為 Claude-3.5-Sonnet 的 9%。其生成速度也從 20TPS 提升至 60TPS,為用戶帶來(lái)了更流暢的交互體驗(yàn)。同時(shí),DeepSeek 提供了價(jià)格優(yōu)惠的 API 服務(wù),降低了開發(fā)者和企業(yè)的使用門檻,并且全系列模型開源且免費(fèi)商用,極大地促進(jìn)了技術(shù)的傳播與社區(qū)的協(xié)作創(chuàng)新。
然而,DeepSeek 并非十全十美。在實(shí)際應(yīng)用中,它存在一些有待改進(jìn)的地方。例如,模型在自我認(rèn)知方面存在偏差,DeepSeek-V3 曾出現(xiàn)錯(cuò)誤地自稱是 ChatGPT 的情況,這反映出其在身份識(shí)別和信息準(zhǔn)確性方面需要優(yōu)化。在提示詞適應(yīng)性上,DeepSeek 對(duì)提示詞格式較為敏感,不同的提示詞表述方式可能導(dǎo)致模型輸出結(jié)果出現(xiàn)較大差異,這在一定程度上影響了模型使用的穩(wěn)定性和通用性。在功能拓展方面,面對(duì)多模態(tài)信息處理、語(yǔ)音溝通以及視頻理解等復(fù)雜任務(wù),DeepSeek 的表現(xiàn)還有較大的提升空間,目前它在這些領(lǐng)域的功能相對(duì)薄弱,難以滿足用戶多樣化的需求。此外,在處理某些復(fù)雜或特定問(wèn)題時(shí),DeepSeek 可能會(huì)給出錯(cuò)誤答案,影響了其在專業(yè)領(lǐng)域和高精度任務(wù)中的應(yīng)用效果。
總體而言,DeepSeek 通過(guò)創(chuàng)新的架構(gòu)和技術(shù)在大語(yǔ)言模型領(lǐng)域取得了顯著進(jìn)展,為推動(dòng)行業(yè)發(fā)展提供了新的思路和方向。盡管目前存在一些不足,但隨著技術(shù)的不斷迭代和優(yōu)化,有望在未來(lái)進(jìn)一步提升性能,拓展應(yīng)用場(chǎng)景,在人工智能領(lǐng)域發(fā)揮更大的價(jià)值。
七、Transformer 架構(gòu)的未來(lái)展望
目前,Transformer 架構(gòu)的未來(lái)發(fā)展主要有兩條路徑。一條是被更先進(jìn)的全新架構(gòu)所替代,如 RetNet、Mamba 等新興架構(gòu)在計(jì)算復(fù)雜度、內(nèi)存使用、推理速度等方面展現(xiàn)出了潛在的優(yōu)勢(shì),有可能在未來(lái)成為主流架構(gòu),推動(dòng)人工智能技術(shù)實(shí)現(xiàn)新的跨越。另一條路徑是在原有架構(gòu)基礎(chǔ)上,通過(guò)優(yōu)化注意力機(jī)制等方式進(jìn)行升級(jí)。例如,采用線性注意力機(jī)制等改進(jìn)方法,能夠有效降低計(jì)算復(fù)雜度,提高模型效率,使其在現(xiàn)有資源條件下發(fā)揮出更大的性能優(yōu)勢(shì)。
從 AI 大模型的整體發(fā)展方向來(lái)看,一方面,研究人員可能會(huì)探索全新的基礎(chǔ)理論和模型架構(gòu),從根本上顛覆現(xiàn)有技術(shù)體系,帶來(lái)前所未有的創(chuàng)新突破。另一方面,也會(huì)在現(xiàn)有技術(shù)框架內(nèi)深入挖掘潛力,比如優(yōu)化參數(shù)高效化,使模型能夠在更少的參數(shù)下實(shí)現(xiàn)更好的性能;開發(fā)更智能的訓(xùn)練方法,提高訓(xùn)練效率和模型質(zhì)量;降低對(duì)數(shù)據(jù)和算力的依賴,讓 AI 技術(shù)更加可持續(xù)發(fā)展。無(wú)論選擇哪條路徑,最終的目標(biāo)都是實(shí)現(xiàn)更高的性能、更強(qiáng)的泛化能力、更低的資源消耗,推動(dòng) AI 技術(shù)在更多實(shí)際場(chǎng)景中的廣泛應(yīng)用,讓 AI 更加貼近人們的生活,實(shí)現(xiàn)可持續(xù)的普惠化發(fā)展。
張亞勤院士認(rèn)為 Transformer 可能在未來(lái)五年內(nèi)被新技術(shù)逐步重構(gòu);Andrej Karpathy 則大膽預(yù)測(cè) Transformer 有望超越人腦等。這些觀點(diǎn)和研究都表明,在未來(lái),隨著技術(shù)的持續(xù)進(jìn)步,Transformer 架構(gòu)及其替代架構(gòu)將不斷演進(jìn)和完善。它們之間的相互競(jìng)爭(zhēng)與融合,將為人工智能的發(fā)展注入源源不斷的動(dòng)力,創(chuàng)造出更多令人期待的可能性。無(wú)論是在自然語(yǔ)言處理領(lǐng)域?qū)崿F(xiàn)更加精準(zhǔn)和智能的交互,還是在計(jì)算機(jī)視覺(jué)領(lǐng)域帶來(lái)更強(qiáng)大的圖像理解和生成能力,Transformer 架構(gòu)及其相關(guān)技術(shù)都將發(fā)揮至關(guān)重要的作用,引領(lǐng)人工智能走向更加輝煌的未來(lái)。
本文轉(zhuǎn)載自??歐米伽未來(lái)研究所??,作者: 歐米伽未來(lái)研究所
