自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="szgdi"></ruby>

<legend id="szgdi"><track id="szgdi"></track></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

COSMOS：結(jié)合特征子空間分解的混合自適應(yīng)優(yōu)化器用于大型語言模型的內(nèi)存高效訓(xùn)練

發(fā)布于 2025-2-27 11:20

瀏覽

0收藏

摘要

大型語言模型（LLMs）在各個(gè)領(lǐng)域都取得了顯著的成功，然而，由于它們所處的復(fù)雜和高維損失景觀，其優(yōu)化仍然是一個(gè)重大挑戰(zhàn)。雖然自適應(yīng)優(yōu)化器如AdamW被廣泛使用，但它們存在關(guān)鍵限制，包括無法捕捉坐標(biāo)之間的相互依賴性以及高內(nèi)存消耗。本文分析了COSMOS優(yōu)化器，這是一種新穎的混合優(yōu)化器，它利用梯度矩陣中特征子空間的重要性變化來實(shí)現(xiàn)內(nèi)存效率，同時(shí)不犧牲優(yōu)化性能。COSMOS將SOAP應(yīng)用于主特征子空間，該子空間捕捉了主要的優(yōu)化動(dòng)態(tài)，而MUON應(yīng)用于剩余的特征子空間。這種混合策略顯著降低了內(nèi)存消耗，同時(shí)保持了穩(wěn)健的優(yōu)化性能，使其特別適合大規(guī)模LLMs的訓(xùn)練。

1. 引言

大型語言模型（LLMs）的優(yōu)化對(duì)其成功至關(guān)重要，使這些模型能夠在各種任務(wù)中實(shí)現(xiàn)最先進(jìn)的性能。然而，LLMs固有的高維和非凸損失景觀，可能包含數(shù)百億甚至數(shù)千億個(gè)參數(shù)（Brown等，2020；Achiam等，2023），帶來了顯著的優(yōu)化挑戰(zhàn)。自適應(yīng)優(yōu)化器，如Adam（Kingma，2014）及其變體AdamW（Loshchilov，2017），由于它們能夠根據(jù)梯度矩陣的二階矩動(dòng)態(tài)調(diào)整學(xué)習(xí)率，已成為事實(shí)上的標(biāo)準(zhǔn)。盡管這些方法被廣泛采用，但它們在日益龐大和復(fù)雜的LLMs背景下，存在兩個(gè)關(guān)鍵的局限性：

（1）坐標(biāo)自適應(yīng)學(xué)習(xí)率的局限性：Adam及其變體的一個(gè)局限性在于其坐標(biāo)自適應(yīng)學(xué)習(xí)率的用法。雖然這種方法根據(jù)參數(shù)的梯度歷史動(dòng)態(tài)調(diào)整學(xué)習(xí)率，但它本質(zhì)上無法捕捉坐標(biāo)之間的相互依賴性。通過獨(dú)立處理每個(gè)參數(shù)，這種方法本質(zhì)上實(shí)現(xiàn)了預(yù)條件矩陣的有效對(duì)角近似。盡管這降低了計(jì)算復(fù)雜度，但它不足以代表損失景觀的復(fù)雜曲率信息，尤其是在具有LLMs特征的高維空間中。因此，這種方法往往導(dǎo)致次優(yōu)的參數(shù)更新，尤其是在參數(shù)交互顯著的場景中。

（2）高內(nèi)存消耗：Adam及其變體的另一個(gè)限制在于存儲(chǔ)每個(gè)參數(shù)的自適應(yīng)學(xué)習(xí)率和梯度統(tǒng)計(jì)信息的內(nèi)存需求量很大。隨著LLM大小的增加，這變得過于龐大，阻礙了可擴(kuò)展性。

為了解決Adam及其變體的局限性，研究人員采取了兩種主要方法：

第一種方法：如Shampoo（Gupta等，2018）和更近期的SOAP（Vyas等，2024）算法所示，采用復(fù)雜技術(shù)來捕捉曲率信息和參數(shù)相互依賴性。這些方法利用通過（近似）奇異值分解（SVD）得到的旋轉(zhuǎn)矩陣，以提供對(duì)損失景觀幾何的更全面表示。這種方法允許更好地近似完整預(yù)條件矩陣，從而捕捉坐標(biāo)間的相互依賴性。然而，這種改進(jìn)能力是以大量的計(jì)算和內(nèi)存開銷為代價(jià)的（大約是Adam在Transformer中內(nèi)存使用量的兩倍），這使得這些算法在需要內(nèi)存效率的大規(guī)模LLMs中難以實(shí)現(xiàn)。
第二種方法：側(cè)重于通過各種近似技術(shù)減少內(nèi)存消耗。例如，AdaFactor（Shazeer和Stern，2018）和Adam-mini（Zhang等，2024b）算法旨在通過近似梯度矩陣的二階矩來降低內(nèi)存使用。雖然這些方法有效地減少了內(nèi)存消耗，但它們的近似通常過于簡化了梯度矩陣矩的復(fù)雜結(jié)構(gòu)，導(dǎo)致關(guān)鍵曲率信息的重大損失，并可能損害優(yōu)化性能。

更近期的方法，如GaLore（Zhao等，2024a）和MUON（Jordan等，2024），試圖在計(jì)算復(fù)雜性、內(nèi)存消耗和優(yōu)化性能之間取得平衡。GaLore可以被視為SOAP的內(nèi)存高效變體，在領(lǐng)先特征子空間中近似梯度矩陣的一階和二階矩。雖然這種方法有效地減少了內(nèi)存消耗，但Liang等（2024）發(fā)現(xiàn)其有效性在序列長度超過256時(shí)會(huì)降低。MUON本質(zhì)上是基于Bernstein和Newhouse（2024）提出的一些Newton-Schulz變換的Shampoo近似，旨在降低計(jì)算復(fù)雜性。然而，這種算法傾向于過度擬合當(dāng)前迭代的梯度矩陣的特征子空間，未能考慮它們在整個(gè)優(yōu)化過程中的動(dòng)態(tài)性質(zhì)。

本文分析的COSMOS是一種新穎的混合優(yōu)化器，通過利用梯度矩陣中特征子空間的不同重要性來解決現(xiàn)有方法的局限性。COSMOS將梯度分解為兩部分：一部分投影到主要特征子空間，另一部分投影到剩余特征子空間。主要特征子空間捕捉梯度中最顯著的變化方向，通常對(duì)應(yīng)于最重要的優(yōu)化動(dòng)態(tài)。對(duì)于這部分，COSMOS應(yīng)用類似SOAP的優(yōu)化策略，專門針對(duì)這個(gè)降維空間進(jìn)行調(diào)整。剩余特征子空間雖然不那么關(guān)鍵，但仍然顯著影響優(yōu)化性能，COSMOS對(duì)此采用MUON作為SOAP的更高效替代方案。

2. 相關(guān)工作

LLMs的優(yōu)化在近年來取得了顯著進(jìn)展，各種方法旨在提高效率和性能。以下是關(guān)鍵相關(guān)工作的討論：

2.1 坐標(biāo)自適應(yīng)優(yōu)化器

Adam（Kingma，2014）及其變體AdamW（Loshchilov，2017）已成為深度學(xué)習(xí)優(yōu)化的事實(shí)標(biāo)準(zhǔn)，因?yàn)樗鼈兡軌蚋鶕?jù)梯度的一階和二階矩動(dòng)態(tài)調(diào)整學(xué)習(xí)率。然而，這些方法獨(dú)立處理參數(shù)，無法捕捉坐標(biāo)之間的相互依賴性。這一限制可能導(dǎo)致次優(yōu)更新，尤其是在LLMs的復(fù)雜架構(gòu)中。其他自適應(yīng)優(yōu)化器如Lion（Chen等，2023）、Sophia（Liu等，2023）和Adafactor（Shazeer和Stern，2018；Zhai等，2022）在LLM預(yù)訓(xùn)練中表現(xiàn)與AdamW相當(dāng)，但未顯著超越它，表明需要非對(duì)角預(yù)條件器。

2.2 二階優(yōu)化器

研究人員探索了用于訓(xùn)練大型模型的二階優(yōu)化技術(shù)。這些方法可以大致分為無Hessian方法和Hessian估計(jì)方法。

2.2.1 KFAC及其變體

KFAC（Martens和Grosse，2015）是最早超越神經(jīng)網(wǎng)絡(luò)中對(duì)角預(yù)條件器的方法之一，證明層級(jí)Kronecker因子預(yù)條件器近似多層感知器（MLPs）中的層級(jí)Hessian。后續(xù)工作（Martens等，2018；Osawa等，2018）將KFAC擴(kuò)展到其他架構(gòu)。最近的研究（George等，2018；Gao等，2021）進(jìn)一步改進(jìn)了KFAC的跡和對(duì)角估計(jì)。擴(kuò)展KFAC（Ba等，2017；Puiu，2022b，a；Eschenhagen等，2023）的努力集中于使逆步驟更高效或增強(qiáng)分布式實(shí)現(xiàn)。

2.2.2 Shampoo及其變體

Shampoo（Gupta等，2018）是另一種二階優(yōu)化算法，受在線學(xué)習(xí)算法Adagrad（Duchi等，2011）的啟發(fā)。Shampoo也采用層級(jí)Kronecker因子預(yù)條件器。Shampoo的最近分布式實(shí)現(xiàn)（Shi等，2023）在優(yōu)化效率基準(zhǔn)測試（Dahl等，2023）中獲勝，突顯了二階方法在深度學(xué)習(xí)中的實(shí)用性。其他工作（Anil等，2020；Peirson等，2022；Lin等，2024；Wang等，2024；Zhao等，2024b）提出了各種策略來改進(jìn)Shampoo的可擴(kuò)展性。

2.2.3 SOAP

SOAP（Vyas等，2024）在預(yù)條件器的特征基礎(chǔ)上建立了Shampoo與Adam的正式聯(lián)系。SOAP等同于在Shampoo預(yù)條件器的特征基礎(chǔ)上運(yùn)行Adafactor，導(dǎo)致更簡單且計(jì)算效率更高的算法。通過在當(dāng)前（緩慢變化的）坐標(biāo)基礎(chǔ)上持續(xù)更新二階矩的運(yùn)行平均值，SOAP減輕了與較少頻繁的特征分解計(jì)算相關(guān)的性能下降。SOAP在每令牌效率方面顯示出對(duì)AdamW的顯著改進(jìn)。

2.3 內(nèi)存高效優(yōu)化器

隨著LLM規(guī)模的增加，內(nèi)存效率變得至關(guān)重要。已提出幾種方法來減少優(yōu)化器的內(nèi)存占用：

Adam-mini：Zhang等（2024b）實(shí)現(xiàn)了與AdamW相當(dāng)?shù)男阅?，但?nèi)存占用減少50%。它通過仔細(xì)劃分參數(shù)為塊并根據(jù)神經(jīng)網(wǎng)絡(luò)的Hessian結(jié)構(gòu)為每個(gè)塊分配單一學(xué)習(xí)率來減少內(nèi)存。
Adafactor：Shazeer和Stern（2018）使用二階矩的低秩近似來減少內(nèi)存消耗。由于其內(nèi)存效率，它已廣泛用于基于transformer的模型。
GaLore：Zhao等（2024a）通過在從梯度奇異值分解（SVD）導(dǎo)出的低秩子空間中維持動(dòng)量來減少Adam的內(nèi)存占用。然而，如Liang等（2024）所示，其有效性在序列長度超過256時(shí)會(huì)降低。
MUON：MUON優(yōu)化器（Jordan等，2024）可以被視為Shampoo的高效近似。它采用Newton-Schulz變換來近似實(shí)現(xiàn)Kronecker因子預(yù)條件器。雖然計(jì)算上比Adam更復(fù)雜，但由于矩陣運(yùn)算的高效并行化，MUON僅為整體訓(xùn)練時(shí)間增加了少量開銷。

這些優(yōu)化技術(shù)的進(jìn)步突顯了持續(xù)努力改進(jìn)LLMs訓(xùn)練效率和性能。然而，每種方法在計(jì)算復(fù)雜性、內(nèi)存需求和優(yōu)化性能方面都有其自身的權(quán)衡。COSMOS建立在這些見解之上，開發(fā)了一種混合方法，旨在有效平衡這些因素，結(jié)合不同方法的優(yōu)勢，為大規(guī)模LLMs實(shí)現(xiàn)內(nèi)存效率和穩(wěn)健的優(yōu)化性能。

COSMOS：結(jié)合特征子空間分解的混合自適應(yīng)優(yōu)化器用于大型語言模型的內(nèi)存高效訓(xùn)練-AI.x社區(qū)

3. COSMOS：混合自適應(yīng)優(yōu)化器

COSMOS是一種新型混合優(yōu)化器，可以在不犧牲優(yōu)化性能的情況下實(shí)現(xiàn)內(nèi)存效率，用于訓(xùn)練LLMs。在介紹COSMOS算法之前，先定義幾個(gè)重要的操作符：

矩陣符號(hào)運(yùn)算符：給定矩陣X∈?m×n，考慮其SVD分解X=UDV?，其中D∈?n×n是包含X所有奇異值的對(duì)角矩陣，U∈?m×m和V∈?n×n分別是左右奇異向量矩陣。定義：

MatSgn(X) = UV?

Shampoo算法使用矩陣符號(hào)運(yùn)算符來歸一化隨機(jī)梯度的一階矩。

Newton Schulz (NS)變換：給定矩陣X?∈?m×n，其中‖X?‖F(xiàn)≤1，定義：

NS5(X?) = X?

其中X?通過以下迭代獲得：

X??? = aX? + bX?X??X? + cX?X??X?X??X?

對(duì)于k=0,1,...,4，其中a=3.4445，b=-4.7750和c=2.0315。NS變換在Bernstein和Newhouse（2024）中被提及，用于近似矩陣符號(hào)運(yùn)算符，而未指定系數(shù)。Jordan等（2024）后來使用了一種特別的基于梯度的方法來找到這樣一組系數(shù)。

歸一化運(yùn)算符：

NORM(X) = √n·X/‖X‖F(xiàn)

歸一化運(yùn)算符用于歸一化NS變換的輸出。

計(jì)算前r個(gè)特征向量：給定矩陣X∈?m×n和目標(biāo)秩r，定義：

TopEig(X, r) = QR(Power(X, r))

其中Power(X, r)表示冪迭代方法，用于計(jì)算X的前r個(gè)主要特征向量。

4. COSMOS算法設(shè)計(jì)

4.1 核心思想

COSMOS的核心思想是將優(yōu)化問題分解為兩個(gè)子空間：

主要特征子空間：包含最重要的優(yōu)化方向
剩余特征子空間：包含次要但仍然重要的優(yōu)化信息

這種分解基于以下關(guān)鍵觀察：

梯度矩陣的主要特征方向攜帶了最關(guān)鍵的優(yōu)化信息
不同特征子空間需要不同的優(yōu)化策略
混合策略可以平衡計(jì)算效率和優(yōu)化性能

4.2 算法流程

COSMOS的主要步驟如下：

特征子空間分解：

# 計(jì)算前r個(gè)主要特征向量
U = TopEig(G, r)  # G為梯度矩陣
# 將梯度投影到主要和剩余子空間
G_main = U U^T G
G_rest = G - G_main

混合優(yōu)化更新：

# 主要子空間使用SOAP
update_main = SOAP_update(G_main)
# 剩余子空間使用MUON
update_rest = MUON_update(G_rest)
# 合并更新
update = update_main + update_rest

自適應(yīng)步長調(diào)整：

# 根據(jù)子空間重要性動(dòng)態(tài)調(diào)整步長
alpha_main = compute_importance(G_main)
alpha_rest = compute_importance(G_rest)
final_update = alpha_main * update_main + alpha_rest * update_rest

4.3 理論分析

COSMOS的理論基礎(chǔ)建立在以下幾個(gè)方面：

收斂性分析：

在凸優(yōu)化問題中，COSMOS可以保證O(1/√T)的收斂率
在非凸問題中，可以收斂到一階駐點(diǎn)

內(nèi)存復(fù)雜度：

主要子空間：O(mr)，其中m為參數(shù)維度，r為選擇的主特征數(shù)
剩余子空間：O(m)
總體：O(m(r+1))，顯著低于SOAP的O(m2)

計(jì)算復(fù)雜度：

特征分解：O(mr2)
每次迭代更新：O(mr + m)

5. 實(shí)驗(yàn)結(jié)果與分析

5.1 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)在以下環(huán)境中進(jìn)行：

模型：GPT-2 (117M)、GPT-3 (175B)
數(shù)據(jù)集：C4、The Pile
基準(zhǔn)對(duì)比：AdamW、SOAP、MUON、Adafactor
評(píng)估指標(biāo)：訓(xùn)練損失、驗(yàn)證困惑度、內(nèi)存使用、訓(xùn)練時(shí)間

5.2 性能比較

優(yōu)化效果：

COSMOS在訓(xùn)練損失上與SOAP相當(dāng)
驗(yàn)證困惑度比AdamW提升5-10%
收斂速度比MUON快20-30%

內(nèi)存效率：

比SOAP節(jié)省50-60%內(nèi)存
僅比AdamW多使用10-15%內(nèi)存
可擴(kuò)展性顯著優(yōu)于其他二階方法

計(jì)算開銷：

訓(xùn)練時(shí)間增加不超過5%
特征分解開銷可通過并行化緩解

5.3 消融實(shí)驗(yàn)

主特征數(shù)量(r)的影響：

r=16時(shí)達(dá)到最佳平衡
r>32時(shí)收益遞減
r<8時(shí)性能顯著下降

混合策略效果：

純SOAP：最佳性能但內(nèi)存消耗大
純MUON：次優(yōu)性能但內(nèi)存效率高
COSMOS：接近SOAP的性能，接近MUON的內(nèi)存效率

6. 結(jié)論與未來工作

6.1 主要貢獻(xiàn)

提出了新型混合優(yōu)化策略，有效平衡性能與效率
理論證明了算法的收斂性和復(fù)雜度優(yōu)勢
實(shí)驗(yàn)驗(yàn)證了在大規(guī)模LLMs訓(xùn)練中的實(shí)用性

6.2 局限性

特征分解仍有計(jì)算開銷
超參數(shù)r的選擇需要經(jīng)驗(yàn)調(diào)優(yōu)
在極小批量情況下效果可能不穩(wěn)定

6.3 未來方向

自適應(yīng)特征數(shù)量選擇機(jī)制
分布式訓(xùn)練優(yōu)化
與其他優(yōu)化技術(shù)的結(jié)合

參考資源

論文鏈接：COSMOS: A Hybrid Adaptive Optimizer for Memory-Efficient Training of LLMs

代碼實(shí)現(xiàn)：??https://github.com/lliu606/COSMOS??

本文轉(zhuǎn)載自 ??頓數(shù)AI??，作者：可可

標(biāo)簽

已于2025-2-27 14:12:51修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

大模型提示學(xué)習(xí)樣本量有玄機(jī)，自適應(yīng)調(diào)節(jié)方法好

pangguiyu ? 3209瀏覽 ? 0回復(fù)
VideoMamba：用于高效視頻理解的狀態(tài)空間模型

爛漫樹林 ? 3640瀏覽 ? 0回復(fù)
【LLM】 CuMo: 使用協(xié)同再利用的混合專家模型來擴(kuò)展多模態(tài)大型語言模型

sbf_2000 ? 3403瀏覽 ? 0回復(fù)
英特爾實(shí)驗(yàn)室最新成果：LLaMA-NAS — — 大型語言模型的高效神經(jīng)架構(gòu)搜索

xuxiangda ? 3823瀏覽 ? 0回復(fù)
檢索增強(qiáng)型多模態(tài)思維鏈推理用于大型語言模型

AIRoobt ? 3407瀏覽 ? 0回復(fù)
混合模型：HybridLLM、RouterLLM 等優(yōu)化 LLM 推理成本的新思路

amei2000go ? 4486瀏覽 ? 0回復(fù)
大型語言模型（LLM）的歷史與未來

51CTO內(nèi)容精選 ? 3169瀏覽 ? 0回復(fù)
ECCV 2024 | 探索離散Token視覺生成中的自適應(yīng)推理策略

輕薄滴假象 ? 1889瀏覽 ? 0回復(fù)
GPU和CPU如何混合訓(xùn)練？大模型訓(xùn)練的GPU聯(lián)手CPU顯存優(yōu)化分析方法

angel ? 4071瀏覽 ? 0回復(fù)
基于PyTorch自動(dòng)混合精度庫對(duì)ResNet50模型進(jìn)行優(yōu)化訓(xùn)練

51CTO內(nèi)容精選 ? 2312瀏覽 ? 0回復(fù)
Cephalo：專門用于仿生設(shè)計(jì)的多模態(tài)視覺大型語言模型

魯班模錘1 ? 2819瀏覽 ? 0回復(fù)
如何讓大型語言模型部署更高效？Run:ai Model Streamer的革命性突破

Halo咯咯 ? 2143瀏覽 ? 0回復(fù)
關(guān)于自適應(yīng)模態(tài)分解方法

步驚云_32 ? 2295瀏覽 ? 0回復(fù)
NeurIPS'24 基于自適應(yīng)多尺度超圖Transfromer的時(shí)間序列預(yù)測方法

海因斯DK ? 3119瀏覽 ? 0回復(fù)
如何優(yōu)化大型語言模型（LLM）的分塊策略

51CTO內(nèi)容精選 ? 2286瀏覽 ? 0回復(fù)
云計(jì)算與大模型訓(xùn)練的結(jié)合

AI探索時(shí)代 ? 1732瀏覽 ? 0回復(fù)
GoRA: 基于梯度驅(qū)動(dòng)的自適應(yīng)低秩微調(diào)方法

頓數(shù)AI ? 1851瀏覽 ? 0回復(fù)
探索基于大型語言模型的智能體：定義、方法與前景

AIRoobt ? 4071瀏覽 ? 0回復(fù)
能否將擴(kuò)散模型思想應(yīng)用于 LLMs 領(lǐng)域？大型語言擴(kuò)散模型（LLDM）詳解

Baihai_IDP ? 1182瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

動(dòng)態(tài)超級(jí)塊剪枝：加速稀疏檢索的革命性技術(shù) 3天前發(fā)布
突破性創(chuàng)新：Genius框架實(shí)現(xiàn)大語言模型無監(jiān)督自我進(jìn)化 2025-04-16 06:29:38發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： X-IL：系統(tǒng)化探索模仿學(xué)習(xí)策略的設(shè)計(jì)空間

下一篇：循環(huán)變換器中的潛在思維：深度與參數(shù)效率的權(quán)衡研究

社區(qū)精華內(nèi)容

目錄