哈佛大學:高維回歸中的Scaling Law是重整化的自然結果
《高維回歸中的縮放和重整化》【文獻1】由哈佛大學物理系、腦科學中心、工程與應用科學學院、自然與人工智能研究所多位學者共同撰寫,將隨機矩陣理論和自由概率用于理解高維嶺回歸模型的縮放與重整化行為。
一、背景知識
1. 嶺回歸(Ridge Regression)
一種線性回歸技術,損失函數(shù)中加入 L2 正則化 項,防止過擬合并提高泛化能力,特別適用于自變量高度相關的情況。
2. 隨機特征模型(Random Feature Model)
一種用于高維數(shù)據(jù)建模和機器學習的理論工具,在理解核方法(Kernel Methods)和神經(jīng)網(wǎng)絡的泛化能力方面起到了重要作用。
核心思想是用隨機映射將輸入數(shù)據(jù)投影到一個高維(通常是無限維)特征空間,在該特征空間中,使用線性方法(如線性回歸或感知機)進行學習,而不是直接在原始空間中使用復雜的非線性方法。
隨機特征模型幫助理解機器學習模型如何在過參數(shù)化(overparameterization)條件下仍然保持良好的泛化能力:雙下降現(xiàn)象,等效理論等。
隨機特征模型在統(tǒng)計物理和隨機矩陣理論(Random Matrix Theory, RMT)應用廣泛,如特征值分布和物理中玻璃態(tài)復雜能量景觀。
3. 自由概率(Free Probability)
一種非交換概率論,最初是為了研究自由群上的算子代數(shù)(如馮·諾依曼代數(shù)),后來在隨機矩陣理論等領域廣泛應用。
傳統(tǒng)概率論研究的是可交換的隨機變量(如標量或向量),而自由概率研究的是算子和矩陣(如隨機矩陣),乘法一般不滿足交換律。
在經(jīng)典概率中,獨立性意味著聯(lián)合期望可以分解為各自期望的乘積。而在自由概率中,自由性是一種用矩定義的非交換版本的獨立性。
4.R-變換與S-變換
R變換(R-transform)類似于經(jīng)典概率中的累積量生成函數(shù),用于計算自由概率卷積(類似于經(jīng)典概率中的獨立隨機變量求和)。
S變換(S-transform)用于計算自由概率乘法(類似于獨立隨機變量的乘積)。
二、研究綜述
1. 神經(jīng)縮放律(Scaling Law)
隨著數(shù)據(jù)集規(guī)模與算力的提升,大型語言、視覺及多模態(tài)模型的性能表現(xiàn)出顯著的冪律趨勢。
冪律指數(shù)決定了在給定計算資源下,如何聯(lián)調數(shù)據(jù)集與模型規(guī)模以獲得最優(yōu)性能。理解這些指數(shù)的決定因素,是其理論認知的核心。
2. 三個基本原理
a.高斯普適性,當線性回歸問題的維度與數(shù)據(jù)量線性增長時,訓練集與測試集的協(xié)方差矩陣與高維高斯分布無異,也稱高斯等價性。
b.確定性等價,計算平均訓練與泛化誤差時,需對有限訓練集的隨機選擇取平均,尤其涉及樣本經(jīng)驗協(xié)方差矩陣的均值。
近年研究表明,在相關代數(shù)表達式中,可將(依賴數(shù)據(jù)且隨機的)樣本協(xié)方差替換為(確定性的)總體協(xié)方差,此替換稱為確定性等價。
c.協(xié)方差S變換,經(jīng)驗協(xié)方差可視作對“真實”總體協(xié)方差的乘性噪聲(通常源于有限訓練集或隨機特征集),S變換能將含經(jīng)驗協(xié)方差的表達式替換為僅含總體協(xié)方差的確定性等價形式。
替換時,嶺參數(shù)被重新縮放(更準確說是重整化)為新值——原嶺參數(shù)乘以噪聲的S變換即可得重整化嶺參數(shù)。
協(xié)方差上的乘性噪聲是線性模型中所有過擬合與縮放現(xiàn)象的本質根源。
3. 縮放律的可解析研究
是否存在一個信息處理系統(tǒng)的簡化場景,可解析研究性能隨數(shù)據(jù)集與模型規(guī)模變化的冪律行為?
近期研究顯示,高維最小二乘回歸在不同特征空間中的表現(xiàn)屬于此類,包括線性回歸、核回歸以及隨機特征模型。
當特征空間維度與訓練數(shù)據(jù)量共同趨近無窮時,這些模型可推導出訓練與泛化性能的精確漸近特征。
論文采用基于隨機矩陣理論的新方法——特別是自由概率論中的S變換來推導這些漸近結果。
該方法明確了樣本協(xié)方差矩陣隨機性的核心作用。
由此視角,樣本與模型的雙重下降現(xiàn)象、縮放與瓶頸行為、以及訓練網(wǎng)絡方差來源分析等,均可視為基礎重整化的自然結果。
4. 線性模型的神經(jīng)縮放律
大多數(shù)可解的神經(jīng)網(wǎng)絡訓練與泛化模型聚焦于權重線性的函數(shù)形式:f(x)=w·?(x),其中?(x)為N維特征向量(N可能無限),特征本身可隨機。
此類線性模型包括核方法與隨機特征模型。當通過嶺回歸在P個樣本上學習權重時,可精確計算模型泛化性能的漸近行為。
高斯普適性使此類線性模型的精確漸近研究成為可能——該性質在確定性核的核方法與隨機特征模型中均有研究。此類方法可適配于研究隨機梯度下降(SGD)訓練的高維線性模型動態(tài)。
研究此類線性模型的動機之一在于:神經(jīng)正切核(NTK)參數(shù)化的神經(jīng)網(wǎng)絡在無限寬度極限下收斂于核方法。核方法因其凸目標函數(shù)已有成熟理論。
有限寬度網(wǎng)絡通過輸出重縮放仍可保持線性行為(稱為"惰性訓練"或"線性化網(wǎng)絡"),其表現(xiàn)類似于無限寬度NTK的隨機特征近似。理解核機制有助于分析特征學習型網(wǎng)絡。
統(tǒng)計力學的視角看,深度學習中縮放律的觀測尤為有趣——該領域曾因將縮放指數(shù)作為主要研究對象而取得重大突破,重整化成為研究復雜系統(tǒng)縮放特性的核心工具。
三、論文貢獻
1. 核心技術框架
通過分析經(jīng)驗協(xié)方差矩陣,論文提出可將其實視為"真實"總體協(xié)方差的乘性噪聲擾動版本,并引入自由概率論中的R變換與S變換及其關鍵性質。
論文的技術核心貢獻是,通過圖解法推導R/S變換的性質,賦予其"本征能量"物理解釋,并闡明其作為累積量生成函數(shù)的作用。
文中顯式計算了多種隨機矩陣系的R/S變換,僅利用變換的基本性質即可推導代數(shù)形式,無需直接求解解析函數(shù)。
2. 關鍵應用突破
通過將上述工具應用于線性/核嶺回歸的學習曲線分析:
統(tǒng)一再現(xiàn)前人關于訓練/泛化誤差漸近行為的結果,揭示關鍵參數(shù)κ實為嶺參數(shù)λ的重整化形式(重整化系數(shù)即噪聲的S變換)
提出S變換平方等于樣本外與樣本內誤差比,據(jù)此僅用訓練數(shù)據(jù)估計S變換,可導出廣義交叉驗證理論,給出偏差-方差分解的精確表達式。
從數(shù)據(jù)集的源-容量指數(shù)推導分辨率受限縮放指數(shù),闡明標簽噪聲和非零嶺參數(shù)如何導致不同縮放機制。
3. 創(chuàng)新成果
論文用隨機矩陣理論和自由概率論的基本工具,對多種高維嶺回歸模型的訓練及泛化性能進行了簡明推導。
通過直接運用自由概率論中S變換的性質,僅用少量代數(shù)運算便得到了訓練誤差與泛化誤差的解析表達式,可直觀識別模型性能中冪律縮放現(xiàn)象的來源。
計算了一類廣泛隨機特征模型的泛化誤差,發(fā)現(xiàn)所有模型中,S變換均對應訓練-測試泛化差距,并產(chǎn)生一種廣義交叉驗證估計量的類比結果。
對具有結構化協(xié)變量的廣義隨機特征模型進行了細粒度偏差-方差分解。新結果揭示了隨機特征模型在過參數(shù)化場景下因特征方差導致性能受限的縮放機制。
證明了隨機特征模型中各向異性權重結構如何限制性能,并導致過參數(shù)化場景中有限寬度修正的非平凡指數(shù)。
本研究拓展了早期神經(jīng)縮放律模型,并為其提供了統(tǒng)一的理論視角。
4.代碼可用性
論文所有圖表可通過以下開源倉庫復現(xiàn):???https://github.com/Pehlevan-Group/S_transform,???提供交互式Python筆記本,便于讀者驗證數(shù)值結果。
四、論文啟示
筆者在???大模型的數(shù)理認知框架??整理了大模型智能產(chǎn)生的本質的數(shù)學物理機理:
1、重整化從海量語料中提取出范疇
2、持續(xù)重整化驅動范疇解構重組以至相變
3、生成過程是于范疇中采樣做變分推理。
結合哈佛大學這篇論文的研究,給了筆者如下幾點啟示:
1. Scaling Law的物理本質
大模型的冪律縮放行為可能源于預訓練過程中重整化群流(RG Flow)的固有特性。
論文的S變換(自由概率論)與RG中的β函數(shù)均通過“尺度變換”描述系統(tǒng)演化,暗示兩者數(shù)學可能同構。
預訓練時,模型參數(shù)在高維概率空間中的粗?;^程(RG流)自動篩選出普適性縮放指數(shù),與數(shù)據(jù)細節(jié)無關。
Scaling Law的物理本質是高維概率空間內尺度重整化下的涌現(xiàn)。
2. 隨機特征模型與對稱性破缺
論文發(fā)現(xiàn)隨機特征模型的性能瓶頸由特征方差(乘性噪聲)主導,這與筆者提出的對稱性破缺導致相變機制高度契合:
訓練初期,隨機特征(無序相)對應高方差,性能受限于1/N縮放(平凡指數(shù))。訓練后期,特征學習(有序相)引發(fā)對稱性破缺,進入非平凡縮放區(qū)。
3. 自由能最小化與S變換的廣義交叉驗證
論文指出S變換平方等價于樣本外/樣本內誤差比,與筆者所說變分推斷最小化自由能本質是優(yōu)化同一量:
S變換量化乘性噪聲對泛化gap的影響S2=Etest/Etrain;自由能F=Energy?T?Entropy 中,熵項對應S變換的噪聲熵懲罰。
提示工程(Prompting)可視為對模型施加外場,擾動S變換的噪聲結構,從而調控F的極小值位置。
文獻1,Scaling and renormalization in high-dimensional regression,???https://arxiv.org/html/2405.00592v3??
本文轉載自????清熙????,作者:王慶法
