馬毅、沈向洋聯(lián)手,首屆CPAL開獎!16人獲新星獎,華人學者占據(jù)半壁江山
就在昨天,首屆CPAL簡約學術會議,正式公布了新星獎獲獎者名單!
CPAL專注于解決機器學習、信號處理、優(yōu)化等領域中普遍存在的簡約、低維結構問題,并探索低維結構在智能硬件與系統(tǒng)、交叉科學和工程等新興方向的應用。
創(chuàng)辦這個會議的出發(fā)點,就是將其設計為一個普遍的科學論壇,讓科學和工程領域的研究人員能夠聚集在一起,分享見解,并最終努力達成一個一致認同的現(xiàn)代計算理論框架,從簡約學習的角度理解智能和科學。
而「新星獎」除了會表彰處于職業(yè)生涯關鍵轉(zhuǎn)折點和起點的杰出初級研究人員外,還將為博士生、博士后、初級教師和業(yè)界研究人員提供一個平臺和支持性指導網(wǎng)絡,通過引導學術和職業(yè)的發(fā)展,進而增加這個領域的代表性和多樣性。
獲獎名單
CPAL新星獎要求申請者必須符合以下之一:博士生畢業(yè)前最后一年,博士后,任職助理教授第一年,或者工業(yè)界研究者博士畢業(yè)兩年內(nèi)。
今年,大會共收到了來自世界各地57份申請,所有候選人都展示了自己在機器學習、應用數(shù)學、信號處理、優(yōu)化、系統(tǒng),以及更多跨學科領域的杰出背景和專業(yè)知識,申請競爭極為激烈。
為此,由評審委員會主席陳羽北(現(xiàn)任UC Davis助理教授,此前為紐約大學Yan LeCun教授的博士后研究員)組織了評審委員會。每一個參與評審的資深研究員,都進行了非常認真的審查和投票(每個成員最多可投20票)。
具體來說,投票基于以下幾個方面:1)研究的潛在影響;2)與CPAL主題的相關性;3)多樣性和包容性。如果出現(xiàn)平票的情況,團隊會進行額外的討論來確定獲獎者。
經(jīng)過全面評估,大會最終選取了其中的16位,祝賀所有獲獎者!
Lijun Ding,威斯康星大學/華盛頓大學,IFDS博士后研究員
題目:Optimization for statistical learning with low dimensional structure: regularity and conditioning
很多統(tǒng)計機器學習問題(旨在恢復底層低維信號)都以優(yōu)化為基礎?,F(xiàn)有的工作往往忽視了解決優(yōu)化問題的計算復雜性,或者需要針對具體情況進行算法和分析,尤其是非凸問題。
本研究從調(diào)節(jié)的統(tǒng)一視角來解決上述兩個問題。其特別指出,一旦樣本量超過固有維度,(1)一大類凸問題和非光滑非凸問題就會得到良好的條件;(2)良好的條件反過來又確保了開箱即用優(yōu)化方法的效率,并激發(fā)了新算法的靈感。
最后,研究提出了一種稱為「平坦性」(flatness)的條件概念,它能在超參數(shù)模型中實現(xiàn)精確恢復。
Ningyuan Huang,約翰斯·霍普金斯大學,博士生
題目:Approximately Equivariant Graph Networks
圖神經(jīng)網(wǎng)絡(GNN)的置換同變性經(jīng)常被拿來與卷積神經(jīng)網(wǎng)絡(CNN)的平移不變性相比較。然而,這兩種對稱性有著本質(zhì)區(qū)別:CNN的是主動對稱性,而GNN的是被動對稱性。
本研究重點討論了GNN的主動對稱性,考慮到信號在固定圖上的學習環(huán)境,GNN的自然對稱性是圖的自同構。
由于現(xiàn)實世界的圖往往是不對稱的,研究通過圖粗化來形式化近似對稱,從而放寬了對稱的概念。研究提出了近似等變圖網(wǎng)絡來實現(xiàn)這些對稱性,并研究了對稱性模型選擇問題。
研究從理論和經(jīng)驗上表明,根據(jù)所選的對稱組,學習到的估計值在表現(xiàn)力損失和規(guī)則性增益之間存在偏差-方差權衡。
Daniel Paul Kunin,斯坦福大學,博士生
題目:Stochastic Collapse: How Gradient Noise Attracts SGD Dynamics Towards Simpler Subnetworks
本項研究揭示了隨機梯度下降法(SGD)的一個隱含偏差,它能將表現(xiàn)力過強的網(wǎng)絡轉(zhuǎn)化為簡單得多的子網(wǎng)絡,從而顯著減少獨立參數(shù)的數(shù)量,提高泛化能力。
為了揭示這種偏差,研究確定了不變集,即在SGD下保持不變的參數(shù)空間的子集。并重點研究了其中兩類與現(xiàn)代架構中常見的簡單(稀疏或低秩)子網(wǎng)相對應的不變集。分析發(fā)現(xiàn),SGD對這些簡單的不變集具有隨機吸引力。
研究建立了一個基于損失函數(shù)曲率和隨機梯度引入的噪聲之間競爭的充分條件來解釋隨機吸引性。值得注意的是,研究現(xiàn)噪聲水平的增加會增強吸引力,導致出現(xiàn)與訓練損失的鞍點或局部最大值相關的有吸引力的不變集。
研究從經(jīng)驗上觀察到,在預訓練的深度神經(jīng)網(wǎng)絡中存在有吸引力的不變量集,這意味著SGD常常會坍縮為具有消失或冗余神經(jīng)元的簡單子網(wǎng)絡。研究進一步證明了這種隨機坍縮的簡化過程如何有利于泛化。
最后,通過這一分析,研究從機理上解釋了為什么使用大學習率進行早期訓練有助于后續(xù)的泛化。
Daniel LeJeune,斯坦福大學,博士后研究員
題目:Emergent properties of heuristics in machine learning
在現(xiàn)代機器學習實踐中,成功的方法都是建立在設計者扎實的直覺和理論洞察力之上的,但最終往往都是啟發(fā)式的,并表現(xiàn)出意想不到的涌現(xiàn)行為。有時,這些涌現(xiàn)行為是有害的,但令人驚訝的是,許多涌現(xiàn)行為卻帶來了意想不到的好處。
通過從理論上描述這些涌現(xiàn)行為,我們可以開發(fā)出更強大的方法開發(fā)流程,在這個流程中,越來越多的理想行為可以通過設計納入其中,并以強大的方式加以利用。
本研究將討論啟發(fā)式方法和新興行為的幾個例子:線性回歸中的子采樣和草圖技術及其與嶺回歸的等價性;經(jīng)驗風險最小化以及在分布變化下的相對性能的普適性;以及在dropout和特征學習模型中的適應性,這些模型等價于促進簡約的稀疏或低秩正則化。
Shuang Li,愛荷華州立大學,助理教授
題目:The Future Geometric Analysis of Optimization Problems in Signal Processing and Machine Learning
高維數(shù)據(jù)分析和估計經(jīng)常會出現(xiàn)在信號處理和機器學習應用之中。這些高維數(shù)據(jù)的低維結構,啟發(fā)我們?yōu)樾盘柼幚砗蜋C器學習中的基本問題,開發(fā)最優(yōu)化方法以及基于優(yōu)化的技術。
近年來,非凸優(yōu)化廣泛出現(xiàn)在工程領域,并被許多啟發(fā)式局部算法所解決,但缺乏全局保證。最近的幾何/形態(tài)分析為確定迭代算法是否能達到全局最優(yōu)提供了一種方法。
在一系列機器學習問題中,包括低秩矩陣因式分解、矩陣傳感、矩陣補全和相位檢索等,都對經(jīng)驗風險形態(tài)進行了廣泛研究。有利的幾何形狀保證很多算法可以避開鞍點并收斂到局部最小值。
本研究將討論未來信號處理和機器學習中優(yōu)化問題幾何分析的潛在方向。
Shiwei Liu,得克薩斯大學奧斯汀分校,IFML博士后研究員
題目:Sparsity in Neural Networks: Science and Practice
稀疏性通過有選擇地消除大部分模型參數(shù),在模型壓縮領域表現(xiàn)出了卓越的性能。
為了發(fā)現(xiàn)強大的稀疏神經(jīng)網(wǎng)絡,通常需要先訓練一個過參數(shù)化的密集模型,然后再進行剪枝和重新訓練。但隨著現(xiàn)代神經(jīng)網(wǎng)絡規(guī)模的指數(shù)級增長,密集預訓練和更新的成本變得越來越高。
本研究將介紹一種無需任何預訓練或密集更新,即可從頭開始訓練稀疏神經(jīng)網(wǎng)絡的方法。
通過在時間上實現(xiàn)過參數(shù)化的特性,該方法展示了在僅使用極少部分權重的情況下,實現(xiàn)與完全密集網(wǎng)絡相當?shù)男阅芩降哪芰Α?/span>
除了在模型壓縮方面的優(yōu)勢外,研究還將闡明稀疏性在神經(jīng)網(wǎng)絡中更廣泛的優(yōu)勢,包括可擴展性、魯棒性、公平性,以及構建大規(guī)模負責任人工智能的巨大潛力。
Yiping Lu,紐約大學,柯朗講師
題目:Simulation-Calibrated Scientific Machine Learning
機器學習(ML)在各種應用中取得了巨大成功,為復雜的高維數(shù)據(jù)提供了一種建立靈活、通用和高效近似值的新方法。
這些成功激勵了許多研究人員將ML應用于其他科學應用領域,如工業(yè)工程、科學計算和運籌學等經(jīng)常面臨類似挑戰(zhàn)的領域。
然而,大規(guī)模機器學習(尤其是深度學習)的數(shù)學理論仍然匱乏,經(jīng)過訓練的ML預測器總是存在偏差,這些長期存在的問題為ML的輝煌成就蒙上了陰影。
在這項研究中中,作者將介紹一個新穎的SCaSML框架,它可以利用物理模型的結構來實現(xiàn)以下目標:
1)即使基于有偏差的機器學習預測器,也能做出無偏的預測;
2)通過使用估計器克服維度災難(the curse of dimensionality)。
SCASML范式將可能有偏差的機器學習算法,與使用嚴格數(shù)值分析和隨機模擬的去偏差步驟設計相結合。
從理論上講,作者將嘗試了解SCaSML算法是否最優(yōu),以及哪些因素(如平滑度、維度和約束性)決定了收斂速度的提升。
從實證角度,作者將介紹不同的估計器,這些估計器能用有偏差的機器學習估計器對物理量進行無偏且可信的估計。
其應用包括但不限于估計函數(shù)矩、模擬高維隨機過程、使用自助方法(bootstrap methods)進行不確定性量化以及隨機線性代數(shù)。
Omar Montasser,加州大學伯克利分校,F(xiàn)ODSI-Simons博士后研究員
題目:Theoretical Foundations of Adversarially Robust Learning
盡管取得了非凡的進步,但目前的機器學習系統(tǒng)在對抗性示例方面仍較弱:測試示例中看似無害,但經(jīng)過精心設計的擾動會導致機器學習預測器分類錯誤。
我們能否學習對抗攻擊魯棒性的模型?對于機器學習中的這一重大挑戰(zhàn),實證研究界一直很感興趣。
在研究中,作者將從理論角度進行闡述,說明超越傳統(tǒng)方法和原則(如經(jīng)驗(魯棒性)風險最小化)的必要性,并提出具有更強魯棒性學習保證的新算法思想。
Ramchandran Muthukumar,約翰斯·霍普金斯大學,博士生
題目:Sparsity-aware generalization theory for deep neural networks
深度人工神經(jīng)網(wǎng)絡具有令人驚奇的泛化能力,但人們對這種能力的了解仍然很少。
在本文中,作者提出了一種分析深度前饋ReLU網(wǎng)絡泛化的新方法,該方法利用了隱層激活的稀疏程度。
通過開發(fā)一個框架,考慮到每個輸入樣本的有效模型大小的減少,研究人員能夠展示稀疏性和泛化之間的基本權衡。
重要的是,研究結果沒有對模型實現(xiàn)的稀疏程度做出強烈的假設,而且比最近基于規(guī)范的方法有所改進。
研究通過有力的數(shù)字證明了結果,在特定環(huán)境下與依賴數(shù)據(jù)的先驗相結合時,即使是在過度參數(shù)化的模型中,也不會出現(xiàn)非空界(non-vacuous bounds)。
Ambar Pal,約翰斯·霍普金斯大學,博士生
題目:The Role of Parsimonious Structures in Data for Trustworthy Machine Learning
這項研究概述了對抗魯棒機器學習幾何基礎的最新理論成果。
現(xiàn)代ML分類器在受到特別設計的輸入擾動(對抗示例)時,可能會嚴重失效。另一方面,在一些涉及視覺的任務中,我們?nèi)祟愻敯粜愿鼜姟?/span>
受這種現(xiàn)象的啟發(fā),在本研究的第一部分,作者將深入探討何時才能避免對抗樣本的問題。
我們將看到,數(shù)據(jù)分布的一個關鍵幾何特性——集中在輸入空間的小體積子集上——決定了是否存在任何魯棒分類器。特別是,這表明自然圖像分布是集中的。
在本研究的第二部分,作者將針對一些集中的數(shù)據(jù)分布實證這些結果,并發(fā)現(xiàn)利用數(shù)據(jù)中的這種結構,可以訓練出在某些情況下?lián)碛懈玫目勺C明魯棒性保證的分類器
本研究內(nèi)容也基于NeurIPS 2023, 2020和TMLR 2023的工作成果。
Rahul Parhi,洛桑聯(lián)邦理工學院,博士后研究員
題目:On the Sparsity-Promoting Effect of Weight Decay in Deep Learning
深度學習在實踐中取得了巨大成功,最先進的人工智能系統(tǒng)大多基于神經(jīng)網(wǎng)絡。然而,目前還缺乏一種嚴格的數(shù)學理論來充分解釋深度神經(jīng)網(wǎng)絡的驚人性能。
在本講座中,作者將介紹一個新的數(shù)學框架,為深入理解深度學習提供一個開端。
這個框架通過稀疏性的視角,精確地描述了訓練有素的神經(jīng)網(wǎng)絡的功能特性。支持這一框架的關鍵數(shù)學工具包括變換域稀疏正則化、計算機斷層掃描的Radon變換和逼近論(approximation theory)。
該框架解釋了神經(jīng)網(wǎng)絡訓練中權重衰減正則化的效果、網(wǎng)絡架構中跳轉(zhuǎn)連接和低秩權重矩陣的重要性、稀疏性在神經(jīng)網(wǎng)絡中的作用,并解釋了神經(jīng)網(wǎng)絡為何能在高維問題中表現(xiàn)出色。
Bahareh Tolooshams,加州理工學院,博士后研究員
題目:Deep Interpretable Generative Learning for Science and Engineering
判別式人工智能和生成式人工智能是兩種深度學習范式,它們徹底改變了根據(jù)文本提示預測和生成高質(zhì)量圖像的方法。
然而,判別式學習無法生成數(shù)據(jù),而生成模型則在解碼能力方面能力較弱。此外,這兩種方法都需要大量數(shù)據(jù),而且可解釋性較低。
這些缺點嚴重阻礙了深度學習在以下方面的應用:a) 獲取監(jiān)督數(shù)據(jù)成本高昂或不可行;b) 目標超出數(shù)據(jù)擬合范圍,無法獲得科學見解。
此外,深度學習在逆問題等具有豐富數(shù)學和優(yōu)化框架的領域,或在可解釋性很重要的領域的應用還相當少。
這項研究將討論深度學習在數(shù)據(jù)有限或無監(jiān)督逆問題中的理論和應用。這些應用包括雷達傳感、圖像中「泊松去噪」和計算神經(jīng)科學。
Hongyi Wang,卡內(nèi)基梅隆大學,高級項目科學家
題目:Speeding up Large-Scale Machine Learning Model Development Using Low-Rank Models and Gradients
大規(guī)模機器學習(ML)模型,如GPT-4和Llama2,是人工智能領域最前沿的進展。
然而,開發(fā)這些大規(guī)模ML模型需要大量的計算資源,以及對分布式ML和系統(tǒng)的深刻理解。
在這項研究中,作者將介紹三個框架,即ATOMO、Pufferfish和Cuttlefish,它們使用模型梯度和模型權重的低階近似來大大加快ML模型的訓練。
- ATOMO 是一種通用壓縮框架,實驗證明,與稀疏梯度相比,使用低秩梯度可以大大加快分布式訓練的速度。
- Pufferfish通過直接訓練低秩模型,進一步繞過了壓縮成本。不過,直接訓練低秩模型通常會導致準確率下降。Pufferfish通過訓練全秩模型,然后轉(zhuǎn)換為低秩模型來緩解這一問題。不過,Pufferfish需要額外的超參數(shù)調(diào)整,例如確定從全秩模型到低秩模型的最佳轉(zhuǎn)換時間。
- Cuttlefish通過在訓練過程中自動估計和調(diào)整這些超參數(shù)來解決這個問題。
研究中詳細介紹了大規(guī)模ML模型(包括LLM)分布式訓練的大量實驗結果,以展示這些框架的效果。
Peng Wang,密歇根大學,博士后研究員
題目:Understanding Hierarchical Representations in Deep Networks via Intermediate Features
在過去十年中,深度學習已被證明是一種從原始數(shù)據(jù)中學習有意義特征的高效方法。這項研究試圖揭開深度網(wǎng)絡中分層特征學習的神秘面紗。
具體來說,在多類分類問題中,作者研究了深度網(wǎng)絡每層特征輸出,來探索網(wǎng)絡如何變換輸入數(shù)據(jù)。
為此,研究人員首先分別定義了中間特征的「類內(nèi)壓縮」和「類間區(qū)分指標」。
通過對這兩個指標的分析,他們發(fā)現(xiàn),從淺層到深層,特征的演變遵循一個簡單而量化的規(guī)律:線性網(wǎng)絡的每一層都以線性速率逐步壓縮「類內(nèi)特征」,以亞線性速率提升「類間區(qū)分特征」。
據(jù)研究人員所知,這是首次對深度網(wǎng)絡分層表示中的特征演化進行量化描述。此外,大量實驗從數(shù)值上驗證了這一理論發(fā)現(xiàn)。
Yaodong Yu,加州大學伯克利分校,博士生
題目:White-Box Transformers via Sparse Rate Reduction
這項研究中,作者將介紹白盒Transformer--CRATE(即編碼RAte reduction Transformer)。
研究人員認為,表征學習的目標是壓縮和轉(zhuǎn)換數(shù)據(jù)分布(例如標記集),使其混合在不相干子空間上支持的低維高斯分布。
最終表示的質(zhì)量可以用一個統(tǒng)一的目標函數(shù)——稀疏率降低來衡量。從這個角度來看,Transformer等流行的深度網(wǎng)絡可以自然地被視為漸進優(yōu)化這個目標的迭代方案。
特別是,研究人員展示了標準Transformer模塊可以通過對這一目標的互補部分進行交替優(yōu)化而推導:多頭自注意力算子可被視為梯度下降步驟,通過最小化有損編碼率來壓縮標記集。
由此,這就產(chǎn)生了一系列在數(shù)學上可以解釋的白盒Transformer架構。
最后實驗表明,這些網(wǎng)絡確實能學會優(yōu)化設計目標:它們能壓縮和稀疏化大規(guī)模真實世界視覺數(shù)據(jù)集(如 ImageNet)的表示,其性能非常接近精心設計的Transformer(ViTs)。
另外,作者還介紹了CRATE在涌現(xiàn)行為、語言建模和自動編碼方面的一些最新理論和實證結果。
Ravid Shwartz Ziv,紐約大學,CDS特任研究員
題目:Decoding the Information Bottleneck in Self-Supervised Learning: Pathway to Optimal Representation
深度神經(jīng)網(wǎng)絡(DNN)在許多領域都表現(xiàn)出色,這主要歸功于它們對監(jiān)督學習任務的熟練掌握。
然而,當標注數(shù)據(jù)稀缺時,對大量標注數(shù)據(jù)的依賴就會成為制約因素。
自監(jiān)督學習(SSL)是一種很有前途的方法,它利用無標記數(shù)據(jù)來學習有意義的表征。然而,自監(jiān)督學習如何在沒有明確標注的情況下,它對如何過濾不相關的信息仍不清楚。
在本研究中,作者以信息瓶頸原理為重點,從信息論的角度來揭開SSL奧秘。
信息瓶頸原理可以解釋監(jiān)督學習中壓縮相關特征和保留信息的平衡,但在應用于SSL時,卻因訓練過程中缺乏標簽而帶來了難題。
研究人員將深入探討SSL中「最優(yōu)表示」的概念、它與數(shù)據(jù)增強、優(yōu)化方法和下游任務的關系,以及SSL訓練如何學習和實現(xiàn)最優(yōu)表示。
研究中的討論揭示了開創(chuàng)性發(fā)現(xiàn),展示了SSL訓練如何自然而然地創(chuàng)建與語義標簽相關的最優(yōu)、緊湊表征。
值得注意的是,SSL似乎能協(xié)調(diào)學習到的表征與語義類別在多個層次上的對齊,這種對齊在訓練過程中不斷加強,并在網(wǎng)絡深層上變得更加明確。
最后,研究人員基于這些見解設計更強大的自監(jiān)督學習信息算法,可提升遷移學習效果,建立更高效的學習系統(tǒng),尤其是在數(shù)據(jù)稀缺的環(huán)境中。