稀疏模型最新進(jìn)展!馬毅+LeCun強(qiáng)強(qiáng)聯(lián)手:「白盒」非監(jiān)督式學(xué)習(xí)
最近馬毅教授和圖靈獎(jiǎng)得主Yann LeCun聯(lián)手在ICLR 2023上發(fā)表了一篇論文,描述了一種極簡(jiǎn)和可解釋的非監(jiān)督式學(xué)習(xí)方法,不需要求助于數(shù)據(jù)增強(qiáng)、超參數(shù)調(diào)整或其他工程設(shè)計(jì),就可以實(shí)現(xiàn)接近 SOTA SSL 方法的性能。
論文鏈接:?https://arxiv.org/abs/2209.15261?
該方法利用了稀疏流形變換,將稀疏編碼、流形學(xué)習(xí)和慢特征分析(slow feature analysis)相結(jié)合。
采用單層確定性稀疏流形變換,在 MNIST 上可以達(dá)到99.3% 的 KNN top-1精度,在 CIFAR-10上可以達(dá)到81.1% 的 KNN top-1精度,在 CIFAR-100上可以達(dá)到53.2% 的 KNN top-1精度。
通過(guò)簡(jiǎn)單的灰度增強(qiáng),模型在 CIFAR-10和 CIFAR-100上的精度分別達(dá)到83.2% 和57% ,這些結(jié)果顯著地縮小了簡(jiǎn)單的「白盒」方法和 SOTA 方法之間的差距。
此外,文中還提供了可視化解釋如何形成一個(gè)無(wú)監(jiān)督的表征變換。該方法與潛在嵌入自監(jiān)督方法密切相關(guān),可以看作是最簡(jiǎn)單的 VICReg 方法。
盡管在我們簡(jiǎn)單的建設(shè)性模型和 SOTA 方法之間仍然存在很小的性能差距,但有證據(jù)表明,這是一個(gè)有希望的方向,可以實(shí)現(xiàn)一個(gè)原則性的、白盒式的非監(jiān)督式學(xué)習(xí)。
文章第一作者Yubei Chen是紐約大學(xué)數(shù)據(jù)科學(xué)中心(CDS)和Meta基礎(chǔ)人工智能研究(FAIR)的博士后助理,導(dǎo)師為Yann LeCun教授,博士畢業(yè)于加州大學(xué)伯克利分校的Redwood Center理論神經(jīng)科學(xué)和伯克利人工智能研究所(BAIR),本科畢業(yè)于清華大學(xué)。
主要研究方向研究為計(jì)算神經(jīng)科學(xué)學(xué)習(xí)和深度無(wú)監(jiān)督(自監(jiān)督)學(xué)習(xí)的交叉,研究結(jié)果增強(qiáng)了對(duì)大腦和機(jī)器無(wú)監(jiān)督表征學(xué)習(xí)的計(jì)算原理的理解,并重塑對(duì)自然信號(hào)統(tǒng)計(jì)的認(rèn)識(shí)。
馬毅教授于1995年獲得清華大學(xué)自動(dòng)化與應(yīng)用數(shù)學(xué)雙學(xué)士學(xué)位,并于1997年獲加州大學(xué)伯克利分校EECS碩士學(xué)位,2000年獲數(shù)學(xué)碩士學(xué)位與EECS博士學(xué)位。目前是加州大學(xué)伯克利分校電子工程與計(jì)算機(jī)科學(xué)系教授,同時(shí)也是IEEE Fellow,ACM Fellow,SIAM Fellow。
Yann LeCun最著名的工作是在光學(xué)字符識(shí)別和計(jì)算機(jī)視覺(jué)上使用卷積神經(jīng)網(wǎng)絡(luò)(CNN),也被稱為卷積網(wǎng)絡(luò)之父;2019年他同Bengio以及Hinton共同獲得計(jì)算機(jī)學(xué)界最高獎(jiǎng)項(xiàng)圖靈獎(jiǎng)。
從最簡(jiǎn)單的無(wú)監(jiān)督學(xué)習(xí)開(kāi)始
在過(guò)去的幾年里,無(wú)監(jiān)督表征學(xué)習(xí)取得了巨大的進(jìn)展,并且有望在數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)中提供強(qiáng)大的可擴(kuò)展性。
不過(guò)什么是學(xué)習(xí)到的表征,以及它究竟是如何以無(wú)監(jiān)督的方式形成的,這些問(wèn)題仍然不清楚;此外,是否存在一套支撐所有這些無(wú)監(jiān)督表征的共同原則仍不清楚。
許多研究者已經(jīng)意識(shí)到提高模型理解力的重要性,并采取了一些開(kāi)創(chuàng)性的措施,試圖簡(jiǎn)化SOTA方法,建立與經(jīng)典方法之間的聯(lián)系,統(tǒng)一不同的方法,使表征可視化,并從理論角度分析這些方法,并希望能夠開(kāi)發(fā)出一種不同的計(jì)算理論:使我們能夠基于第一原理從數(shù)據(jù)中建立簡(jiǎn)單的、完全可以解釋的「白盒」模型,該理論也可以為理解人腦中無(wú)監(jiān)督學(xué)習(xí)的原則提供指導(dǎo)。
在這項(xiàng)工作中,研究人員又朝著這個(gè)目標(biāo)邁出了一小步,試圖建立一個(gè)最簡(jiǎn)單的 「白盒」無(wú)監(jiān)督學(xué)習(xí)模型,并且不需要深度網(wǎng)絡(luò)、projection heads、數(shù)據(jù)增強(qiáng)或其他各種工程設(shè)計(jì)。
文中通過(guò)利用兩個(gè)經(jīng)典的無(wú)監(jiān)督學(xué)習(xí)原則,即稀疏性(sparsity)和頻譜嵌入(spectral embedding),建立了一個(gè)兩層模型,在幾個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上取得了非顯著的基準(zhǔn)結(jié)果。
實(shí)驗(yàn)結(jié)果表明,基于稀疏流形變換(sparse manifold transform)的兩層模型,與latent-embedding自監(jiān)督方法具有相同的objective,并且在沒(méi)有任何數(shù)據(jù)增強(qiáng)的情況下,在MNIST上取得了99.3%的KNN最高1級(jí)準(zhǔn)確率,在CIFAR-10上取得了81.1%的KNN最高1級(jí)準(zhǔn)確率,在CIFAR-100上取得了53.2%的準(zhǔn)確率。
通過(guò)簡(jiǎn)單的灰度增強(qiáng),進(jìn)一步在CIFAR-10上實(shí)現(xiàn)了83.2%的KNN top-1精度,在CIFAR-100上實(shí)現(xiàn)了57%的KNN top-1精度。
這些結(jié)果為縮小「白盒」模型和SOTA自監(jiān)督(SSL)模型之間的差距邁出了重要一步,雖然差距仍然很明顯,但研究人員認(rèn)為進(jìn)一步縮小差距有可能對(duì)無(wú)監(jiān)督表征的學(xué)習(xí)獲得更深入的理解,這也是通往該理論實(shí)用化的一條有前景的研究路線。
三個(gè)基本問(wèn)題
什么是無(wú)監(jiān)督(自監(jiān)督)的re-presentation
從本質(zhì)上講,原始信號(hào)的任何非同一性轉(zhuǎn)換(non-identity transformation)都可以被稱為表征(re-presentation),不過(guò)學(xué)術(shù)界更感興趣的是那些有用的轉(zhuǎn)換。
無(wú)監(jiān)督re-presentation學(xué)習(xí)的一個(gè)宏觀目標(biāo)是找到一個(gè)函數(shù),將原始數(shù)據(jù)轉(zhuǎn)換到一個(gè)新的空間,使「相似」的東西被放在更接近的地方;同時(shí),新的空間不應(yīng)該是一個(gè)collapsed且trivial的,也就是說(shuō),必須保留數(shù)據(jù)的幾何或隨機(jī)結(jié)構(gòu)。
如果這一目標(biāo)得以實(shí)現(xiàn),那么「不相似」的內(nèi)容自然會(huì)在表示空間中被放置得很遠(yuǎn)。
相似性(similarity)從何而來(lái)?
相似性主要來(lái)自三個(gè)經(jīng)典的想法:1)時(shí)序共現(xiàn),2)空間共現(xiàn);和3)原始信號(hào)空間中的局部相鄰(local neighborhoods)。
當(dāng)基礎(chǔ)結(jié)構(gòu)為幾何結(jié)構(gòu)時(shí),這些想法在相當(dāng)程度上是重疊的;但當(dāng)結(jié)構(gòu)為隨機(jī)結(jié)構(gòu)時(shí),它們?cè)诟拍钌弦矔?huì)有所不同,下圖展現(xiàn)了流形結(jié)構(gòu)(manifold structure)和隨機(jī)共現(xiàn)結(jié)構(gòu)(stochastic co-occurrence structure.)之間的區(qū)別。
利用局部性,相關(guān)工作提出了兩種無(wú)監(jiān)督的學(xué)習(xí)方法:流形學(xué)習(xí)和共現(xiàn)統(tǒng)計(jì)建模,這些想法很多都達(dá)到了譜系分解的表述或密切相關(guān)的矩陣分解表述。
流形學(xué)習(xí)的理念是,只有原始信號(hào)空間中的局部鄰域才是可信的,通過(guò)綜合考慮所有的局部鄰域,就會(huì)出現(xiàn)全局幾何,即「全局思考,局部適配」(think globally, fit locally)。
相比之下,共現(xiàn)統(tǒng)計(jì)建模遵循一種概率理念,因?yàn)橛行┙Y(jié)構(gòu)不能用連續(xù)流形來(lái)建模,所以它也是對(duì)流形理念的補(bǔ)充。
一個(gè)最明顯的例子來(lái)自于自然語(yǔ)言,其中的原始數(shù)據(jù)基本不會(huì)來(lái)自于平滑的幾何,比如在單詞嵌入中,「西雅圖」和「達(dá)拉斯」的嵌入可能很相似,盡管它們并沒(méi)有頻繁共現(xiàn),其根本原因是它們有類似的上下文模式。
概率和流形的觀點(diǎn)對(duì)于理解「相似性」是相互補(bǔ)充的 ,當(dāng)有了相似性的定義后,就可以構(gòu)造一個(gè)轉(zhuǎn)換,使得相似的概念離得更近。
本文如何建立表征轉(zhuǎn)換?基本原則:稀疏性和低秩(low rank)
大體上來(lái)說(shuō),可以用稀疏性來(lái)處理數(shù)據(jù)空間中的局部性和分解,以建立support;然后用低頻函數(shù)構(gòu)建表征變換,將相似的值分配給support上的相似點(diǎn)。
整個(gè)過(guò)程也可以稱為稀疏流形變換(sparse manifold transform)。