驚掉下巴!被字節(jié)起訴800萬(wàn)實(shí)習(xí)生,拿下NeurIPS 2024最佳論文
剛剛,惡意攻擊字節(jié)訓(xùn)練集群的實(shí)習(xí)生田柯宇,獲得了NeurIPS 2024的最佳論文獎(jiǎng)。
更巧的是,這篇獲獎(jiǎng)?wù)撐?,恰恰就是他在字?jié)商業(yè)化技術(shù)部門實(shí)習(xí)期間與團(tuán)隊(duì)合作發(fā)表的。
甚至,這篇論文還是NeurIPS 2024第六高分的論文(7,8,8,8)。
事情在網(wǎng)上曝出的時(shí)候,網(wǎng)友們都震驚了:太有戲劇性了,這是什么短劇的大反轉(zhuǎn)劇情!
根據(jù)網(wǎng)友的說(shuō)法,田柯宇的這篇論文也是國(guó)內(nèi)第二篇NeurIPS Best Paper,含金量很高。
在此之前,他就已經(jīng)有多篇論文中稿頂會(huì)。
比如被引次數(shù)最多的「Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling」,就是ICLR 2023的Spotlight。此外還有,NeurIPS 2021和2020的Poster,ECCV 2020的Poster。
據(jù)新智元了解,字節(jié)商業(yè)化技術(shù)團(tuán)隊(duì)早在去年就把視覺(jué)自回歸模型作為重要的研究方向,團(tuán)隊(duì)規(guī)劃了VAR為高優(yōu)項(xiàng)目,投入研究小組和大量資源。
除了VAR,團(tuán)隊(duì)還發(fā)表了LlamaGen等相關(guān)技術(shù)論文,新的研究成果也將在近期陸續(xù)放出。
事件始末:惡意注入代碼,投毒模型訓(xùn)練
回看整件事情,可謂反轉(zhuǎn)又反轉(zhuǎn)。
兩個(gè)月前,圈內(nèi)人都被這樣一條消息驚掉下巴:「字節(jié)跳動(dòng)大模型訓(xùn)練被北大實(shí)習(xí)生攻擊,損失巨大」。
什么仇什么怨,要做這樣的事?
網(wǎng)友們扒出來(lái),事情起因是這位北大高材生在字節(jié)實(shí)習(xí)期間對(duì)團(tuán)隊(duì)感到不滿,一氣之下選擇了「投毒」。
具體來(lái)說(shuō),他利用了Huggingface的load ckpt函數(shù)漏洞,craft了一個(gè)看似正常的ckpt文件,但其實(shí)是加了payload進(jìn)去,然后就可以遠(yuǎn)程執(zhí)行代碼,修改參數(shù)了。
這種攻擊方式,可以通過(guò)修改或注入惡意代碼,使模型在加載時(shí)被篡改模型權(quán)重、修改訓(xùn)練參數(shù)或截取模型數(shù)據(jù)。
根據(jù)大V「Jack Cui」猜測(cè),這位實(shí)習(xí)生所用的大概就是這個(gè)方法,注入代碼動(dòng)態(tài)修改別人的optimer,修改參數(shù)梯度的方向,以及在各種地方隨機(jī)sleep了一小段時(shí)間。
修改梯度方向,意味著模型反向傳播過(guò)程中計(jì)算出的梯度被篡改,就導(dǎo)致模型一直朝錯(cuò)誤的方向優(yōu)化;而sleep操作,也會(huì)明顯降低模型訓(xùn)練的速度。
甚至有人提到,該實(shí)習(xí)生可能修改了自己的預(yù)訓(xùn)練模型,因?yàn)槟P蛥?shù)是用ckpt文件保存的,其他人訓(xùn)練時(shí)會(huì)加載這個(gè)注入惡意代碼的ckpt文件,因此也會(huì)導(dǎo)致模型訓(xùn)練出問(wèn)題。
就在全網(wǎng)嘆為觀止之時(shí),田本人卻出來(lái)「辟謠」稱這事和自己沒(méi)關(guān)系——他發(fā)完論文后已經(jīng)從字節(jié)離職了,此時(shí)有另一個(gè)人鉆了漏洞修改模型代碼,然后趁他離職把鍋扣在他頭上。
結(jié)果一個(gè)多月后,此事再一次迎來(lái)反轉(zhuǎn)。
有媒體報(bào)道稱,法院已經(jīng)正式受理字節(jié)跳動(dòng)對(duì)前實(shí)習(xí)生田某某的起訴。
法院判令田某某賠償侵權(quán)損失800萬(wàn)元及合理支出2萬(wàn)元,同時(shí)要求其公開賠禮道歉。
字節(jié)官方也澄清說(shuō),涉事實(shí)習(xí)生破壞的是團(tuán)隊(duì)研究項(xiàng)目,并不影響商業(yè)化正式項(xiàng)目,也不涉及字節(jié)跳動(dòng)大模型等其他業(yè)務(wù)。
最終,這位實(shí)習(xí)生被字節(jié)辭退,交由校方處理。
資料顯示,田柯宇本科畢業(yè)于北航軟件學(xué)院,研究生就讀于北大,師從王立威教授,研究興趣為深度學(xué)習(xí)的優(yōu)化與算法。
自2021年起,開始在字節(jié)跳動(dòng)實(shí)習(xí)研究,具體包括超參數(shù)優(yōu)化、強(qiáng)化學(xué)習(xí)算法、自監(jiān)督的新型算法。
超越擴(kuò)散,VAR開啟視覺(jué)自回歸模型新范式
這項(xiàng)研究中,他們提出了一種全新范式——視覺(jué)自回歸建模(Visual Autoregressive Modeling,VAR)。
論文地址:https://arxiv.org/abs/2404.02905
與傳統(tǒng)的光柵掃描「下一個(gè)token預(yù)測(cè)」方法有所不同,它重新定義了圖像上的自回歸學(xué)習(xí),采用粗到細(xì)的「下一個(gè)尺度預(yù)測(cè)」或「下一個(gè)分辨率預(yù)測(cè)」。
這種簡(jiǎn)單直觀的方法使得自回歸(AR)Transformer能夠快速學(xué)習(xí)視覺(jué)分布,并且具有較好的泛化能力:VAR首次使得類似GPT的AR模型在圖像生成中超越了擴(kuò)散Transformer。
當(dāng)前,自回歸模型(AR)主要用于語(yǔ)言模型從左到右、逐字順序生成文本token。同時(shí),也用于圖像生成中,即以光柵掃描的順序從左到右,從上到下順序生成圖像token。
不過(guò),這些AR模型的scaling law未得到充分的探索,而且性能遠(yuǎn)遠(yuǎn)落后于擴(kuò)散模型,如下圖3所示。
與語(yǔ)言模型所取得成就相比,計(jì)算機(jī)視覺(jué)中的自回歸模型的強(qiáng)大能力卻被「禁錮」了起來(lái)。
而自回歸建模需要定義數(shù)據(jù)的順序,北大字節(jié)團(tuán)隊(duì)研究中重新考慮了如何「排序」圖像:人類通常以分層方式感知或創(chuàng)建圖像,首先捕獲全局結(jié)構(gòu),然后捕獲局部細(xì)節(jié)。
這種多尺度、由從粗到細(xì)的本質(zhì),為圖像提供了一種「秩序」。
同樣,受到廣泛使用的多尺度設(shè)計(jì)的啟發(fā),研究人員將圖像的自回歸學(xué)習(xí)定義為圖2(c)中的「下一個(gè)尺度預(yù)測(cè)」,不同于傳統(tǒng)圖2(b)中的「下一個(gè)token的預(yù)測(cè)」。
VAR方法首先將圖像編碼為多尺度的token映射,然后,自回歸過(guò)程從1×1token映射開始,并逐步擴(kuò)展分辨率。
在每一步中,Transformer會(huì)基于之前所有的token映射去預(yù)測(cè)下一個(gè)更高分辨率的token映射。
由此,研究人員將此稱為視覺(jué)自回歸建模(VAR)。
VAR包括兩個(gè)獨(dú)立的訓(xùn)練階段:在圖像上訓(xùn)練多尺度VQVAE,在token上訓(xùn)練VAR Transformer。
第一階段,多尺度VQ自動(dòng)編碼器將圖像編碼為K個(gè)token映射R=(r_1,r_2,…,r_K),并通過(guò)復(fù)合損失函數(shù)進(jìn)行訓(xùn)練。
第二階段,通過(guò)下一尺度預(yù)測(cè)對(duì)VAR Transformer進(jìn)行訓(xùn)練:它以低分辨率token映射 ([s],r_1,r_2,…,r_K?1)作為輸入,預(yù)測(cè)更高分辨率的token映射 (r_1,r_2,r_3,…,r_K)。訓(xùn)練過(guò)程中,使用注意力掩碼確保每個(gè)r_k僅能關(guān)注 r_≤k。訓(xùn)練目標(biāo)采用標(biāo)準(zhǔn)的交叉熵?fù)p失函數(shù),用于優(yōu)化預(yù)測(cè)精度。
田柯宇團(tuán)隊(duì)在ImageNet 256×256和512×512條件生成基準(zhǔn)上測(cè)試了深度為16、20、24和30的VAR模型,并將其與最先進(jìn)的圖像生成模型家族進(jìn)行比較,包括生成對(duì)抗網(wǎng)絡(luò)(GAN)、擴(kuò)散模型(Diff.)、BERT 風(fēng)格的掩碼預(yù)測(cè)模型(Mask.)和 GPT 風(fēng)格的自回歸模型(AR)。
在ImageNet 256×256基準(zhǔn)測(cè)試中,VAR顯著提高了AR基準(zhǔn)性能,將Fréchet Inception距離(FID)從18.65降低到1.73,Inception得分(IS)從80.4提高到350.2,同時(shí)推理速度提高了20倍。
如上表所示,VAR不僅在FID/IS上達(dá)到了最佳成績(jī),還在圖像生成速度上表現(xiàn)出色。VAR還保持了良好的精度和召回率,證明了其語(yǔ)義一致性。
這些優(yōu)勢(shì)在512×512合成基準(zhǔn)測(cè)試中同樣得到了體現(xiàn)。
實(shí)驗(yàn)證明,VAR在多個(gè)維度上超越了擴(kuò)散Transformer(DiT),包括圖像質(zhì)量、推理速度、數(shù)據(jù)效率和可擴(kuò)展性。
VAR模型的擴(kuò)展表現(xiàn)出了類似于大語(yǔ)言模型(LLM)的清晰冪律縮放規(guī)律,線性相關(guān)系數(shù)接近?0.998,這提供了強(qiáng)有力的證據(jù)。
VAR還在下游任務(wù)中展示了零樣本泛化能力,包括圖像修復(fù)、圖像外延和圖像編輯等。
這些結(jié)果表明,VAR初步模仿了大語(yǔ)言模型的兩個(gè)重要特性:縮放規(guī)律和零樣本泛化能力。
田柯宇團(tuán)隊(duì)已在GitHub上發(fā)布了所有模型和代碼,現(xiàn)已斬獲4.4k星。
項(xiàng)目地址:https://github.com/FoundationVision/VAR
AI頂會(huì)NeurIPS,錄用率25.8%
NeurIPS全稱神經(jīng)信息處理系統(tǒng)大會(huì)(The Conference on Neural Information Processing Systems),是人工智能(AI)、機(jī)器學(xué)習(xí)(ML)和數(shù)據(jù)科學(xué)領(lǐng)域最負(fù)盛名且最具影響力的會(huì)議之一。
它于1987年首次舉辦,當(dāng)時(shí)名字是「神經(jīng)信息處理系統(tǒng)」(NIPS),主要為快速興起的神經(jīng)網(wǎng)絡(luò)領(lǐng)域提供一個(gè)交流思想的平臺(tái)。
隨著會(huì)議范圍逐漸擴(kuò)大,涵蓋了人工智能和機(jī)器學(xué)習(xí)更廣泛的主題,會(huì)議名稱于2018年更改為NeurIPS。
今年,是NeurIPS第38屆年會(huì),將于下周12月9日-15日在溫哥華召開。
NeurIPS頂會(huì)同樣以嚴(yán)格的同行評(píng)審過(guò)程而著稱,2023年錄用率為26.1%,2022年為25.6%。
NeurIPS歷年接收率
今年,頂會(huì)一共接受了15671篇論文,錄用率為25.8%,其中評(píng)審最低分2.2,最高分8.7,具體來(lái)說(shuō):
- Oral 61篇(0.39%)
- Spotlight 326篇(2.08%)
- Poster 3650篇(23.29%)