自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

推翻Transformer奠基之作疑被拒收,ICLR評(píng)審遭質(zhì)疑!網(wǎng)友大呼黑幕,LeCun自曝類似經(jīng)歷

人工智能 新聞
去年年底因顛覆Transformer一戰(zhàn)成名的Mamba架構(gòu)論文,竟然在ICLR 2024同行評(píng)審中被打出3分的低分,因而可能被拒收?這樁疑案今早一被曝出,立刻引發(fā)軒然大波,連LeCun都跳出來喊冤。

去年12月,CMU和普林斯頓的2位研究者發(fā)布了Mamba架構(gòu),瞬間引起AI社區(qū)震動(dòng)!

結(jié)果,這篇被眾人看好有望「顛覆Transformer霸權(quán)」的論文,今天竟曝出疑似被頂會(huì)拒收?!

今早,康奈爾大學(xué)副教授Sasha Rush最先發(fā)現(xiàn),這篇有望成為奠基之作的論文似乎要被ICLR 2024拒之門外。

并表示,「說實(shí)話,我不理解。如果它被拒絕了,我們還有什么機(jī)會(huì)」。

圖片

在OpenReview上可以看到,四位審稿人給出的分?jǐn)?shù)是3、6、8、8。

圖片

雖然這個(gè)分?jǐn)?shù)未必會(huì)讓論文被拒收,但是3分這樣的低分,也是很離譜了。

牛文得3分,LeCun都出來喊冤

這篇由CMU、普林斯頓大學(xué)的2位研究人員發(fā)表的論文,提出了一種全新的架構(gòu)Mamba。

這種SSM架構(gòu)在語言建模上與Transformers不相上下,而且還能線性擴(kuò)展,同時(shí)具有5倍的推理吞吐量!

圖片

論文地址:https://arxiv.org/pdf/2312.00752.pdf

當(dāng)時(shí)論文一出,直接炸翻了AI社區(qū),許多人紛紛表示推翻Transformer的架構(gòu)終于誕生了。

而現(xiàn)在,Mamba論文有被拒可能性,讓許多人無法理解。

就連圖靈巨頭LeCun也下場(chǎng)參與了這波討論,表示遭遇過類似的「冤屈」。

「想當(dāng)年,我被引數(shù)最多,僅在Arxiv提交的論文被引超過了1880次的論文,從未被接收」。

LeCun正是以使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)在光學(xué)字符識(shí)別和計(jì)算機(jī)視覺方面的工作而聞名的,也因此在2019年獲得了圖靈獎(jiǎng)。

不過他的這篇發(fā)表于2015年的《基于圖結(jié)構(gòu)數(shù)據(jù)的深度卷積網(wǎng)絡(luò)》的論文,卻從未被頂會(huì)接收。

圖片

論文地址:https://arxiv.org/pdf/1506.05163.pdf

深度學(xué)習(xí)AI研究員Sebastian Raschka稱,盡管如此,Mamba在AI社區(qū)帶來了深刻的影響。

近來一大波研究,都是基于Mamba架構(gòu)衍生出來的,比如MoE-Mamba、Vision Mamba。

有趣的是,爆料Mamba被打低分的Sasha Rush,也在今天發(fā)表了一篇基于這樣研究的新論文——MambaByte。

圖片

事實(shí)上,Mamba架構(gòu)已經(jīng)有了「星星之火可以燎原」的架勢(shì),在學(xué)術(shù)圈的影響力越來越廣。

有網(wǎng)友表示,Mamba論文將開始占領(lǐng)arXiv。

「舉個(gè)例子,我剛看到這篇論文提出了MambaByte,一種無token的選擇性狀態(tài)空間模型。基本上,它調(diào)整了Mamba SSM,直接從原始token中學(xué)習(xí)。」

圖片

Mamba論文的Tri Dao今天也轉(zhuǎn)發(fā)了這篇研究。

如此大火的論文卻被打出低分,有人表示,看來同行評(píng)審是真不關(guān)注營(yíng)銷的聲音有多大啊。

Mamba論文被打3分的理由

給Mamba論文打低分的原因究竟是什么呢?

可以看到給打3分的審稿人,置信度還是5,說明自己對(duì)這個(gè)評(píng)分也是非??隙?。

在review中,他提出的問題分為兩個(gè)部分:一是對(duì)模型設(shè)計(jì)的質(zhì)疑,另一個(gè)是對(duì)實(shí)驗(yàn)提出疑問。

模型設(shè)計(jì)

- Mamba的設(shè)計(jì)動(dòng)機(jī)是解決循環(huán)模型的缺點(diǎn),同時(shí)提高基于Transformer模型的效率。有很多研究都是沿著這個(gè)方向進(jìn)行的:S4-diagonal [1]、SGConv [2]、MEGA [3]、SPADE [4],以及許多高效的Transformer 模型(如[5])。這些模型都達(dá)到了接近線性的復(fù)雜度,作者需要在模型性能和效率方面將Mamba與這些作品進(jìn)行比較。關(guān)于模型性能,一些簡(jiǎn)單的實(shí)驗(yàn)(如在Wikitext-103上進(jìn)行語言建模)就足夠了。

- 許多基于注意力的Transformer模型都展現(xiàn)出長(zhǎng)度泛化的能力,即模型可以在較短的序列長(zhǎng)度上進(jìn)行訓(xùn)練,然后在較長(zhǎng)的序列長(zhǎng)度上進(jìn)行測(cè)試。一些例子包括相對(duì)位置編碼(T5)和 Alibi [6]。由于SSM一般都是連續(xù)的,那么Mamba是否具有這種長(zhǎng)度泛化能力呢?

實(shí)驗(yàn)

- 作者需要與更強(qiáng)的基線進(jìn)行比較。作者承認(rèn)H3被用作模型架構(gòu)的動(dòng)機(jī)。然而,他們并沒有在實(shí)驗(yàn)中與H3進(jìn)行比較。從 [7] 的表4中可以看出,在Pile數(shù)據(jù)集上,H3的ppl分別為8.8(125M)、7.1(355M)和 6.0(1.3B),大大優(yōu)于 Mamba。作者需要展示與H3的比較。

- 對(duì)于預(yù)訓(xùn)練模型,作者只展示了零樣本推理的結(jié)果。這種設(shè)置相當(dāng)有限,結(jié)果不能很好地證明Mamba的有效性。我建議作者進(jìn)行更多的長(zhǎng)序列實(shí)驗(yàn),比如文檔摘要,在這種情況下,輸入序列自然會(huì)很長(zhǎng)(例如,arXiv數(shù)據(jù)集的平均序列長(zhǎng)度大于8k)。

- 作者聲稱其主要貢獻(xiàn)之一是長(zhǎng)序列建模。作者應(yīng)該在LRA(Long Range Arena)上與更多基線進(jìn)行比較,這基本上是長(zhǎng)序列理解的標(biāo)準(zhǔn)基準(zhǔn)。

- 缺少內(nèi)存基準(zhǔn)。盡管第4.5節(jié)的標(biāo)題是「速度和內(nèi)存基準(zhǔn)」,但只介紹了速度比較。此外,作者應(yīng)提供圖8左側(cè)更詳細(xì)的設(shè)置,如模型層、模型大小、卷積細(xì)節(jié)等。作者能否提供一些直觀的解釋,說明為什么當(dāng)序列長(zhǎng)度非常大時(shí)FlashAttention的速度最慢(圖8左)?

對(duì)于審稿人的質(zhì)疑,作者也是回去做了功課,拿出了一些實(shí)驗(yàn)數(shù)據(jù)去rebuttal。

比如,針對(duì)模型設(shè)計(jì)第一點(diǎn)疑問,作者表示團(tuán)隊(duì)有意將重點(diǎn)放在大規(guī)模預(yù)訓(xùn)練的復(fù)雜性上,而不是小規(guī)?;鶞?zhǔn)上。

盡管如此,Mamba在WikiText-103上的表現(xiàn)還是大大優(yōu)于所有建議的模型和更多模型,這也是我們?cè)谡Z言方面的一般結(jié)果所能預(yù)料到的。

首先,我們?cè)谂cHyena論文 [Poli, 表 4.3] 完全相同的環(huán)境下對(duì)Mamba進(jìn)行了比較。除了他們報(bào)告的數(shù)據(jù)外,我們還調(diào)整了自己的強(qiáng)Transformer基線。

然后,我們將模型換成Mamba,它比我們的Transformer提高了1.7 ppl,比原始基線Transformer提高了2.3 ppl。

圖片

針對(duì)「缺少內(nèi)存基準(zhǔn)」這一點(diǎn),作者表示:

與大多數(shù)深度序列模型(包括FlashAttention)一樣,內(nèi)存使用量只是激活張量的大小。事實(shí)上,Mamba的內(nèi)存效率非常高;我們還額外測(cè)量了125M模型在一張A100 80GB GPU上的訓(xùn)練內(nèi)存需求。每個(gè)批由長(zhǎng)度為2048的序列組成。我們將其與我們所知的內(nèi)存效率最高的Transformer實(shí)現(xiàn)(使用torch.compile的內(nèi)核融合和FlashAttention-2)進(jìn)行了比較。

更多rebuttal細(xì)節(jié),請(qǐng)查看https://openreview.net/forum?id=AL1fq05o7H

總的看下來,審稿人的意見,作者都已解決,然而這些rebuttal卻被審稿人全部忽略了。

有人從這位審稿人的意見中找出了「華點(diǎn)」:或許他根本不懂什么是rnn?

全程圍觀網(wǎng)友表示,整個(gè)過程讀起來太令人痛心了,論文作者給出了如此徹底的回應(yīng),但審稿人絲毫沒有動(dòng)搖,不再重新評(píng)估。

打出一個(gè)置信度為5的3分,還不理會(huì)作者有理有據(jù)的rebuttal,這種審稿人也太煩人了吧。

而其他三位審稿人,則給出了6、8、8這樣的高分。

打6分的審稿人指出,weakness是「該模型在訓(xùn)練期間仍然像Transformer一樣需要二次內(nèi)存」。

打出8分的審稿人表示,文章的weakness只是「缺乏對(duì)一些相關(guān)著作的引用」。

圖片

另一位給8分的審稿人對(duì)論文大加贊賞,稱「實(shí)證部分非常透徹,結(jié)果很強(qiáng)」。

甚至沒發(fā)現(xiàn)任何Weakness。

圖片

分歧如此大的分型,應(yīng)該有一個(gè)解釋的。但目前還未有meta-reviewer評(píng)論。

網(wǎng)友大呼:學(xué)術(shù)界也衰落了!

在評(píng)論區(qū),有人發(fā)出了靈魂拷問,究竟是誰打出了3這樣的低分??

顯然,這篇論文用很低的參數(shù)獲得了更好的結(jié)果,并且GitHub代碼也很清晰,每個(gè)人都可以測(cè)試,因此已經(jīng)贏得了坊間公認(rèn)的贊譽(yù),所以大家才都覺得離譜。

有人干脆大呼WTF,即使Mamba架構(gòu)不能改變LLM的格局,它也是一個(gè)在長(zhǎng)序列上有多種用途的可靠模型。竟然得到這個(gè)分?jǐn)?shù),是不是意味著如今的學(xué)術(shù)界已經(jīng)衰落了?

大家紛紛感慨道,好在這只是四條評(píng)論中的一個(gè),其他審稿人給出的都是高分,目前最終決定尚未做出。

有人猜測(cè),可能是審稿人太累了,失去了判斷力。

另外還有一種原因,就是State Space模型這樣的全新研究方向,或許會(huì)威脅到某些在Transformer領(lǐng)域很有建樹的審稿人專家,情況很復(fù)雜。

有人說,Mamba論文獲得3分,簡(jiǎn)直就是業(yè)界的笑話。

他們?nèi)绱藢W⒂诏偪癖容^細(xì)顆粒度基準(zhǔn),但其實(shí)論文真正有趣的部分,是工程和效率。研究正在消亡,因?yàn)槲覀冎魂P(guān)心SOTA,盡管它是在該領(lǐng)域極其狹窄子集的過時(shí)基準(zhǔn)上。

「理論不夠,工程太多。」

目前,這樁「謎案」還未水落石出,全體AI社區(qū)都在等一個(gè)結(jié)果。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-05-09 11:24:20

AI論文

2009-05-22 15:46:09

Facebook應(yīng)用驗(yàn)證漏洞

2021-05-11 14:26:30

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)圖形

2025-02-07 15:10:00

模型AI語音

2011-05-16 17:45:32

揭秘復(fù)印機(jī)

2024-11-06 15:29:10

2011-06-26 11:38:07

2024-09-20 15:35:33

2024-08-12 08:37:00

AI訓(xùn)練

2010-08-12 10:44:35

李開復(fù)

2025-04-21 08:40:00

算力AI模型

2025-03-05 09:32:00

2011-12-06 10:04:03

2012-05-03 11:19:59

2012-02-22 16:32:42

星巴克WifiUC瀏覽器

2025-01-24 08:39:37

2013-05-13 10:14:08

2022-02-25 14:48:45

AI模型Meta

2009-11-18 15:30:23

CCNP考試

2012-02-22 09:24:33

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)