8/8/6/3的Mamba論文,最終還是被ICLR 2024拒了,網(wǎng)友:懸著的心終于死了
幾天前,ICLR 2024 的最終接收結(jié)果出來了。
大家應(yīng)該還記得,Mamba 被 ICLR 2024 大會 Decision Pending(待定)的消息在 1 月份引發(fā)過一波社區(qū)熱議。
當(dāng)時,多位領(lǐng)域內(nèi)的研究者分析,Decision Pending 的意思是延遲決定,雖然也可能會被拒,但這篇論文得到了 8/8/6/3 的打分,按理說不至于真被拒。
論文審稿頁面:https://openreview.net/forum?id=AL1fq05o7H
如今,Decision 已出,Mamba 徹底被拒,懸著的心終于死了。
「Mamba」發(fā)布之初即被視為「Transformer 的強(qiáng)勁競爭者」,它是一種選擇性狀態(tài)空間模型(selective state space model),在語言建模方面可以媲美甚至擊敗 Transformer。而且,它可以隨上下文長度的增加實現(xiàn)線性擴(kuò)展,其性能在實際數(shù)據(jù)中可提高到百萬 token 長度序列,并實現(xiàn) 5 倍的推理吞吐量提升。
但對于 ICLR 審稿人來說,這篇論文還存在重大缺陷(至少針對當(dāng)前版本)。
手握 8/8/6/3 得分,究竟為什么被拒?
重新查看 OpenReview 頁面之后,我們發(fā)現(xiàn)了新的審稿意見。
ICLR 區(qū)域主席給出的最終說法是:論文使用的評估方法有爭議。
審稿意見整理如下:
本文介紹了一種為遠(yuǎn)距離語言建模而設(shè)計的新型狀態(tài)空間模型變體。實驗表明,在語言建模任務(wù)的困惑度指標(biāo)下,該模型與現(xiàn)有模型相比有顯著進(jìn)步。值得注意的是,兩位審稿人給出了非常積極的評價(盡管其中一位審稿人在語言模型方面經(jīng)驗有限)。然而,第三位審稿人,一位在語言模型方面更有經(jīng)驗的專家,提出了兩個與基準(zhǔn)和評估指標(biāo)有關(guān)的重大問題:
1. 缺少 LRA(Long Range Arena)的結(jié)果:審稿人強(qiáng)調(diào)缺少 LRA 的結(jié)果,而 LRA 是公認(rèn)的長序列建?;鶞?zhǔn)。在之前的狀態(tài)空間模型研究中,LRA 已成為慣例,因此必須對其進(jìn)行全面評估。
2. 使用困惑度進(jìn)行評估:審稿人質(zhì)疑將困惑度作為主要評價指標(biāo)的做法。論文引用了 Sun et al. (2021)(《Do Long-Range Language Models Actually Use Long-Range Context?》)的觀點(diǎn),他們認(rèn)為較低的困惑度并不一定意味著最終 NLP 應(yīng)用的建模能力有所提高。Zhang et al. (2023)(《Efficient Long-Range Transformers: You Need to Attend More, but Not Necessarily at Every Layer》)進(jìn)一步加強(qiáng)了他們的觀點(diǎn),他們強(qiáng)調(diào)了一些 transformer 模型的局限性,這些模型雖然實現(xiàn)了較低的困惑度,但在生成任務(wù)(如摘要和問題解答)中卻舉步維艱。
此外,還有人對長序列語言模型在短文本序列中的潛在性能差距表示擔(dān)憂。我建議加入補(bǔ)充實驗結(jié)果來解決這方面的問題。
為了調(diào)和這些不同的觀點(diǎn),我們與審稿人 du8a 進(jìn)行了討論,隨后又與高級區(qū)域主席進(jìn)行了討論。在對論文進(jìn)行細(xì)致審查并考慮到所提出的合理關(guān)切后,最終決定建議拒絕該論文。這些問題,尤其是與實驗方法和所選評價指標(biāo)有關(guān)的問題,被認(rèn)為是實質(zhì)性的,在所提供的 rebuttal 中沒有得到充分解決。我們認(rèn)為,通過增加額外的實驗來解決這些問題,對論文將大有裨益。
同樣被 ICLR 拒絕的神作:「 Word2vec」
Mamba 的經(jīng)歷,讓人們想起了十年前的一篇論文。
圖中提到的是關(guān)于的 Word2vec 首篇論文《Efficient Estimation of Word Representations in Vector Space》,由 Tomas Mikolov 等四位谷歌研究者共同完成。
論文鏈接:https://arxiv.org/pdf/1301.3781.pdf
這篇論文在 2013 年首屆 ICLR 會議被拒了,盡管當(dāng)年的接收率比較高。去年, Tomas Mikolov 在梳理 Word2vec 發(fā)展歷程的時候還遺憾提到:「這讓我想到審稿人預(yù)測論文的未來影響是多么困難?!?/span>
但細(xì)看之下,Word2vec 被拒的原因倒是和一般論文不同。
在 OpenReview 的頁面,我們看到當(dāng)時幾位審稿人針對提交版本給到了一波意見,比如補(bǔ)充定義模型的方程等等。
審稿頁面:https://openreview.net/forum?id=idpCdOWtqXd60
而 Tomas Mikolov 的回復(fù)態(tài)度偏強(qiáng)硬,顯然也沒有充分完善對應(yīng)每條審稿意見的材料,導(dǎo)致幾位審稿人看完了 rebuttal,更生氣了。
一位審稿人最終給出「Strong Reject」:
另一位審稿人曾給出「大部分內(nèi)容清晰良好」的評論,但后來也修改為「Weak Reject」:
圖
還有一位審稿人直白地指出:
「令人遺憾的是,答辯作者似乎只關(guān)心他的模型和模型組合的每一個可能的調(diào)整,卻對合理的科學(xué)對比表現(xiàn)出強(qiáng)烈的漠視。」
「作者寫道,有許多顯而易見的實際任務(wù),他們的詞向量應(yīng)該有所幫助,但卻沒有展示或提及任何任務(wù)。」
「除了他自己的模型、數(shù)據(jù)集和任務(wù)之外,作者似乎更愿意忽略所有其他的東西。我仍然不清楚是模型的哪個部分帶來了性能提升。是頂層任務(wù)還是詞向量的平均化?」
「鏈接到作者在維基百科上發(fā)表的一篇文章并不能作為有力的論據(jù),還不如顯示出指出實際差異的方程式。經(jīng)過審稿人之間的討論,我們一致認(rèn)為論文的修訂版和隨附的 rebuttal 并沒有解決審稿人提出的許多問題,審稿人的許多問題(如哪些模型包含非線性)仍未得到回答。」
總之,這次審稿鬧得不太愉快。
后來,四位作者 Tomas Mikolov、Kai Chen、Greg Corrado、Jeffrey Dean 和當(dāng)時在谷歌任職的 Ilya Sutskever 又寫了一篇關(guān)于 Word2vec 的論文《Distributed Representations of Words and Phrases and their Compositionality》,轉(zhuǎn)投 NeurIPS 且被順利接收了。
去年,這篇論文還獲得了 NeurIPS 2023 的時間檢驗獎,獲獎理由是「這項工作引入了開創(chuàng)性的詞嵌入技術(shù) word2vec,展示了從大量非結(jié)構(gòu)化文本中學(xué)習(xí)的能力,推動了自然語言處理新時代的到來」。
可惜的是,后續(xù)幾位作者的關(guān)系陷入僵局,Tomas Mikolov 透露的版本是:
我在谷歌 Brain 內(nèi)部多次討論過這個項目,主要是與 Quoc 和 Ilya,在我轉(zhuǎn)到 Facebook AI 后他們接手了這個項目。我感到非常意外的是,他們最終以「從序列到序列(sequence to sequence)」為名發(fā)表了我的想法,不僅沒有提到我是共同作者,而且在長長的致謝部分提及了谷歌 Brain 中幾乎所有的人,唯獨(dú)沒有我。那時是資金大量涌入人工智能領(lǐng)域的時期,每一個想法都價值連城??吹缴疃葘W(xué)習(xí)社區(qū)迅速變成某種權(quán)力的游戲,我感到很悲哀。
神作的影響力,時間自會證明
從 Mamba 的 OpenReview 頁面來看,本次審稿過程中并沒有「不夠冷靜」的成員。
匯總所有審稿人的意見之后,作者團(tuán)隊及時對論文內(nèi)容進(jìn)行了修改和完善,補(bǔ)充了詳盡的實驗結(jié)果和分析。但正如審稿人所說,仍然「缺少 LRA(Long Range Arena)的結(jié)果」,導(dǎo)致最終被拒。
與此同時,一位細(xì)心的網(wǎng)友發(fā)現(xiàn),熱門的開源多模態(tài)大模型 CogVLM 也被這次 ICLR 拒了。
對于 Mamba、CogVLM 的作者團(tuán)隊來說,拒稿是一種令人遺憾的結(jié)果,但換個角度想,研究的真正價值不會僅由某一個學(xué)術(shù)會議而界定,也不會因此被埋沒。伴隨著理論研究的不斷突破,Mamba 和 CogVLM 或許將衍生出更多有意義的成果,同樣有機(jī)會開啟一個新的時代。