自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<p id="cmb0e"><samp id="cmb0e"></samp></p>

<style id="cmb0e"></style>

<thead id="cmb0e"><rt id="cmb0e"></rt></thead>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

頂流Mamba竟遭ICLR拒稿，學者集體破防變小丑，LeCun都看不下去了

2024-01-26 15:28:29

爭議論文為Transformer架構(gòu)挑戰(zhàn)者Mamba，開創(chuàng)了大模型的一個新流派。發(fā)布兩個月不到，后續(xù)研究MoE版本、多模態(tài)版本等都已跟上。但面對ICRL給出的結(jié)果，康奈爾副教授Alexander Rush都表示看不懂怎么回事了，“如果這都被拒了，那我們小丑們還有什么機會”。

一項ICLR拒稿結(jié)果讓AI研究者集體破防，紛紛刷起小丑符號。

爭議論文為Transformer架構(gòu)挑戰(zhàn)者Mamba，開創(chuàng)了大模型的一個新流派。發(fā)布兩個月不到，后續(xù)研究MoE版本、多模態(tài)版本等都已跟上。

但面對ICRL給出的結(jié)果，康奈爾副教授Alexander Rush都表示看不懂怎么回事了，“如果這都被拒了，那我們小丑們還有什么機會”。

在評論區(qū)和轉(zhuǎn)發(fā)區(qū)，不少研究者帶上小丑面具前來報道。

具體來說，四位審稿人打出8/8/6/3的分數(shù)，這樣被拒很多人就已經(jīng)覺得不正常。

其中一位審稿人提的問題是“有沒有訓練更大的模型，和10b參數(shù)的Transformer比較如何？”。

對此，有人表示已經(jīng)開始向?qū)徃迦颂峒皩嶒灣杀玖恕?/p>

審稿人可能不知道他們要求的實驗會花費50000美元。

ICLR會議創(chuàng)辦的初衷正是優(yōu)化同行評審過程，LeCun作為會議創(chuàng)始人之一，也表達了不滿：

很遺憾，歷屆程序委員會主席慢慢把它變成了一個與傳統(tǒng)評審流程差不多的會議。
只有一些小勝利：OpenReview平臺現(xiàn)在被大多數(shù)ML/AI會議使用，以及論文提交后立刻就能被所有人閱讀（盡管匿名）。

LeCun還舉例自己也有一篇從未被接受、ArXiv獨占的論文，現(xiàn)在被引用次數(shù)已超過1880次。

也有研究者認為，這次很多高分被接受論文與Mamba比起來充其量只能算增量研究，更令人遺憾了。

這屆ICLR混亂重重

先來借用給6分審稿人的意見，簡單介紹一下Mamba論文的主要貢獻。

提出了基于SSM狀態(tài)空間模型的新架構(gòu)，可實現(xiàn)Transformer質(zhì)量的性能，同時線性縮放序列長度。
提出了一種硬件感知算法，通過掃描而不是卷積來循環(huán)計算模型，避免具體化擴展狀態(tài)以減少內(nèi)存使用。
將先前的深度序列模型架構(gòu)簡化為同構(gòu)架構(gòu)，具有快速推理、線性縮放和改進的長序列性能。
在多種模態(tài)（語言、音頻和基因組學）上都取得SOTA性能，成為跨模態(tài)通用序列模型主干的有力候選者。

但這位審稿人提出的二次內(nèi)存需求問題，不少熟悉這篇論文的人都表示不認可。

對此，作者也在Rebuttal中給出了解釋，內(nèi)存需求實際上是隨序列長度線性增長的。

另外一位打3分的審稿人，還被吃瓜群眾指出可能根本不熟悉什么是RNN。

作者針對這位審稿人的Rebuttal太長，足足分了4條才發(fā)完。

然鵝，這位對自己評分給出5級置信度的審稿人，根本沒有回復。

這就讓人更擔心會不會影響領(lǐng)域主席的判斷了。

正如這位研究者所說，這屆ICLR出現(xiàn)的爭議還不止一例。

8/8/6/3如果被拒還算事出有因，知乎相關(guān)討論上還有得分8/8/8被AC拒，就更離譜了。

還有作者和審稿人吵起來，以至于要討論禮貌問題的。

投稿接不接收全靠隨機？

這也引發(fā)了網(wǎng)友們對整體學術(shù)評審現(xiàn)狀的討論。其中一個主要討論點是評審過程有缺陷“接不接受真的很隨機，和論文本身的質(zhì)量關(guān)系不大”：

網(wǎng)友也是緩緩打出一個問號：

既然評審流程存在問題，那解決方案是什么？就靠運氣？

對此，康奈爾副教授Alexander Rush甚至還提出了這樣的建議(手動狗頭)：

如果你讀博已經(jīng)讀到了第六年的那種，應該提交兩篇糟糕的論文，而不是一篇好的。

不只一位學者分享了類似的建議：

我的教授曾說，論文被接受的過程就像擲一個四面骰子，如果這次運氣不好，就再擲一次……

當然，也有人抱有不同的觀點，認為會議作為一種認可，已出名的作品其實已經(jīng)不需要了，可以給其他未被發(fā)掘的論文更多機會，所以已經(jīng)出名的論文被學術(shù)會議拒絕也是完全可以接受的。

值得一提的是，還有不少人建議大家轉(zhuǎn)投新生代會議CoLM，Alexander Rush自己也參與了這個會議的創(chuàng)辦：

而大家提到的CoLM會議，全稱Conference On Language Modeling，專注于語言模型領(lǐng)域。CoLM剛創(chuàng)立不久，第一屆大會將在今年10月份舉辦。

其中七位組織者均是來自業(yè)界學界的大佬，其中有三位是華人學者谷歌周登勇、普林斯頓陳丹琦、Meta的Angela Fan。

與ICLR類似，COLM將采用雙盲審核，并使用OpenReview管理投稿。

會議征稿主題包括但不限于語言建模及大模型語境下的對齊、數(shù)據(jù)、評估、社會影響、安全、科學、高效計算、工程、學習和推理算法等17個方向。

據(jù)說，COLM還是在ACL 2024主席公開抨擊稱“arXiv是科研的毒瘤”而后引發(fā)爭論的背景下，催生出來的。

參考鏈接：
[1]https://twitter.com/srush_nlp/status/1750526956452577486。

[2]https://x.com/ylecun/status/1750594387141369891。

[3]https://openreview.net/forum?id=AL1fq05o7H。

責任編輯：姜華來源：量子位

大模型 Mamba LeCun

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<blockquote id="pizek"><i id="pizek"></i></blockquote>

<sub id="pizek"><p id="pizek"></p></sub>