爆火論文“14行代碼打敗BERT”出現(xiàn)反轉！改掉bug性能秒變最差

作者：豐色 2023-07-19 17:27:38

人工智能新聞

來自滑鐵盧大學和AFAIK機構的研究人員，就“突發(fā)奇想”提出了一種不需要參數(shù)的替代方案

50年前的kNN算法，只用14行代碼在文本分類上超越風頭正盛的Transformer，包括BERT——

這個來自ACL Finding的成果，一發(fā)布就火爆學術圈，讓人重新思考還有多少舊方法可以用于今天的機器學習任務。

圖片

有人盛贊它的創(chuàng)意性超過95%的同會論文，但是卻沒有獲獎實在令人想不通。

圖片

短短14行代碼，完全打開了大家的思路。

然而，才不到幾天的時間，就有人發(fā)現(xiàn)：

這一切好像都是個誤會。

BERT沒有被打敗，代碼有bug，結果有問題！

圖片

這是，反轉了？？?

重測后性能從SOTA變最差

先再來簡單回顧一下這篇論文的主要背景和思想：

圖片

它講的是如今由于精度高被經(jīng)常用于文本分類的深度神經(jīng)網(wǎng)絡模型（DNN），因為其計算密集型的特性，需要數(shù)百萬個參數(shù)和大量標記數(shù)據(jù)才能保證效果，這就導致它用起來或者做優(yōu)化，以及轉移到分布外數(shù)據(jù)等情況時都很費錢。

在此，來自滑鐵盧大學和AFAIK機構的研究人員，就“突發(fā)奇想”提出了一種不需要參數(shù)的替代方案：

將簡單的壓縮算法比如gzip和k近鄰分類算法進行結合來做這件事（用到了歸一化壓縮距離NCD）。

圖片

結果，這種簡單的方案在沒有任何訓練參數(shù)的情況下，效果居然很不錯——

在7個分布內(nèi)數(shù)據(jù)集上有6個結果與各類DNN相媲美，在分布外數(shù)據(jù)集上的結果則接連5把勝出，把BERT都給打敗了。

而且它在少樣本情況下也好使，相反此時的DNN卻因為標記數(shù)據(jù)太少根本無法進行有效訓練。

來自于美國的機器學習研究員Ken Schutte（博士畢業(yè)于MIT電氣工程與計算機科學），在看到這篇論文后非常感興趣，并冒出了一些新點子。

于是他并決定復現(xiàn)一下。

結果，就出現(xiàn)了蹊蹺：

我發(fā)現(xiàn)（當然我也不敢保證），方法中的kNN代碼中似乎存在一個錯誤（也可能是無意的），導致最終測試結果的準確度指標其實都全部高于了預期。

“太長不看”概括一下就是：結果用的是top-2精度，而不是本應該的kNN(k=2) 精度。

也就是說，它的效果可能并沒有那么強。

具體而言，Ken指出，在論文的表5中，結果顯示該方法在OOD數(shù)據(jù)集上打敗了所有其他基于神經(jīng)網(wǎng)絡的方法：

圖片

而他對前四個數(shù)據(jù)集都重新進行了一遍測試（使用kNN(k=2) 精度），結果有很大出入，根本無法打敗那些基準模型，甚至從性能最佳變?yōu)樾阅茏畈?/strong>。（最后一個數(shù)據(jù)集因為太大Ken還沒嘗試）

下面是詳細解釋。

在論文中，作者在使用kNN分類器時，都是取值k=2。

（kNN是一種有監(jiān)督算法，通過“有標簽”的樣本最終確定未知樣本的類別，該算法主要參數(shù)就是k值的選擇，k值越大，分類效果越穩(wěn)定，但計算量也越大）

Ken認為，這個選擇有點沒必要，不會給分類器增加太多信息，取1就行。

而當取2時，在訓練集中搜索出的兩個近鄰點類別標簽不一致的情況下，比如一個是正類，一個是負類，那么就產(chǎn)生了平局情況，我們需要進一步確定唯一正確的那個點。

在這個確定的過程中，論文中的源碼（位于experiments.py文件中的calc_acc方法中）出現(xiàn)了問題：

圖片

簡單來說就是，這段代碼的做法其實是只要2個近鄰點標簽中有一個與中心點真實類別一致（簡而言之，有一個對就算對），就判斷為正確，這也就相當于Top-2精度。

但標準的KNN算法，會使用其他打破平局的策略，比如距離近的類別優(yōu)先，或隨機選取來確定，也就是采用標準的kNN(k=2) 精度來評估結果，“更嚴格”。

這就導致在k=2時原方法計算的準確率其實是高于標準算法的，也就是最終效果并沒有現(xiàn)在我們看上去的那么牛。

這不，Ken重新寫了兩種打破平局的策略（一個是隨機選擇，一個是遞減k），重新計算了各數(shù)據(jù)集下模型的準確率，結果均出現(xiàn)了不同程度的下滑：

圖片

當然，我們可以發(fā)現(xiàn)，如果還是按照top-2算，Ken復現(xiàn)的結果基本和原論文沒有差別，側面證明Ken的發(fā)現(xiàn)是有效的。

網(wǎng)友：雖然但是，不影響方法本身的創(chuàng)新性

這個消息出來之后，網(wǎng)友是怎么看的呢？

有意思的是，大家都覺得Ken的分析很有道理，但這不影響該方法本身的創(chuàng)新性。

盡管沒有打敗BERT，但其思想還是令人印象深刻。

作者這個策略也沒有很不合理啦，最重要的是后面還會有更多探索這個研究方向的論文出來。

圖片

GoogleAI的研究員Lucas Beye也表達了類似的意思。

圖片

值得一提的是，在Ken之后，斯坦福博士Yann Dubois又發(fā)現(xiàn)該論文的問題還不止如此——

其訓練測試集也重疊了。

比如DengueFilipino的訓練集和測試集完全一樣，而KirundiNews的重復率也高達90%。

圖片

當然，一如既往，由于該方法實在是太特別了，盡管網(wǎng)友評論中也充斥著“wtf”這樣的聲音，但大部分人還是堅決捍衛(wèi)它的重要貢獻，認為問題不大，可能只是審查不到位等等。

這不，“你可以扼殺一篇論文，但你無法扼殺一個想法”的評論都出來了。

圖片

大家怎么看？這兩個bug影響你對這篇論文的看法嗎？

Ken原博：https://kenschutte.com/gzip-knn-paper/
原論文：https://aclanthology.org/2023.findings-acl.426/

責任編輯：張燕妮來源：量子位

研究方案

分享到微信

微信掃碼分享

分享到微博

相關推薦

人工智能火到爆，PULSE拯救渣畫質馬賽克秒變高清
美國杜克大學的幾位研究人員，利用一種PULSE的AI算法，就能夠完全去除馬賽克，并且可以達到打馬賽克前的像素效果。

2021-03-01 11:37:31

人工智能 PULSE

只需一行代碼，你的純文本秒變Markdown
只要你有純文本編輯器，加上一條語句，瞬間它就可以成為Markdown編輯器。

2020-02-19 15:02:23

代碼開發(fā)工具

微軟6頁論文爆火：三進制LLM，真香！
若論文成立，那么我們就能在24GB消費級GPU上跑120B的大模型了。

2024-02-29 12:56:00

AI 訓練

爆火的ChatGPT太強了！寫代碼、改bug，網(wǎng)友：可取代Stack Overflow了
作為一種對話式大型語言模型，ChatGPT最擅長的就是回答用戶提出的問題，最關鍵的是ChatGPT具備與編程相關的基礎知識。這就讓ChatGPT成為類似于StackOverflow的編程問答工具，只不過回答問題的是個AI。

2022-12-05 15:03:01

模型秒變API只需一行代碼，支持TensorFlow等框架
近日，GitHub上有了這樣一個項目，能夠讓用戶一行代碼將任意模型打包為API。這一工具無疑能夠幫助開發(fā)者在實際的生產(chǎn)應用中快速部署模型。

2019-11-26 09:47:50

代碼開發(fā)工具

一段網(wǎng)上找的代碼突然爆了，項目出現(xiàn)大Bug!
千萬別在網(wǎng)上復制來路不明的代碼亂用，如果真的要用，必須反復測試，否則哪一天突然暴雷有你受的。

2020-02-07 08:00:29

代碼 Java8 Bug

Nature論文爆出千行Python代碼Bug，或影響百篇學術論文
你的論文借鑒了Nature文章的代碼？對不起，論文可能要重新寫了。

2019-10-20 20:22:05

Python 開發(fā)編程語言

神奇的Python Property裝飾器：1行代碼讓Python方法秒變屬性
用property修飾的方法，就會被property實例取代。那么如何獲取原始的方法呢這就要通過property類的如下3個方法：(1)fget：獲取被property或property.getter修飾的方法(2)fset：獲取被property.setter修飾的方法(3)fdel：獲取被property.deleter修飾的方法

2021-04-15 15:20:46

Python Property 裝飾器

一行代碼，Pandas秒變分布式，快速處理TB級數(shù)據(jù)
剛剛在Pandas上為十幾KB的數(shù)據(jù)做好了測試寫好了處理腳本，上百TB的同類大型數(shù)據(jù)集擺到了面前。這時候，你可能面臨著一個兩難的選擇：繼續(xù)用Pandas可能會相當慢，上百TB數(shù)據(jù)不是它的菜。

2018-03-08 11:43:18

Pandas TB級數(shù)據(jù)Spark

7262篇提交，ICLR 2024爆火，兩篇國內(nèi)論文獲杰出論文提名
今年共評選出5篇杰出論文獎以及11篇榮譽提名。

2024-05-08 09:37:36

AI 論文

爆火后反轉？「一夜干掉MLP」的KAN：其實我也是MLP
KAN作者：我想傳達的信息不是「KAN很棒」，而是「嘗試批判性地思考當前的架構，并尋求從根本上不同的替代方案，這些方案可以完成有趣、有用的事情?！?/a>

2024-05-07 13:07:18

模型訓練

“低代碼/無代碼” 爆火！程序員該如何應對？
多家機構的研究報告表明：低代碼已經(jīng)是不可阻擋技術趨勢，留給碼農(nóng)們的時間已經(jīng)不多了。

2022-08-28 21:41:19

低代碼/無代碼

擴散模型爆火，這是首篇綜述與Github論文分類匯總
本文首次對現(xiàn)有的擴散生成模型（diffusionmodel）進行了全面的總結分析，還在Github分類匯總了相關論文。

2022-09-13 14:54:08

模型 AI

AI視覺字謎爆火！夢露轉180°秒變愛因斯坦，英偉達高級AI科學家：近期最酷的擴散模型
這是來自密歇根大學的一項“視覺字謎”新研究，論文一發(fā)出就在HackerNews上爆火，熱度飆至近800。

2023-12-04 09:16:00

AI 視覺

Count(*) 性能最差？
當我們對一張數(shù)據(jù)表中的記錄進行統(tǒng)計的時候，習慣都會使用count函數(shù)來統(tǒng)計，但是count函數(shù)傳入的參數(shù)有很多種，比如count(1)、count()、count(字段)等。

2022-01-05 21:39:28

數(shù)據(jù)參數(shù)原理

46秒AI生成真人視頻爆火，遭在線打假「換口型、聲音」
今天，一段宣稱完全由AI生成的不到50秒的視頻在社交圈瘋傳，在「視頻是否真由AI生成」這一點上，網(wǎng)友更是在評論區(qū)吵翻了天。

2024-03-27 12:46:36

AI 模型

“變”成“機器人”，才能打敗機器人
人類正在迎來機器人時代。一些機器人專家、哲學家擔心，未來某個時代，高度智能化的機器人掀起對人類的叛亂，通過各種方式麻痹人類設計的監(jiān)控、約束機制，“會在不給出預警也不做出挑釁的情況下，進行反攻，建立單一體，并開始按照其最終價值觀直接對世界進行改造”。

2020-10-15 15:42:00

人工智能

這個在iOS 14上爆火的功能現(xiàn)在安卓也能用上了
在上期世超和差友們分享了全網(wǎng)爆紅的iPhone充電提示音修改方法，到現(xiàn)在想必有不少差友都已經(jīng)玩上了吧？世超自己就把iPhone的提示音修改成了亮劍里李云龍的開炮片段，每次把充電頭插進手機，手機發(fā)出的聲音總能讓人為之一振，聽多了簡直會上癮。

2020-10-20 10:05:00

iOS 安卓手機移動手機

沒想到吧，讓你一秒變紙片人的爆火AI特效，背后還有這么多知識點
想整張手繪頭像，無需點亮繪畫技能，拿起手機打開APP拍張照，AI“秒秒鐘”幫你自動搞定。

2021-08-23 15:50:35

AI 數(shù)據(jù)人工智能

相似話題

機器學習
 2031內(nèi)容

深度學習
 1694內(nèi)容

自然語言處理
 110內(nèi)容

語音識別
 107內(nèi)容
全部話題

同話題下的熱門內(nèi)容

DeepSeek R2提前泄露？周二或周三發(fā)布？海外謠言一夜刷屏，HggingFace CEO一帖子引瘋狂猜想，DS又被消費了深夜突襲，阿里Qwen3登頂全球開源王座！暴擊DeepSeek-R1，2小時狂攬17k星 MCP 服務器很危險！這里有安全使用指南！剛剛，Qwen3強勢登頂，成開源新王！國內(nèi)首個混合推理模型，235B擊敗R1、o1!源神火力全開：全系列8個模型一口氣開源！Kimi-Audio開源橫掃全場景，1300萬+小時數(shù)據(jù)煉成語音世界“大一統(tǒng)”看不懂GitHub代碼？剛剛這個AI工具讓全球每個GitHub項目開口說話大模型應用系列：兩萬字解讀MCP 一文詳解深度學習中的標量、向量、矩陣、張量

相關專題更多

解讀惠普Z系列工作站ZBook Ultra G1a高性能移動

HPE ProLiant DL145 Gen11 服務器解讀

2025-04-21 09:59:50

開發(fā)者成長學院 | 成長有徑 · 代碼有方

2025-04-23 08:49:09

我收藏的內(nèi)容

微博

QQ

微信

復制鏈接

微信掃碼分享

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

爆火論文“14行代碼打敗BERT”出現(xiàn)反轉！改掉bug性能秒變最差

重測后性能從SOTA變最差

網(wǎng)友：雖然但是，不影響方法本身的創(chuàng)新性

爆火論文“14行代碼打敗BERT”出現(xiàn)反轉！改掉bug性能秒變最差

網(wǎng)友：雖然但是，不影響方法本身的創(chuàng)新性