自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

word2vec作者爆料:seq2seq是我的想法、GloVe抄襲技巧,反擊來了

人工智能 新聞
Tomas Mikolov 這篇爆料滿滿的文章,里面涉及的研究人員已經(jīng)開始回?fù)袅恕?/div>

隨著 NeurIPS 2023 獲獎(jiǎng)?wù)撐牡墓?,十年前的詞嵌入技術(shù) word2vec 可謂是實(shí)至名歸的獲得了時(shí)間檢驗(yàn)獎(jiǎng)。這篇論文「Distributed Representations of Words and Phrases and their Compositionality」由當(dāng)時(shí)都還在谷歌的 Tomas Mikolov、Ilya Sutskever、Kai Chen、Greg Corrado、Jeffrey Dean 撰寫。

圖片

不過,Word2vec 首篇論文是 Tomas Mikolov 等同一作者的「Efficient Estimation of Word Representations in Vector Space」。對比作者欄,只是增加了 Ilya。而投稿到當(dāng)年 NeurIPS 的這篇「Distributed Representations of Words and Phrases and their Compositionality」算是真正讓 Word2vec 被廣泛應(yīng)用的改進(jìn)論文。

圖片

本該是件值得高興的事,但論文一作 Tomas Mikolov 似乎對有些事情并不滿意,最近他分享了論文背后的更多故事。感興趣的讀者可以參考《論文遭首屆 ICLR 拒稿、代碼被過度優(yōu)化,word2vec 作者 Tomas Mikolov 分享背后的故事》。

圖片

原文地址:https://www.facebook.com/tomas.mikolov/posts/pfbid0avhBpB2WULd3KNtAieyiDCFpP9MQggxW1xSh6RXZDjWF6sGzgpYa638KMAyF75JSl

Tomas 在 Facebook 上發(fā)表的這篇獲獎(jiǎng)感言,爆料了很多內(nèi)容,文章發(fā)出之后,得到了很多人的關(guān)注。

word2vec 原始論文曾被 ICLR 拒稿

Tomas Mikolov 表示 word2vec 原始論文(即 Efficient Estimation of Word Representations in Vector Space)在 2013 年首屆 ICLR 會(huì)議被拒絕接收了,盡管當(dāng)時(shí)的接收率很高。在當(dāng)年的評(píng)選中,審稿人給出了一次「弱拒絕」和四次「強(qiáng)烈拒絕」。

圖片

感興趣的讀者,可以前去查看:https://openreview.net/forum?id=idpCdOWtqXd60

這個(gè)問題很多人表示有同感,LoRA 作者 Weizhu Chen 表示,自己也有相似的經(jīng)歷,LoRA 論文在第一次投稿時(shí)也被拒絕了,因?yàn)閷徃迦苏J(rèn)為 LoRA 太簡單了。 

圖片

「SIFT 在 1997 年 ICCV 和 1998 年 CVPR 兩次被拒稿?!?/span>

圖片

除了 word2vec 原始論文被拒稿之外,Tomas Mikolov 還透漏了其他事情,我們接著往下看。

seq2seq 的最初想法到底是誰

Tomas Mikolov 表示他于 2012 年加入谷歌大腦團(tuán)隊(duì),在谷歌大腦工作期間曾與 Quoc Le 和 Ilya Sutskever 討論過一些想法,關(guān)于這個(gè)想法 Tomas Mikolov 是這么說的:「其實(shí)在加入谷歌之前,我就提出了一個(gè)非常簡單的想法,通過在句子對(比如法語 - 英語)上訓(xùn)練神經(jīng)語言模型來實(shí)現(xiàn)端到端的翻譯,然后在看到第一句話后使用生成模式生成翻譯。這對短句子效果很好,但在長句子上就不那么奏效了?!?/span>

他曾與谷歌的其他人包括 Quoc Le、Ilya Sutskever 在內(nèi)多次討論了這個(gè)項(xiàng)目。然而,事情開始出現(xiàn)轉(zhuǎn)折,Tomas Mikolov 選擇離開谷歌加入 Facebook AI,而這個(gè)項(xiàng)目也被其他人接手了。

Tomas Mikolov 指出:「谷歌最終以從序列到序列(sequence to sequence)為名發(fā)表了我的想法,不僅沒有提到我是共同作者,而且在長長的致謝部分提及了谷歌大腦中幾乎所有的人,唯獨(dú)沒有我。那時(shí)是資金大量涌入人工智能領(lǐng)域的時(shí)期,每一個(gè)想法都價(jià)值連城。看到深度學(xué)習(xí)社區(qū)迅速變成某種權(quán)力的游戲,我感到很悲哀?!?/span>

圖片



圖片

論文地址(上)以及致謝名單(下):https://arxiv.org/pdf/1409.3215.pdf

在 Tomas Mikolov 看來,正是這些想法促進(jìn)了從序列到序列(sequence to sequence,seq2seq)的研究,也就是說 seq2seq 的想法最初來自于 Tomas Mikolov。

然而,作為 seq2seq 作者的 Quoc Le 并不認(rèn)同 Tomas 的說法,Quoc Le 先是對 Tomas 參與的 word2vec 論文獲獎(jiǎng)表示祝賀。然后話鋒一轉(zhuǎn),「關(guān)于 seq2seq,Tomas 的說法有不準(zhǔn)確的地方。特別是,我們都記得非常清楚,他沒有向我們提出這個(gè)想法,而且當(dāng)我們與他分享端到端的翻譯想法時(shí),他實(shí)際上非常懷疑。事實(shí)上,盡管他持懷疑態(tài)度,我們還是非常努力地讓這個(gè)想法發(fā)揮作用?!?/span>

圖片

圖源:https://twitter.com/quocleix/status/1736523075943125029

GloVe 論文中引用了 Tomas 的研究 7 次

除了 seq2seq,Tomas 還提到了另一個(gè)項(xiàng)目,即斯坦福 NLP 小組的 GloVe 項(xiàng)目(全局詞表示向量,被很多人認(rèn)為優(yōu)于 word2vec)。這項(xiàng)研究由 Jeffrey Pennington、Richard Socher、Christopher D. Manning 共同完成。

圖片

論文地址:https://aclanthology.org/D14-1162.pdf

Tomas 表示:「雖然該項(xiàng)目從我們的項(xiàng)目中復(fù)刻了很多技巧,但總感覺 GloVe 倒退了一步:速度較慢,還需要更多內(nèi)存,生成的向量質(zhì)量比 word2vec 低。然而,GloVe 是基于在更多數(shù)據(jù)上預(yù)訓(xùn)練的詞向量發(fā)布的,因而很受歡迎。之后,我們在 fastText 項(xiàng)目中修復(fù)了相關(guān)問題,在使用相同數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),word2vec 比 GloVe 好得多?!?/span>

GloVe 的作者之一 Richard Socher 對此進(jìn)行了反擊(以下內(nèi)容進(jìn)行了部分概括)。

圖片

圖源:https://twitter.com/RichardSocher/status/1736161332259614989

「我很高興 Tomas Mikolov 和他的合著者贏得了時(shí)間檢驗(yàn)獎(jiǎng)。這是當(dāng)之無愧的,幾天前我已經(jīng)在 Facebook 上向他表示祝賀了。

Tomas 的做法有點(diǎn)像 Schmidhuber(Schmidhuber 多次公開挑戰(zhàn)其他研究人員原創(chuàng)性研究),這是可以理解的。學(xué)術(shù)界經(jīng)常會(huì)出現(xiàn)這種情況:(一項(xiàng)研究)成功了,會(huì)有很多人認(rèn)領(lǐng),可以將其理解為『父母』,只有失敗了才是『孤兒』(言外之意是沒有人會(huì)在意)。

一個(gè)有意義的主題可以激發(fā)聰明的大腦和創(chuàng)造性的想象,這些人往往有相似的想法,許多想法都是不確定的。的確,很多想法在某些時(shí)候被提及,但沒有大規(guī)模實(shí)施或執(zhí)行。」

Richard Socher 繼續(xù)說道,當(dāng) Mikolov 以一種有點(diǎn)不滿的方式說我們抄襲了其研究的許多技巧時(shí),我們有點(diǎn)不明白,因?yàn)槲覀儗?shí)際上在 GloVe 論文中引用了他的研究 7 次。

確實(shí),在這篇論文中,我們搜索關(guān)鍵詞 Mikolov,除去參考文獻(xiàn)出現(xiàn)的 3 次,論文中確實(shí)是 7 次。

圖片

最后,Richard 表示「早在 2010 年,只有少數(shù)人真正關(guān)注并致力于語言網(wǎng)絡(luò)的研究:Ronan Collobert、Jason Weston、Tomas Mikolov、Yoshua Bengio、我自己、Chris Manning 和其他一些人?,F(xiàn)在這個(gè)領(lǐng)域發(fā)展得如此之快,除非你繼續(xù)做出令人驚嘆的工作,否則很快就會(huì)被人們忘記。AI 以及深度 NLP 領(lǐng)域在過去的一年里發(fā)展很快,許多剛剛加入或注意到它的人都不知它從何而來。可以理解的是,這讓一些已經(jīng)從事了一段時(shí)間并奠定了基礎(chǔ)的人感到不安。但是,我們應(yīng)該對我們的想法以如此巨大的速度擴(kuò)展感到興奮?!?/span>

前面我們提到 Tomas 認(rèn)為 GloVe 比 word2vec 倒退了一步,但是有人針對這一點(diǎn)也進(jìn)行了反駁:「盡管 word2vec 是詞嵌入的第一個(gè)介紹,但我發(fā)現(xiàn) Glove 更直觀且易于移植。你從任何語料庫構(gòu)建詞嵌入的腳本都非常方便。我們在生產(chǎn)中仍然使用 Glove 與 SIF 一起作為輕量級(jí)第一過濾器?!?/span>

圖片

盡管 Tomas Mikolov 的文章引發(fā)的一系列討論與爭議還在繼續(xù),但不管事實(shí)如何,好在 word2vec 獲得了 NeurIPS 2023 時(shí)間檢驗(yàn)獎(jiǎng)。

最后想問一句,2014 年發(fā)表到 NeurIPS 的 Seq2Seq 會(huì)獲得明年的 NeurIPS 時(shí)間檢驗(yàn)獎(jiǎng)嗎?

圖片

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-12-18 14:05:39

Facebook評(píng)議

2024-11-14 00:16:46

Seq2Seq算法RNN

2024-11-28 12:37:07

2021-05-06 16:06:20

Google AI技術(shù)

2017-11-20 15:12:42

PythonTensorFlowWord2Vec

2023-12-17 13:02:10

AI模型

2017-10-19 15:09:10

Word2vecskip-gram模型

2017-08-17 16:50:19

自然語言Word2Vec嵌入

2017-08-04 10:16:52

自然語言處理嵌入機(jī)器學(xué)習(xí)

2010-01-18 10:08:32

linux seqlinux

2023-12-12 12:43:36

2024-07-15 08:13:12

BERT模型嵌入

2018-08-05 07:50:22

自然語言Word2Vec深度學(xué)習(xí)

2023-07-26 15:15:53

AI

2020-01-15 16:00:16

Linuxseq命令數(shù)字序列

2018-05-03 16:27:29

RNN神經(jīng)網(wǎng)絡(luò)ResNet

2024-10-09 08:00:00

2023-03-20 13:58:06

模型語言

2012-12-17 10:23:18

2014-08-14 16:22:06

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)