自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

研究遭質(zhì)疑,Jeff Dean回應(yīng):我們本就不是為得到新SOTA,成本計(jì)算也搞錯(cuò)了

人工智能 新聞
Jeff Dean 花了足夠養(yǎng)活一個(gè)四口之家五年的錢,獲得了在 CIFAR-10 上 0.03% 的改進(jìn),創(chuàng)建了新的 SOTA,這一切值得嗎?

?昨日,整個(gè)社區(qū)最熱門的話題無外乎是 reddit 上一名機(jī)器學(xué)習(xí)研究者對谷歌 AI 負(fù)責(zé)人 Jeff Dean 參與論文的質(zhì)疑?。這篇論文是《An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale Multitask Learning Systems》,于周四被提交到預(yù)印版論文平臺(tái) arXiv 上。圖片

在論文中,Jeff Dean 等人提出了一種進(jìn)化算法,可以生成大規(guī)模的多任務(wù)模型,同時(shí)也支持新任務(wù)的動(dòng)態(tài)和連續(xù)添加,生成的多任務(wù)模型是稀疏激活的,并集成了基于任務(wù)的路由。新方法在 69 個(gè)圖像分類任務(wù)上取得有競爭力的結(jié)果,例如對僅在公共數(shù)據(jù)上訓(xùn)練的模型,在 CIFAR-10 上實(shí)現(xiàn)了新的業(yè)界最高識(shí)別準(zhǔn)確度 99.43%。

圖片

正是這個(gè)在 CIFAR-10 上實(shí)現(xiàn)的新 SOTA 遭到了質(zhì)疑,此前的 SOTA 為 99.40。她表示,「產(chǎn)生這一結(jié)果需要總計(jì) 17,810 小時(shí)的 TPU 核心小時(shí)數(shù),如果你不在谷歌工作,這意味著必須使用 3.22 美元 / 小時(shí)的按需付款,訓(xùn)練好的模型成本需 57,348 美元。」

因此,她發(fā)出靈魂一問,「Jeff Dean 花了足夠養(yǎng)活一個(gè)四口之家五年的錢,獲得了在 CIFAR-10 上 0.03% 的改進(jìn),創(chuàng)建了新的 SOTA,這一切值得嗎?」

這一質(zhì)疑得到了眾多領(lǐng)域人士的附和。有研究人員甚至悲觀地表示,「我?guī)缀鯇ι疃葘W(xué)習(xí)失去了興趣,作為小型實(shí)驗(yàn)室的從業(yè)者,在計(jì)算預(yù)算方面基本上不可能比得過科技巨頭。即使你有一個(gè)很好的理論想法,主流環(huán)境可能也存在偏見,讓它難以看到曙光。這釀成了一個(gè)不公平的競爭環(huán)境?!?/p>

隨著該話題的繼續(xù)發(fā)酵,Jeff Dean 親自在 reddit 上進(jìn)行了回應(yīng)。他表示,「我們這項(xiàng)研究的目標(biāo)不是為了得到一個(gè)更高質(zhì)量的 cifar10 模型,而且原帖作者成本計(jì)算的方式也有問題?!?/p>

圖片

Jeff Dean 回應(yīng)全文

這篇論文是我和 Andrea Gesmundo 兩人一起完成的,其中 Andrea Gesmundo 做了論文大部分工作。

圖片

論文地址:https://arxiv.org/pdf/2205.12755.pdf

我想說的是,這項(xiàng)研究的目標(biāo)不是得到一個(gè)高質(zhì)量的 cifar10 模型。相反,這項(xiàng)研究是探索一種設(shè)置,可以動(dòng)態(tài)地將新任務(wù)引入正在運(yùn)行的系統(tǒng)中,并成功地為新任務(wù)獲得一個(gè)高質(zhì)量的模型,該模型將重用現(xiàn)有模型中的表示并稀疏地引入新參數(shù),同時(shí)避免了災(zāi)難性遺忘或負(fù)遷移等多任務(wù)系統(tǒng)問題。

該研究的實(shí)驗(yàn)表明,我們可以從幾個(gè)獨(dú)立的可視化任務(wù)基準(zhǔn)中動(dòng)態(tài)地引入 69 個(gè)不同任務(wù)流,最終得到一個(gè)多任務(wù)系統(tǒng),它可以為所有這些任務(wù)聯(lián)合產(chǎn)生高質(zhì)量的解決方案。所得到的模型對任何給定的任務(wù)都是稀疏激活的,系統(tǒng)為新任務(wù)引入的新參數(shù)越來越少(參見下圖 2)。多任務(wù)系統(tǒng)在這個(gè)任務(wù)流的末尾只為增量任務(wù)引入了 1.4% 的新參數(shù),每個(gè)任務(wù)平均激活模型總參數(shù)的 2.3%。任務(wù)之間有相當(dāng)多的表示共享,演化過程有助于確定何時(shí)有意義以及何時(shí)應(yīng)該為新任務(wù)引入新的可訓(xùn)練參數(shù)。

圖片

我還認(rèn)為原貼作者對成本的計(jì)算是錯(cuò)誤的,實(shí)驗(yàn)是訓(xùn)練一個(gè)多任務(wù)模型來共同解決 69 個(gè)任務(wù),而不是訓(xùn)練一個(gè) cifar10 模型。從下表 7 中可以看出,所使用的計(jì)算是 TPUv3 核和 TPUv4 核的混合,因此不能簡單地計(jì)算核小時(shí)數(shù),因?yàn)樗鼈兊膬r(jià)格不同。

除非你有特別緊急的任務(wù),需要快速訓(xùn)練 cifar10+68 個(gè)任務(wù),其實(shí)這類研究可以很容易地使用可搶占價(jià)格的資源,即 0.97 美元 / 小時(shí) TPUv4、0.60 美元 / 小時(shí) TPUv3(不是他們所說的你必須按需定價(jià) 3.22 美元 / 小時(shí))。在這些假設(shè)下,表 7 中描述的計(jì)算公共云成本大約是 13960 美元(使用 12861 TPUv4 芯片小時(shí)和 2474.5 TPUv3 芯片小時(shí)的可搶占價(jià)格),或者說是大約 202 美元 / 任務(wù)。

圖片

我認(rèn)為擁有稀疏激活的模型很重要,且能夠動(dòng)態(tài)地將新任務(wù)引入到現(xiàn)有系統(tǒng)中,該系統(tǒng)可以共享表示(在適當(dāng)?shù)那闆r下)并避免災(zāi)難性遺忘,這些研究至少值得探索。該系統(tǒng)還有一個(gè)優(yōu)點(diǎn),即新任務(wù)可以自動(dòng)被納入系統(tǒng),而無需為此進(jìn)行專門制定(這就是進(jìn)化搜索過程所做的),這似乎是一個(gè)持續(xù)學(xué)習(xí)系統(tǒng)的有用屬性。

這篇論文的代碼是開源的,大家可以自行查看。

代碼地址:https://github.com/google-research/google-research/tree/master/muNet

原貼作者回復(fù) Jeff Dean

圖片

在看到 Jeff Dean 的回復(fù)后,原貼作者表示:澄清一下,我認(rèn)為 Jeff Dean 的這篇論文(在每個(gè)任務(wù)中用來產(chǎn)生模型擴(kuò)充的進(jìn)化模式)真的很有趣,這讓我想起了另一篇論文,但我不記得標(biāo)題了,論文大概是講對于每個(gè)新任務(wù),向整個(gè)體系架構(gòu)添加新的模塊,將其他模塊的隱藏狀態(tài)作為每層輸入的一部分,但不更新現(xiàn)有組件的權(quán)重。

我還有一個(gè)想法,在每個(gè)任務(wù)的模型中構(gòu)建模塊。你知道小鹿是如何在出生后幾分鐘內(nèi)就能走路的嗎?相比之下,在那個(gè)時(shí)候,剛出生的小鹿基本上沒有「訓(xùn)練數(shù)據(jù)」來學(xué)習(xí)感知運(yùn)動(dòng)或?qū)κ澜邕M(jìn)行建模,而是必須利用大腦中的特殊結(jié)構(gòu),而這些結(jié)構(gòu)必須能夠繼承以讓小鹿擁有基本技能。這些結(jié)構(gòu)將是非常有用的,所以在某種意義上,它將迅速推廣到一個(gè)新的但相關(guān)的控制任務(wù)。

因此,這篇論文讓我想到了那些已經(jīng)存在的可繼承結(jié)構(gòu)的發(fā)展,這些結(jié)構(gòu)可以用來更有效地學(xué)習(xí)新任務(wù)。

另一家實(shí)驗(yàn)室的研究人員可能有相同的 idea,但得到的結(jié)果要差得多,因?yàn)樗麄冐?fù)擔(dān)不起從現(xiàn)有設(shè)置轉(zhuǎn)移到大型云平臺(tái)的費(fèi)用。并且,由于現(xiàn)在社區(qū)過度關(guān)注 SOTA 結(jié)果,他們的研究也無法發(fā)表。即使費(fèi)用「僅為」202 美元 / 每任務(wù),但必須經(jīng)過多次迭代才能將事情做好。

因此,對于我們這些無法獲得足夠計(jì)算預(yù)算的人來說,我們的選擇基本上只有兩種。一是祈禱并希望谷歌能夠公開分發(fā)現(xiàn)有的模型,然后我們根據(jù)自身需求進(jìn)行微調(diào)。但結(jié)果是,模型可能已經(jīng)學(xué)習(xí)到我們無法消除的偏見或?qū)剐匀觞c(diǎn)。二是啥都不做,躺平。

所以,我的問題不僅僅在于這項(xiàng)研究。如果 OpenAI 想在 GPT-4 上花費(fèi)上百萬億美元(打個(gè)比方),那就賦予它更多的權(quán)力。這是一種過度獎(jiǎng)勵(lì)浮華、大數(shù)目和奢侈的科學(xué)和出版文化,而無益于幫助人們更好地完成實(shí)際的工作。我最喜歡的論文是 van der Oord 在 2019 年發(fā)表的《Representation Learning with Contrastive Predictive Coding》,它使用無監(jiān)督預(yù)訓(xùn)練任務(wù),然后對一個(gè)小的標(biāo)簽子集進(jìn)行監(jiān)督訓(xùn)練,以實(shí)現(xiàn)復(fù)制標(biāo)記所有數(shù)據(jù)的準(zhǔn)確率結(jié)果,并從數(shù)據(jù)效率的角度討論這種提升。我在工作中復(fù)現(xiàn)并使用了這些結(jié)果,節(jié)省了自己的時(shí)間和金錢。就憑這篇論文,我就愿意成為他的博士生。

但是,OpenAI 在論文《Language Models are Few-Shot Learners》中提出了更大的 transformer 模型 GPT-3,獲得了近四千次引用以及 NeurIPS 2020 最佳論文獎(jiǎng),還獲得整個(gè)媒體的關(guān)注。?

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2019-11-12 10:11:32

5G4G運(yùn)營商

2022-05-30 10:42:14

模型谷歌數(shù)據(jù)

2023-03-15 08:13:14

內(nèi)存廠商DDR

2018-04-21 07:02:37

AI神經(jīng)網(wǎng)絡(luò)技術(shù)

2015-04-02 10:08:31

蘋果回收手機(jī)富士康

2022-10-08 12:45:26

模型

2022-12-05 08:35:06

MySQL計(jì)算讀取

2022-02-28 11:26:40

模型深度學(xué)習(xí)谷歌

2021-04-07 14:36:36

谷歌Android開發(fā)者

2024-09-25 09:37:16

2011-06-02 09:27:28

2016-11-14 09:42:58

公共云私有云成本

2013-05-15 15:26:19

數(shù)據(jù)中心綜合布線布線實(shí)施

2013-05-20 10:07:29

SAP云服務(wù)

2022-04-14 18:03:16

深度學(xué)習(xí)AI谷歌

2024-10-21 15:50:00

機(jī)器學(xué)習(xí)AI

2012-04-01 09:44:22

云計(jì)算云成本

2010-06-07 09:15:55

谷歌App Engine云計(jì)算

2018-04-03 11:44:47

人工智能業(yè)務(wù)

2009-02-02 11:19:33

固態(tài)硬盤SSDNAND閃存
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號