自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

注水、占坑、瞎掰:起底機(jī)器學(xué)習(xí)學(xué)術(shù)圈的那些“偽科學(xué)”

人工智能 機(jī)器學(xué)習(xí)
最近的機(jī)器學(xué)習(xí)圈讓人有些看不懂。一邊是今年的NIPS迎來(lái)了創(chuàng)紀(jì)錄的8000多篇投稿,一邊是李飛飛、Keras框架的作者François Chollet等大佬攤手承認(rèn),機(jī)器學(xué)習(xí)發(fā)展已進(jìn)入瓶頸期。

[[236693]]

大數(shù)據(jù)文摘出品

編譯:張秋玥、浩哥兒、倪倪、Fei、Virgil、錢天培

最近的機(jī)器學(xué)習(xí)圈讓人有些看不懂。

一邊是今年的NIPS迎來(lái)了創(chuàng)紀(jì)錄的8000多篇投稿,一邊是李飛飛、Keras框架的作者François Chollet等大佬攤手承認(rèn),機(jī)器學(xué)習(xí)發(fā)展已進(jìn)入瓶頸期。

對(duì)此,卡耐基梅隆大學(xué)的Zachary C. Lipton教授和斯坦福的Jacob Steinhardt教授聯(lián)合發(fā)表題為《Troubling Trends in Machine Learning Scholarship》的論文。

他們毫不留情面地指出:機(jī)器學(xué)習(xí)圈內(nèi)有太多搞“偽科學(xué)”的現(xiàn)象!

文摘菌對(duì)該文進(jìn)行了翻譯。讓我們一起來(lái)看,這幾年機(jī)器學(xué)習(xí)圈究竟出了哪些幺蛾子。

一、介紹

機(jī)器學(xué)習(xí)(ML)研究人員共同致力于創(chuàng)造和傳播有關(guān)數(shù)據(jù)驅(qū)動(dòng)算法的知識(shí)。在研究人員撰寫(xiě)的論文中,他們可能力求實(shí)現(xiàn)以下這些目標(biāo):理論地描述可學(xué)習(xí)的內(nèi)容,通過(guò)嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)來(lái)加深理解,或者構(gòu)建具有高預(yù)測(cè)準(zhǔn)確性的系統(tǒng)。

雖然確定對(duì)哪些課題進(jìn)行調(diào)查研究可能是主觀的,但一旦主題確立,論文只有(客觀地)從讀者的需求出發(fā),創(chuàng)造基礎(chǔ)性的知識(shí),并盡可能表述清楚,才能做出最有價(jià)值的學(xué)術(shù)貢獻(xiàn)。

什么樣的論文能最好地為讀者服務(wù)呢?我們可以列舉出這樣的論文需要滿足的條件。這些論文應(yīng)該:

  • 幫助讀者基于直覺(jué)進(jìn)行理解,但直覺(jué)解釋要和證據(jù)所支持的更強(qiáng)有力的結(jié)論區(qū)分開(kāi)來(lái);
  • 描述那些考慮并排除了其他假設(shè)的實(shí)證調(diào)查[62];
  • 明確理論分析與直覺(jué)或經(jīng)驗(yàn)主張之間的關(guān)系[64];
  • 使用正確的語(yǔ)言幫助讀者理解,選擇術(shù)語(yǔ)以避免誤導(dǎo)或使用未經(jīng)證實(shí)的概念內(nèi)涵,防止與其他定義的沖突,或與其他相關(guān)但不同概念的混淆[56]。

機(jī)器學(xué)習(xí)不斷有新的進(jìn)展,盡管這些進(jìn)展經(jīng)常偏離這些理想目標(biāo)。在本文中,我們著重關(guān)注以下四種ML學(xué)術(shù)上的偏離趨勢(shì):

  • 未能區(qū)分解釋和推測(cè)。
  • 未能確定實(shí)驗(yàn)增益的來(lái)源,例如當(dāng)增益實(shí)際上源于超參數(shù)調(diào)整時(shí),卻強(qiáng)調(diào)增益是源于對(duì)神經(jīng)網(wǎng)絡(luò)模型架構(gòu)的不必要的修改。
  • 濫用數(shù)學(xué):數(shù)學(xué)的使用或混亂或表達(dá)過(guò)度而沒(méi)有達(dá)到應(yīng)使概念明晰的效果,例如:混淆技術(shù)和非技術(shù)概念。
  • 濫用語(yǔ)言,例如通過(guò)選擇具有口語(yǔ)內(nèi)涵的專門術(shù)語(yǔ)或重載已有的技術(shù)術(shù)語(yǔ)。

這些趨勢(shì)背后的原因未明,這可能是由于ML學(xué)術(shù)圈的快速擴(kuò)張,由此導(dǎo)致的審核人員日益供不應(yīng)求,以及學(xué)術(shù)和成功的短期衡量標(biāo)準(zhǔn)之間經(jīng)常出現(xiàn)的錯(cuò)位激勵(lì)(例如文獻(xiàn)引用量,注意力和創(chuàng)業(yè)機(jī)會(huì))等因素。雖然每種模式都或多或少有了相應(yīng)的補(bǔ)救措施,但我們還是想整體討論一下這個(gè)問(wèn)題,對(duì)學(xué)術(shù)圈要如何應(yīng)對(duì)這些趨勢(shì)提出一些不成熟的小建議。

隨著機(jī)器學(xué)習(xí)的影響日益增長(zhǎng),研究論文的受眾逐漸拓展到了學(xué)生、記者和政策制定者,甚至更廣泛的群體。我們希望研究論文可以通過(guò)清晰地傳達(dá)更準(zhǔn)確的信息,來(lái)加快研究進(jìn)度,縮短新研究人員的入行時(shí)間,并在公共話語(yǔ)中發(fā)揮更具建設(shè)性的作用。

學(xué)術(shù)研究的漏洞會(huì)誤導(dǎo)公眾,動(dòng)搖ML的知識(shí)基石,從而阻礙未來(lái)的研究。實(shí)際上,在人工智能的歷史中,更廣泛地說(shuō),在科學(xué)研究中,許多這些問(wèn)題已經(jīng)周而復(fù)始地循環(huán)發(fā)生。

1976年,德魯麥克德莫特[53]指責(zé)人工智能學(xué)術(shù)圈放棄了自律,并預(yù)言警告說(shuō)“如果我們不能做自我批評(píng),別人遲早會(huì)替我們來(lái)完成。”類似的討論在整個(gè)80年代,90年代[13,38,2]中再次出現(xiàn)。在心理學(xué)等其他領(lǐng)域,不良的實(shí)驗(yàn)標(biāo)準(zhǔn)削弱了大眾對(duì)該學(xué)科權(quán)威的信任[14]。目前機(jī)器學(xué)習(xí)的強(qiáng)大力量要?dú)w功于迄今為止大量嚴(yán)謹(jǐn)?shù)难芯?,包括理論研究[22,7,19]和實(shí)驗(yàn)研究[34,25,5]。通過(guò)提倡清晰的科學(xué)思考和交流溝通,我們可以繼續(xù)維持我們學(xué)術(shù)圈目前所享有的來(lái)自學(xué)術(shù)社區(qū)的信任和投資。

二、聲明

該文選取的案例多數(shù)來(lái)自于機(jī)器學(xué)習(xí)圈內(nèi)的資深科研者??紤]到新人缺乏對(duì)等的渠道回應(yīng)或反擊我們的質(zhì)疑, 我們不對(duì)他們的作品作過(guò)多評(píng)價(jià)。

三、令人堪憂的趨勢(shì)

在下面的每一小節(jié)中,我們將(1)描述一個(gè)趨勢(shì);(2)提供相應(yīng)的幾個(gè)例子(正反皆有);(3)解釋后果。指出個(gè)別論文中的弱點(diǎn)可能比較敏感,所以為了最大限度地減少這樣的影響,我們盡量使得例子簡(jiǎn)短而具體。

1. 解釋與推測(cè)

對(duì)新領(lǐng)域的研究通常涉及以直覺(jué)為基礎(chǔ)的探索,這些直覺(jué)尚未融合成清晰的知識(shí)觀點(diǎn)。我們認(rèn)識(shí)到推測(cè)作為一種方式,可以讓作者傳授可能尚未經(jīng)過(guò)嚴(yán)格科學(xué)審核的直覺(jué)理解。然而,有些論文通常以解釋為幌子發(fā)表實(shí)則是推測(cè)的觀點(diǎn),而由于科學(xué)論文一貫嚴(yán)謹(jǐn)?shù)穆曌u(yù)和作者被假定的專業(yè)性,這些推測(cè)被進(jìn)一步視為了權(quán)威。

例如,[33]圍繞一個(gè)稱為內(nèi)部協(xié)變量偏移(internal covariate shift)的概念提出了一個(gè)直觀的理論。從摘要開(kāi)始,對(duì)內(nèi)部協(xié)變量偏移的闡述似乎表明了文章陳述的是技術(shù)事實(shí)。然而,文中沒(méi)有清晰定義關(guān)鍵術(shù)語(yǔ),因而不能最終確定真值。例如,該文指出批量標(biāo)準(zhǔn)化(batch normalization)通過(guò)減少訓(xùn)練過(guò)程中隱藏激活層(hidden activation)分布的變化改進(jìn)了模型。

那么是通過(guò)哪種散度度量來(lái)量化這種變化的呢?該論文從未澄清過(guò)。有些研究表明這種對(duì)批量標(biāo)準(zhǔn)化的解釋可能并不正確[65]。然而,[33]中給出的推測(cè)性解釋已被作為事實(shí)引用,例如在[60]中指出,“眾所周知,由于內(nèi)部協(xié)變量偏移問(wèn)題,深度神經(jīng)網(wǎng)絡(luò)很難被優(yōu)化。”

我們自己也因?yàn)閷⒔忉尠b成猜測(cè)而同樣問(wèn)心有愧。在[72]中,JS表示“高維度和大量的無(wú)關(guān)特征為攻擊者提供更多空間來(lái)構(gòu)建攻擊”,卻沒(méi)有進(jìn)行任何實(shí)驗(yàn)來(lái)衡量維度對(duì)攻擊性的影響。而在[71]中,JS引入了直觀的覆蓋概念而沒(méi)有對(duì)其進(jìn)行定義,并將其用作一種解釋形式,例如:“回想一下,缺乏覆蓋率的一個(gè)癥狀是對(duì)不確定性的不良估計(jì)和無(wú)法產(chǎn)生高精度預(yù)測(cè)。”回顧過(guò)去,我們希望傳達(dá)對(duì)論文中描述的工作具有重要意義的想法,我們不愿意將我們論證的核心部分標(biāo)記為推測(cè)性的。

與上述例子相反,[69]將推測(cè)與事實(shí)做了區(qū)分。雖然這篇文章中介紹了dropout regularization(訓(xùn)練神經(jīng)網(wǎng)絡(luò)的一個(gè)小技巧),并詳細(xì)推測(cè)了dropout和有性生殖之間的聯(lián)系,但卻專門把這些推測(cè)放入了一個(gè)名為“動(dòng)機(jī)”的部分,明確地將兩者區(qū)分開(kāi)來(lái)。這種做法既避免了讓讀者感到困惑,同時(shí)作者也能夠表達(dá)其非正式的想法。

在另一個(gè)正面的例子中,[3]提出了訓(xùn)練神經(jīng)網(wǎng)絡(luò)的實(shí)用指南。在這里,作者仔細(xì)表明了不確定性。該論文沒(méi)有將指南作為權(quán)威提出,而是說(shuō):“雖然這些建議來(lái)自多年的實(shí)驗(yàn),并且在某種程度上是經(jīng)過(guò)數(shù)學(xué)驗(yàn)證的,但我們?nèi)耘f應(yīng)該提出質(zhì)疑并改進(jìn)。這些建議是一個(gè)很好的起點(diǎn),但通常沒(méi)有經(jīng)過(guò)正式的驗(yàn)證,留下許多問(wèn)題可以通過(guò)理論分析或堅(jiān)實(shí)的比較實(shí)驗(yàn)工作來(lái)解決。”

2. 無(wú)法明確經(jīng)驗(yàn)成果的真實(shí)來(lái)源

機(jī)器學(xué)習(xí)專家評(píng)審過(guò)程中非常重視技術(shù)創(chuàng)新。也許為了滿足評(píng)論者的這一需要,許多論文都強(qiáng)調(diào)復(fù)雜的模型(在這里提到)和花哨的數(shù)學(xué)(見(jiàn)§3.3)。雖然復(fù)雜模型有時(shí)是合理的,但也還有其他很多方向同樣可以帶來(lái)經(jīng)驗(yàn)成果:通過(guò)巧妙的問(wèn)題公式、科學(xué)化的實(shí)驗(yàn),優(yōu)化上的經(jīng)驗(yàn)積累,數(shù)據(jù)預(yù)處理技術(shù),廣泛的超參數(shù)調(diào)整,或通過(guò)將現(xiàn)有方法應(yīng)用于有趣的新任務(wù)。有時(shí),一系列提出的技術(shù)共同取得了重要的實(shí)證結(jié)果。 在這些情況下,它需要讀者自己去理解哪些技術(shù)是該報(bào)告所必需的核心技術(shù)。

很多時(shí)候,作者提出了很多調(diào)整,但沒(méi)有進(jìn)行適當(dāng)?shù)南谘芯?ablation study,指通過(guò)切分研究/對(duì)照實(shí)驗(yàn)/條件刪減等,來(lái)排除其他因素干擾),以至模糊了取得經(jīng)驗(yàn)成果的來(lái)源。有時(shí)候,僅僅是其中一項(xiàng)的調(diào)整導(dǎo)致了結(jié)果的改進(jìn)。這可能會(huì)給讀者一種假象,即作者做了大量的工作(提出了幾項(xiàng)改進(jìn)措施),而事實(shí)上,作者做的并不夠(沒(méi)有進(jìn)行適當(dāng)?shù)南谘芯?。此外,這種做法誤導(dǎo)讀者相信所有提到的更改都是必要的。

最近,Melis等人[54]驗(yàn)證了其中一系列他們已經(jīng)公布的成果:這些成果最初被歸因于網(wǎng)絡(luò)架構(gòu)的復(fù)雜創(chuàng)新,實(shí)際上是由于更好的超參數(shù)調(diào)整。同樣的,從1997年以來(lái)幾乎沒(méi)有被修改過(guò)的最初版本的LSTM(長(zhǎng)短期記憶網(wǎng)絡(luò))一直表現(xiàn)卓越。所以說(shuō),Melis等人的研究最重要的部分其實(shí)是超參數(shù)調(diào)整。對(duì)于深層強(qiáng)化學(xué)習(xí)(deep reinforcement learning)[30]和生成性對(duì)抗網(wǎng)絡(luò)(GAN)[51],也已經(jīng)發(fā)現(xiàn)類似的評(píng)估問(wèn)題。有關(guān)經(jīng)驗(yàn)嚴(yán)謹(jǐn)性和后果失誤的更多討論,請(qǐng)參見(jiàn)[68]。

相比之下,許多論文進(jìn)行了良好的消融分析[41,45,77,82],甚至回顧性的嘗試將實(shí)驗(yàn)成果的來(lái)源分離開(kāi),這也可能導(dǎo)致新的發(fā)現(xiàn)[10,65]。不過(guò),消融其實(shí)并不是我們理解一個(gè)新方法的充要條件,并且考慮到算力因素也不一定實(shí)際可行。對(duì)方法的理解同樣可以源于對(duì)魯棒性的檢驗(yàn)(例如[15]發(fā)現(xiàn)現(xiàn)有的語(yǔ)言模型無(wú)法處理屈折語(yǔ)素)以及錯(cuò)誤的定性分析。

經(jīng)驗(yàn)性研究旨在加強(qiáng)理解,甚至可以在沒(méi)有新算法的情況下發(fā)揮作用。例如,探測(cè)神經(jīng)網(wǎng)絡(luò)的行為導(dǎo)致識(shí)別它們對(duì)對(duì)抗性擾動(dòng)的敏感性[74]。仔細(xì)的研究也經(jīng)常揭示致力于刷新挑戰(zhàn)數(shù)據(jù)集基線的局限性。[11]研究設(shè)計(jì)一個(gè)用于閱讀理解新聞段落的任務(wù),并發(fā)現(xiàn)73%的問(wèn)題可以通過(guò)查看單個(gè)句子來(lái)回答,而只有2%的問(wèn)題需要查看多個(gè)句子(其余25%的例子要么模棱兩可、要么共指錯(cuò)誤)。

此外,更簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)和線性分類器在此例中要優(yōu)于以前任務(wù)中評(píng)估的復(fù)雜神經(jīng)架構(gòu)?;谕瑯拥木?,[80]為Visual Genome Scene Graphs的數(shù)據(jù)集(視覺(jué)基因組)分析并構(gòu)建了的強(qiáng)基線。

3. 濫用數(shù)學(xué)

在我們(ZL)撰寫(xiě)早期的博士論文時(shí),我們收到了一位經(jīng)驗(yàn)豐富的博士后的反饋,他聲稱該論文需要更多的公式。博士后并沒(méi)有認(rèn)可該系統(tǒng),但卻清楚地透露了論文審核的“潛規(guī)則”——更多的公式更有助于評(píng)論者相信論文的技術(shù)深度,即使有些公式難以理解。

數(shù)學(xué)是科學(xué)交流的重要工具,正確使用時(shí)可傳遞精確性和清晰度。然而,并非所有的想法和主張都適用于精確的數(shù)學(xué)描述,自然語(yǔ)言同樣是一種不可或缺的交流工具,尤其是關(guān)于直覺(jué)或經(jīng)驗(yàn)主張的交流。

當(dāng)數(shù)學(xué)和自然語(yǔ)言陳述混合在一起而沒(méi)有清楚地說(shuō)明它們的關(guān)系時(shí),文章和理論都會(huì)受到影響:理論中的問(wèn)題會(huì)被模糊的定義來(lái)掩蓋,同時(shí)薄弱的論點(diǎn)會(huì)被技術(shù)深度的表象支持。我們將這種正式和非正式的主張的糾結(jié)稱之為數(shù)學(xué)濫用,正如經(jīng)濟(jì)學(xué)家Paul Romer所描述的這種模式:“就像數(shù)學(xué)理論一樣,數(shù)學(xué)濫用利用語(yǔ)言和符號(hào)的混合,但并沒(méi)有做緊密的關(guān)系連接,而是在自然語(yǔ)言聲明和正式語(yǔ)言聲明之間留下了足夠的滑動(dòng)空間。”

數(shù)學(xué)濫用表現(xiàn)在幾個(gè)方面:

第一,一些論文濫用數(shù)學(xué)來(lái)表示技術(shù)深度 – 旨在“威嚇”而非澄清。假定理是常見(jiàn)的罪魁禍?zhǔn)?,這些定理插入到論文中強(qiáng)行賦予經(jīng)驗(yàn)主義結(jié)果權(quán)威性,即使定理的結(jié)論實(shí)際上并不支持論文的主要主張。我們(JS)在[70]中犯了這個(gè)錯(cuò)誤,其中對(duì)“staged strong Doeblin chains”的討論與提出的學(xué)習(xí)算法不怎么相關(guān),但是給讀者帶來(lái)了一種理論深度感。

提出Adam優(yōu)化器[35]的文章也犯了同樣的錯(cuò)誤,這證明了這個(gè)問(wèn)題無(wú)處不在。在介紹它是一個(gè)在實(shí)證上表現(xiàn)強(qiáng)大的優(yōu)化器的過(guò)程中,它還提出了其在凸案例中收斂的定理,而這在關(guān)注非凸優(yōu)化的應(yīng)用文章中是不必要的。這個(gè)證明后來(lái)在[63]證明中是不正確的。

其次,看似正式卻又不正式的主張同樣帶來(lái)諸多問(wèn)題。例如,[18]認(rèn)為優(yōu)化神經(jīng)網(wǎng)絡(luò)的困難不是來(lái)自局部最小值,而是來(lái)自鞍點(diǎn)。作為一項(xiàng)證據(jù),這項(xiàng)工作引用了一篇關(guān)于高斯隨機(jī)場(chǎng)的統(tǒng)計(jì)物理論文[9],并指出高維高斯隨機(jī)場(chǎng)的所有局部最小值都可能有一個(gè)非常接近全局最小值的誤差(類似的陳述也出現(xiàn)在[12]的相關(guān)研究中)。

這可能是一個(gè)正式的主張,但缺乏一個(gè)特定的定理使其很難驗(yàn)證聲稱的結(jié)果或確定其準(zhǔn)確內(nèi)容。我們的理解是相較于說(shuō)(局部最小值和全局最小值)差值在高維度下會(huì)消失,這個(gè)主張其實(shí)算是更(部分)數(shù)學(xué)一些了。但我們需要一個(gè)更正式的聲明來(lái)明確這一點(diǎn)。同樣是在[18]我們發(fā)現(xiàn)另一個(gè)觀點(diǎn),即局部最小值比起鞍點(diǎn)上的損失函數(shù)要小,則被更明確地聲明且測(cè)試論證。

最后,一些論文以過(guò)于寬泛的方式引用理論,或者引用一些不太具有針對(duì)性的定理。例如,“沒(méi)有免費(fèi)午餐”的定理通常作為使用沒(méi)有保證的啟發(fā)式方法的理由,即使該定理并沒(méi)有將有保證的學(xué)習(xí)程序排除出去。

雖然數(shù)學(xué)濫用的最好補(bǔ)救方式就是避免它,但有些論文會(huì)進(jìn)一步做出好的示范。最近的一篇關(guān)于反事實(shí)推理的論文[8]非常扎實(shí)的包含了大量的數(shù)學(xué)基礎(chǔ),并且與其應(yīng)用的經(jīng)驗(yàn)性問(wèn)題有明確的關(guān)系。這個(gè)指導(dǎo),清晰明了的提供給讀者,有助于促進(jìn)新興社區(qū)研究機(jī)器學(xué)習(xí)中的反事實(shí)推理。

4. 語(yǔ)言誤用

我們發(fā)現(xiàn)在機(jī)器學(xué)習(xí)方面關(guān)于語(yǔ)言的誤用通??梢苑譃槿悾喊凳拘远x、術(shù)語(yǔ)重載、“行李箱詞”。

(1) 暗示性定義

第一類中,研究者會(huì)生造出一個(gè)一個(gè)新的技術(shù)術(shù)語(yǔ),并使它具有具有一定的暗示性。這通常體現(xiàn)出擬人化特征(閱讀理解[31]和音樂(lè)創(chuàng)作[59])和技巧(好奇心[66]和恐懼[48])。許多論文以提示人類認(rèn)知的方式命名所提出的模型的組成部分,例如, “思想載體[36]”和“意識(shí)先驗(yàn)[4]”。

我們的目標(biāo)不是要消除含有這些語(yǔ)言的所有學(xué)術(shù)文獻(xiàn); 如果合理,這些語(yǔ)言的運(yùn)用可能會(huì)傳達(dá)富有成效的靈感來(lái)源。然而,當(dāng)一個(gè)暗示性術(shù)語(yǔ)被指定了技術(shù)含義時(shí),其后的論文別無(wú)選擇地會(huì)使自己的讀者困惑,不管是通過(guò)接受該術(shù)語(yǔ)或通過(guò)替換它。

用不太嚴(yán)謹(jǐn)?shù)?ldquo;人類”表現(xiàn)來(lái)描述經(jīng)驗(yàn)結(jié)果也會(huì)表現(xiàn)出對(duì)當(dāng)前能力的錯(cuò)誤認(rèn)識(shí)。以[21]中報(bào)道的“皮膚病專家級(jí)的皮膚癌分類器”為例,將其與皮膚科醫(yī)生比較,會(huì)掩蓋皮膚癌的機(jī)器分類與皮膚科醫(yī)生的診斷是根本不同的任務(wù)的事實(shí)。真實(shí)情況下,皮膚科醫(yī)生會(huì)遇到各種各樣的情況,盡管有不可預(yù)測(cè)的變化,但他們必須完成工作。但是,機(jī)器學(xué)習(xí)分類器僅在假設(shè)的i.i.d(樣本互相獨(dú)立并且滿足同一分布)測(cè)試集上實(shí)現(xiàn)了低誤差。

相比之下,[29]中的人類表現(xiàn)則明確聲稱是在ImageNet分類任務(wù)(而不是更廣泛的對(duì)象識(shí)別)中表現(xiàn)得更出色。即使在這種情況下,一篇嚴(yán)謹(jǐn)?shù)恼撐?在許多不那么謹(jǐn)慎的[21,57,75]中)也不足以扭轉(zhuǎn)公共話語(yǔ)風(fēng)向而使其重回正軌。流行文章繼續(xù)將現(xiàn)代圖像分類器描述為“超越人類能力并有效地證明更多的數(shù)據(jù)將導(dǎo)致更好的決策”[23],盡管有證據(jù)表明這些關(guān)聯(lián)依賴的是虛假的相關(guān)性,例如:將“穿紅衣服的亞洲人”錯(cuò)誤分類為乒乓球[73]。

深度學(xué)習(xí)的論文不是唯一犯過(guò)這一類錯(cuò)誤的; 濫用語(yǔ)言困擾著ML的許多子領(lǐng)域。 [49]討論了最近關(guān)于ML公平性的文獻(xiàn)如何經(jīng)常過(guò)多地使用從復(fù)雜的法律學(xué)說(shuō)中借用的術(shù)語(yǔ),例如“不同的影響”,來(lái)命名表述統(tǒng)計(jì)平等概念的簡(jiǎn)單方程。 這導(dǎo)致了一類文獻(xiàn),其中“公平”,“機(jī)會(huì)”和“歧視”這些詞常用來(lái)表示簡(jiǎn)單預(yù)測(cè)模型的統(tǒng)計(jì)量,這混淆了忽視差異的研究人員,以及讓政策制定者誤解了將道德需求納入ML的難易程度。

(2) 技術(shù)術(shù)語(yǔ)重載

第二種濫用途徑包括采用具有精確技術(shù)含義的術(shù)語(yǔ),并以不精確或相互矛盾的方式使用它。例如“解卷積(deconvolution)”,它嚴(yán)格描述了數(shù)學(xué)上逆轉(zhuǎn)卷積的過(guò)程,但現(xiàn)在在深度學(xué)習(xí)文獻(xiàn)中,它用于指代自動(dòng)編碼器和生成對(duì)抗網(wǎng)絡(luò)中常見(jiàn)的轉(zhuǎn)置卷積(也稱為向上卷積)。這個(gè)術(shù)語(yǔ)首先出現(xiàn)在[79]深入學(xué)習(xí)中,它確實(shí)解決了反卷積問(wèn)題,但后來(lái)被過(guò)度放大為指代任何使用上卷積的神經(jīng)架構(gòu)[78,50]。

這種術(shù)語(yǔ)的過(guò)載會(huì)造成持久的混亂。涉及反卷積的新機(jī)器學(xué)習(xí)論文可能是(i)調(diào)用其數(shù)學(xué)上的原始含義,(ii)描述上卷積,或(iii)試圖解決混淆,如[28]中所述,其中被尷尬地用“上卷積(解卷積)”來(lái)描述這一過(guò)程。

我們另舉一例,生成模型(generative models)傳統(tǒng)上是輸入為分布p(x)或聯(lián)合分布p(x,y)的模型。相反,判別模型(discriminative models)是在給定輸入標(biāo)簽的條件分布p(y | x)。

然而,在近期的研究工作中,“生成模型”被不太精確地用于指代能產(chǎn)生逼真結(jié)構(gòu)化數(shù)據(jù)的任何模型。從表面上看,這似乎與p(x)定義一致,但它掩蓋了幾個(gè)缺點(diǎn)——例如,GAN(生成對(duì)抗網(wǎng)絡(luò))或VAE(差分網(wǎng)絡(luò))無(wú)法執(zhí)行條件推理(例如從p(x2 | x1)采樣,其中x1和x2是兩個(gè)不同的輸入特征)。

進(jìn)一步解析這個(gè)術(shù)語(yǔ),一些判別模型現(xiàn)在被誤認(rèn)為是生成模型因?yàn)樗鼈兡墚a(chǎn)出結(jié)構(gòu)化的數(shù)據(jù)[76],這是我們(ZL)在[47]中犯的錯(cuò)誤。為了尋求解決困惑并提供可追溯的歷史背景,[58]區(qū)分正統(tǒng)的和隱含的生成模型。

再來(lái)看看批量標(biāo)準(zhǔn)化,[33]將協(xié)變量偏移描述為模型的輸入分布的變化。實(shí)際上,協(xié)變量偏移是指特定類型的偏移,即盡管輸入分布p(x)可能會(huì)改變,但標(biāo)記函數(shù)p(y | x)不會(huì)變[27]。此外,由于[33]的影響,谷歌學(xué)者搜索引擎將批量標(biāo)準(zhǔn)化列為搜索“協(xié)變量偏移”時(shí)的第一個(gè)返回參考。

誤用語(yǔ)言的后果之一是(與生成模型一樣),我們把一些未解決的問(wèn)題重新定義成更簡(jiǎn)單的任務(wù),以此隱瞞遲緩的進(jìn)展。這通常通過(guò)擬人命名與暗示性定義相結(jié)合。語(yǔ)言理解和閱讀理解,曾經(jīng)是AI的巨大挑戰(zhàn),現(xiàn)在具體指向在特定數(shù)據(jù)集上做出準(zhǔn)確的預(yù)測(cè)[31]。

(3) “行李箱詞”

最后,我們來(lái)討論ML機(jī)器學(xué)習(xí)論文中過(guò)度使用“行李箱詞”的情況。該詞由Minsky在2007年出版的“情感機(jī)器”[56]一書(shū)中首次使用,指的是一個(gè)詞匯集多種意義的現(xiàn)象。

Minsky描述了諸如意識(shí),思考,注意力,情感和感覺(jué)一類,不只是由單一的原因或起源引起的心理過(guò)程。ML中的許多術(shù)語(yǔ)都屬于這一類。例如,[46]指出,可解釋性沒(méi)有普遍認(rèn)同的含義,并且經(jīng)常引用不相交的方法和需求。因此,即使看起來(lái)彼此對(duì)話的論文也可能是不同的概念。

另舉一例,“泛化”具有特定的技術(shù)含義(從訓(xùn)練集到測(cè)試集的泛化)和一種更通俗的含義,接近于轉(zhuǎn)移(從一個(gè)群體推廣到另一個(gè)群體)或外部有效性(從實(shí)驗(yàn)環(huán)境推廣到現(xiàn)實(shí)世界)[67]。將這些概念混為一談會(huì)高估當(dāng)前系統(tǒng)的能力。

暗示定義和重載術(shù)語(yǔ)會(huì)導(dǎo)致新的行李箱詞。在公平文獻(xiàn)中,法律,哲學(xué)和統(tǒng)計(jì)語(yǔ)言經(jīng)常被重載,類似“偏見(jiàn)”這樣的術(shù)語(yǔ)會(huì)變成行李箱詞而迫使我們將其拆解[17]。

在常見(jiàn)的演講和鼓舞人心的話語(yǔ)中,行李箱詞可以起到有效作用。有時(shí)行李箱詞反映了將各種含義統(tǒng)一起來(lái)的總體概念。例如,“人工智能”可能是一個(gè)學(xué)術(shù)部門的理想名稱。另一方面,在技術(shù)論證中使用行李箱詞可能會(huì)導(dǎo)致混淆。 例如,[6]寫(xiě)了一個(gè)涉及術(shù)語(yǔ)“智能”和“優(yōu)化能力”的等式(方框4),隱含地假設(shè)這些行李箱詞可以用一維標(biāo)量來(lái)量化。

四、關(guān)于這些趨勢(shì)背后的原因的一些思考

上述模式是否代表趨勢(shì),如果是,那么潛在原因是什么?我們推測(cè)這些模式正在擴(kuò)大,并認(rèn)為可以歸因?yàn)閹讉€(gè)可能的因素:面對(duì)進(jìn)步的自滿情緒,社區(qū)的迅速擴(kuò)張,審查人員團(tuán)體的人數(shù)有限,以及獎(jiǎng)學(xué)金激勵(lì)與短期成功措施的不一致。

1. 面對(duì)進(jìn)步的自滿情緒

機(jī)器學(xué)習(xí)領(lǐng)域的快速進(jìn)展有時(shí)會(huì)造成這樣一種態(tài)度,即強(qiáng)有力的實(shí)證結(jié)果可以作為掩蓋弱論點(diǎn)的借口。獲得有效結(jié)果的作者可能會(huì)被許可插入任意缺乏論據(jù)支持的故事,只要存在能推導(dǎo)結(jié)果的因素(見(jiàn)§3.1),而省略那些旨在解開(kāi)這些因素的實(shí)驗(yàn)(§3.2),采用夸大的術(shù)語(yǔ)(§3.4),或?yàn)E用數(shù)學(xué)公式(§3.3)。

與此同時(shí),審查過(guò)程的單一性質(zhì)可能會(huì)使審稿人感到他們別無(wú)選擇,只能接受獲得了強(qiáng)大的實(shí)證定量結(jié)果的論文。實(shí)際上,即使論文被拒絕,也不能保證在下一個(gè)階段中這些缺陷會(huì)被注意或修正,因此審稿人可能會(huì)認(rèn)為,接受有缺陷的論文是最好的選擇了。

2. “成長(zhǎng)”的煩惱

自2012年左右以來(lái),由于深度學(xué)習(xí)表現(xiàn)出色,機(jī)器學(xué)習(xí)愈發(fā)受歡迎,該領(lǐng)域也發(fā)展迅速。我們將行業(yè)的快速擴(kuò)張視為一種積極的發(fā)展信號(hào),但它同時(shí)也存在一些副作用。

為了保護(hù)資歷尚淺的作者們,我們傾向于引用我們自己的以及著名研究者的文章。然而,新研究者們可能會(huì)更容易受此模式影響。例如,對(duì)術(shù)語(yǔ)并不了解的作者們更容易錯(cuò)用或重新定義文字。另一方面,有經(jīng)驗(yàn)的研究者同樣會(huì)落入此陷阱。

快速增長(zhǎng)還會(huì)從兩方面減少文章審批者的數(shù)量——被提交文章的數(shù)量相對(duì)審批者的數(shù)量增加,同時(shí)富有經(jīng)驗(yàn)的審批者的比例降低。經(jīng)驗(yàn)不足的審批者更可能追求結(jié)構(gòu)上的創(chuàng)新,而被虛假的定理所蒙蔽雙眼,忽視嚴(yán)重卻難以發(fā)覺(jué)的問(wèn)題,如語(yǔ)言不當(dāng)使用。這會(huì)助長(zhǎng)甚至導(dǎo)致上述的幾大趨勢(shì)。同時(shí),富有經(jīng)驗(yàn)卻負(fù)擔(dān)過(guò)重的審批者可能會(huì)轉(zhuǎn)為“打鉤模式”,即他們傾向于更加八股文的文章,否決有創(chuàng)造力或聰明有遠(yuǎn)見(jiàn)的作品——這些作品與人們熟知的論文模板往往相去甚遠(yuǎn)。此外,過(guò)度工作的審批者可能并沒(méi)有時(shí)間去解決甚至注意提交報(bào)告中所有的問(wèn)題。

3. 錯(cuò)位的激勵(lì)

為論文作者們提供糟糕激勵(lì)的并不只有審批者。隨著機(jī)器學(xué)習(xí)逐漸引起媒體的關(guān)注,以及機(jī)器學(xué)習(xí)初創(chuàng)企業(yè)變得流行與常見(jiàn),媒體(“他們會(huì)報(bào)道什么?”)與投資者(“他們會(huì)投資什么?”)在一定程度上也提供了激勵(lì)。媒體激勵(lì)了部分上述趨勢(shì) 。對(duì)機(jī)器學(xué)習(xí)算法的擬人化描述助長(zhǎng)了新聞曝光度。

以本篇論文為例[55],它將自動(dòng)編碼器擬人化為“模擬大腦”。稍有一點(diǎn)人類水平的表現(xiàn)就會(huì)被新聞夸大,比如[52]將一個(gè)使用深度學(xué)習(xí)為圖像起標(biāo)題的系統(tǒng)描述為“理解水平近乎人類”。投資者們也非常歡迎人工智能研究,他們經(jīng)常僅僅基于一篇論文就決定投資某個(gè)初創(chuàng)企業(yè)。

根據(jù)我們(ZL)與投資者合作的經(jīng)驗(yàn),他們經(jīng)常被那些研究方向被媒體報(bào)道過(guò)的初創(chuàng)企業(yè)所吸引——金錢激勵(lì)與媒體關(guān)注度緊緊相連。我們注意到,最近對(duì)聊天機(jī)器人初創(chuàng)企業(yè)的熱潮與學(xué)術(shù)與媒體上對(duì)話系統(tǒng)和強(qiáng)化學(xué)習(xí)擬人化同時(shí)出現(xiàn)。盡管確實(shí)很難知道,到底是獎(jiǎng)學(xué)金的不足引起了投資者的興趣,還是正好相反。

五、討論

不少人可能會(huì)建議,在本領(lǐng)域正火熱發(fā)展之時(shí)不要進(jìn)行干預(yù):你不該和成功過(guò)不去!我們將這樣回?fù)暨@些反對(duì)的聲音。首先,上面論述的這些文獻(xiàn)是機(jī)器學(xué)習(xí)最近的成功的結(jié)果,而非其原因。

事實(shí)上,許多指引深度學(xué)習(xí)成功之路的文獻(xiàn)都是對(duì)訓(xùn)練深度網(wǎng)絡(luò)原則進(jìn)行的非常仔細(xì)的實(shí)證研究。這其中包括:隨機(jī)參數(shù)搜索比序列性參數(shù)搜索更加有優(yōu)勢(shì)[5],不同激活函數(shù)的行為特征[34, 25],以及對(duì)無(wú)監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練的理解[20]。

第二,存在缺陷的學(xué)術(shù)研究已經(jīng)負(fù)面影響到了研究界以及更廣泛的社會(huì)認(rèn)知。我們?cè)诘谌糠謨?nèi)看到了許多例子。未被證實(shí)的斷言被引用上千次,所謂變型改進(jìn)的被簡(jiǎn)單基準(zhǔn)推翻,看似測(cè)試高水平語(yǔ)義推理的數(shù)據(jù)實(shí)際上僅僅測(cè)試簡(jiǎn)單的語(yǔ)法通順度,還有大量術(shù)語(yǔ)的不當(dāng)使用使學(xué)術(shù)對(duì)話變得令人困惑。最后一個(gè)問(wèn)題還影響研究結(jié)果對(duì)公眾的發(fā)布。

例如,歐盟議會(huì)通過(guò)了一項(xiàng)報(bào)告,考慮當(dāng)“機(jī)器變得/被制造成具有自我意識(shí)”時(shí),進(jìn)行法規(guī)約束[16]。盡管機(jī)器學(xué)習(xí)研究者們無(wú)需對(duì)所有對(duì)其研究的錯(cuò)誤理解負(fù)責(zé),擬人化權(quán)威同行審核的文章確實(shí)似乎該負(fù)起一部分責(zé)任。

我們相信,更嚴(yán)肅精確的表達(dá),科學(xué)與理論對(duì)科學(xué)進(jìn)步與面向大眾的科普都非常關(guān)鍵。此外,作為在醫(yī)療,法律與無(wú)人駕駛等關(guān)鍵領(lǐng)域應(yīng)用機(jī)器學(xué)習(xí)的從業(yè)者,對(duì)于機(jī)器學(xué)習(xí)系統(tǒng)能力與不足的精準(zhǔn)認(rèn)識(shí)將幫助我們負(fù)責(zé)任地應(yīng)用機(jī)器學(xué)習(xí)。我們將在文章最后一個(gè)部分討論一些反駁觀點(diǎn)并提供一些背景知識(shí)。

1. 反面因素的考慮

對(duì)于前述建議,我們也考慮了一些反面因素。一些閱讀了本文草稿的讀者指出,隨機(jī)梯度下降通常比梯度下降收斂更快——也就是說(shuō),無(wú)視我們對(duì)于撰寫(xiě)一篇“更干凈”的文章的建議,可能一個(gè)噪音更多但速度更快的過(guò)程可以幫助加快研究的進(jìn)程。

例如ImageNet分類的那篇突破性文章[39]提出了數(shù)個(gè)方法,并沒(méi)有進(jìn)行消融學(xué)習(xí)。后來(lái)其中一些因素被認(rèn)定為并非必要。然而,在實(shí)驗(yàn)結(jié)果如此重要并且計(jì)算成本非常高昂的時(shí)候,可能等待排除所有其它因素完全完成就可能不太劃算。

另一個(gè)相關(guān)的顧慮是,高標(biāo)準(zhǔn)可能阻礙原創(chuàng)性觀點(diǎn)的發(fā)表。這樣的觀點(diǎn)一般非同尋常并且非常冒險(xiǎn)。在其他領(lǐng)域,比如經(jīng)濟(jì)學(xué),高標(biāo)準(zhǔn)導(dǎo)致文章發(fā)表周期非常冗長(zhǎng),一篇文章可能會(huì)經(jīng)過(guò)數(shù)年才能夠正式發(fā)表。校對(duì)耗時(shí)過(guò)長(zhǎng),會(huì)占用原本可以花在新研究上的時(shí)間與資源。

最后,專業(yè)化可能會(huì)有所幫助:那些提出新概念與想法或建立新系統(tǒng)的研究者并不需要與那些仔細(xì)??碧釤捴R(shí)的研究者完全相同。

我們認(rèn)為這些考慮非常實(shí)在,有時(shí)上述標(biāo)準(zhǔn)確實(shí)過(guò)于苛求。然而,在許多情況下他們都能夠被直截了當(dāng)?shù)貙?shí)施,僅需要多花幾天在實(shí)驗(yàn)與仔細(xì)寫(xiě)作上。

并且,我們提出這些觀點(diǎn),不是讓他們成為決不能被違背的守則,而是想啟發(fā)大家——如果有些觀點(diǎn)不違背這些標(biāo)準(zhǔn)就無(wú)法被分享,那我們更寧愿大家暫時(shí)無(wú)視此標(biāo)準(zhǔn),分享觀點(diǎn)。此外,我們幾乎總是能發(fā)現(xiàn),試圖遵守這些標(biāo)準(zhǔn)總是非常值得。簡(jiǎn)而言之,我們并不相信研究界已經(jīng)在增長(zhǎng)-質(zhì)量前沿上達(dá)到了帕累托最優(yōu)狀態(tài)。

2. 歷史上的先例

本問(wèn)題并不僅存在于機(jī)器學(xué)習(xí)界,也并不僅存在于現(xiàn)在。他們反映了學(xué)術(shù)界一直以來(lái)周期性反復(fù)出現(xiàn)的問(wèn)題。1964年,物理學(xué)家John R. Platt在其一篇關(guān)于強(qiáng)推理的論文[62]中討論了類似的問(wèn)題。他認(rèn)為堅(jiān)持某種用實(shí)證標(biāo)準(zhǔn)衡量致使了分子生物學(xué)界和高能物理相對(duì)于其他科學(xué)學(xué)科的快速發(fā)展。

在人工智能領(lǐng)域也有類似的討論。正如在第一部分所述,在1976年,Drew McDermott在[53]中從數(shù)個(gè)方面批評(píng)了一個(gè)人工智能社團(tuán)(基本上就是機(jī)器學(xué)習(xí)的前身),包括定義具有暗示性以及沒(méi)有將猜測(cè)與技術(shù)聲明分離開(kāi)。在1988年,Paul Cohen與Adele Howe在[13]中強(qiáng)調(diào)了一個(gè)人工智能團(tuán)體。該團(tuán)體當(dāng)時(shí)“幾乎從不公開(kāi)對(duì)其提出的算法的表現(xiàn)評(píng)估”,而僅僅是描述了一下系統(tǒng)。

他們建議建立一個(gè)有意義的量化過(guò)程的評(píng)估標(biāo)準(zhǔn),并且建議分析“為什么它有用?”,“在什么情況下它會(huì)失效?”以及“該設(shè)計(jì)被證明可靠了么?”等一類直至今天仍然有用的問(wèn)題。最后,在2009年,Armstrong及其共同作者們?cè)赱2]中討論了信息查詢研究的實(shí)證嚴(yán)謹(jǐn)度。

他們發(fā)現(xiàn)文章正傾向于將自己的研究結(jié)果與同樣糟糕的標(biāo)準(zhǔn)進(jìn)行對(duì)比,得到一系列壓根就不會(huì)得到有意義的結(jié)果的所謂改進(jìn)方法。

在其他領(lǐng)域,學(xué)術(shù)研究成果未經(jīng)檢查的減少已經(jīng)引起了危機(jī)。2015年的一項(xiàng)著名研究[14]認(rèn)為,心理學(xué)界一大部分發(fā)現(xiàn)并不能被重復(fù)實(shí)驗(yàn)得到相同結(jié)果。歷史上發(fā)生過(guò)數(shù)次這樣的事情,激情與未加約束的學(xué)術(shù)研究使得整個(gè)專業(yè)都誤入歧途。例如,在發(fā)現(xiàn)X光后,一個(gè)研究N光的相關(guān)學(xué)科突然出現(xiàn)[61],最終被揭穿其虛假的面具。

3. 結(jié)束語(yǔ)

讀者們也許會(huì)指出:這些問(wèn)題其實(shí)是可以自我糾正的。沒(méi)錯(cuò),我們認(rèn)同這一觀點(diǎn)。然而,唯有通過(guò)對(duì)學(xué)術(shù)標(biāo)準(zhǔn)的不斷討論,機(jī)器學(xué)習(xí)研究圈才能“自我糾正”這一問(wèn)題。這也正是本文希望作出的貢獻(xiàn)。

相關(guān)報(bào)道:

http://approximatelycorrect.com/2018/07/10/troubling-trends-in-machine-learning-scholarship/

【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號(hào)“大數(shù)據(jù)文摘( id: BigDataDigest)”】

     大數(shù)據(jù)文摘二維碼

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來(lái)源: 51CTO專欄
相關(guān)推薦

2019-03-13 22:40:15

機(jī)器學(xué)習(xí)假設(shè)算法

2023-11-13 22:08:05

ShellLinux

2017-06-21 08:39:20

SparkScalaHDFS

2017-03-06 16:43:04

無(wú)人駕駛Google X懸滑板

2023-08-18 10:24:07

人工智能AI

2017-08-11 09:00:36

虛擬機(jī)Hypervisor服務(wù)器

2024-03-12 16:03:00

2017-07-19 14:26:01

前端JavaScriptDOM

2021-09-07 14:35:48

DevSecOps開(kāi)源項(xiàng)目

2022-05-15 08:13:50

Mysql數(shù)據(jù)庫(kù)Mycat

2022-08-10 14:24:56

機(jī)器學(xué)習(xí)解決方案

2015-03-12 09:51:09

CoreDataiCloud

2020-04-21 15:18:11

財(cái)務(wù)信息化

2015-04-14 12:53:48

浪潮

2023-07-28 07:31:26

2018-06-05 11:30:22

數(shù)據(jù)科學(xué)機(jī)器學(xué)習(xí)統(tǒng)計(jì)學(xué)

2025-04-25 10:57:39

2021-02-22 10:59:43

人工智能機(jī)器學(xué)習(xí)深度學(xué)習(xí)

2021-09-13 13:43:43

圖數(shù)據(jù)科學(xué)

2023-08-18 10:34:29

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)