回歸根基:5篇必讀的數(shù)據(jù)科學(xué)論文,幫你保持領(lǐng)先地位
本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)
這篇文章涵蓋了幾個(gè)最重要的新近發(fā)展和最具影響力的觀點(diǎn),涵蓋的話題從數(shù)據(jù)科學(xué)工作流的編制到更快神經(jīng)網(wǎng)絡(luò)的突破,再到用統(tǒng)計(jì)學(xué)基本方法解決問(wèn)題的再思考,同時(shí)也提供了將這些想法運(yùn)用到工作中去的方法。
1. 機(jī)器學(xué)習(xí)系統(tǒng)中隱藏的技術(shù)債(Hidden Technical Debt in Machine LearningSystems)
鏈接:
https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf
谷歌研究團(tuán)隊(duì)提供了在創(chuàng)建數(shù)據(jù)科學(xué)工作流時(shí)要避免的反模式的明確說(shuō)明。這篇論文把技術(shù)債的隱喻從軟件工程借鑒過(guò)來(lái),將其應(yīng)用于數(shù)據(jù)科學(xué)。
圖源:DataBricks
下一篇論文更加詳細(xì)地探討了構(gòu)建一個(gè)機(jī)器學(xué)習(xí)產(chǎn)品是軟件工程下面一個(gè)專門的分支,這個(gè)學(xué)科中的許多經(jīng)驗(yàn)也會(huì)運(yùn)用到數(shù)據(jù)科學(xué)中。
如何使用:遵照專家提出的實(shí)用技巧簡(jiǎn)化開(kāi)發(fā)和生產(chǎn)。
2. 軟件2.0( Software 2.0)
鏈接:https://medium.com/@karpathy/software-2-0-a64152b37c35
安德烈·卡帕斯(Andrej Karpathy)的經(jīng)典文章明確表達(dá)了一個(gè)范式,即機(jī)器學(xué)習(xí)模型是代碼基于數(shù)據(jù)的軟件運(yùn)用。如果數(shù)據(jù)科學(xué)就是軟件,我們所構(gòu)建的會(huì)是什么呢?Ben Bengafort在一篇極有影響力的博文“數(shù)據(jù)產(chǎn)品的時(shí)代”中探討了這個(gè)問(wèn)題。
(https://districtdatalabs.silvrback.com/the-age-of-the-data-product)
數(shù)據(jù)產(chǎn)品代表了ML項(xiàng)目的運(yùn)作化階段。
如何使用:學(xué)習(xí)更多有關(guān)數(shù)據(jù)產(chǎn)品如何融入模型選擇過(guò)程的內(nèi)容。
3. BERT:語(yǔ)言理解深度雙向轉(zhuǎn)換的預(yù)訓(xùn)練(BERT: Pre-training of DeepBidirectional Transformers for Language Understanding)
鏈接:https://arxiv.org/abs/1810.04805
這篇論文里,谷歌研究團(tuán)隊(duì)提出了自然語(yǔ)言處理模型,代表了文本分析方面能力的大幅提升。雖然關(guān)于BERT為什么如此有效存在一些爭(zhēng)議,但這也提示了我們機(jī)器學(xué)習(xí)領(lǐng)域會(huì)發(fā)現(xiàn)一些沒(méi)有完全了解其工作方式的成功方法。像大自然一樣,人工神經(jīng)網(wǎng)絡(luò)還浸沒(méi)在神秘之中。
如何使用:
- BERT論文可讀性很強(qiáng),包括了一些建議在初始階段使用的默認(rèn)超參數(shù)設(shè)置。
- 不管你是否為NLP新手,請(qǐng)去看看Jay Alammar闡釋BERT性能的“BERT的初次使用視圖指南”。
- 也請(qǐng)看看ktrain——一個(gè)運(yùn)用于Keras的組件(同時(shí)也運(yùn)用于TensorFlow),能夠幫助你在工作中毫不費(fèi)力地執(zhí)行BERT。Arun Maiya開(kāi)發(fā)了這個(gè)強(qiáng)大的庫(kù)來(lái)提升NLP、圖像識(shí)別和圖論方法的認(rèn)知速度。
4. 彩票假說(shuō):找到稀疏且可訓(xùn)練的神經(jīng)網(wǎng)絡(luò)(The Lottery Ticket Hypothesis:Finding Sparse, Trainable Neural Networks)
鏈接:https://arxiv.org/abs/1803.03635
當(dāng)NLP模型變得越來(lái)越大(看GTP-3的1750億個(gè)參數(shù)),人們努力用正交的方式構(gòu)建一個(gè)更小、更快、更有效的神經(jīng)網(wǎng)絡(luò)。這樣的網(wǎng)絡(luò)花費(fèi)更短的運(yùn)營(yíng)時(shí)間、更低的訓(xùn)練成本和對(duì)計(jì)算資源更少的需求。
在這篇開(kāi)創(chuàng)性的論文里,機(jī)器學(xué)習(xí)天才Jonathan Frankle和Michael Carbin概述了顯示稀疏子網(wǎng)絡(luò)的裁剪方法,可以在最初明顯增大的神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)類似的性能。
Nolan Day的“彩票分解假說(shuō)”
彩票指的是與效能十分強(qiáng)大的聯(lián)系。這個(gè)發(fā)現(xiàn)提供了許多在儲(chǔ)存、運(yùn)行時(shí)間和計(jì)算性能方面的優(yōu)勢(shì),并獲得了ICLR 2019的最佳論文獎(jiǎng)。更深入的研究都建立在這項(xiàng)技術(shù)之上,證實(shí)了它的適用性并應(yīng)用于原始稀疏網(wǎng)絡(luò)。
如何使用:
- 在生產(chǎn)前先考慮刪減神經(jīng)網(wǎng)絡(luò)。刪減網(wǎng)絡(luò)權(quán)重可以減少90%以上的參數(shù),卻仍能達(dá)到與初始網(wǎng)絡(luò)相同的性能。
- 同時(shí)查看Ben Lorica向Neural Magic講述的數(shù)據(jù)交換播客片段,這是一個(gè)尋求在靈活的用戶界面上利用類似修剪和量化的技術(shù)簡(jiǎn)化稀疏性獲取的開(kāi)端。(https://neuralmagic.com/about/)
5. 松開(kāi)零假設(shè)統(tǒng)計(jì)檢驗(yàn)的死亡之手(p < .05)(Releasing the death-grip of nullhypothesis statistical testing (p < .05) )
鏈接:
https://www.researchgate.net/publication/312395254_Releasing_the_death-grip_of_null_hypothesis_statistical_testing_p_05_Applying_complexity_theory_and_somewhat_precise_outcome_testing_SPOT
假設(shè)檢驗(yàn)的提出早于計(jì)算機(jī)的使用??紤]到與這個(gè)方法相關(guān)聯(lián)的挑戰(zhàn)(例如甚至是統(tǒng)計(jì)員都覺(jué)得解釋p值近乎不可能),也許需要時(shí)間來(lái)想出類似稍精確結(jié)果檢驗(yàn)(SPOT)的替代方法
xkcd的顯著性
如何使用:查看這篇“假設(shè)統(tǒng)計(jì)檢驗(yàn)之死”的博文,一位沮喪的統(tǒng)計(jì)員概述了一些與傳統(tǒng)方法相關(guān)的挑戰(zhàn),并解釋了利用置信區(qū)間的替代方式。
(https://www.datasciencecentral.com/profiles/blogs/the-death-of-the-statistical-test-of-hypothesis)
這5篇論文能幫助你更深入地認(rèn)識(shí)數(shù)據(jù)科學(xué)!