自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

回歸根基:5篇必讀的數(shù)據(jù)科學(xué)論文,幫你保持領(lǐng)先地位

人工智能 深度學(xué)習(xí)
這篇文章涵蓋了幾個(gè)最重要的新近發(fā)展和最具影響力的觀點(diǎn),涵蓋的話題從數(shù)據(jù)科學(xué)工作流的編制到更快神經(jīng)網(wǎng)絡(luò)的突破,再到用統(tǒng)計(jì)學(xué)基本方法解決問(wèn)題的再思考,同時(shí)也提供了將這些想法運(yùn)用到工作中去的方法。

本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)

這篇文章涵蓋了幾個(gè)最重要的新近發(fā)展和最具影響力的觀點(diǎn),涵蓋的話題從數(shù)據(jù)科學(xué)工作流的編制到更快神經(jīng)網(wǎng)絡(luò)的突破,再到用統(tǒng)計(jì)學(xué)基本方法解決問(wèn)題的再思考,同時(shí)也提供了將這些想法運(yùn)用到工作中去的方法。

[[348575]]

1. 機(jī)器學(xué)習(xí)系統(tǒng)中隱藏的技術(shù)債(Hidden Technical Debt in Machine LearningSystems)

鏈接:

https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf

谷歌研究團(tuán)隊(duì)提供了在創(chuàng)建數(shù)據(jù)科學(xué)工作流時(shí)要避免的反模式的明確說(shuō)明。這篇論文把技術(shù)債的隱喻從軟件工程借鑒過(guò)來(lái),將其應(yīng)用于數(shù)據(jù)科學(xué)。

圖源:DataBricks

下一篇論文更加詳細(xì)地探討了構(gòu)建一個(gè)機(jī)器學(xué)習(xí)產(chǎn)品是軟件工程下面一個(gè)專門的分支,這個(gè)學(xué)科中的許多經(jīng)驗(yàn)也會(huì)運(yùn)用到數(shù)據(jù)科學(xué)中。

如何使用:遵照專家提出的實(shí)用技巧簡(jiǎn)化開(kāi)發(fā)和生產(chǎn)。

2. 軟件2.0( Software 2.0)

鏈接:https://medium.com/@karpathy/software-2-0-a64152b37c35

安德烈·卡帕斯(Andrej Karpathy)的經(jīng)典文章明確表達(dá)了一個(gè)范式,即機(jī)器學(xué)習(xí)模型是代碼基于數(shù)據(jù)的軟件運(yùn)用。如果數(shù)據(jù)科學(xué)就是軟件,我們所構(gòu)建的會(huì)是什么呢?Ben Bengafort在一篇極有影響力的博文“數(shù)據(jù)產(chǎn)品的時(shí)代”中探討了這個(gè)問(wèn)題。

(https://districtdatalabs.silvrback.com/the-age-of-the-data-product)

[[348576]]

數(shù)據(jù)產(chǎn)品代表了ML項(xiàng)目的運(yùn)作化階段。

如何使用:學(xué)習(xí)更多有關(guān)數(shù)據(jù)產(chǎn)品如何融入模型選擇過(guò)程的內(nèi)容。

3. BERT:語(yǔ)言理解深度雙向轉(zhuǎn)換的預(yù)訓(xùn)練(BERT: Pre-training of DeepBidirectional Transformers for Language Understanding)

鏈接:https://arxiv.org/abs/1810.04805

這篇論文里,谷歌研究團(tuán)隊(duì)提出了自然語(yǔ)言處理模型,代表了文本分析方面能力的大幅提升。雖然關(guān)于BERT為什么如此有效存在一些爭(zhēng)議,但這也提示了我們機(jī)器學(xué)習(xí)領(lǐng)域會(huì)發(fā)現(xiàn)一些沒(méi)有完全了解其工作方式的成功方法。像大自然一樣,人工神經(jīng)網(wǎng)絡(luò)還浸沒(méi)在神秘之中。

如何使用:

  • BERT論文可讀性很強(qiáng),包括了一些建議在初始階段使用的默認(rèn)超參數(shù)設(shè)置。
  • 不管你是否為NLP新手,請(qǐng)去看看Jay Alammar闡釋BERT性能的“BERT的初次使用視圖指南”。
  • 也請(qǐng)看看ktrain——一個(gè)運(yùn)用于Keras的組件(同時(shí)也運(yùn)用于TensorFlow),能夠幫助你在工作中毫不費(fèi)力地執(zhí)行BERT。Arun Maiya開(kāi)發(fā)了這個(gè)強(qiáng)大的庫(kù)來(lái)提升NLP、圖像識(shí)別和圖論方法的認(rèn)知速度。

4. 彩票假說(shuō):找到稀疏且可訓(xùn)練的神經(jīng)網(wǎng)絡(luò)(The Lottery Ticket Hypothesis:Finding Sparse, Trainable Neural Networks)

鏈接:https://arxiv.org/abs/1803.03635

當(dāng)NLP模型變得越來(lái)越大(看GTP-3的1750億個(gè)參數(shù)),人們努力用正交的方式構(gòu)建一個(gè)更小、更快、更有效的神經(jīng)網(wǎng)絡(luò)。這樣的網(wǎng)絡(luò)花費(fèi)更短的運(yùn)營(yíng)時(shí)間、更低的訓(xùn)練成本和對(duì)計(jì)算資源更少的需求。

在這篇開(kāi)創(chuàng)性的論文里,機(jī)器學(xué)習(xí)天才Jonathan Frankle和Michael Carbin概述了顯示稀疏子網(wǎng)絡(luò)的裁剪方法,可以在最初明顯增大的神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)類似的性能。

Nolan Day的“彩票分解假說(shuō)”

彩票指的是與效能十分強(qiáng)大的聯(lián)系。這個(gè)發(fā)現(xiàn)提供了許多在儲(chǔ)存、運(yùn)行時(shí)間和計(jì)算性能方面的優(yōu)勢(shì),并獲得了ICLR 2019的最佳論文獎(jiǎng)。更深入的研究都建立在這項(xiàng)技術(shù)之上,證實(shí)了它的適用性并應(yīng)用于原始稀疏網(wǎng)絡(luò)。

如何使用:

  • 在生產(chǎn)前先考慮刪減神經(jīng)網(wǎng)絡(luò)。刪減網(wǎng)絡(luò)權(quán)重可以減少90%以上的參數(shù),卻仍能達(dá)到與初始網(wǎng)絡(luò)相同的性能。
  • 同時(shí)查看Ben Lorica向Neural Magic講述的數(shù)據(jù)交換播客片段,這是一個(gè)尋求在靈活的用戶界面上利用類似修剪和量化的技術(shù)簡(jiǎn)化稀疏性獲取的開(kāi)端。(https://neuralmagic.com/about/)

5. 松開(kāi)零假設(shè)統(tǒng)計(jì)檢驗(yàn)的死亡之手(p < .05)(Releasing the death-grip of nullhypothesis statistical testing (p < .05) )

鏈接:

https://www.researchgate.net/publication/312395254_Releasing_the_death-grip_of_null_hypothesis_statistical_testing_p_05_Applying_complexity_theory_and_somewhat_precise_outcome_testing_SPOT

假設(shè)檢驗(yàn)的提出早于計(jì)算機(jī)的使用??紤]到與這個(gè)方法相關(guān)聯(lián)的挑戰(zhàn)(例如甚至是統(tǒng)計(jì)員都覺(jué)得解釋p值近乎不可能),也許需要時(shí)間來(lái)想出類似稍精確結(jié)果檢驗(yàn)(SPOT)的替代方法

xkcd的顯著性

如何使用:查看這篇“假設(shè)統(tǒng)計(jì)檢驗(yàn)之死”的博文,一位沮喪的統(tǒng)計(jì)員概述了一些與傳統(tǒng)方法相關(guān)的挑戰(zhàn),并解釋了利用置信區(qū)間的替代方式。

(https://www.datasciencecentral.com/profiles/blogs/the-death-of-the-statistical-test-of-hypothesis)

這5篇論文能幫助你更深入地認(rèn)識(shí)數(shù)據(jù)科學(xué)!

 

責(zé)任編輯:趙寧寧 來(lái)源: 今日頭條
相關(guān)推薦

2015-10-27 10:40:21

安卓發(fā)展障礙

2012-02-01 08:40:07

Opera瀏覽器Opera Mini

2012-05-16 13:47:21

領(lǐng)先

2011-05-10 11:05:03

華為思科企業(yè)網(wǎng)絡(luò)

2020-12-15 10:25:08

首席信息官CIO

2012-07-17 11:24:46

IP語(yǔ)音通信Avaya

2013-08-01 10:57:37

SUSESUSE Linux

2010-09-26 09:14:08

2020-10-30 21:13:41

5G網(wǎng)絡(luò)技術(shù)

2021-05-28 13:15:54

人工智能領(lǐng)域地位

2014-06-11 09:18:24

Informatica

2013-09-27 11:16:04

2009-05-27 14:51:07

節(jié)能器產(chǎn)品北電

2012-09-17 20:30:12

路由器MLXe核心路由器博科

2010-09-19 12:17:49

出鈔模塊金融技術(shù)Talaris

2020-12-10 11:40:10

IBM

2009-05-13 09:07:58

Web2.0FacebookTwitter

2012-02-02 10:25:28

宋麟Opera

2023-01-15 17:42:41

科學(xué)論文ChatGPT人工智能

2014-04-09 13:52:20

達(dá)夢(mèng)數(shù)據(jù)庫(kù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)