如何優(yōu)雅地打開(kāi)堆滿數(shù)學(xué)公式的機(jī)器學(xué)習(xí)論文
作者 | thebackpropaganda
編譯 | happen,丁雪,錢天培
上周,大數(shù)據(jù)文摘為大家介紹了在深度學(xué)習(xí)領(lǐng)域近幾年影響力***的5篇論文(點(diǎn)擊鏈接查看大數(shù)據(jù)文摘文章《熬過(guò)深宮十幾載,深度學(xué)習(xí)上位這五年》),有不少讀者在后臺(tái)留言表示,這些論文的數(shù)學(xué)部分實(shí)在是太難攻克。
相信不少讀者在閱讀機(jī)器學(xué)習(xí)論文時(shí)也都遇到過(guò)類似的問(wèn)題。滿懷野心地打開(kāi)一篇論文,卻被里面成片的數(shù)學(xué)公式地嚇得趕緊丟掉了那篇論文。今天,大數(shù)據(jù)文摘就為大家?guī)?lái)了幾個(gè)小tips,幫助大家閱讀被數(shù)學(xué)公式堆滿的機(jī)器學(xué)習(xí)論文。
這些tips適用于已經(jīng)有一定數(shù)學(xué)背景的讀者。應(yīng)有的數(shù)學(xué)背景包括:基礎(chǔ)的線性代數(shù)、概率論和微積分。
一大堆數(shù)學(xué)公式來(lái)襲怎么辦?簡(jiǎn)單瀏覽,重點(diǎn)看結(jié)論和意義
在閱讀機(jī)器學(xué)習(xí)論文時(shí),你可能經(jīng)常會(huì)碰到這樣的論文:它有很長(zhǎng)的公式、大量的代數(shù)運(yùn)算,以及大量復(fù)雜公式的變換。對(duì)于這一類型的論文,你應(yīng)該做的是,抓住文章的重要結(jié)論和意義,而簡(jiǎn)單略過(guò)復(fù)雜的數(shù)學(xué)推導(dǎo)。
當(dāng)你初次閱讀一篇論文時(shí),你的步驟很可能是這樣的。首先,你會(huì)閱讀標(biāo)題,然后考慮是否閱讀摘要。當(dāng)你閱讀完摘要后,你會(huì)考慮是否要瀏覽一遍結(jié)果。之后你才會(huì)考慮是否瀏覽全文,等等。人生短暫,要讀的文章太多。
閱讀代數(shù)較多的論文的技巧是,***次閱讀時(shí)不要被數(shù)學(xué)帶著走——這是許多學(xué)生都會(huì)犯的錯(cuò)誤。讀***遍時(shí),你不需要理解冗長(zhǎng)計(jì)算中的所有步驟。你應(yīng)該瀏覽一遍數(shù)學(xué),并假設(shè)它是正確的,在之后的閱讀過(guò)程中,再一步步加深你的理解。
你要做的是,閱讀公式之間的文字描述,以及論文的結(jié)論。當(dāng)你大致搞清楚這篇論文在講些什么后,你才會(huì)去考慮是否要花費(fèi)時(shí)間來(lái)研究它的數(shù)學(xué)部分。
千萬(wàn)不要陷在那些你搞不清楚的步驟中。假設(shè)它們都是正確的,然后繼續(xù)往下看?;仡^再來(lái)理解它們。重復(fù)閱讀直到你理解透徹。
同時(shí),你需要注意到一個(gè)事實(shí):許多時(shí)候論文中的數(shù)學(xué)部分其實(shí)是存在錯(cuò)誤的。很多時(shí)候,這些錯(cuò)誤與文章想要表達(dá)的論點(diǎn)的無(wú)關(guān),但是它們會(huì)使你變得困惑不堪。在***次閱讀中,你很難發(fā)現(xiàn)這些錯(cuò)誤。但當(dāng)你對(duì)論文有了大體的了解后,往往你就能輕松發(fā)現(xiàn)這些錯(cuò)誤了。
另外,當(dāng)你閱讀那些公式時(shí),確保你理解它們真正的含義。你知道公式中的數(shù)學(xué)含義,但是你是否了解公式背后的真正的意義呢?你是否能用直白的語(yǔ)言向我解釋這個(gè)公式的含義?在我問(wèn)你ELBO的意義時(shí),你能否告訴我,“當(dāng)我們將ELOB ***化時(shí),在考慮到已有數(shù)據(jù)量的情況下,我們估測(cè)的后驗(yàn)概率將會(huì)十分接近其真實(shí)值”?
當(dāng)你達(dá)到這個(gè)水準(zhǔn)后,推理冗長(zhǎng)數(shù)學(xué)運(yùn)算會(huì)變得簡(jiǎn)單。那么,如何才能做到這一點(diǎn)呢?答案是:閱讀大量理論性論文,做大量的代數(shù)運(yùn)算。沒(méi)有其他捷徑。
數(shù)學(xué)概念太艱深?嘗試用簡(jiǎn)化版本理解
我們?cè)陂喿x論文時(shí) ,我們還可能會(huì)碰到涉及大量艱深數(shù)學(xué)概念的論文,比如說(shuō)Lebesgue 測(cè)度、Radon-Nikodym導(dǎo)數(shù)、σ代數(shù)等等。
相比上一種情況,閱讀這種論文更為艱難,因?yàn)槟愫茈y判斷哪一部分重要,哪一部分可以被簡(jiǎn)單跳過(guò)。但技巧還是相似的:別忙著四處查那些數(shù)學(xué)概念,先瀏覽一遍再說(shuō)。
另外一個(gè)很實(shí)用的技巧是:將復(fù)雜概念簡(jiǎn)化。很多時(shí)候,論文作者使用了大量專業(yè)的數(shù)學(xué)概念,以確保他們的推導(dǎo)足夠嚴(yán)謹(jǐn)。比方說(shuō),他們會(huì)考慮到這樣的質(zhì)問(wèn):如果這個(gè)函數(shù)在任何地方都是連續(xù)的,但它在何地方都不可微,那你的方法還可行嗎?
你要做的是,別鉆牛角尖。比方說(shuō),當(dāng)你遇到Radon-Nikodym導(dǎo)數(shù)時(shí),直接用比例代替。當(dāng)你遇到測(cè)度時(shí),直接用Riemann積分簡(jiǎn)單函數(shù)代替。
當(dāng)然,這種方法有時(shí)候也是行不通的。一些情況下,你著實(shí)需要理解論文中的專業(yè)數(shù)學(xué)部分。這種情況下,如果你的數(shù)學(xué)功底不夠扎實(shí),你就要做好死磕的打算了。
搞清楚自己的閱讀目標(biāo)
***,也是最重要的一點(diǎn)。不管你用什么方法去閱讀論文,你都要搞清楚,你想要從閱讀中獲取什么。在閱讀這些論文時(shí),一個(gè)學(xué)術(shù)專家和一個(gè)算法工程師顯然有著不同的目標(biāo)。
簡(jiǎn)而言之,你的閱讀策略最終應(yīng)該服務(wù)于你想要完成的任務(wù),而讀懂滿是數(shù)學(xué)公式的機(jī)器學(xué)習(xí)論文本身并不是一個(gè)值得追求的目標(biāo)。
原文:
https://amp.reddit.com/r/MachineLearning/comments/6rj9r4/d_how_do_you_read_mathheavy_machine_learning
【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號(hào)“大數(shù)據(jù)文摘( id: BigDataDigest)”】