自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

50年最重要8大統(tǒng)計(jì)學(xué)發(fā)展!哥大教授列舉推動(dòng)AI革命的統(tǒng)計(jì)學(xué)思想

人工智能 深度學(xué)習(xí)
在最近的一篇論文中,哥倫比亞大學(xué)的統(tǒng)計(jì)學(xué)教授Andrew Gelman和芬蘭阿爾托大學(xué)的計(jì)算機(jī)科學(xué)教授Aki Vehtari詳細(xì)列舉了過(guò)去50年中最重要的統(tǒng)計(jì)學(xué)思想。

 盡管深度學(xué)習(xí)和人工智能已經(jīng)成為家喻戶曉的名詞,但推動(dòng)這場(chǎng)革命的統(tǒng)計(jì)學(xué)突破卻鮮為人知。

在最近的一篇論文中,哥倫比亞大學(xué)的統(tǒng)計(jì)學(xué)教授Andrew Gelman和芬蘭阿爾托大學(xué)的計(jì)算機(jī)科學(xué)教授Aki Vehtari詳細(xì)列舉了過(guò)去50年中最重要的統(tǒng)計(jì)學(xué)思想。

50年最重要8大統(tǒng)計(jì)學(xué)發(fā)展!哥大教授列舉推動(dòng)AI革命的統(tǒng)計(jì)學(xué)思想

https://www.tandfonline.com/doi/full/10.1080/01621459.2021.1938081

作者將這些統(tǒng)計(jì)學(xué)思想歸類為8大類別:

  1. 反事實(shí)因果推斷(counterfactual causal inference)
  2. 自舉法和基于模擬的推斷(bootstrapping and simulation-based inference)
  3. 超參數(shù)化模型和正則化(overparameterized models and regularization)
  4. 貝葉斯多級(jí)模型(Bayesian multilevel models)
  5. 通用計(jì)算算法(generic computation algorithms)
  6. 自適應(yīng)決策分析(adaptive decision analysis)
  7. 魯棒性推斷(robust inference)
  8. 探索性數(shù)據(jù)分析(exploratory data analysis)

1. 反事實(shí)因果推斷(counterfactual causal inference)

在假設(shè)條件下,因果識(shí)別是可能的,而且可以嚴(yán)格地陳述這些假設(shè),并通過(guò)設(shè)計(jì)和分析以各種方式解決它們。

不同領(lǐng)域發(fā)展了不同的因果推斷方法。在計(jì)量經(jīng)濟(jì)學(xué)中,是結(jié)構(gòu)模型及其對(duì)平均治療效果的影響,在流行病學(xué)中,是對(duì)觀察數(shù)據(jù)的推斷。

基于因果識(shí)別是認(rèn)知的核心任務(wù),因此應(yīng)該是一個(gè)可以數(shù)學(xué)形式化的可計(jì)算問(wèn)題。路徑分析和因果發(fā)現(xiàn)可以根據(jù)潛在結(jié)果來(lái)構(gòu)建,反之亦然。

2. 自舉法和基于模擬的推斷(bootstrapping and simulation-based inference)

統(tǒng)計(jì)學(xué)的一個(gè)趨勢(shì)是用計(jì)算來(lái)替代數(shù)學(xué)分析,甚至在 「大數(shù)據(jù) 」分析開(kāi)始之前就已經(jīng)開(kāi)始了。

自舉法將估計(jì)視為數(shù)據(jù)的近似充分統(tǒng)計(jì)量,并將自舉分布視為數(shù)據(jù)抽樣分布的近似值。

同時(shí),由于自舉法的普遍性和簡(jiǎn)單的計(jì)算實(shí)現(xiàn),讓它能夠應(yīng)用在那些無(wú)法使用傳統(tǒng)解析近似的場(chǎng)景,從而獲得了極大的影響力。

在置換測(cè)試中,重采樣數(shù)據(jù)集是通過(guò)隨機(jī)打亂目標(biāo)值來(lái)打破預(yù)測(cè)變量和目標(biāo)之間的(可能的)依賴關(guān)系來(lái)生成的。

參數(shù)自舉、先驗(yàn)和后驗(yàn)預(yù)測(cè)檢查和基于模擬的校準(zhǔn)都是從一個(gè)模型中創(chuàng)建復(fù)制的數(shù)據(jù)集,而不是直接從數(shù)據(jù)中重新取樣。

在分析復(fù)雜的模型或算法時(shí),從已知的數(shù)據(jù)生成機(jī)制中取樣通常被用來(lái)創(chuàng)建模擬實(shí)驗(yàn),以補(bǔ)充或取代數(shù)學(xué)理論。

3. 超參數(shù)化模型和正則化(overparameterized models and regularization)

統(tǒng)計(jì)學(xué)一個(gè)主要的變化是使用一些正則化程序來(lái)擬合具有大量參數(shù)的模型,從而獲得穩(wěn)定的估計(jì)和良好的預(yù)測(cè)。

這是為了在獲得非參數(shù)或高度參數(shù)化方法的靈活性的同時(shí),避免過(guò)度擬合問(wèn)題。其中,正則化可以作為參數(shù)或預(yù)測(cè)曲線上的懲罰函數(shù)來(lái)實(shí)現(xiàn)。

模型的早期案例包括:馬爾可夫隨機(jī)場(chǎng)、樣條曲線和高斯過(guò)程、分類和回歸樹(shù) 、神經(jīng)網(wǎng)絡(luò)、小波收縮、最小二乘法的替代方案以及支持向量機(jī)。

貝葉斯非參數(shù)先驗(yàn)在無(wú)限維概率模型族上也有了巨大的發(fā)展, 這些模型都有一個(gè)特點(diǎn),就是隨著樣本量的擴(kuò)大而擴(kuò)大,而且參數(shù)并不總是有直接的解釋,而是一個(gè)更大的預(yù)測(cè)系統(tǒng)的一部分。

4. 貝葉斯多級(jí)模型(Bayesian multilevel models)

多級(jí)或分層模型具有因組而異的參數(shù),使模型能夠適應(yīng)集群抽樣、縱向研究、時(shí)間序列橫截面數(shù)據(jù)、薈萃分析和其他結(jié)構(gòu)化設(shè)置。

多級(jí)模型可以被視為貝葉斯模型,因?yàn)樗鼈儼ㄎ粗獫撛谔卣骰蜃兓瘏?shù)的概率分布。相反,貝葉斯模型有一個(gè)多層次結(jié)構(gòu),具有給定參數(shù)的數(shù)據(jù)和給定超參數(shù)的參數(shù)的分布。

同樣,貝葉斯推斷不僅作為一種將先驗(yàn)信息與數(shù)據(jù)相結(jié)合的方式,而且也可以作為一種為推斷和決策考慮不確定性的方式。

5. 通用計(jì)算算法(generic computation algorithms)

創(chuàng)新統(tǒng)計(jì)算法是在統(tǒng)計(jì)問(wèn)題結(jié)構(gòu)的背景下發(fā)展的。EM算法、吉布斯采樣、粒子濾波器、變分推理和期望傳播以不同的方式利用統(tǒng)計(jì)模型的條件獨(dú)立結(jié)構(gòu)。

梅特羅波利斯-黑斯廷斯算法和哈密頓蒙特卡羅較少受到統(tǒng)計(jì)問(wèn)題的直接影響,它們與早期采用優(yōu)化算法計(jì)算最小二乘和最大似然估計(jì)的方式相似。

被稱為近似貝葉斯計(jì)算的方法通過(guò)模擬生成模型,而不是評(píng)估似然函數(shù)來(lái)獲得后驗(yàn)推斷,如果似然的分析形式難以解決或計(jì)算成本很高,那么就可以使用這種方法。

6. 自適應(yīng)決策分析(adaptive decision analysis)

通過(guò)效用最大化、錯(cuò)誤率控制和經(jīng)驗(yàn)貝葉斯分析,以及在貝葉斯決策理論和錯(cuò)誤發(fā)現(xiàn)率分析中,可以看出適應(yīng)性決策分析的發(fā)展。

統(tǒng)計(jì)決策分析的一些重要發(fā)展涉及貝葉斯優(yōu)化和強(qiáng)化學(xué)習(xí),它們與 A/B 測(cè)試實(shí)驗(yàn)設(shè)計(jì)的復(fù)興有關(guān)。

算力的發(fā)展,使得用高斯過(guò)程和神經(jīng)網(wǎng)絡(luò)等參數(shù)豐富模型作為函數(shù)先驗(yàn),并執(zhí)行大規(guī)模強(qiáng)化學(xué)習(xí)成為可能。例如創(chuàng)建AI來(lái)控制機(jī)器人,生成文本,并玩圍棋等游戲。

這項(xiàng)工作大部分都是在統(tǒng)計(jì)之外完成的,使用的方法包括非負(fù)矩陣分解、非線性降維、生成對(duì)抗網(wǎng)絡(luò)以及自編碼器,而這些都是用于查找結(jié)構(gòu)和分解的無(wú)監(jiān)督學(xué)習(xí)方法。

7. 魯棒性推斷(robust inference)

魯棒性的概念是現(xiàn)代統(tǒng)計(jì)學(xué)的核心,它的意義在于即使模型的假設(shè)不正確,也依然可以被使用。

統(tǒng)計(jì)理論的一個(gè)重要部分就是開(kāi)發(fā)在違反這些假設(shè)的情況下運(yùn)行良好的模型。

一般而言,魯棒性在統(tǒng)計(jì)研究中的主要影響不在于特定方法的開(kāi)發(fā),而在于統(tǒng)計(jì)程序的評(píng)估,其中數(shù)據(jù)-生成過(guò)程不屬于擬合概率模型的類別。

研究人員對(duì)魯棒性的擔(dān)憂與作為現(xiàn)代統(tǒng)計(jì)數(shù)據(jù)特征的密集參數(shù)化模型相關(guān),這將對(duì)更普遍的模型評(píng)估產(chǎn)生影響。

8. 探索性數(shù)據(jù)分析(exploratory data analysis)

探索性數(shù)據(jù)分析強(qiáng)調(diào)漸近理論的局限性以及開(kāi)放式探索和交流的相應(yīng)好處。這符合統(tǒng)計(jì)建模的觀點(diǎn),也就是更側(cè)重于發(fā)現(xiàn)而不是固定假設(shè)的檢驗(yàn)。

計(jì)算的進(jìn)步使從業(yè)者能夠快速構(gòu)建大型復(fù)雜模型,從而導(dǎo)致統(tǒng)計(jì)圖形的思想有助于理解數(shù)據(jù)、擬合模型和預(yù)測(cè)之間的關(guān)系。

總結(jié)

由于建模的需求不可避免地隨著計(jì)算能力的增長(zhǎng)而增長(zhǎng),因此分析性的總結(jié)和近似的價(jià)值也是如此。

同時(shí),統(tǒng)計(jì)理論可以幫助理解統(tǒng)計(jì)方法的工作原理,數(shù)學(xué)邏輯可以激發(fā)數(shù)據(jù)分析的新模型和方法。

作者認(rèn)為這些方法開(kāi)啟了對(duì)統(tǒng)計(jì)的新思考方式和數(shù)據(jù)分析的新方法。

反事實(shí)框架將因果推斷置于統(tǒng)計(jì)或預(yù)測(cè)框架內(nèi),在該框架中,可以根據(jù)統(tǒng)計(jì)模型中未觀察到的數(shù)據(jù)精確定義和表達(dá)因果估計(jì),并與調(diào)查抽樣和缺失數(shù)據(jù)插補(bǔ)中的思想聯(lián)系起來(lái)。

自舉法打開(kāi)了一種隱式非參數(shù)建模形式的大門(mén)??捎糜趶?fù)雜調(diào)查、實(shí)驗(yàn)設(shè)計(jì)和其他無(wú)法進(jìn)行分析計(jì)算的數(shù)據(jù)結(jié)構(gòu)的偏差校正和方差估計(jì)。

過(guò)參數(shù)化模型和正則化基于從數(shù)據(jù)中估計(jì)其參數(shù)的能力來(lái)形式化和概括了現(xiàn)有的限制模型大小的做法,這與交叉驗(yàn)證和信息標(biāo)準(zhǔn)有關(guān)。其中,正則化允許用戶在模型中包含更多的預(yù)測(cè)變量,而不必?fù)?dān)心過(guò)度擬合。

多級(jí)模型形式化了從數(shù)據(jù)中估計(jì)先驗(yàn)分布的「經(jīng)驗(yàn)貝葉斯」技術(shù),在更廣泛的問(wèn)題類別中使用具有更高計(jì)算和推理穩(wěn)定性的方法。

通用計(jì)算算法使應(yīng)用從業(yè)者能夠快速擬合用于因果推理、多級(jí)分析、強(qiáng)化學(xué)習(xí)和許多其他領(lǐng)域的高級(jí)模型,從而對(duì)統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)中的核心思想產(chǎn)生更廣泛的影響。

自適應(yīng)決策分析將最優(yōu)控制的工程問(wèn)題與統(tǒng)計(jì)學(xué)習(xí)領(lǐng)域聯(lián)系起來(lái),遠(yuǎn)遠(yuǎn)超出了經(jīng)典的實(shí)驗(yàn)設(shè)計(jì)。

魯棒性推斷允許對(duì)不同程序進(jìn)行正式評(píng)估和建模的方式來(lái)構(gòu)建這些問(wèn)題,以處理對(duì)異常值和模型錯(cuò)誤指定的其他模糊問(wèn)題,而魯棒推理的想法為非參數(shù)估計(jì)提供了信息。

探索性數(shù)據(jù)分析將圖形技術(shù)和發(fā)現(xiàn)推向了統(tǒng)計(jì)實(shí)踐的主流,使用這些工具來(lái)更好地理解和診斷適合數(shù)據(jù)的新的復(fù)雜概率模型類別的問(wèn)題。

作者介紹

[[410179]]

Andrew Gelman 是哥倫比亞大學(xué)統(tǒng)計(jì)學(xué)教授。他曾獲得美國(guó)統(tǒng)計(jì)學(xué)會(huì)杰出統(tǒng)計(jì)應(yīng)用獎(jiǎng)、統(tǒng)計(jì)學(xué)會(huì)主席理事會(huì)40歲以下杰出貢獻(xiàn)獎(jiǎng)。

 

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2021-01-25 15:36:25

數(shù)據(jù)統(tǒng)計(jì)模型

2015-10-22 10:54:24

小數(shù)據(jù)統(tǒng)計(jì)

2015-10-29 09:56:23

小數(shù)據(jù)大數(shù)據(jù)統(tǒng)計(jì)學(xué)

2019-12-13 17:36:00

機(jī)器學(xué)習(xí)設(shè)計(jì)數(shù)學(xué)

2013-05-29 09:53:39

2024-10-05 16:00:00

谷歌開(kāi)源模型

2024-11-21 10:07:40

2024-12-02 13:28:44

2014-08-12 15:03:57

大數(shù)據(jù)

2023-08-24 17:14:05

統(tǒng)計(jì)學(xué)

2024-07-12 16:01:37

2018-08-26 15:26:34

機(jī)器學(xué)習(xí)統(tǒng)計(jì)學(xué)深度學(xué)習(xí)

2015-07-29 11:27:28

大數(shù)據(jù)時(shí)代數(shù)據(jù)分析統(tǒng)計(jì)學(xué)

2021-06-10 19:02:37

大數(shù)據(jù)統(tǒng)計(jì)學(xué)機(jī)器學(xué)習(xí)

2019-07-03 15:21:47

數(shù)據(jù)科學(xué)統(tǒng)計(jì)數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu)

2019-04-23 08:23:51

統(tǒng)計(jì)學(xué)機(jī)器學(xué)習(xí)人工智能

2015-08-17 09:43:08

2021-02-27 09:28:09

數(shù)據(jù)科學(xué)數(shù)據(jù)

2019-07-09 14:27:43

數(shù)據(jù)科學(xué)統(tǒng)計(jì)學(xué)數(shù)據(jù)集

2017-01-19 08:35:51

數(shù)據(jù)科學(xué)深度學(xué)習(xí)機(jī)器學(xué)習(xí)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)