自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

機(jī)器學(xué)習(xí)中的數(shù)學(xué)意義

作者：雷鋒字幕組 2020-10-13 14:38:50

人工智能機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)中的用于聲稱性能的指標(biāo)標(biāo)準(zhǔn)很少被討論。由于在這個(gè)問題上似乎沒有一個(gè)明確的、廣泛的共識(shí)，因此我認(rèn)為提供我一直在倡導(dǎo)并盡可能遵循的標(biāo)準(zhǔn)可能會(huì)很有趣。

機(jī)器學(xué)習(xí)中的用于聲稱性能的指標(biāo)標(biāo)準(zhǔn)很少被討論。由于在這個(gè)問題上似乎沒有一個(gè)明確的、廣泛的共識(shí)，因此我認(rèn)為提供我一直在倡導(dǎo)并盡可能遵循的標(biāo)準(zhǔn)可能會(huì)很有趣。它源于這個(gè)簡(jiǎn)單的前提，這是我的科學(xué)老師從中學(xué)開始就灌輸給我的：

科學(xué)報(bào)告的一般規(guī)則是，您寫下的每個(gè)數(shù)字都應(yīng)為“ 真”的，因?yàn)?ldquo; 真”的定義是什么。
讓我們來研究一下這對(duì)測(cè)試性能等統(tǒng)計(jì)量意味著什么。當(dāng)你在科學(xué)出版物中寫下以下陳述時(shí)：
測(cè)試準(zhǔn)確率為52.34%。你所表達(dá)的是，據(jù)你所知，你的模型在從測(cè)試分布中提取的未見數(shù)據(jù)上成功的概率在0.52335和0.52345之間。

這是一個(gè)非常強(qiáng)有力的聲明。

考慮你的測(cè)試集是從正確的測(cè)試分布中抽取的N個(gè)樣本IID組成的。成功率可以表示為一個(gè)二項(xiàng)式變量，其平均概率p由樣本平均值估計(jì)：p ≅ s / N

其標(biāo)準(zhǔn)差為：σ=√p(1-p)。
其中當(dāng)p=0.5時(shí)，其上限為0.5。
在正態(tài)近似下，估計(jì)量的標(biāo)準(zhǔn)差為：δ=σ/√N。

這個(gè)精度估計(jì)上的誤差δ 是這樣的，在最壞的情況下，有約50%的精度：

換句話說，為了保證上述報(bào)告中例子52.34%的準(zhǔn)確率，你的測(cè)試集的大小至少應(yīng)該在30M樣本的數(shù)量級(jí)上!這種粗略的分析很容易轉(zhuǎn)化為除了準(zhǔn)確率以外的任何可計(jì)算的數(shù)量，盡管不能轉(zhuǎn)化為像似然率或困惑度這樣的連續(xù)數(shù)字。

下面是一些常見的機(jī)器學(xué)習(xí)數(shù)據(jù)集的說明。

在ImageNet上可以合理地報(bào)告多少位數(shù)的精度?準(zhǔn)確率在80%左右，測(cè)試集是15萬張圖片：

√(0.8*0.2/150000) = 0.103%

這意味著你幾乎可以報(bào)告XX.X%的數(shù)字，而實(shí)際上每個(gè)人都是這樣做的。

MNIST呢，準(zhǔn)確率在99%：

√(0.99*0.01/10000) = 0.099%

噗，也報(bào)個(gè)XX.X%就OK了!

然而，最值得注意的是，在大多數(shù)情況下，性能數(shù)據(jù)并不是單獨(dú)呈現(xiàn)的，而是用來比較同一測(cè)試集上的多種方法。在這種情況下，實(shí)驗(yàn)之間的抽樣方差會(huì)被抵消，即使在樣本量較小的情況下，它們之間的準(zhǔn)確度差異也可能在統(tǒng)計(jì)學(xué)上很顯著。估計(jì)圖方差的一個(gè)簡(jiǎn)單方法是執(zhí)行bootstrap重采樣。更嚴(yán)格、通常更嚴(yán)格的檢驗(yàn)包括進(jìn)行配對(duì)差異檢驗(yàn)或更普遍的方差分析。

報(bào)告超出其內(nèi)在精度的數(shù)字可能很具有極大的吸引力，因?yàn)樵谂c基線進(jìn)行比較的情況下，或者當(dāng)人們認(rèn)為測(cè)試集是一成不變的情況下，同時(shí)也不是從測(cè)試分布中抽取的樣本時(shí)，性能數(shù)字往往更加重要。當(dāng)在生產(chǎn)中部署模型時(shí)，這種做法會(huì)讓人感到驚訝，并且固定的測(cè)試集假設(shè)突然消失了，還有一些無關(guān)緊要的改進(jìn)。更普遍的是，這種做法會(huì)直接導(dǎo)致對(duì)測(cè)試集進(jìn)行過擬合。

那么，在我們的領(lǐng)域中數(shù)字為“真”意味著什么?好吧，這確實(shí)很復(fù)雜。對(duì)于工程師而言，很容易辯稱不應(yīng)該報(bào)告的尺寸超出公差?；蛘邔?duì)于物理學(xué)家來說，物理量不應(yīng)超過測(cè)量誤差。對(duì)于機(jī)器學(xué)習(xí)從業(yè)者，我們不僅要應(yīng)對(duì)測(cè)試集的采樣不確定性，而且還要應(yīng)對(duì)獨(dú)立訓(xùn)練運(yùn)行，訓(xùn)練數(shù)據(jù)的不同初始化和改組下的模型不確定性。

按照這個(gè)標(biāo)準(zhǔn)，在機(jī)器學(xué)習(xí)中很難確定哪些數(shù)字是 "真 "的。解決辦法當(dāng)然是盡可能地報(bào)告其置信區(qū)間。置信區(qū)間是一種更精細(xì)的報(bào)告不確定性的方式，可以考慮到所有隨機(jī)性的來源，以及除簡(jiǎn)單方差之外的顯著性檢驗(yàn)。它們的存在也向你的讀者發(fā)出信號(hào)，表明你已經(jīng)考慮過你所報(bào)告的內(nèi)容的意義，而不僅僅是你的代碼所得到的數(shù)字。用置信區(qū)間表示的數(shù)字可能會(huì)被報(bào)告得超出其名義上的精度，不過要注意的是，你現(xiàn)在必須考慮用多少位數(shù)來報(bào)告不確定性，正如這篇博文所解釋的那樣。一路走來都是烏龜。

數(shù)字少了，雜亂無章的東西就少了，科學(xué)性就強(qiáng)了。

避免報(bào)告超出統(tǒng)計(jì)學(xué)意義的數(shù)字結(jié)果，除非你為它們提供一個(gè)明確的置信區(qū)間。這理所當(dāng)然地被認(rèn)為是科學(xué)上的不良行為，尤其是在沒有進(jìn)行配對(duì)顯著性測(cè)試的情況下，用來論證一個(gè)數(shù)字比另一個(gè)數(shù)字好的時(shí)候。僅憑這一點(diǎn)就經(jīng)常有論文被拒絕。一個(gè)良好的習(xí)慣是對(duì)報(bào)告中帶有大量數(shù)字的準(zhǔn)確率數(shù)字始終持懷疑態(tài)度。還記得3000萬、30萬和30萬的經(jīng)驗(yàn)法則對(duì)最壞情況下作為“嗅覺測(cè)試”的統(tǒng)計(jì)顯著性所需樣本數(shù)量的限制嗎?它會(huì)讓你避免追逐統(tǒng)計(jì)上的“幽靈”。

本文轉(zhuǎn)自雷鋒網(wǎng)，如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。

責(zé)任編輯：未麗燕來源：雷鋒網(wǎng)

機(jī)器學(xué)習(xí)數(shù)據(jù)數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

^{<sub id="7ozqx"></sub>}

^{<thead id="7ozqx"><rt id="7ozqx"></rt></thead>}