“小數(shù)據(jù)”的統(tǒng)計(jì)學(xué)
一、小數(shù)據(jù)來(lái)自哪里?
科技公司的數(shù)據(jù)科學(xué)、關(guān)聯(lián)性分析以及機(jī)器學(xué)習(xí)等方面的活動(dòng)大多圍繞著”大數(shù)據(jù)”,這些大型數(shù)據(jù)集包含文檔、 用戶、 文件、 查詢、 歌曲、 圖片等信息,規(guī)模數(shù)以千計(jì),數(shù)十萬(wàn)、 數(shù)百萬(wàn)、 甚至數(shù)十億。過(guò)去十年里,處理這類(lèi)型數(shù)據(jù)集的基礎(chǔ)設(shè)施、 工具和算法發(fā)展得非常迅速,并且得到了不斷改善。大多數(shù)數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)從業(yè)人員就是在這樣的情況下積累了經(jīng)驗(yàn),逐漸習(xí)慣于那些用著順手的算法,而且在那些常見(jiàn)的需要權(quán)衡的問(wèn)題上面擁有良好的直覺(jué)(經(jīng)常需要權(quán)衡的問(wèn)題包括:偏差和方差,靈活性和穩(wěn)定性,手工特性提取和特征學(xué)習(xí)等等)。但小的數(shù)據(jù)集仍然時(shí)不時(shí)的出現(xiàn),而且伴隨的問(wèn)題往往難以處理,需要一組不同的算法和不同的技能。小數(shù)據(jù)集出現(xiàn)在以下幾種情況:
- 企業(yè)解決方案: 當(dāng)您嘗試為一個(gè)人員數(shù)量相對(duì)有限的企業(yè)提供解決方案,而不是為成千上萬(wàn)的用戶提供單一的解決方案。
- 時(shí)間序列: 時(shí)間供不應(yīng)求!尤其是和用戶、查詢指令、會(huì)話、文件等相比較。這顯然取決于時(shí)間單位或采樣率,但是想每次都能有效地增加采樣率沒(méi)那么容易,比如你得到的標(biāo)定數(shù)據(jù)是日期的話,那么你每天只有一個(gè)數(shù)據(jù)點(diǎn)。
- 關(guān)于以下樣本的聚類(lèi)模型:州市、國(guó)家、運(yùn)動(dòng)隊(duì)或任何總體本身是有限的情況(或者采樣真的很貴)?!緜渥ⅲ罕热鐚?duì)美國(guó)50個(gè)州做聚類(lèi)】
- 多變量 A/B 測(cè)試: 實(shí)驗(yàn)方法或者它們的組合會(huì)成為數(shù)據(jù)點(diǎn)。如果你正在考慮3個(gè)維度,每個(gè)維度設(shè)置4個(gè)配置項(xiàng),那么將擁有12個(gè)點(diǎn)?!緜渥ⅲ罕热缭诰W(wǎng)頁(yè)測(cè)試中,選擇字體顏色、字體大小、字體類(lèi)型三個(gè)維度,然后有四種顏色、四個(gè)字號(hào)、四個(gè)字型】
- 任何罕見(jiàn)現(xiàn)象的模型,例如地震、洪水。
二、小數(shù)據(jù)問(wèn)題
小數(shù)據(jù)問(wèn)題很多,但主要圍繞高方差:
- 很難避免過(guò)度擬合
- 你不只過(guò)度擬合訓(xùn)練數(shù)據(jù),有時(shí)還過(guò)度擬合驗(yàn)證數(shù)據(jù)。
- 離群值(異常點(diǎn))變得更危險(xiǎn)。
- 通常,噪聲是個(gè)現(xiàn)實(shí)問(wèn)題,存在于目標(biāo)變量中或在一些特征中。
三、如何處理以下情況
1-雇一個(gè)統(tǒng)計(jì)學(xué)家
我不是在開(kāi)玩笑!統(tǒng)計(jì)學(xué)家是原始的數(shù)據(jù)科學(xué)家。當(dāng)數(shù)據(jù)更難獲取時(shí)統(tǒng)計(jì)學(xué)誕生了,因而統(tǒng)計(jì)學(xué)家非常清楚如何處理小樣本問(wèn)題。統(tǒng)計(jì)檢驗(yàn)、參數(shù)模型、自舉法(Bootstrapping,一種重復(fù)抽樣技術(shù)),和其他有用的數(shù)學(xué)工具屬于經(jīng)典統(tǒng)計(jì)的范疇,而不是現(xiàn)代機(jī)器學(xué)習(xí)。如果沒(méi)有好的專(zhuān)業(yè)統(tǒng)計(jì)員,您可以雇一個(gè)海洋生物學(xué)家、動(dòng)物學(xué)家、心理學(xué)家或任何一個(gè)接受過(guò)小樣本處理訓(xùn)練的人。當(dāng)然,他們的專(zhuān)業(yè)履歷越接近您的領(lǐng)域越好。如果您不想雇一個(gè)全職統(tǒng)計(jì)員,那么可以請(qǐng)臨時(shí)顧問(wèn)。但雇一個(gè)科班出身的統(tǒng)計(jì)學(xué)家可能是非常好的投資。
2-堅(jiān)持簡(jiǎn)單模型
更確切地說(shuō): 堅(jiān)持一組有限的假設(shè)。預(yù)測(cè)建模可以看成一個(gè)搜索問(wèn)題。從初始的一批可能模型中,選出那個(gè)最適合我們數(shù)據(jù)的模型。在某種程度上,每一個(gè)我們用來(lái)擬合的點(diǎn)會(huì)投票,給不傾向于產(chǎn)生這個(gè)點(diǎn)的模型投反對(duì)票,給傾向于產(chǎn)生這個(gè)點(diǎn)的模型投贊成票。當(dāng)你有一大堆數(shù)據(jù)時(shí),你能有效地在一大堆模型/假設(shè)中搜尋,最終找到適合的那個(gè)。當(dāng)你一開(kāi)始沒(méi)有那么多的數(shù)據(jù)點(diǎn)時(shí),你需要從一套相當(dāng)小的可能的假設(shè)開(kāi)始 (例如,含有 3個(gè)非零權(quán)重的線性模型,深度小于4的決策樹(shù)模型,含有十個(gè)等間隔容器的直方圖)。這意味著你排除復(fù)雜的設(shè)想,比如說(shuō)那些非線性或特征之間相互作用的問(wèn)題。這也意味著,你不能用太多自由度 (太多的權(quán)重或參數(shù))擬合模型。適當(dāng)時(shí),請(qǐng)使用強(qiáng)假設(shè) (例如,非負(fù)權(quán)重,沒(méi)有交互作用的特征,特定分布等等) 來(lái)縮小可能的假設(shè)的范圍。
任何瘋狂的模型都能擬合單點(diǎn)。
當(dāng)我們有更多的數(shù)據(jù)點(diǎn)時(shí),越來(lái)越少的模型可以擬合這些點(diǎn)。
圖像來(lái)自Chris Bishop的書(shū)《模式識(shí)別和機(jī)器學(xué)習(xí)》
3-盡可能使用更多的數(shù)據(jù)
您想構(gòu)建一個(gè)個(gè)性化的垃圾郵件過(guò)濾器嗎?嘗試構(gòu)建在一個(gè)通用模型,并為所有用戶訓(xùn)練這個(gè)模型。你正在為某一個(gè)國(guó)家的GDP建模嗎?嘗試用你的模型去擬合所有能得到數(shù)據(jù)的國(guó)家,或許可以用重要性抽樣來(lái)強(qiáng)調(diào)你感興趣的國(guó)家。你試圖預(yù)測(cè)特定的火山爆發(fā)嗎?……你應(yīng)該知道如何做了。
4-做試驗(yàn)要克制
不要過(guò)分使用驗(yàn)證集。如果你嘗試過(guò)許多不同的技術(shù),并使用一個(gè)保留數(shù)據(jù)集來(lái)對(duì)比它們,那么你應(yīng)該清楚這些結(jié)果的統(tǒng)計(jì)效力如何,而且要意識(shí)到對(duì)于樣本以外的數(shù)據(jù)它可能不是一個(gè)好的模型。
5-清洗您的數(shù)據(jù)
處理小數(shù)據(jù)集時(shí),噪聲和異常點(diǎn)都特別煩人。為了得到更好的模型,清洗您的數(shù)據(jù)可能是至關(guān)重要的?;蛘吣梢允褂敏敯粜愿玫哪P停绕溽槍?duì)異常點(diǎn)。(例如分位數(shù)回歸)
6-進(jìn)行特征選擇
我不是顯式特征選擇的超級(jí)粉絲。我通常選擇用正則化和模型平均 (下面會(huì)展開(kāi)講述)來(lái)防止過(guò)度擬合。但是,如果數(shù)據(jù)真的很少,有時(shí)顯式特征選擇至關(guān)重要??梢缘脑挘?**借助某一領(lǐng)域的專(zhuān)業(yè)知識(shí)來(lái)做特征選擇或刪減,因?yàn)楦F舉法 (例如所有子集或貪婪前向選擇) 一樣容易造成過(guò)度擬合。
7-使用正則化
對(duì)于防止模型過(guò)擬合,且在不降低模型中參數(shù)實(shí)際數(shù)目的前提下減少有效自由度,正則化幾乎是神奇的解決辦法。L1正則化用較少的非零參數(shù)構(gòu)建模型,有效地執(zhí)行隱式特征選擇。而 L2 正則化用更保守 (接近零) 的參數(shù),相當(dāng)于有效的得到了強(qiáng)零中心的先驗(yàn)參數(shù) (貝葉斯理論)。通常,L2 擁有比L1更好的預(yù)測(cè)精度。【備注:L2正則化的效果使權(quán)重衰減,人們普遍認(rèn)為:更小的權(quán)值從某種意義上說(shuō),表示網(wǎng)絡(luò)的復(fù)雜度更低,對(duì)數(shù)據(jù)的擬合剛剛好,這個(gè)法則也叫做奧卡姆剃刀?!?/p>
L1正則化可以使得大多數(shù)參數(shù)變?yōu)榱?/p>
8 使用模型平均
模型平均擁有類(lèi)似正則化的效果,它減少方差,提高泛化,但它是一個(gè)通用的技術(shù),可以在任何類(lèi)型的模型上甚至在異構(gòu)模型的集合上使用。缺點(diǎn)是,為了做模型平均,結(jié)果要處理一堆模型,模型的評(píng)估變得很慢。bagging和貝葉斯模型平均是兩個(gè)好用的模型平均方法。
每條紅線是一個(gè)擬合模型。
平均這些高方差模型之后,我們得到一個(gè)平滑的曲線,它很好的擬合了原有數(shù)據(jù)點(diǎn)的分布。
9-嘗試貝葉斯建模和模型平均
這個(gè)依然不是我喜歡的技術(shù),但貝葉斯推理可能適合于處理較小的數(shù)據(jù)集,尤其是當(dāng)你能夠使用專(zhuān)業(yè)知識(shí)構(gòu)造好的先驗(yàn)參數(shù)時(shí)。
10-喜歡用置信區(qū)間
通常,除了構(gòu)建一個(gè)預(yù)測(cè)模型之外,估計(jì)這個(gè)模型的置信是個(gè)好主意。對(duì)于回歸分析,它通常是一個(gè)以點(diǎn)估計(jì)值為中心的取值范圍,真實(shí)值以95%的置信水平落在這個(gè)區(qū)間里。如果是分類(lèi)模型的話,那么涉及的將是分類(lèi)的概率。這種估計(jì)對(duì)于小數(shù)據(jù)集更加重要,因?yàn)楹苡锌赡苣P偷哪承┨卣飨啾绕渌卣鳑](méi)有更好的表達(dá)出來(lái)。如上所述的模型平均允許我們很容易得到在回歸、 分類(lèi)和密度估計(jì)中做置信的一般方法。當(dāng)評(píng)估您的模型時(shí)它也很有用。使用置信區(qū)間評(píng)估模型性能將助于你避免得出很多錯(cuò)誤的結(jié)論。
你的數(shù)據(jù)不樂(lè)意出現(xiàn)在特征空間的某些區(qū)域,那么預(yù)測(cè)置信應(yīng)該有所反應(yīng)。
用ROCR得到的自舉法性能圖。
四、總結(jié)
上面講的有點(diǎn)多,但他們都圍繞著三個(gè)主題:約束建模,平滑和量化不確定性。這篇文章中所使用的圖片來(lái)自Christopher Bishop的書(shū)《模式識(shí)別和機(jī)器學(xué)習(xí)》