數(shù)據(jù)科學(xué)技能測(cè)試:快來(lái)看看你能通關(guān)嗎?
本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)
是時(shí)候展現(xiàn)真正的技術(shù)了!
以下是26個(gè)數(shù)據(jù)科學(xué)的問(wèn)題和供參考的答案。這些問(wèn)題的難度和主題各不相同,但都與機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)相關(guān)。不管是大學(xué)生還是專(zhuān)業(yè)人士,都可以來(lái)測(cè)試(或更新)一下自己的技能!
你,都能答上來(lái)嗎?
1. 如何區(qū)分機(jī)器學(xué)習(xí)、人工智能和數(shù)據(jù)科學(xué)?(主題:通識(shí))
人工智能這一術(shù)語(yǔ)涵蓋范圍廣泛,主要涉及機(jī)器人學(xué)和文本分析等應(yīng)用,并服務(wù)于商業(yè)和技術(shù)領(lǐng)域。機(jī)器學(xué)習(xí)隸屬于人工智能,但其涉及領(lǐng)域較狹窄,且只用于技術(shù)領(lǐng)域。數(shù)據(jù)科學(xué)并不完全隸屬于機(jī)器學(xué)習(xí),而是利用機(jī)器學(xué)習(xí)來(lái)分析并做出預(yù)測(cè),可用于商業(yè)領(lǐng)域。
2. 什么是正態(tài)分布?(主題:統(tǒng)計(jì)學(xué)、詞匯)
正態(tài)分布,也稱(chēng)為鐘形曲線,指大多數(shù)實(shí)例聚集在中心,且實(shí)例數(shù)量隨著距中心距離的增加而減少這種分布情況。嚴(yán)格來(lái)講,統(tǒng)計(jì)學(xué)上,正態(tài)分布的定義是:66%的數(shù)據(jù)在平均值的一個(gè)標(biāo)準(zhǔn)差內(nèi),95%的數(shù)據(jù)在平均值的兩個(gè)標(biāo)準(zhǔn)差內(nèi),99%的數(shù)據(jù)在平均值的三個(gè)標(biāo)準(zhǔn)差內(nèi)。
圖源:Wikipedia
3. 什么是推薦系統(tǒng)?(主題:詞匯)
推薦系統(tǒng)是信息過(guò)濾系統(tǒng)的一個(gè)子類(lèi),旨在預(yù)測(cè)用戶對(duì)產(chǎn)品的偏好或評(píng)級(jí)。推薦系統(tǒng)廣泛應(yīng)用于電影、新聞、科研文章、產(chǎn)品、音樂(lè)等領(lǐng)域。
4. 不看聚類(lèi),如何選擇k均值聚類(lèi)算法中的k值?(聚類(lèi)算法)
k均值聚類(lèi)算法中,k值的選取有兩種方法。一種方法是手肘法,y軸指某個(gè)誤差函數(shù),x軸指聚類(lèi)的數(shù)量,如果整個(gè)圖的形狀像一個(gè)手臂的話,那肘部對(duì)應(yīng)的值就是最佳的聚類(lèi)數(shù)量。
顯然,在上圖中,肘部對(duì)應(yīng)的k值就是3。然而,如果曲線形狀不夠清晰,那就只能使用第二種方法,即輪廓系數(shù)法。輪廓系數(shù)法指用范圍在-1到1之間的輪廓系數(shù)來(lái)描述每個(gè)簇的數(shù)量,系數(shù)越大的聚類(lèi)通常則為最佳聚類(lèi)數(shù)。
5. 線性回歸和邏輯回歸有什么區(qū)別?(主題:回歸與分類(lèi)算法)
線性回歸是一種統(tǒng)計(jì)技術(shù),指將數(shù)據(jù)擬合到一條線上(或多元線性回歸中的一個(gè)多維平面)。當(dāng)目標(biāo)值在連續(xù)尺度內(nèi)時(shí),就會(huì)發(fā)生回歸。邏輯回歸可由線性回歸通過(guò)sigmoid函數(shù)轉(zhuǎn)換而成,并會(huì)給出一組輸入值為分類(lèi)0和1的概率。
6. 一種測(cè)試的真陽(yáng)性率為100%,假陽(yáng)性率為5%。一個(gè)群體有千分之一的概率會(huì)在測(cè)試中出現(xiàn)這種情況。如果你有一個(gè)陽(yáng)性測(cè)試,出現(xiàn)這種情況的概率有多大呢?(主題:分類(lèi)率)
假設(shè)你正在接受一項(xiàng)疾病測(cè)試,如果你患有此病,測(cè)試結(jié)果會(huì)顯示你已患病。但如果你未患病,5%的情況下,測(cè)試結(jié)果會(huì)顯示你患有此病,95%的情況下,會(huì)顯示你沒(méi)有患病。
因此,在未患病的情況下,會(huì)有5%的誤差。在1000人中,有1人會(huì)得到真正的陽(yáng)性結(jié)果,而在剩下的999人中,5%的人會(huì)得到(假)陽(yáng)性結(jié)果。大約50人會(huì)得到該病的陽(yáng)性結(jié)果。
圖源:unsplash
也就是說(shuō),在1000人中,即使只有1人患病,也會(huì)有51人的檢測(cè)結(jié)果呈陽(yáng)性。但即便如此,你的患病幾率也只有2%。
7. 梯度下降法總是收斂于同一點(diǎn)嗎?(主題:神經(jīng)網(wǎng)絡(luò))
不,梯度下降法并不總是收斂于同一點(diǎn)。由于誤差空間中可能存在多個(gè)局部極小值,根據(jù)其特性(例如動(dòng)量或權(quán)重),梯度下降法可能會(huì)在不同的地方結(jié)束。
8. 如何通過(guò)box-cox變換改善模型性能?(主題:統(tǒng)計(jì)學(xué)、算法)
Box-cox變換指將數(shù)據(jù)按照一定次冪進(jìn)行轉(zhuǎn)換,例如將其平方、立方或開(kāi)方(即1/2次方)。由于任何數(shù)的0次方永遠(yuǎn)是1,因此,box-cox變換中的“0次方”被認(rèn)為是對(duì)數(shù)變換。
對(duì)數(shù)函數(shù)將指數(shù)函數(shù)放在線性尺度上,因而可以改善模型性能。也就是說(shuō),線性回歸之類(lèi)的線性模型在數(shù)據(jù)方面性能更優(yōu)越。
此外,對(duì)函數(shù)進(jìn)行平方和立方運(yùn)算也有助于整理數(shù)據(jù),或突出重點(diǎn)信息。
9. 分析項(xiàng)目中的關(guān)鍵步驟有哪些?(主題:組織)
- 了解業(yè)務(wù)問(wèn)題以及分析目標(biāo)。
- 探索并熟悉數(shù)據(jù)。
- 清理數(shù)據(jù)(檢測(cè)離群值、缺失值、轉(zhuǎn)換變量等),準(zhǔn)備好建模數(shù)據(jù)。
- 運(yùn)行模型并對(duì)參數(shù)進(jìn)行相應(yīng)調(diào)整。
- 用新數(shù)據(jù)驗(yàn)證模型。
- 執(zhí)行模型并得出相應(yīng)結(jié)果。
10. 什么是查全率和查準(zhǔn)率?(主題:分類(lèi)率)
查全率指“在所有的正樣本中,有多少樣本被分類(lèi)為正樣本”。查準(zhǔn)率指“在所有被分類(lèi)為正的樣本中,有多少樣本是真正的正樣本”。
11. 解釋一下“維度詛咒”。(主題:數(shù)據(jù))
圖源:unsplash
“維度詛咒”指的是在分析具有許多特征的數(shù)據(jù)(高維數(shù)據(jù))時(shí)出現(xiàn)的某些現(xiàn)象,而這些現(xiàn)象在普通的二維或三維空間中不會(huì)出現(xiàn)。隨著維數(shù)增加,數(shù)據(jù)會(huì)變得極其稀疏,因而無(wú)法通過(guò)機(jī)器學(xué)習(xí)等模型對(duì)所有值進(jìn)行有意義的計(jì)算。
值得注意的是,在極高維的空間中,兩個(gè)樣本間的歐氏距離非常小,因此,任何需要計(jì)算兩點(diǎn)之間距離的統(tǒng)計(jì)方法或機(jī)器學(xué)習(xí)方法都不可行。(這也是為什么在高維圖像識(shí)別中首選卷積神經(jīng)網(wǎng)絡(luò)的原因。)
12. 在時(shí)間序列建模中,如何處理不同形式的季節(jié)性現(xiàn)象?(主題:時(shí)間序列)
通常在真實(shí)世界的時(shí)間序列數(shù)據(jù)中(比如,在玩具廠購(gòu)買(mǎi)的泰迪熊),不同形式的季節(jié)性現(xiàn)象可能會(huì)相互干擾。
年度的季節(jié)性(如圣誕節(jié)前后的旺季和夏天的低谷期)可能會(huì)與每月、每周、甚至每天的季節(jié)性現(xiàn)象重疊。由于變量在不同時(shí)間段的平均值不同,導(dǎo)致時(shí)間序列具有非平穩(wěn)性。
去除季節(jié)性的最好方法就是對(duì)時(shí)間序列進(jìn)行差分,即取時(shí)間x中的一個(gè)日期與x減去季節(jié)性周期后(一年或一月等)兩者間的差值。由于在前幾個(gè)樣本中,x減去季節(jié)性周期無(wú)法訪問(wèn),因此丟失了一個(gè)季節(jié)性周期的原始數(shù)據(jù)。
年度和月度季節(jié)性現(xiàn)象的一個(gè)例子
13. 人們普遍認(rèn)為假陰性不如假陽(yáng)性。那么,假陽(yáng)性不如假陰性的例子有什么?(主題:分類(lèi)率、組織)
假設(shè)一家電商公司決定給可能會(huì)購(gòu)買(mǎi)5000美元商品的顧客贈(zèng)送一張1000美元的禮券。如果該公司通過(guò)模型計(jì)算出假陰性結(jié)果,那公司就(錯(cuò)誤地)不會(huì)發(fā)送代金券,因?yàn)楣菊`認(rèn)為該客戶不會(huì)購(gòu)買(mǎi)5000美元以上的商品。
雖然結(jié)果不妙,但公司并不虧損。如果公司將代金券發(fā)給結(jié)果呈假陽(yáng)性的客戶(誤以為該客戶會(huì)購(gòu)買(mǎi)價(jià)值5000美元以上的商品),那些購(gòu)買(mǎi)不足5000美元的人就會(huì)讓公司虧損賠錢(qián)。
14. 測(cè)試集和驗(yàn)證集的區(qū)別是什么?(主題:數(shù)據(jù)、組織)
測(cè)試集用于評(píng)估模型訓(xùn)練后的性能,而驗(yàn)證集用于在模型訓(xùn)練期間選擇參數(shù)并防止訓(xùn)練集上出現(xiàn)過(guò)擬合。
圖源:unsplash
15. 你在什么情況下會(huì)使用隨機(jī)森林算法,什么情況下會(huì)使用支持向量機(jī)算法(SVM)?(主題:算法)
SVM和隨機(jī)森林是兩種強(qiáng)大的分類(lèi)算法。對(duì)于無(wú)離群的純凈數(shù)據(jù),可以選擇SVM;反之,則可以選擇隨機(jī)森林。
SVM(尤其是帶有廣泛參數(shù)搜索的SVM)需要進(jìn)行更多的計(jì)算,因此如果內(nèi)存有限的話,選擇隨機(jī)森林會(huì)更合適。此外,隨機(jī)森林算法適用于多類(lèi)問(wèn)題,而SVM算法適應(yīng)于高維問(wèn)題,如文本分類(lèi)。
16. 你會(huì)用哪些方法來(lái)填補(bǔ)缺失的數(shù)據(jù),如果填錯(cuò)會(huì)有什么后果?(主題:數(shù)據(jù)清理)
現(xiàn)實(shí)世界的數(shù)據(jù)往往會(huì)有缺失。填補(bǔ)這些數(shù)據(jù)的方法多種多樣。徹底的處理方式就是刪除具有NA 值的行。如果NA 值不是很多,并且數(shù)據(jù)充足,則這種方法可行;否則,則不可行。在現(xiàn)實(shí)世界的數(shù)據(jù)中,刪除帶有NA 值的行可能會(huì)消除部分可觀察到的模式。
倘若上述方法不可行,也可以根據(jù)具體情況,選擇其他方法來(lái)填充缺失數(shù)據(jù),比如眾數(shù)、中位數(shù)或平均值。
另一種方法是通過(guò)k最近鄰算法(KNN)計(jì)算丟失數(shù)據(jù)的鄰近數(shù)據(jù),并選取這些鄰近數(shù)據(jù)的平均值、中位數(shù)或眾數(shù)來(lái)填補(bǔ)缺失數(shù)據(jù)。比起使用匯總值,這種方法靈活度更高,規(guī)范性更強(qiáng)。
如果填補(bǔ)數(shù)據(jù)的方法使用不當(dāng),可能會(huì)出現(xiàn)選擇性偏差——模型的好壞與數(shù)據(jù)一致,如果數(shù)據(jù)有誤,其模型也會(huì)受到影響。
圖源:unsplash
17. 什么是集成?集成有什么用?(主題:算法)
集成是對(duì)最終決定進(jìn)行投票的算法組。集成會(huì)選出瑕不掩瑜的模型,但成功的模型必須是多樣化的。也就是說(shuō),每個(gè)模型的缺點(diǎn)必須各不相同。研究表明,正確創(chuàng)建的集成,其性能往往遠(yuǎn)優(yōu)于單分類(lèi)器。
18. 在將數(shù)據(jù)傳遞到線性回歸模型前,需要對(duì)數(shù)據(jù)作哪些基本假設(shè)?(主題:算法)
數(shù)據(jù)應(yīng)具有正態(tài)殘差分布、誤差的統(tǒng)計(jì)相關(guān)性以及線性。
19. 貝葉斯估計(jì)和最大似然估計(jì)的區(qū)別是什么?(主題:算法)
在貝葉斯估計(jì)中,模型具有先前的數(shù)據(jù)知識(shí)。我們可以尋找多個(gè)參數(shù),如5個(gè)gammas和5個(gè)lambdas來(lái)解釋數(shù)據(jù)。在貝葉斯估計(jì)中,有多個(gè)模型可以做出多個(gè)預(yù)測(cè)(每對(duì)參數(shù)一個(gè),其先驗(yàn)知識(shí)相同)。因此,如果想預(yù)測(cè)新的樣本,只需計(jì)算預(yù)測(cè)的加權(quán)和就可以了。
圖源:bjdataart
然而,最大似然估計(jì)不考慮先驗(yàn)概率,它與使用平坦先驗(yàn)的貝葉斯模型比較相似。
20. P值對(duì)數(shù)據(jù)來(lái)說(shuō)意味著什么?(題目:統(tǒng)計(jì)學(xué))
在統(tǒng)計(jì)學(xué)中,P值用于確定假設(shè)檢驗(yàn)后結(jié)果的顯著性,它可以幫助分析器得出結(jié)論。顯著性水平往往在0到1之間。
- 如果p值小于0.05,說(shuō)明拒絕零假設(shè)的理由充分,可以拒絕零假設(shè)。
- 如果P值大于0.05,說(shuō)明拒絕零假設(shè)的理由不充分,不能拒絕零假設(shè)。
- 而0.05是臨界值,表示兩種情況都有可能發(fā)生。
21. 何時(shí)使用均方誤差(MSE)和平均絕對(duì)誤差(MAE)?(主題:精確度測(cè)量)
MSE常用于“突出”較大的誤差。由于x²的導(dǎo)數(shù)為2x,x越大,x與x-1的差值就越大。然而,MAE常用于輸出可解釋的結(jié)果。
因此,當(dāng)結(jié)果不需要進(jìn)行解釋?zhuān)皇亲鳛閿?shù)字(可能用于模型之間的比較)時(shí),可以選擇MSE;但是當(dāng)結(jié)果需要進(jìn)行解釋時(shí)(例如,模型平均下降4美元左右),選擇MAE更佳。
22. 什么是ROC曲線?什么是AUC?(主題:精確度測(cè)量)
ROC曲線描述的是模型的假陽(yáng)性率與真陽(yáng)性率之間的關(guān)系。完全隨機(jī)預(yù)測(cè)的ROC曲線就是一條直對(duì)角線(圖中的黑色虛線)。最靠近坐標(biāo)軸的曲線就是最優(yōu)模型。
AUC是衡量ROC曲線與坐標(biāo)軸之間距離的一項(xiàng)指標(biāo),即曲線下的面積。曲線下的面積越大,則性能越好。
23. 解釋一下偏差方差平衡,并列舉高偏差和低偏差算法的示例。(主題:算法)
偏差指的是由于機(jī)器學(xué)習(xí)算法過(guò)度簡(jiǎn)化而在模型中引入的誤差。偏差會(huì)導(dǎo)致欠擬合。如果在欠擬合時(shí)訓(xùn)練模型,模型會(huì)做出簡(jiǎn)化的假設(shè),使目標(biāo)函數(shù)更易于理解。
低偏差的機(jī)器學(xué)習(xí)算法有決策樹(shù)、KNN、SVM等。高偏置的機(jī)器學(xué)習(xí)算法有線性回歸和邏輯回歸。
方差指的是由于機(jī)器學(xué)習(xí)算法較為復(fù)雜而在模型中引入的誤差。有時(shí)模型會(huì)從訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)噪聲數(shù)據(jù),導(dǎo)致在測(cè)試集中表現(xiàn)不佳。方差會(huì)導(dǎo)致高靈敏度和過(guò)擬合。
通常,當(dāng)模型的復(fù)雜度增加時(shí),模型中低偏差導(dǎo)致的誤差就會(huì)減少。然而,當(dāng)復(fù)雜度增加到某個(gè)特定點(diǎn)時(shí),模型就會(huì)發(fā)生過(guò)擬合。
24. 什么是PCA以及PCA有什么用?(主題:算法)
主成分分析(PCA)是一種降維方法,通過(guò)尋找n個(gè)正交向量來(lái)表示數(shù)據(jù)中的最大方差,其中n是數(shù)據(jù)降至的維度。n個(gè)向量可用作新數(shù)據(jù)的維度。PCA可以幫助加快機(jī)器學(xué)習(xí)算法的速度,或者用于高維數(shù)據(jù)的可視化。
25. 為什么在復(fù)雜的神經(jīng)網(wǎng)絡(luò)中,Softmax非線性函數(shù)往往最后進(jìn)行運(yùn)算?(主題:神經(jīng)網(wǎng)絡(luò))
這是因?yàn)镾oftmax非線性函數(shù)輸入實(shí)數(shù)向量后會(huì)返回概率分布。設(shè)x是一個(gè)實(shí)數(shù)向量(正或負(fù)),那Softmax函數(shù)就會(huì)輸出一個(gè)概率分布:每個(gè)元素都是非負(fù)的,且所有元素的和為1。
圖源:unsplash
26. 什么是TF/IDF向量化?(主題:NLP)
TF-IDF是術(shù)語(yǔ)“詞頻-逆文本頻率指數(shù)”的縮寫(xiě)。它是一種數(shù)字統(tǒng)計(jì)方法,用以反映一個(gè)字詞對(duì)語(yǔ)料庫(kù)中一份文檔的重要性。在信息檢索和文本挖掘中,它常被用作權(quán)重因子。
TF-IDF值與字詞在文檔中出現(xiàn)的次數(shù)成正比增加,與字詞在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降,這有助于在某些字詞出現(xiàn)頻繁時(shí)進(jìn)行調(diào)整。
你做對(duì)了幾個(gè)?這些問(wèn)題覆蓋主題廣泛,從神經(jīng)網(wǎng)絡(luò)到數(shù)據(jù)清洗,從SVM到NLP,從分類(lèi)率到統(tǒng)計(jì)學(xué)。不熟悉的話得好好復(fù)習(xí)啦!