2019年10大機器學(xué)習(xí)Q&A,面試應(yīng)知!
新興技術(shù)風(fēng)靡全球,它們所帶來的創(chuàng)新、機遇和威脅也是前所未有的。而這些領(lǐng)域所需要的專家人才也隨之增長。
根據(jù)最新的行業(yè)報告顯示,新興技術(shù)領(lǐng)域的工作,如機器學(xué)習(xí)、人工智能和數(shù)據(jù)科學(xué)等,是最熱門的新興職業(yè)。從事此類新興技術(shù)工作既能獲得豐厚的利潤,又能開發(fā)智力。
本文整理了一些最常見的機器學(xué)習(xí)面試問題及其相應(yīng)的回答。機器學(xué)習(xí)有志者以及經(jīng)驗豐富的ML專業(yè)人員可以在面試前以此鞏固其基礎(chǔ)知識。
1. 機器學(xué)習(xí)和深度學(xué)習(xí)有什么區(qū)別?
機器學(xué)習(xí)是人工智能的一個子集,為機器提供了無需任何顯式編程就能自動學(xué)習(xí)和改進的能力。而深度學(xué)習(xí)是機器學(xué)習(xí)的一個子集,其人工神經(jīng)網(wǎng)絡(luò)能夠做出直覺決策。
2. 如何理解召回率和精度這兩個術(shù)語?
召回率又稱真陽性率,是模型所需的陽性例數(shù)與整個數(shù)據(jù)中可用陽性例數(shù)的比值。
精度基于預(yù)測,又稱陽性預(yù)測值,是模型所需的準確陽性例數(shù)測量值與模型實際需要的陽性例數(shù)之間的比值。
3. 監(jiān)督機器學(xué)習(xí)和無監(jiān)督機器學(xué)習(xí)有什么區(qū)別?
在監(jiān)督學(xué)習(xí)中,機器在標記數(shù)據(jù)的幫助下進行訓(xùn)練,即帶有正確答案標記的數(shù)據(jù)。而在無監(jiān)督機器學(xué)習(xí)中,模型自主發(fā)現(xiàn)信息進行學(xué)習(xí)。與監(jiān)督學(xué)習(xí)模型相比,無監(jiān)督模型更適合于執(zhí)行困難的處理任務(wù)。
4. 什么是K-means和KNN?
K-means是一種用于處理聚類問題的無監(jiān)督算法,KNN或K近鄰是一種用于處理回歸和分類的監(jiān)督算法。
5. 造成分類不同于回歸的原因是什么?
這兩個概念都是監(jiān)督機器學(xué)習(xí)技術(shù)的一個重要方面。分類將輸出劃分為不同的類別進行預(yù)測。而回歸模型通常用于找出預(yù)測和變量之間的關(guān)系。分類和回歸的關(guān)鍵區(qū)別在于,前者的輸出變量是離散的,而后者是連續(xù)的。
6. 如何處理數(shù)據(jù)集中的缺失值?
數(shù)據(jù)科學(xué)家面臨的最大挑戰(zhàn)之一與數(shù)據(jù)丟失問題有關(guān)??梢酝ㄟ^多種方式對缺失值進行歸因,包括分配唯一類別、刪除行、使用均值/中值/眾數(shù)替換、使用支持缺失值的算法以及預(yù)測缺失值等等。
7. 如何理解歸納邏輯編程(ILP)?
歸納邏輯編程是機器學(xué)習(xí)的子領(lǐng)域,通過使用邏輯編程開發(fā)預(yù)測模型來搜索數(shù)據(jù)中的模式。該過程假定邏輯程序是一種假設(shè)或背景知識。
8. 需要采取哪些步驟來防止特定模型出現(xiàn)過擬合問題?
在訓(xùn)練中得到大量數(shù)據(jù)時,模型開始學(xué)習(xí)數(shù)據(jù)集中的干擾信息和其他錯誤數(shù)據(jù)。這使得模型難以泛化除訓(xùn)練集外的新樣本。有三種方法可以避免機器學(xué)習(xí)中的過擬合。第一,保持模型簡單;第二,使用交叉驗證技術(shù);第三,使用正則化技術(shù),例如LASSO。
9. 什么是集成學(xué)習(xí)?
集成方法又稱多學(xué)習(xí)器系統(tǒng)或基于委員會的學(xué)習(xí) 。集合方法是一種學(xué)習(xí)算法,能構(gòu)建分類器集,再分類新數(shù)據(jù),對其預(yù)測進行選擇。該方法訓(xùn)練了許多假設(shè)以解決相同的問題。集成建模的最佳示例是隨機森林,其中許多決策樹用于預(yù)測結(jié)果。
10. 機器學(xué)習(xí)項目中需要哪些步驟?
要實現(xiàn)一個好的工作模型,需要采取的關(guān)鍵步驟是收集數(shù)據(jù)、準備數(shù)據(jù)、選擇機器學(xué)習(xí)模型、模型訓(xùn)練、評估模型、調(diào)整參數(shù),最后是預(yù)測。