27場機器學(xué)習(xí)面試后,來劃個概念重點吧
機器學(xué)習(xí)面試寶典,有這一本就夠了。
在機器學(xué)習(xí)和數(shù)據(jù)科學(xué)崗位的面試中,機器學(xué)習(xí)領(lǐng)域的概念是經(jīng)??疾斓膬?nèi)容。一位近期經(jīng)過 27 次 AI 領(lǐng)域面試(包括 Google 等大型公司和一些初創(chuàng)公司)的開發(fā)者根據(jù)自己的面試實戰(zhàn)經(jīng)驗撰寫了一份機器學(xué)習(xí)資料。
這份資料適用于機器學(xué)習(xí)初學(xué)者,包含機器學(xué)習(xí)中經(jīng)典常用的基礎(chǔ)概念。值得一提的是,每個章節(jié)的末尾還附帶教程和練習(xí)題,幫助讀者進一步掌握書中講解的概念知識。
下載地址:https://www.confetti.ai/assets/ml-primer/ml_primer.pdf
這本書包括監(jiān)督學(xué)習(xí)、機器學(xué)習(xí)實踐、無監(jiān)督學(xué)習(xí)和深度學(xué)習(xí)四章。
第一章:監(jiān)督學(xué)習(xí)
該章節(jié)介紹了線性回歸、logistic 回歸、樸素貝葉斯、支持向量機、決策樹和 K - 近鄰算法。
線性回歸
線性回歸是最常見且使用范圍最廣的一種機器學(xué)習(xí)技術(shù)。它是一種非常直觀的監(jiān)督學(xué)習(xí)算法。顧名思義,線性回歸是一種回歸方法,這意味著它適用于標(biāo)簽是連續(xù)值(如室溫)的情況。此外,線性回歸試圖尋求與線性數(shù)據(jù)的擬合。
logistic 回歸
現(xiàn)實世界中絕大多數(shù)問題都涉及到分類,比如圖像標(biāo)注、垃圾郵件檢測、預(yù)測明天是否為晴天等。這里介紹的第一個分類算法是 logistic 回歸。
樸素貝葉斯
樸素貝葉斯是一種優(yōu)秀的機器學(xué)習(xí)模型。它之所以優(yōu)秀,是因為它的核心假設(shè)可以用一句話來描述,但它在許多問題中都很有效。在深入了解樸素貝葉斯之前,這里首先探討了判別模型和生成模型這兩種機器學(xué)習(xí)模型的區(qū)別。
支持向量機
這部分探討了支持向量機這種分類算法。21 世紀(jì)初深度學(xué)習(xí)興起之前,支持向量機是人工智能領(lǐng)域的主流技術(shù)。即使在今天,支持向量機依然是用于新分類任務(wù)的最佳算法之一。這是因為它具有表示數(shù)據(jù)中多種類型統(tǒng)計關(guān)系的能力,并且易于訓(xùn)練。
決策樹
決策樹是一種出色的模型,它不僅功能強大,而且易于解釋。實際上,該模型的基礎(chǔ)結(jié)構(gòu)與人類做出決策的方式非常相似。一些機器學(xué)習(xí)開發(fā)者認(rèn)為決策樹在新的問題域上提供了最佳的開箱即用性能。
K - 近鄰算法
K - 近鄰算法是一種監(jiān)督學(xué)習(xí)模型。它沒有正式的訓(xùn)練程序,因此它在模型中顯得有些異常。正因如此,K - 近鄰算法是一個解釋和實現(xiàn)都相對簡單的模型。
第二章:機器學(xué)習(xí)實踐
控制模型偏見
構(gòu)建監(jiān)督學(xué)習(xí)模型背后有哪些理論支撐呢?這里探討了偏差 - 方差權(quán)衡,這是機器學(xué)習(xí)中最重要的原則之一。
如何選擇模型
模型選擇過程中有哪些細(xì)節(jié)?這通常需要評估多個模型的泛化誤差。這里主要關(guān)注的是,如何使用現(xiàn)有數(shù)據(jù)和建立的模型來選擇最佳模型,而不考慮模型的具體細(xì)節(jié)如何。
你需要什么特征
特征選擇與模型選擇緊密相關(guān)。
模型正則化
模型正則化在機器學(xué)習(xí)中極為重要,也是 AI 從業(yè)者最強大的工具之一。
模型集成
顧名思義,集成的核心思想是將一組模型組合在一起,以獲得性能更高的模型,就像在管弦樂隊中組合樂器一樣。這一部分就講述了如何在機器學(xué)習(xí)中獲得和諧的「聲音」。
模型評估
模型評估對于訓(xùn)練和交叉驗證尤其重要。
無監(jiān)督學(xué)習(xí)
購物籃分析
購物籃分析是無監(jiān)督學(xué)習(xí)算法的一個示例,它要解決的問題是分析不同物品組合之間的關(guān)系及其在特定籃子中出現(xiàn)的頻率。
K-Means 聚類算法
這一部分從數(shù)據(jù)聚類的角度進一步介紹了無監(jiān)督學(xué)習(xí)。這里介紹了 K-means 聚類算法,這是 AI 從業(yè)者最常用的聚類算法之一。
主成分分析
主成分分析是這本資料介紹的首個數(shù)據(jù)降維技術(shù)。聽起來有點復(fù)雜,但其核心降維技術(shù)是一個相當(dāng)直觀的想法。
深度學(xué)習(xí)
前饋神經(jīng)網(wǎng)絡(luò)
從前饋神經(jīng)網(wǎng)絡(luò)開始,作者開始深入探討深度學(xué)習(xí)。由于深度學(xué)習(xí)主要是對神經(jīng)網(wǎng)絡(luò)的研究,因此在資料中作者也詳細(xì)介紹了神經(jīng)網(wǎng)絡(luò)模型,首先就從前饋神經(jīng)網(wǎng)絡(luò)展開。
神經(jīng)網(wǎng)絡(luò)實踐
上一節(jié)介紹了前饋神經(jīng)網(wǎng)絡(luò)的示例,但漏掉了一些細(xì)節(jié),如激活函數(shù)、權(quán)重設(shè)置以及神經(jīng)網(wǎng)絡(luò)理論的其他方面。本節(jié)將對這些問題進行總結(jié)。
卷積神經(jīng)網(wǎng)絡(luò)
2012 年,來自多倫多大學(xué)的研究團隊提出世界上第一個完全使用神經(jīng)網(wǎng)絡(luò)構(gòu)建的圖像識別系統(tǒng) AlexNet,并在 ImageNet 競賽中脫穎而出。這一里程碑事件對今天的人工智能浪潮起到推動作用,卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)是這一轉(zhuǎn)折點的核心。
循環(huán)神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)與視覺任務(wù)相關(guān),而循環(huán)神經(jīng)網(wǎng)絡(luò)曾經(jīng)是語言相關(guān)問題的標(biāo)準(zhǔn)模型。實際上,很長一段時間以來,自然語言研究者認(rèn)為,循環(huán)網(wǎng)絡(luò)能夠在任何自然語言問題上取得 SOTA 結(jié)果。對于單個模型來說,這是很高的要求。但時至今日,循環(huán)神經(jīng)網(wǎng)絡(luò)仍然在自然語言任務(wù)上表現(xiàn)出色。
作者介紹
這本資料的作者是亞馬遜 Alexa AI 的機器學(xué)習(xí)科學(xué)家 Mihail Eric,其主要研究方向是對話式人工智能。Mihail Eric 此前在斯坦福大學(xué)獲得了計算機科學(xué)碩士學(xué)位。Mihail Eric 花了數(shù)年的時間建立面向目標(biāo)的對話機器人,并從事計算語義和文本推斷方面的研究。