自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

薪酬那么高的機(jī)器學(xué)習(xí)崗位,究竟是怎么面試人的?

人工智能 機(jī)器學(xué)習(xí)
首先這個(gè)問題問的很廣。做機(jī)器學(xué)習(xí)方向很多,有些公司更偏重于數(shù)據(jù)挖掘,而有些更傾向于深度學(xué)習(xí)。同理,相對(duì)應(yīng)的崗位有些偏重理論也有些偏重實(shí)踐。這些因素疊加造成了機(jī)器學(xué)習(xí)相關(guān)的崗位分布廣,如數(shù)據(jù)分析師,算法工程師,機(jī)器學(xué)習(xí)科學(xué)家等,很難一概而論。

[[199809]]

首先這個(gè)問題問的很廣。做機(jī)器學(xué)習(xí)方向很多,有些公司更偏重于數(shù)據(jù)挖掘,而有些更傾向于深度學(xué)習(xí)。同理,相對(duì)應(yīng)的崗位有些偏重理論也有些偏重實(shí)踐。這些因素疊加造成了機(jī)器學(xué)習(xí)相關(guān)的崗位分布廣,如數(shù)據(jù)分析師,算法工程師,機(jī)器學(xué)習(xí)科學(xué)家等,很難一概而論。

大概從實(shí)習(xí)生的時(shí)候就開始跟著老板招聘面試機(jī)器學(xué)習(xí)方向的候選人,到現(xiàn)在前前后后大概也參與了 20 個(gè)左右機(jī)器學(xué)習(xí)求職者的技術(shù)面試。其中有在讀的研究生(實(shí)習(xí)生崗位),也有已經(jīng)工作了多年或者學(xué)術(shù)背景深厚的名校博士(相對(duì)高級(jí)的“科學(xué)家”崗位)。

不談具體崗位的前提下,我想回答以下幾個(gè)問題: 1.為什么要避免學(xué)科性的偏見 2. 如何測(cè)試面試者的知識(shí)廣度 3. 怎樣測(cè)試面試者的知識(shí)深度 4. 為何需要確認(rèn)基本的編程和數(shù)據(jù)分析能力 5. 怎么提高機(jī)器學(xué)習(xí)面試成功率

1. 避免學(xué)科間的偏見與歧視

機(jī)器學(xué)習(xí)作為一個(gè)交叉廣度大,各學(xué)科融合深的學(xué)科,各種背景的面試者都有。我建議一定不要預(yù)設(shè)立場(chǎng),無論是數(shù)學(xué)、統(tǒng)計(jì)、物理、計(jì)算機(jī),或是其他學(xué)科的面試者都有獨(dú)特的知識(shí)儲(chǔ)備。比如機(jī)器學(xué)習(xí)其實(shí)和統(tǒng)計(jì)學(xué)習(xí)有很大部分是重疊的,甚至和優(yōu)化(如運(yùn)籌學(xué))、數(shù)學(xué)(線代等)也有很多相關(guān)的地方。而不同領(lǐng)域的人對(duì)于同一件事情的描述可能是相似但不相同的,甚至連叫法都不同。舉個(gè)簡單的例子,統(tǒng)計(jì)學(xué)將變量叫做 predictors 而機(jī)器學(xué)習(xí)傾向于將其叫做 feature(特征)。我聽說過很多面試官就因?yàn)閷?duì)方不能完全的使用他能聽懂的術(shù)語就拒掉了候選人,我覺得這個(gè)是愚蠢的。

以我們團(tuán)隊(duì)為例,我的老板是統(tǒng)計(jì)學(xué)博士和教授(偏計(jì)量),而我是純粹的計(jì)算機(jī)科學(xué)出身。他喜歡用 R 來建模而我只擅長 Python 和 C++。但正是這種差異性讓我們可以更好的合作,他在無監(jiān)督學(xué)習(xí)中很喜歡用各種密度分析(density estimation)或者對(duì)分布直接進(jìn)行擬合,而我可以給他介紹很多機(jī)器學(xué)習(xí)方向比較流行的算法,比如 Isolation Forests。同理,Python 和 R 都有各自擅長的領(lǐng)域,比如 Python 做時(shí)序分析的難度就遠(yuǎn)遠(yuǎn)大于 R,因?yàn)?R 有非常成熟的 package。

因此,我們不要因?yàn)轭I(lǐng)域不同,叫法不同,編程語言不同,或者模型的解釋思路不同就輕易的否定一個(gè)面試者。長此以往,我們的思路會(huì)越來越窄,而一定程度的包容能拓展思路。

2. 通過廣度測(cè)試劃定面試者的知識(shí)面

機(jī)器學(xué)習(xí)的項(xiàng)目一般都牽扯數(shù)據(jù)處理,建模,評(píng)估,可視化,和部署上線等一系列流程,我們希望面試者對(duì)于每個(gè)步驟都有最基本的了解。因?yàn)槠浞秶軓V,我們希望首先在短時(shí)間內(nèi)了解一個(gè)面試者的知識(shí)范圍。有很多基本但經(jīng)典的問題可以用于了解面試者的素質(zhì),給出一些例子:

  • 數(shù)據(jù)處理:如何處理缺失數(shù)據(jù)(missing value)? 各種處理方法有什么利弊?
  • 數(shù)據(jù)處理:如何將描述變量(categorical variables)轉(zhuǎn)為連續(xù)變量(continuous variables)?
    • 如何處理有序變量?
    • 如何處理無序變量?
  • 數(shù)據(jù)處理:如何進(jìn)行選擇特征選擇?如何進(jìn)行數(shù)據(jù)壓縮?
    • 特征選擇:包裹式,過濾式,嵌入式
    • 數(shù)據(jù)壓縮:主成分分析,自編碼等
  • 模型解釋: 試解釋什么是欠擬合與過擬合?如何應(yīng)對(duì)這兩種情況?
  • 模型解釋: 什么是偏差與方差分解(Bias Variance Decomposition)?與欠擬合和過擬合有什么聯(lián)系?
  • 評(píng)估模型一般有什么手段?
    • 分類模型評(píng)估方法?
    • 回歸問題評(píng)估方法?
    • 數(shù)據(jù)不均衡的評(píng)估方法?
  • 深度學(xué)習(xí)是否比其他學(xué)習(xí)模型都好?為什么?

以如何處理缺失數(shù)據(jù)為例,可能的回答有:1. 分析缺失比例決定是否移除 2. 用均值,眾數(shù),回歸代替 3. 用 0 代替等。比如深度學(xué)習(xí)是否比別的模型好,我們就期待面試者能說“分情況討論”,若是能提到“沒有免費(fèi)的午餐定理”更是加分。在這個(gè)階段,我們不會(huì)深入追問,僅想對(duì)面試人的知識(shí)范圍有一個(gè)了解。

這類問題的共性就是無論你是在校學(xué)生還是資深科學(xué)家都應(yīng)該有一個(gè)基本的水準(zhǔn)在,不過沒有必要***的回答正確,因?yàn)楸旧砗芏啻鸢付紱]有標(biāo)準(zhǔn)答案。大部分時(shí)候,這個(gè)環(huán)節(jié)我們對(duì)于是否錄用這個(gè)人就已經(jīng)有了答案。如果面試者答錯(cuò)或者不知道其中百分之八十的概念,錄取的概率就很低了。

3. 根據(jù)崗位和求職者背景進(jìn)行深入挖掘

在經(jīng)過上一階段以后,我們已經(jīng)對(duì)求職者的素養(yǎng)有了大概的判斷,下一步就需要進(jìn)行深入了解,一般根據(jù)兩點(diǎn)進(jìn)行追問:

  • 面試者的背景: 如果有與崗位特別相關(guān)的工作經(jīng)歷,會(huì)深入詢問。如果有高引用了的文章,也會(huì)讓他講一下他的研究。
  • 所面試的崗位: 如果沒有與崗位特別相關(guān)的經(jīng)歷,會(huì)根據(jù)崗位需求進(jìn)行詢問。

進(jìn)入這個(gè)環(huán)節(jié)其實(shí)就已經(jīng)沒有模板了。假設(shè)我們現(xiàn)在要為保險(xiǎn)公司招聘一個(gè)機(jī)器學(xué)習(xí)工程師來自動(dòng)化”騙保檢測(cè)”,我們的求職者是一位計(jì)算機(jī)系剛畢業(yè)的碩士生。那我們可能深入詢問的話題包括:

  • 在只有少量的有標(biāo)簽數(shù)據(jù)的情況下,如何構(gòu)建一個(gè)反保險(xiǎn)欺詐系統(tǒng)?
  • 如果面試者回答先用監(jiān)督學(xué)習(xí)來做,那么我們可能問:
    • 這種情況下數(shù)據(jù)是不均衡的,你是采用過采樣還是欠采樣?如何調(diào)整代價(jià)函數(shù)和閾值?
    • 有些人可能會(huì)提到使用 One-class SVM?那么我們可能會(huì)追問一下 SVM 相關(guān)的問題,比如什么是***間隔分類器啊什么是 Kernel,如何選擇 Kernel 等。
  • 如果面試者回答用無監(jiān)督學(xué)習(xí),那我們可能會(huì)問:
    • 為什么 K-Means 不適合異常值檢測(cè)?K-Means 和 GMM 是什么關(guān)系?是否可以用 FMM 來直接擬合異常值。
    • 如何可以得到無監(jiān)督學(xué)習(xí)中的分類規(guī)則?

這一類問題的特點(diǎn)是隨機(jī)應(yīng)變,一般都是在一個(gè)方向上深入。比如其他答案提到的 L1 和 L2 正則化,我們可能希望面試者在白板上畫圖介紹為什么 L1 可以得到稀疏解,以及和嵌入式特征選擇有什么聯(lián)系。這一類問題我們不期待求職者完全答對(duì)或者講得清楚無誤,我們同時(shí)也想觀察其在壓力和追問下的心理素質(zhì)。因?yàn)檎麄€(gè)過程中肯定會(huì)有一些知識(shí)盲點(diǎn),我們會(huì)盡量避免尷尬的氣氛,所以作為求職者不必過分緊張。同時(shí),通過和面試者一起了解他 / 她曾做過的項(xiàng)目,可以看出其對(duì)于這個(gè)專業(yè)的興趣 — 興趣是很難演出來的。

在這個(gè)環(huán)節(jié),如果一個(gè)面試者可以有能力進(jìn)入深入交談,甚至提到一些我們從來沒想過的思路,都是加分的表現(xiàn)。

4. 基本的編程能力和數(shù)據(jù)挖掘能力

機(jī)器學(xué)習(xí)崗位,不管你是統(tǒng)計(jì)出身還是計(jì)算機(jī)出身,都避不開建模的過程,因此基本的編程能力是必須的。一般對(duì)于數(shù)學(xué)或者統(tǒng)計(jì)學(xué)出身的面試者,我們會(huì)額外給出一個(gè)簡單的小程序測(cè)試。這種小程序可能簡單如將讀取數(shù)據(jù)后并保存為矩陣。這倒不是因?yàn)槲覀兿矚g沒事找事,而是因?yàn)闄C(jī)器學(xué)習(xí)太容易成為紙上談兵,而從業(yè)者缺乏最基本的編程能力。

相似的,我們也希望面試者談?wù)剰哪P椭锌梢缘玫绞裁唇Y(jié)論。我們?cè)?Kaggle 上泰坦尼克的那個(gè)數(shù)據(jù)集處理過以后,讓面試者談?wù)勑掖媛实降缀褪裁从嘘P(guān),如何分析。同樣的,我們不追求***答案,只是希望看到求職者可以解釋一些簡單的模型結(jié)果,從中攫取商業(yè)價(jià)值。

5. 讓面試者有所收獲 & 如何準(zhǔn)備機(jī)器學(xué)習(xí)面試

面試不該是一場(chǎng)單純的考試,在參加面試的過程中,也是一個(gè)學(xué)習(xí)過程。拋磚引玉,對(duì)于機(jī)器學(xué)習(xí)的崗位面試我有幾點(diǎn)小建議:

5.1. 根據(jù)崗位,準(zhǔn)備一份項(xiàng)目策劃書。

這個(gè)乍聽下來有點(diǎn)虛,但我曾無數(shù)次使用這個(gè)小技巧得到良好的面試反饋和機(jī)會(huì)。假設(shè)你今天面試的崗位是我提到的保險(xiǎn)公司的反詐騙組,那么如果你可以寫一個(gè)如何使用機(jī)器學(xué)習(xí)進(jìn)行反詐騙的項(xiàng)目策劃書。這個(gè)過程對(duì)于面試者也是一個(gè)練習(xí): a. 閱讀論文和新聞收集材料的能力 b. 總結(jié)分析的能力 c. 總結(jié)的能力。

以我曾經(jīng)面試過的一個(gè)人力資源相關(guān)的崗位為例,我準(zhǔn)備了一份如何用機(jī)器學(xué)習(xí)來進(jìn)行員工離職預(yù)測(cè)的策劃書(中間省略掉了幾頁并馬賽克處理了敏感的地方):

 

在策劃書中,你可以分析項(xiàng)目需求,提出相關(guān)解法,并建議后續(xù)計(jì)劃和列出相關(guān)文獻(xiàn)。這樣的行為不僅可以讓雇主看到你的誠意,并看到你的的領(lǐng)域知識(shí)和獨(dú)立分析問題能力。

在適當(dāng)?shù)臅r(shí)機(jī)(比如開始面試的時(shí)候或者談到崗位職責(zé)的時(shí)候),你拿出準(zhǔn)備好的策劃書,開始談你的思路。這種做法我曾做過幾次,效果都很驚艷,因?yàn)榉幢粍?dòng)為主動(dòng),從被考察變成了講解你所了解的知識(shí)。作為一個(gè)面試官,如果被面試者能做到這個(gè)程度,我會(huì)在內(nèi)心對(duì)錄取他比較有信心。

5.2. 真誠并且實(shí)事求是

大家都是理工科出身,行家一出手便知有沒有。在這種技術(shù)性比較強(qiáng)的學(xué)科,完全沒有必要假裝自己了解一個(gè)知識(shí)點(diǎn)。同理心告訴我們,大部分人都有知識(shí)盲區(qū),我們不期待***的回答。當(dāng)你真的不知道一個(gè)問題的答案時(shí)候,真誠的希望對(duì)方能講得更明白或者承認(rèn)自己不太了解。

如果你假裝自己很了解一個(gè)不明白的領(lǐng)域,我們一般會(huì)問的更深入。你成功的引起了我的注意,那個(gè)時(shí)候就真的收不了場(chǎng)了。相似的,簡歷上請(qǐng)真的不要夸大其詞的描述自己的經(jīng)歷。我見過很多人只用過 Naive Bayes 就在簡歷上號(hào)稱自己是機(jī)器學(xué)習(xí)專家,我現(xiàn)在還記得他們被面試到面紅耳赤的樣子。在這個(gè)浮躁的年代,對(duì)于高薪的機(jī)器學(xué)習(xí)崗位,希望大家都能守住最起碼的誠信底線。

5.3. 確保自己對(duì)基本的概念有所了解

再一次,保證對(duì)基本知識(shí)的了解(有基本的廣度)是對(duì)面試者自己和面試官的尊重。什么程度就算基本了解呢?我的感受是:

  • 對(duì)基本的數(shù)據(jù)處理方法有所了解
  • 對(duì)基本的分類器模型有所了解并有所使用(調(diào)包),大概知道什么情況使用什么算法較好
  • 對(duì)基本的評(píng)估方法有所掌握,知道常見評(píng)估方法的優(yōu)劣勢(shì)
  • 有基本的編程能力,能夠獨(dú)立的完成簡單的數(shù)據(jù)分析項(xiàng)目
  • 有基本的數(shù)據(jù)挖掘能力,可以對(duì)模型進(jìn)行調(diào)參并歸納發(fā)現(xiàn)

其中每一條都說來簡單,但都是血與淚的過程,請(qǐng)勿操之過急。如何就能保證自己有了足夠的基礎(chǔ)知識(shí)呢?我覺得能基本看懂周志華老師《機(jī)器學(xué)習(xí)》的前十章,并相對(duì)熟練的使用 Sklearn 中基礎(chǔ)的 API 進(jìn)行建模就可以了。也請(qǐng)勿矯枉過正,如果你面試的崗位不是理論性科學(xué)家崗位,不要和數(shù)學(xué)推導(dǎo)死磕。這也是為什么我說寫一個(gè)項(xiàng)目策劃書很有幫助,在查閱文獻(xiàn)和總結(jié)的過程中,你對(duì)想要面試的領(lǐng)域有了更加深刻的了解,有助于提高信心和知識(shí)。

5.4. 享受面試

請(qǐng)不要把技術(shù)面試當(dāng)做一場(chǎng)噩夢(mèng),或是一個(gè)難關(guān)。作為一個(gè)冉冉升起的新領(lǐng)域,我們大家都是這么一路摸爬滾打過來的,至少我自己是很理解這一路的不容易。

因?yàn)闄C(jī)器學(xué)習(xí)領(lǐng)域的人才稀缺,一般而言你的面試官的時(shí)間都是很寶貴的,即使你最終沒有通過面試,請(qǐng)抓住機(jī)會(huì)從他們身上有所學(xué)習(xí)的機(jī)會(huì)。從我的角度來看,你不僅可以借此發(fā)現(xiàn)自己知識(shí)點(diǎn)上的缺失,也可以聽到在特定領(lǐng)域的流行的算法和模型,這些都是從書上很難學(xué)到的。如果你為了準(zhǔn)備面試還閱讀了相關(guān)領(lǐng)域的論文和總結(jié),那我想來面試這件事已經(jīng)遠(yuǎn)遠(yuǎn)超過了你是否被錄取的意義。 

責(zé)任編輯:龐桂玉 來源: 36大數(shù)據(jù)
相關(guān)推薦

2019-04-26 13:55:02

Istio微服務(wù)架構(gòu)

2014-06-27 09:35:16

機(jī)器學(xué)習(xí)

2020-04-24 09:35:46

機(jī)器學(xué)習(xí)技術(shù)模型

2021-02-19 20:38:01

互聯(lián)網(wǎng)衛(wèi)星系統(tǒng)

2022-06-14 10:18:03

液態(tài)機(jī)器人人工智能

2019-07-22 15:29:53

JavaScriptGitHub語言

2019-06-04 14:15:08

JavaScript V8前端

2021-08-24 10:57:24

Linux文件系統(tǒng)內(nèi)存

2022-10-19 12:23:50

緩存CDN外部緩存

2021-06-11 11:34:37

臉書Facebook商業(yè)帝國

2011-02-28 09:51:43

內(nèi)省

2011-02-16 16:13:40

Debian

2022-05-23 10:20:24

人工智能服務(wù)機(jī)器人機(jī)器人

2015-08-26 09:54:19

物聯(lián)網(wǎng)

2022-06-13 09:51:35

UWB超寬帶無線載波通信技術(shù)

2011-08-04 13:24:28

IT運(yùn)維

2012-05-28 22:49:50

PureView

2020-06-11 09:18:34

動(dòng)靜分離架構(gòu)架構(gòu)設(shè)計(jì)開發(fā)

2018-07-05 16:15:26

緩存數(shù)據(jù)cache miss

2010-08-24 09:19:59

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)