自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

“老司機(jī)”劃重點(diǎn)!搞定這120個(gè)真實(shí)面試問題,殺進(jìn)數(shù)據(jù)科學(xué)圈

大數(shù)據(jù) 數(shù)據(jù)分析
今天文摘菌會(huì)給大家推薦一份數(shù)據(jù)科學(xué)面試資料,資料收集了來(lái)自知名技術(shù)公司的訪調(diào)員和數(shù)據(jù)科學(xué)家。從淺入深的囊括了溝通、數(shù)據(jù)分析、模型預(yù)測(cè)、編程、概率、產(chǎn)品指標(biāo)等7個(gè)部分的共120個(gè)面試問題。

[[258914]]

大數(shù)據(jù)文摘出品

來(lái)源:Github

編譯:陸震、張秋玥、蔣寶尚

直到今天,在各類媒體口中,數(shù)據(jù)科學(xué)家依然是“21世紀(jì)最性感的職業(yè)”。但事實(shí)上,希望進(jìn)入這個(gè)行業(yè)的初級(jí)數(shù)據(jù)科學(xué)家已經(jīng)供過(guò)于求。

可以預(yù)見的是,各種高校相關(guān)專業(yè)的畢業(yè)生,在完成coursera或者fast.ai的課程后,都希望得到一份跟“數(shù)據(jù)”相關(guān)的崗位。據(jù)統(tǒng)計(jì),部分職位的供求比已經(jīng)達(dá)到了1:200。

那么,如何能在這條獨(dú)木橋上殺出重圍、脫引而出呢?

金三銀四求職季,江湖傳言在三月份和四月份找工作和跳槽成功的概率很大。不同于程序員這樣的純技術(shù)工種,求職成為一名數(shù)據(jù)科學(xué)家似乎需要“上知天文,下知地理”。

畢竟,數(shù)據(jù)科學(xué)領(lǐng)域集成了多種不同元素,包括信號(hào)處理,數(shù)學(xué),概率模型技術(shù)和理論,機(jī)器學(xué)習(xí),計(jì)算機(jī)編程,統(tǒng)計(jì)學(xué),數(shù)據(jù)工程,模式識(shí)別和學(xué)習(xí),可視化,不確定性建模,數(shù)據(jù)倉(cāng)庫(kù),以及從數(shù)據(jù)中析取規(guī)律和產(chǎn)品的高性能計(jì)算。

今天文摘菌會(huì)給大家推薦一份數(shù)據(jù)科學(xué)面試資料,資料收集了來(lái)自技術(shù)公司的訪調(diào)員和數(shù)據(jù)科學(xué)家。從淺入深的囊括了溝通、數(shù)據(jù)分析、模型預(yù)測(cè)、編程、概率、產(chǎn)品指標(biāo)等7個(gè)部分的共120個(gè)面試問題。

根據(jù)官方網(wǎng)站,這份資源由Max、Carl、Henry以及William四位合作編寫,他們都有數(shù)學(xué)科學(xué)以及數(shù)據(jù)分析的背景,也非?;パa(bǔ),也因此讓這份資料變得彌足珍貴。

這份資料,在官方網(wǎng)站上需要付19美元可以獲取完整版(包括問題和答案)。

先放上資料官網(wǎng),非常需要的讀者支持正版哦:

https://www.datasciencequestions.com/

當(dāng)然,如果你只是想了解這份資料的大概內(nèi)容,或者測(cè)試一下自己是否掌握了數(shù)據(jù)科學(xué)家需要的知識(shí),文摘菌在github上也找到了這份資料的縮略問題版,少部分概念以及定義性的問題有答案,對(duì)于開放性的問題,歡迎大家在留言區(qū)給出你的答案哦。

文摘菌精選了這份資料中的部分問題和答案,完整版戳下邊鏈接自取。

github地址:

https://github.com/kojino/120-Data-Science-Interview-Questions

溝通

https://www.datasciencequestions.com/

(1) 向我解釋一個(gè)與你正在面試的角色相關(guān)的技術(shù)概念。

(2) 向我介紹你所熱愛的事情。

(3) 你會(huì)如何向沒有統(tǒng)計(jì)背景的工程師解釋A/B測(cè)試,線性回歸呢?

A/B測(cè)試,也就是多變量測(cè)試,通過(guò)測(cè)試用戶的不同體驗(yàn),來(lái)確定哪種改變有助于企業(yè)更加有效地實(shí)現(xiàn)其目標(biāo)(如增加轉(zhuǎn)換等)。它可以是網(wǎng)站上的文本信息,按鈕的顏色,不同的用戶界面,不同的電子郵件主題行,號(hào)召性用語(yǔ),優(yōu)惠等。

(4) 你會(huì)如何向沒有統(tǒng)計(jì)背景的工程師解釋置信區(qū)間以及95%的置信度的意思?

參考鏈接:https://www.quora.com/What-is-a-confidence-interval-in-laymans-terms

(5) 你會(huì)如何向一組高級(jí)管理人員解釋為什么數(shù)據(jù)很重要?

數(shù)據(jù)分析

數(shù)據(jù)分析

(1) 給定一個(gè)數(shù)據(jù)集,分析這個(gè)數(shù)據(jù)集并告訴我你可以從中了解到什。

(2) 什么是R2?可能比R2更好的指標(biāo)有哪些,為什么?

答:擬合良好,是由該回歸/總方差解釋的那部分方差;你添加的預(yù)測(cè)變量越多,R^2越大;因而使用因自由度調(diào)整的R ^ 2;或著訓(xùn)練誤差指標(biāo)。

(3) 什么是維度災(zāi)難?

  • 高維度使得聚類變得困難,因?yàn)閾碛写罅烤S度意味著彼此相差很大。例如,為了覆蓋一小部分?jǐn)?shù)據(jù),隨著變量數(shù)量的增加,我們需要處理每個(gè)范圍廣泛的變量;
  • 所有樣本都靠近樣本的邊緣。這非常糟糕,因?yàn)樵谟?xùn)練樣本的邊緣附近做出預(yù)測(cè)要更加困難;
  • 隨著維度 p的增加,采樣密度呈指數(shù)下降,因此在沒有更多的數(shù)據(jù)量的情況下,該數(shù)據(jù)會(huì)變得更加稀疏;我們應(yīng)該進(jìn)行PCA分析以降低維度。

(4) 更多的數(shù)據(jù)就總是更好么?

從統(tǒng)計(jì)來(lái)說(shuō),它取決于你的數(shù)據(jù)的質(zhì)量,如果您的數(shù)據(jù)有偏差,獲取再多數(shù)據(jù)也毫無(wú)用處;它取決于你的模型。如果你的模型能夠承受高偏差,獲取更多數(shù)據(jù)不會(huì)太過(guò)明顯地提高你的測(cè)試結(jié)果。你需要添加更多特征,或者做別的處理。從實(shí)戰(zhàn)來(lái)說(shuō),也需要在擁有更多數(shù)據(jù)和額外存儲(chǔ),計(jì)算能力以及所需內(nèi)存之間進(jìn)行權(quán)衡。因此,始終要考慮擁有更多數(shù)據(jù)的成本。

(5) 分析數(shù)據(jù)之前繪制圖表有什么好處?

數(shù)據(jù)集會(huì)有錯(cuò)誤。你不會(huì)找到全部的錯(cuò)誤,但你或許能夠找到其中的一些。比如那個(gè)212歲的男人以及那個(gè)9英尺高的女;變量會(huì)有偏度,異常值等。算術(shù)平均值可能用不了,這也意味著標(biāo)準(zhǔn)差用不了;變量可以是多峰的!如果變量是多峰的,那么任何基于其的均值或著中位數(shù)的都是可疑的。

模型預(yù)測(cè)(19個(gè)問題)

(1) 給定一個(gè)數(shù)據(jù)集,分析這個(gè)數(shù)據(jù)集并給出一個(gè)可以預(yù)測(cè)這個(gè)響應(yīng)變量的模型。

由擬合簡(jiǎn)單的模型(多元回歸,邏輯回歸)開始,相應(yīng)地選取一些特征,然后嘗試一些復(fù)雜的模型。要始終將數(shù)據(jù)集拆分為訓(xùn)練集,驗(yàn)證集和測(cè)試集并使用交叉驗(yàn)證來(lái)觀察模型的表現(xiàn);確定問題是分類問題還是回歸問題;傾向于選用運(yùn)行快速可以輕松解釋的簡(jiǎn)單模型;提及交叉驗(yàn)證作為評(píng)估模型的一種方法;繪制圖表且將數(shù)據(jù)可視化。

(2) 如果測(cè)試數(shù)據(jù)的分布與訓(xùn)練數(shù)據(jù)的分布明顯不同,可能會(huì)出現(xiàn)什么問題?

  • 訓(xùn)練時(shí)具有高精度的模型在測(cè)試時(shí)可能具有較低的精度。在沒有進(jìn)一步了解的情況下,很難知道哪個(gè)數(shù)據(jù)集代表了總體的數(shù)據(jù),因而很難測(cè)量算法的泛化程度;
  • 這應(yīng)該可以通過(guò)重復(fù)劃分訓(xùn)練集和測(cè)試集來(lái)緩解(如交叉驗(yàn)證);
  • 當(dāng)數(shù)據(jù)分布發(fā)生變化時(shí),稱為數(shù)據(jù)集漂移。 如果訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的分布不同,分類器可能會(huì)過(guò)度擬合訓(xùn)練數(shù)據(jù)。

(3) 有什么方法可以讓我的模型對(duì)異常值的魯棒性更高?

我們可以使用L1或L2等正則化方法來(lái)減少方差(增加偏倚)。

  • 算法的改變:1.使用基于樹的方法來(lái)代替回歸方法,因?yàn)樗鼈兏苋淌墚惓V怠?.對(duì)于統(tǒng)計(jì)檢驗(yàn),使用非參數(shù)檢驗(yàn)來(lái)代替參數(shù)檢驗(yàn)。3.使用穩(wěn)健的誤差指標(biāo),如MAE或Huber Loss,來(lái)代替MSE。
  • 數(shù)據(jù)的改變:1.對(duì)數(shù)據(jù)進(jìn)行winsorize處理2.轉(zhuǎn)換數(shù)據(jù)(如進(jìn)行對(duì)數(shù)處理)3.只有在你確定它們是不值得預(yù)測(cè)的異常值時(shí)才刪除它們

(4) 與最小化誤差絕對(duì)值的模型相比,在最小化誤差平方的模型中,你認(rèn)為有哪些差異?每個(gè)誤差指標(biāo)分別在哪種情況下合適?

MSE對(duì)異常值更加嚴(yán)格。在這個(gè)意義上MAE魯棒性更好,但也更難以擬合模型,因?yàn)樗鼰o(wú)法在數(shù)值上進(jìn)行優(yōu)化。因此,當(dāng)模型的可變性較小且在計(jì)算上容易擬合時(shí),我們應(yīng)該使用MAE,否則應(yīng)該使用MSE。

  • MSE:更容易計(jì)算梯度
  • MAE:計(jì)算梯度需要線性編程MAE對(duì)異常值更加穩(wěn)健。

如果較大錯(cuò)誤造成的后果很嚴(yán)重,使用MSEMSE相當(dāng)于最大化高斯隨機(jī)變量的可能性。

(5) 你會(huì)什么誤差指標(biāo)來(lái)評(píng)估二分類器的好壞?如果類別不平衡怎么辦?如果超過(guò)2組怎么辦?

  • 準(zhǔn)確性:你正確預(yù)測(cè)的情況的比例。優(yōu)點(diǎn):直觀,易于解釋,缺點(diǎn):當(dāng)類標(biāo)簽不平衡且數(shù)據(jù)信號(hào)較弱時(shí)效果不。
  • AUROC:在x軸上繪制fpr,在y軸上繪制tpr以獲得不同的閾值。給定隨機(jī)正例和隨機(jī)負(fù)例,AUC是你能可以識(shí)別類別的概率。優(yōu)點(diǎn):在測(cè)試分類能力時(shí)效果很好,缺點(diǎn):不能將預(yù)測(cè)解釋為概率(因?yàn)锳UC由排名決定),因此無(wú)法解釋模型的不確定性。
  • logloss/deviance:優(yōu)點(diǎn):基于概率的誤差度量,缺點(diǎn):對(duì)假陽(yáng)性,假陰性非常敏感。當(dāng)有超過(guò)2組時(shí),我們可以使用k個(gè)二分類并將它們添加到logloss中。 像AUC這樣的一些指標(biāo)僅適用于二分類情況。

概率

(1) 阿米巴蟲波波生0個(gè)、1個(gè)或2個(gè)小阿米巴蟲的概率分別是25%、25%以及50%。這些小阿米巴蟲們的繁殖能力也都一樣。請(qǐng)問波波的后代滅絕的概率是多少?

  • p=1/4+1/4p+1/2p^2 => p=1/2

(2) 任何15分鐘時(shí)間段內(nèi),你看到至少一顆流星的概率是20%。請(qǐng)問在一小時(shí)內(nèi)你看到至少一顆流星的概率是多少?

  • l 1-(0.8)^4。 或者我們用泊松過(guò)程也可以解。

(3) 僅使用一枚色子,你如何生成一個(gè)1-7內(nèi)隨機(jī)數(shù)?

  • 丟三次色子:每一次丟的都是結(jié)果的第n位
  • 每次丟色子時(shí),如果值為1-3,則記錄0,否則記錄1。結(jié)果會(huì)位于0(000)與7(111)之間,均勻分布(因?yàn)檫@三次拋擲互相獨(dú)立)。如果得到0則重復(fù)拋擲:該過(guò)程會(huì)終止于均勻分布的值。

(4) 有一個(gè)數(shù)據(jù)集包含來(lái)自兩個(gè)正態(tài)分布的數(shù)值。兩個(gè)分布的標(biāo)準(zhǔn)差相同。來(lái)自兩個(gè)分布的數(shù)據(jù)點(diǎn)個(gè)數(shù)相同。請(qǐng)問如果想要該數(shù)據(jù)集呈雙峰分布,兩個(gè)分布的均值應(yīng)當(dāng)至少差多少?

  • 多于兩個(gè)標(biāo)準(zhǔn)差

(5) 提供已知正態(tài)分布的樣本值,請(qǐng)問你能如何模擬一個(gè)均勻分布的樣本值?

  • 將值代入同一隨機(jī)變量的累計(jì)分布函數(shù)

(6) 一對(duì)夫妻告訴你他們有兩個(gè)小孩,其中至少有一個(gè)是女孩。請(qǐng)問他們擁有兩個(gè)女兒的概率是多少?

  • 1/3

產(chǎn)品指標(biāo)

(1) 對(duì)于一個(gè)廣告驅(qū)動(dòng)的消費(fèi)者產(chǎn)品(比如Buzzfeed,YouTube,Google搜索等),什么可以稱為好的成功衡量指標(biāo)?服務(wù)驅(qū)動(dòng)的消費(fèi)者產(chǎn)品(比如優(yōu)步,F(xiàn)lickr,Venmo等)呢?

  • 廣告驅(qū)動(dòng):頁(yè)面瀏覽量與每日活躍量,點(diǎn)擊率,每次點(diǎn)擊成本
  • 服務(wù)驅(qū)動(dòng):購(gòu)買量,轉(zhuǎn)化率

(2) 對(duì)于一個(gè)效率工具(比如印象筆記,Asana,Google文檔等),什么可以稱為好的成功衡量指標(biāo)?線上課程平臺(tái)(比如edX,Coursera,Udacity等)呢?

  • 效率工具:付費(fèi)訂閱用戶數(shù)
  • 線上課程平臺(tái):付費(fèi)訂閱用戶數(shù),課程完成率

(3) 對(duì)于一個(gè)電商產(chǎn)品(比如Etsy,Groupon,Birchbox等),什么可以稱為好的成功衡量指標(biāo)?訂閱產(chǎn)品(比如Netflix,Birchbox,Hulu等)呢?高級(jí)付費(fèi)訂閱(比如OKCupid,領(lǐng)英,Spotify等)呢?

  • 電商產(chǎn)品:購(gòu)買量,轉(zhuǎn)化率,時(shí)/日/周/月/季/年銷售額,售出產(chǎn)品成本,存貨量,網(wǎng)站流量,凈回頭客量,客服電話量,平均解決問題時(shí)長(zhǎng)
  • 訂閱產(chǎn)品:流失量,(不知道接下來(lái)這幾個(gè)都是啥)
  • 高級(jí)付費(fèi)訂閱:(無(wú)解答)

(4) 對(duì)于高度依賴于用戶投入與交互的消費(fèi)者產(chǎn)品(比如Snapchat,Pinterest,F(xiàn)acebook等),什么可以稱為好的成功衡量指標(biāo)?通訊產(chǎn)品(比如GroupMe,Hangouts,Snapchat等)呢?

  • 高度依賴于用戶投入與交互的消費(fèi)者產(chǎn)品:user AU ratios,分類型郵件匯總,分類型推送通知匯總,復(fù)活率。
  • 通訊產(chǎn)品:(無(wú)解答)

(5) 對(duì)于擁有app內(nèi)購(gòu)服務(wù)的產(chǎn)品(比如Zynga,憤怒的小鳥以及許多其他游戲),什么可以稱為好的成功衡量指標(biāo)?

  • 用戶/付費(fèi)用戶平均營(yíng)收

編程(14題)

(1) 編寫一個(gè)函數(shù),計(jì)算2n個(gè)用戶所有可能分配向量,其中n個(gè)用戶為控制組,n個(gè)用戶為治療組。

  • 遞歸編程

(2) 提供一個(gè)包含Twitter消息的列表,求十個(gè)最常用的的標(biāo)簽。

  • 在字典中存儲(chǔ)所有標(biāo)簽然后求前十值

(3) 在給定時(shí)間內(nèi)寫出算法求解背包問題的理想近似解。

  • 貪婪算法

(4) 在給定時(shí)間內(nèi)寫出算法求解旅行商問題的理想近似解。

  • 貪婪算法

(5) 你將得到一個(gè)大小為n的數(shù)據(jù)集,但你無(wú)法提前知道n具體有多大。寫出一個(gè)占據(jù)O(k)的算法來(lái)隨機(jī)抽取k個(gè)元素。

  • 水塘抽樣

統(tǒng)計(jì)推論(15題)

(1) AB測(cè)試中你如何確認(rèn)客戶流分組完全隨機(jī)?

  • 畫出多個(gè)A組與B組變量的分布,確保他們都擁有一致的形狀。再保險(xiǎn)一點(diǎn),我們可以做一個(gè)排列檢驗(yàn)來(lái)看分布是否相同。
  • MANOVA來(lái)比較不同的均值。

(2) AA測(cè)試(兩組完全一致)的好處有什么?

  • 檢查抽樣算法隨機(jī)性

(3) 在AB測(cè)試中,允許一組用戶知道另一組是什么樣子有什么危害?

  • 用戶可能無(wú)法與未知其他選項(xiàng)時(shí)行為一致。實(shí)際上你是在添加一個(gè)關(guān)于是否允許用戶窺探其它選項(xiàng)的變量——該變量并不隨機(jī)。

(4) 如果某個(gè)博客報(bào)道了你的實(shí)驗(yàn)組會(huì)有什么影響呢?

  • 與前問相同。這一問題可能會(huì)在更大范圍內(nèi)發(fā)生。

(5) 你如何設(shè)計(jì)一個(gè)允許用戶自行選擇是否加入的AB測(cè)試。

github地址:https://github.com/kojino/120-Data-Science-Interview-Questions

【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號(hào)“大數(shù)據(jù)文摘( id: BigDataDigest)”】

     大數(shù)據(jù)文摘二維碼

戳這里,看該作者更多好文

 

責(zé)任編輯:趙寧寧 來(lái)源: 51CTO專欄
相關(guān)推薦

2019-12-17 18:11:09

跳槽那些事兒機(jī)器學(xué)習(xí)人工智能

2020-10-26 13:50:24

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2015-07-28 10:52:36

DevOps

2018-10-26 09:22:57

微服務(wù)架構(gòu)應(yīng)用開發(fā)

2019-08-20 09:30:18

Spring Clou組件Eureka

2020-05-13 10:17:13

開發(fā)編碼技術(shù)

2018-08-21 13:25:01

編程語(yǔ)言Java面試題

2013-12-03 10:11:41

LinuxLinux面試題

2015-05-11 14:02:21

JavaJava集合面試問題答案

2018-12-10 11:30:06

Openstack面試命令

2018-12-04 09:07:36

運(yùn)維問題排查

2025-02-24 10:10:20

ChatGPTC#代碼

2009-03-03 09:33:13

面試ORACLE

2020-03-23 09:56:50

軟件測(cè)試面試技術(shù)

2020-03-17 14:53:31

JavaScript面試問題前端

2021-02-09 10:07:23

面試MySQL存儲(chǔ)

2020-08-11 17:14:31

數(shù)據(jù)庫(kù)SQL技術(shù)

2014-02-27 15:42:08

Linux面試

2023-09-13 08:37:56

程序員面試catch

2020-01-14 10:17:13

深度學(xué)習(xí)人生第一份工作人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)