微軟AI面試題有多難?這里有一份樣卷
大數(shù)據(jù)文摘作品
編譯:張南星、衛(wèi)青、錢天培
究竟什么樣的AI人才能被微軟這樣的巨頭聘用呢?
是不是要碼力超群,上來就能徒手寫個(gè)AlphaGo呢?還是要眼光毒辣,當(dāng)場就能構(gòu)想出未來20年AI發(fā)展前景呢?
當(dāng)然不是!
今天,文摘君就淘來了幾道微軟AI 面試題,同時(shí)給出了最基本的解答。(注意是最基本解答哦,歡迎在文末留言給出你認(rèn)為更好的答案。)
神秘的微軟AI面試題,其實(shí)非常平易近人。一起來答答看!
合并k個(gè)數(shù)列(比如k=2)數(shù)列并進(jìn)行排序
代碼如上。最簡單的方法當(dāng)然就是冒泡排序法啦。雖然不是最有效的,但卻容易描述和實(shí)現(xiàn)。
L1/L2正則度量有什么區(qū)別?
L1范數(shù)損失函數(shù)也叫做最小一乘法(LAD)以及最小絕對(duì)誤差(LAE)。它主要在于最小化目標(biāo)值(y_i)同預(yù)測值(f(x_i))之間的絕對(duì)差值之和。
公式一
L2范數(shù)損失函數(shù)也叫做最小平方誤差(LSE)。它主要在于最小化目標(biāo)值(Yi)以及預(yù)測值[f(xi)]之間差值平方之和。
公式二
對(duì)于較大的誤差誤差,L2比L1給出的懲罰更大。此外,加入L2正則后,模型系數(shù)會(huì)向0聚攏,但不會(huì)出現(xiàn)完全為0的情況,而L1損失函數(shù)則能使部分系數(shù)完全為0。
如何尋找百分位數(shù)?
就拿上面這道題目為例吧:過去12小時(shí)內(nèi)共有1000人來過這個(gè)購物中心,請(qǐng)估測,截止至何時(shí),購物中心剛好達(dá)到30%的總客流量?
我們可以通過多項(xiàng)式線性回歸(polynomial regression)或者平滑樣條(spline smoothing)等技巧作出下圖。
即為30%的客流量對(duì)應(yīng)3000人
從Y值為3000的點(diǎn)畫一條水平線,當(dāng)與曲線相交時(shí),畫一條垂直線在橫軸上找到對(duì)應(yīng)的時(shí)間值就可以啦。
怎么區(qū)分好的可視化與壞的可視化?
針對(duì)這個(gè)問題,我們會(huì)有很多不同的答案。比如,一個(gè)不能很好地處理異常值(outliers)的可視化,就不是一個(gè)好的可視化。
比如說我們有一個(gè)數(shù)組,在一系列小數(shù)字中有一個(gè)很大的數(shù)據(jù)([1,2,3,4,7777,5,6,9,2,3]),當(dāng)我們可視化這個(gè)數(shù)組的時(shí)候,會(huì)產(chǎn)生如下的圖:
右圖→原始圖片;中間圖→規(guī)范化值;左圖→標(biāo)準(zhǔn)化值
怎樣才能更好地可視化這組數(shù)據(jù)呢?正如上圖所示,即使我們對(duì)分析值進(jìn)行了標(biāo)準(zhǔn)化或者規(guī)范化,產(chǎn)生的折線圖依然不能很好地表示這組數(shù)組。究竟要怎么做呢?歡迎留言發(fā)表看法。
怎樣更快地計(jì)算出逆矩陣?
比如,可以考慮Gauss-Jordan法。
如果是一個(gè)2x2的矩陣就很簡單了。
逆矩陣是:
ad-bc≠0
只需要交換a和b,取b和c的負(fù)值,然后除以方陣ad-bc。
定義方差
方差是每個(gè)數(shù)據(jù)點(diǎn)與整個(gè)數(shù)據(jù)集平均值之間差值的平方和。換而言之,就是數(shù)據(jù)的變化性。下面這張圖就很好地解釋了什么是方差。
首先我們計(jì)算出每只狗和平均身高的差值;為了計(jì)算方差,將每個(gè)差值平方后加總,再求平均值。
最后,獻(xiàn)上本文出現(xiàn)的所有代碼:
https://colab.research.google.com/drive/1DYimC5CEKeXdT15tbptifYL2v5MPkyHj
相關(guān)報(bào)道:
https://towardsdatascience.com/my-take-on-microsoft-ai-interview-questions-with-interactive-code-part-1-c271388af633
【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號(hào)“大數(shù)據(jù)文摘( id: BigDataDigest)”】