服務(wù)器開光師是個什么鬼?TalkingData的研發(fā)面試題目
TalkingData是一家對數(shù)據(jù)有信仰的公司,致力于用數(shù)據(jù)去改變?nèi)藗冏鰶Q定的方式,并幫助人們更加了解周圍的環(huán)境。
4年堅守大數(shù)據(jù)的前沿陣地,我們遇到無數(shù)的挑戰(zhàn)。這里我們也向如下有志之士發(fā)出邀請,有意者請發(fā)簡歷至wenfeng.xiao@tendcloud.com:
- 大數(shù)據(jù)工程師/架構(gòu)師
- Java開發(fā)工程師/架構(gòu)師
- Html5/web前端開發(fā)
- iOS/安卓SDK開發(fā)
- 機器學(xué)習(xí)研究員
- DevOps/運維開發(fā)
- 程序猿鼓勵師
- 服務(wù)器開光師
對于這些職位,我們通常有如下的面試題目。
大數(shù)據(jù)工程師
1. Hadoop集群的namenode上,當meta數(shù)據(jù)損壞之后如何修復(fù)?數(shù)據(jù)的丟失率是怎樣計算?
2. 目前需要對100臺服務(wù)器做RAID ,有什么方式能夠通過自動化的方式實現(xiàn)?
3. 有超過10億行的數(shù)據(jù),每行第一列為唯一ID列,其余列為數(shù)值型列,假設(shè)數(shù)值型列分別為A,B,C,D,請問如何高效的實現(xiàn)一個算法能夠完成:
1) 某一列數(shù)值符合在某個區(qū)間的范圍內(nèi)的記錄的條數(shù)
2) 某一列數(shù)值符合在某個區(qū)間同時另一列數(shù)值在某個數(shù)值區(qū)間的記錄的條數(shù)
4. 某廣告主在渠道投放每天有大量點擊數(shù)據(jù),包含每個點擊的IP信息。請基于IP信息設(shè)計防止渠道作弊的算法和思路。
5. 一個url文件,每行是一個url地址,可能有重復(fù)。
(1)統(tǒng)計每個url的頻次,設(shè)計函數(shù)實現(xiàn)實現(xiàn)。
(2)設(shè)有10億url,平均長度是20,現(xiàn)在機器有8G內(nèi)存,怎么處理,寫出思路。
6. 20個億整數(shù)的兩個集合a與b,求a與b的交集,內(nèi)存為4Gb
7. 在N個無序數(shù)中找K個最小值
8. 一個流式輸入序列(method_name, latency),其中method_name大約有100萬種,latency的取值為1到10億的正整數(shù),每天的數(shù)據(jù)量大概100億條。限制最多 1GB的程序運行內(nèi)存,設(shè)計一種方法,計算一天內(nèi)每個method_name的50%,95%,99% percentile的latency,誤差不超過5%。
Java開發(fā)工程師
1. 抽象類和接口有什么區(qū)別
2. 請說一下java中的內(nèi)存回收機制所采用的算法
3. Sleep()和wait()有什么區(qū)別?
4. 請列舉幾種排序算法,并用JAVA實現(xiàn)快速排序算法。
5. 36輛車,6條跑道,無計時器,最少幾次比賽可以選出前三
6. 一個未排序的整形序列,比如10,20,3,7,5,9,4,2,90,給出這些數(shù)字當中最長連續(xù)數(shù)的長度,例子中的長度是 4[2,3,4,5]。算法復(fù)雜度最好為O(n)
7. 兩個線程,一個運行B.m1(),一個運行B.m2(),這個程序可能的行為有哪些?
Class A{
int f;
A(){f = 1;}
}
Class B{
A a;
void m1(){a = new A();}
void m2(){if(a != null) System.out.println(a.f);}
}
8. 在N個無序數(shù)中找K個最小值
C++開發(fā)工程師
1. new 和 malloc 的區(qū)別
2. 用C/C++寫一個歸并排序。
數(shù)據(jù)結(jié)構(gòu)為struct Node{int v; Node *next};
接口為 Node * merge_sort(Node *);
3. 一個url文件,每行是一個url地址,可能有重復(fù)。
1)統(tǒng)計每個url的頻次,設(shè)計函數(shù)實現(xiàn)實現(xiàn)。
2)設(shè)有10億url,平均長度是20,現(xiàn)在機器有8G內(nèi)存,怎么處理,寫出思路。
4. 進程間的通信方式
5. 20個億整數(shù)的兩個集合a與b,求a與b的交集,內(nèi)存為4Gb
6. 在N個無序數(shù)中找K個最小值
機器學(xué)習(xí)研究員
1. 什么是聚類分析?聚類算法有哪幾種?請選擇一種詳細描述其計算原理和步驟。
2. Pca的概念和處理過程(主成分分析)
3. 中文分詞技術(shù)簡介,常用數(shù)據(jù)結(jié)構(gòu)和算法
4. 如何建立一個智能問答系統(tǒng),思路
5. 如何建立一個智能商品推薦系統(tǒng),思路
Html5/web前端開發(fā)
1. 實現(xiàn)輸出document對象中所有成員的名稱和類型。
2. 寫一個去掉數(shù)組里的重復(fù)成員的程序。比如去掉上面題中剛生成數(shù)字序列里面的重復(fù)項;
3. 請談一下HTML和XHTML的區(qū)別。
4. 你對Web標準的理解?
5. 瀏覽器兼容性,談?wù)勀憬?jīng)常使用的瀏覽器,和各個瀏覽器兼容的問題?
6. 頁面圖片加載太多,一般如何處理?如何合并圖片,請寫出你的代碼?如何延遲和預(yù)先加載?
大數(shù)據(jù)程序猿鼓勵師
限女,顏值高,大家都理解,不再贅述:
服務(wù)器開光師
對于大數(shù)據(jù)行業(yè)來說,開光師的作用日趨凸顯,這就是為什么有的服務(wù)器服務(wù)超期依然運行穩(wěn)健,有的新買剛上線就存儲故障。根據(jù)職能開光師分為軟件專攻和硬件專攻,通常必須掌握至少一門宗教開光儀式,自備儀式禮服。因為涉及跨界,此類人才目前稀缺,培養(yǎng)不易。
鑒于目前安全形勢日益嚴峻,TalkingData決定在北京臥佛寺和成都青羊?qū)m新建數(shù)據(jù)中心做異地容災(zāi),因此掌握多項技能者優(yōu)先。