HortonworksTed Yu:中國參與國際交流正在加速
原創(chuàng)【51CTO.com原創(chuàng)稿件】2016年11月25-26日,WOT2016大數(shù)據(jù)峰會(huì)在北京粵財(cái)JW萬豪酒店召開,50多位大數(shù)據(jù)領(lǐng)域一線專家、數(shù)據(jù)技術(shù)先行者齊聚現(xiàn)場(chǎng),在圍繞數(shù)據(jù)智能、大數(shù)據(jù)商業(yè)、區(qū)塊鏈、實(shí)時(shí)計(jì)算、系統(tǒng)架構(gòu)、NoSQL等前沿技術(shù)話題展開深度交流和溝通探討的同時(shí),分享大數(shù)據(jù)領(lǐng)域***實(shí)踐和最熱門的行業(yè)應(yīng)用。
在WOT2016大數(shù)據(jù)技術(shù)峰會(huì)的上午KeyNote主題專場(chǎng),Hortonworks高級(jí)技術(shù)成員HBase核心貢獻(xiàn)者Ted Yu發(fā)表了演講,會(huì)后記者采訪了他,請(qǐng)他為大家分享了他的技術(shù)感悟。
Ted Yu告訴記者,他演講的題目是TinyLFU,它用很多辦法來減少對(duì)于原數(shù)據(jù)的內(nèi)存化應(yīng)用,能夠在占用非常小內(nèi)存的情況下,達(dá)到比較高的性能。
一點(diǎn)都不宅的技術(shù)分享者
Ted Yu說話的語速很快,又夾雜著大量英文技術(shù)術(shù)語。在他演講時(shí),坐在記者身邊的一位聽眾和別人小聲討論,贊嘆他的思維邏輯縝密。在采訪中記者也發(fā)現(xiàn),Ted Yu很善于交談,作為一個(gè)在大數(shù)據(jù)行業(yè)非常活躍的技術(shù)研發(fā)者,Ted Yu身上絲毫沒有技術(shù)宅男不善言辭的標(biāo)簽。
對(duì)此Ted Yu的解釋是,這是歷史原因造成的。他接觸HBase比較早,迄今已經(jīng)六年了。近幾年他開始回國參加一些行業(yè)討論活動(dòng)。通過交流他發(fā)現(xiàn),國內(nèi)近幾年在大數(shù)據(jù)方面成長非常快,Hadoop技術(shù)傳入中國后得到技術(shù)人員的追捧,此外國內(nèi)的技術(shù)人員把開源的技術(shù)理解得十分透徹,并且產(chǎn)生了自己的技術(shù),不止一個(gè)大數(shù)據(jù)的平臺(tái),這是非??上驳默F(xiàn)象。“我回國也希望將大數(shù)據(jù)方面新的動(dòng)向帶給大家,同時(shí)也同國內(nèi)同行取經(jīng)。”
反饋社區(qū)的必備前提
在開源社區(qū),很多人都坦言中國技術(shù)人員對(duì)社區(qū)的回饋較少。對(duì)Ted Yu有不同的看法。他說像Hadoop、HBase國外發(fā)起的這些開源項(xiàng)目,不論編程還是交流都是英文,國內(nèi)的技術(shù)人員英文水平參差不齊,有人很難用英文去表述清楚自己的思想,這樣就帶來了一定的局限性。但是Ted Yu也認(rèn)為,這幾年,這種情況正在逐漸改善。
Ted Yu還用Apache HBase作為示例,他表示Apache HBase管理非常民主,當(dāng)有人提出解決技術(shù)的方案時(shí),需要用英語表明這個(gè)方案要解決什么問題、這個(gè)方案是怎么設(shè)計(jì)的、有哪些長處和短處。其他人來看提議時(shí),會(huì)結(jié)合自己的實(shí)際經(jīng)驗(yàn)。大家還更看重這個(gè)解決方案在解決問題的同時(shí),能否兼顧別人的需求。
“如果不能的話,大家會(huì)更擔(dān)心引入這個(gè)技術(shù)方案會(huì)不會(huì)使整體的穩(wěn)定度下降。像Hadoop、HBase、Spark相對(duì)于成熟的產(chǎn)品來講,一般不能允許出現(xiàn)穩(wěn)定性下降的。” Ted Yu表示,這就需要程序員花相當(dāng)多的時(shí)間和社區(qū)溝通,對(duì)于中國程序員而言又存在時(shí)差問題,所以溝通可能沒有那么及時(shí)。
當(dāng)然,Ted Yu也承認(rèn),語言和時(shí)差都是次要問題,關(guān)鍵是要有信心用英語把技術(shù)問題描述清楚。此外寫代碼也要規(guī)范,這樣才能夠被北美主流的開發(fā)員和公司所接受。
Hbase的今年和明年
當(dāng)記者問及Ted Yu所研發(fā)領(lǐng)域的動(dòng)態(tài)時(shí),Ted Yu表示數(shù)據(jù)隨著時(shí)間的流逝不停有新的數(shù)據(jù)進(jìn)來,為了減少compaction i/o放大,現(xiàn)在已經(jīng)進(jìn)入production。另外在讀路徑上,HBase是用JAVA寫的,不管用CMS,都會(huì)面臨GC調(diào)優(yōu)問題。對(duì)于不同的workload都會(huì)有不同的參數(shù)。最終解決辦法把很多數(shù)據(jù)存放下JAVA堆下面。去年主要做的是讀路徑上,包括小米還有英特爾的開發(fā)員在做寫路徑,寫路徑上offheap明顯是難了。“但是我覺得到明年還是有望解決的,這個(gè)好處就是,如果你用HBase在后臺(tái)支持你的業(yè)務(wù)的話,穩(wěn)定性會(huì)明顯提高。”
此外Ted Yu還介紹到,HBase在讀路徑上堆到JAVA下面,他參與的是備份層面。在關(guān)系數(shù)據(jù)庫大家做的容災(zāi)就是定期把數(shù)據(jù)進(jìn)行備份,如果出現(xiàn)容災(zāi)的話,再把備份的數(shù)據(jù)返回到異地機(jī)群,他希望在今年12月能夠提交到master branch。
采訪***,Ted Yu從自己關(guān)注的領(lǐng)域與大家分享了他對(duì)大數(shù)據(jù)的理解。“個(gè)人精力有限,我最多還是關(guān)注HBase、Phoenix是和HBase直接相關(guān)的項(xiàng)目,主要有HBase、Phoenix、Spark、Flink這四個(gè)項(xiàng)目,我覺得這四個(gè)項(xiàng)目在2016年發(fā)展很快,進(jìn)入2017年,Spark在SQL查詢上能夠在性能上迅速地拉近和Hive的差距,大有在很多方面替代Hive的趨勢(shì)。”
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】