框架、平臺和智能應(yīng)用-大數(shù)據(jù)創(chuàng)新在中國的重點(diǎn)和未來
首次Strata+Hadoop World(SHW)北京大會在2016年8月初成功召開,好評如潮。我們的愿景是:通過一個大會來展現(xiàn)大數(shù)據(jù)和數(shù)據(jù)科學(xué)領(lǐng)域在中國以及全球的趨勢與方向。非常多有意思的創(chuàng)新點(diǎn)在大會的60多個議題演講和主題演講中涌現(xiàn)。
在過去的幾年中,我見證了中國很多公司已經(jīng)成為早期的和重要的Apache Spark的貢獻(xiàn)者。而Spark作為一個分布式的數(shù)據(jù)處理框架,已經(jīng)成為最活躍的大數(shù)據(jù)開源項目。那些持續(xù)跟蹤數(shù)據(jù)科學(xué)和大數(shù)據(jù)的人士,應(yīng)該能敏銳地認(rèn)識到來自中國的公司正在持續(xù)地把類似Spark這樣的技術(shù)的極限推進(jìn)到更大的規(guī)模,而這樣的規(guī)模在其他國家是無法見到的。我非常高興終于能與中國本土的數(shù)據(jù)社區(qū)見面,并能夠創(chuàng)造機(jī)會讓中國的技術(shù)專家和來自世界各地的專家交流思想。
應(yīng)用
SHW不僅僅是一個學(xué)習(xí)框架、平臺和技術(shù)的場合,我們也希望能集中展示多個領(lǐng)域的多種應(yīng)用。我們提供了數(shù)據(jù)在金融、安全、電子商務(wù)和社交媒體、交通運(yùn)輸和物流、通信和移動計算、制造業(yè)、教育和公共服務(wù)等領(lǐng)域的應(yīng)用案例。
數(shù)據(jù)科學(xué)和人工智能
在本次大會的眾多議題中最熱的話題就是大規(guī)模的機(jī)器學(xué)習(xí)和人工智能(AI)應(yīng)用與技術(shù)。實(shí)際動手的培訓(xùn)課程涵蓋了很多與之相關(guān)的主題,包括TensorFlow、MLlib;Petuum和DL4J這樣的框架;多個領(lǐng)域內(nèi)的創(chuàng)新,如金融領(lǐng)域(螞蟻金服和宜人貸);無人駕駛汽車(百度)、對話機(jī)器人和對話接口(微軟);知識數(shù)據(jù)庫和知識圖譜。講師們介紹了很多具體的方法(如深度學(xué)習(xí))和框架,并帶領(lǐng)大家探討了如何采用分布式機(jī)器學(xué)習(xí)和人工智能技術(shù)并進(jìn)行產(chǎn)品化。Datavisor的CEO(謝映蓮)介紹了一個新穎的基于Apache Spark的平臺,可以利用大規(guī)模無監(jiān)督機(jī)器學(xué)習(xí)技術(shù)來進(jìn)行欺詐檢測。
框架和平臺
對現(xiàn)在的數(shù)據(jù)工程師而言能熟練使用多種技術(shù)是一個基本的工作技能。參加實(shí)踐課程的學(xué)員都能夠與一些重要的開源技術(shù)的創(chuàng)始人交流。這些技術(shù)包括Hadoop、Spark、TensoFlow、Kylin、Druid、Alluxio、Heron、DistributedLog和DL4J。
而SHW的另外一部分,各種活動和議題演講則涵蓋了解決方案架構(gòu)的最佳實(shí)踐。那些把獨(dú)立的部分組合成一個有序的應(yīng)用平臺的架構(gòu)設(shè)計分享則成為大會的另外一大熱點(diǎn)。包括小米、滴滴出行、推特、優(yōu)步、百度、阿里巴巴、京東和華為在內(nèi)的多家公司都概略性地介紹了他們的數(shù)據(jù)平臺的不同方面,以及一些具體的應(yīng)用案例。
大會的議題部分也較好地涵蓋了基于云的平臺、技術(shù)和解決方案。
智能、實(shí)時的應(yīng)用
來自小米和海爾的演講人介紹了關(guān)于物聯(lián)網(wǎng)、實(shí)時計算技術(shù)、工業(yè)制造和智能家居的應(yīng)用。其他的演講人則對與金融、安全、電子商務(wù)和社交媒體相關(guān)的應(yīng)用進(jìn)行了介紹。除了行業(yè)應(yīng)用以外,其他的議題演講也涵蓋了構(gòu)建流計算應(yīng)用的多個技術(shù)方面,比如使用諸如Spark、Apache Beam、Durid、Alluxio、Heron和DistribuedLog等技術(shù)來構(gòu)建流計算應(yīng)用。
創(chuàng)造全球思想碰撞的平臺
我想特別強(qiáng)調(diào)的是,本次大會實(shí)現(xiàn)了與中國的本土開發(fā)社區(qū)的積極合作,創(chuàng)造了一個讓中國的技術(shù)專家和來自全球的專業(yè)人士之間進(jìn)行思想碰撞的平臺。這也反映了主辦SHW的一個核心愿景,即構(gòu)建一個讓大數(shù)據(jù)、數(shù)據(jù)科學(xué)和人工智能技術(shù)領(lǐng)域的實(shí)踐者、用戶和企業(yè)進(jìn)行廣泛交流的社區(qū)。
一些分布式計算技術(shù)的最大規(guī)模的生產(chǎn)級部署是在中國發(fā)生的。本次大會的與會者表達(dá)出了對于來自這些中國公司的演講的極大興趣。同時一些中國的與會者也告訴我,他們非常高興能有機(jī)會傾聽國外技術(shù)專家的分享。隨著SHW北京的成功舉辦,我們期待著一個跨越中國國界的數(shù)據(jù)社區(qū)的自然形成。
本·羅瑞卡(Ben Lorica)
本· 羅瑞卡是O'Reilly的首席數(shù)據(jù)科學(xué)家和關(guān)于數(shù)據(jù)方面的內(nèi)容策略主管。在多個領(lǐng)域里(包括直銷市場、消費(fèi)者和市場研究、精準(zhǔn)廣告、文本挖掘和金融工程),他曾經(jīng)進(jìn)行了商業(yè)智能、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和統(tǒng)計分析的工作。他層效力于投資管理公司、互聯(lián)網(wǎng)創(chuàng)業(yè)企業(yè)和金融服務(wù)公司。