“后大數(shù)據(jù)時(shí)代”,看TalkingData如何定義
原創(chuàng)經(jīng)歷了從上個(gè)世紀(jì)70年代開始“辦公自動(dòng)化”到今天“移動(dòng)互聯(lián)時(shí)代”,現(xiàn)在人類科技演進(jìn)再次來到了十字路口。虛擬現(xiàn)實(shí)、人工智能、現(xiàn)實(shí)增強(qiáng)、物聯(lián)網(wǎng)、車聯(lián)網(wǎng)……網(wǎng)絡(luò)、科技正在逐漸改變我們生活中習(xí)以為常的方方面面,可以預(yù)見在不遠(yuǎn)的將來,人類將迎來一輪新的科技爆發(fā)。而數(shù)據(jù)必將是下一次科技爆發(fā)的基石!
作為一家專注于大數(shù)據(jù)領(lǐng)域的公司,TalkingData不斷嘗試將移動(dòng)大數(shù)據(jù)應(yīng)用于不同領(lǐng)域,更好的發(fā)揮數(shù)據(jù)應(yīng)有的價(jià)值,為不同的行業(yè)提供數(shù)據(jù)應(yīng)用的新思路、新模式。由TalkingData主辦的——“T11 2016暨TalkingData智能數(shù)據(jù)峰會(huì)”在北京中國(guó)大飯店隆重召開。國(guó)內(nèi)外各領(lǐng)域的數(shù)十位數(shù)據(jù)專家、行業(yè)精英、知名學(xué)者齊聚一堂,深入探討了業(yè)界建設(shè)性議題,引導(dǎo)行業(yè)方向,創(chuàng)造海量商機(jī),堪稱數(shù)據(jù)領(lǐng)域一年一度的行業(yè)盛會(huì)。
主會(huì)場(chǎng)
大會(huì)期間,TalkingData CTO肖文峰接受了51CTO記者的采訪,對(duì)“后大數(shù)據(jù)”時(shí)代,人工智能、海量非結(jié)構(gòu)化數(shù)據(jù)、智能數(shù)據(jù)平臺(tái)(SmartDP),及TalkingData團(tuán)隊(duì)情況作了詳細(xì)介紹。
肖文峰首先介紹說,目前TalkingData在線上的部分覆蓋了超過40億的智能設(shè)備,服務(wù)12萬款應(yīng)用,擁有10萬人次的開發(fā)者。線下數(shù)據(jù)的采集,主要是覆蓋80個(gè)城市,大概有3000多家商場(chǎng),有400萬個(gè)POI指紋信息。線上線下數(shù)據(jù)的打通,為不同行業(yè)提供了精準(zhǔn)的基礎(chǔ)數(shù)據(jù)源。
TalkingData CTO肖文峰
TalkingData全球算法大賽
在今年的7月至9月,TalkingData舉辦了全球算法大賽。大賽中,TalkingData為數(shù)據(jù)科學(xué)愛好者們開放了獨(dú)一無二的中國(guó)移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)和真實(shí)的商業(yè)場(chǎng)景,并提供兩萬五千美元高額獎(jiǎng)金,讓本次大賽成為全球大數(shù)據(jù)人才真正實(shí)現(xiàn)用數(shù)據(jù)創(chuàng)造價(jià)值的平臺(tái)。
據(jù)肖文峰介紹,全球大概有2000個(gè)團(tuán)隊(duì)或數(shù)據(jù)科學(xué)家參與了此次算法大賽。大賽中,國(guó)外的數(shù)據(jù)分析師和科學(xué)家對(duì)中國(guó)和中國(guó)的數(shù)據(jù)非常感興趣。“我們發(fā)布脫敏的數(shù)據(jù),他們?cè)谏厦媾芨鞣N各樣的算法,通過各種可視化的方式去探究人的行為,人口屬性,比如男女,發(fā)現(xiàn)了很多有意思的算法和場(chǎng)景。這場(chǎng)比賽對(duì)我們來說也是了解這些科學(xué)家的過程,我們知道這些科學(xué)家在哪,他們喜歡什么,如何交流等等。”
肖文峰表示,TalkingData希望逐步把一些數(shù)據(jù)開放出去,從國(guó)外引入更多的數(shù)據(jù)科學(xué)能力,這也算是此次大賽一個(gè)亮點(diǎn)。
開放的態(tài)度
在TalkingData看來,數(shù)據(jù)一定要開放,社會(huì)才能發(fā)展。TalkingData從一開始就站在客觀中立的角度,盡可能把數(shù)據(jù)共享出來,以產(chǎn)生更大的價(jià)值。比如“數(shù)據(jù)觀象臺(tái)”,把一些比較普遍的數(shù)據(jù),例如應(yīng)用排名公示出來,讓對(duì)這些數(shù)據(jù)感興趣的人直接應(yīng)用。
TalkingData是一個(gè)深度的開源社區(qū)的擁抱者、參與者、推動(dòng)者。其大數(shù)據(jù)監(jiān)控系統(tǒng)OWL(貓頭鷹),就是開源的。
在“T11 2016暨TalkingData智能數(shù)據(jù)峰會(huì)”主會(huì)場(chǎng)上,TalkingData CEO崔曉波也公開了兩個(gè)開源項(xiàng)目:Fregata和Myna。Fregata是超大規(guī)模算法引擎,這個(gè)算法引擎的優(yōu)勢(shì)是在10億樣本、1000萬維度的情況下,比Spark MLlib原生算法庫(kù)的計(jì)算效率高兩個(gè)數(shù)量級(jí),大概分鐘級(jí)可以得到訓(xùn)練結(jié)果,它里面做了很多參數(shù)的自動(dòng)調(diào)整,還有數(shù)據(jù)計(jì)算引擎的優(yōu)化等,來提高計(jì)算效率,能夠達(dá)到一次數(shù)據(jù)掃描就能夠收斂。這是市面上別的開源算法庫(kù)實(shí)現(xiàn)不了的。
Myna項(xiàng)目是一個(gè)情景感知引擎,能夠幫助應(yīng)用開發(fā)者判斷手機(jī)用戶的姿態(tài),是走是跑還是開車等等。Myna有自己的專利技術(shù),與國(guó)外的同類技術(shù)相比,主要有兩大優(yōu)勢(shì)。第一是姿態(tài)識(shí)別速度。它的反應(yīng)速度比同類技術(shù)提高了3倍。同樣識(shí)別精度的情況下,它的識(shí)別時(shí)間只有國(guó)外同類產(chǎn)品的1/3,同時(shí)它的耗電量只有國(guó)外產(chǎn)品的1/2,因?yàn)樗昧艘恍?shù)據(jù)窗口重疊的方法來加速計(jì)算,因此耗電量也低很多。第二,不同于同類產(chǎn)品用C++方式來實(shí)現(xiàn),Myna是基于JAVA實(shí)現(xiàn)的,集成一些SO的庫(kù)非常簡(jiǎn)單。
智能數(shù)據(jù)平臺(tái)(SmartDP)
智能數(shù)據(jù)平臺(tái)(SmartDP)是TalkingData新創(chuàng)建的詞。它是基于智能數(shù)據(jù)應(yīng)用,探索商業(yè)價(jià)值的平臺(tái),具有數(shù)據(jù)管理、數(shù)據(jù)工程和數(shù)據(jù)科學(xué)的能力。旨在發(fā)揮自身優(yōu)勢(shì),利用5年來在數(shù)據(jù)科學(xué)、數(shù)據(jù)管理、數(shù)據(jù)工程方面的各項(xiàng)積累,在橫跨互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、傳統(tǒng)行業(yè)等領(lǐng)域積累的經(jīng)驗(yàn),有機(jī)整合并產(chǎn)品化,促進(jìn)行業(yè)發(fā)展,并為各行各業(yè)提供更完善的數(shù)據(jù)產(chǎn)品及服務(wù)。
肖文峰透露,今后,TalkingData所有的產(chǎn)品體系,都會(huì)圍繞以SmartDP為核心的數(shù)據(jù)生態(tài),構(gòu)建數(shù)據(jù)工程能力、數(shù)據(jù)的科學(xué)能力以及數(shù)據(jù)的管理能力,增加更多的數(shù)據(jù)源和數(shù)據(jù)應(yīng)用,讓更多的合作伙伴基于這個(gè)平臺(tái)產(chǎn)生價(jià)值。
團(tuán)隊(duì)的力量
據(jù)肖文峰介紹,TalkingData的技術(shù)團(tuán)隊(duì)分四種角色,一是數(shù)據(jù)管理員,關(guān)注于如何匯聚數(shù)據(jù),如何高效地清洗數(shù)據(jù),是這個(gè)團(tuán)隊(duì)的任務(wù)也是難點(diǎn)。第二種是數(shù)據(jù)科學(xué)家團(tuán)隊(duì),不管是前端客戶的需求,還是后端自己的數(shù)據(jù)分析師,或者數(shù)據(jù)管理員、數(shù)據(jù)工程團(tuán)隊(duì),只要有算法的需求,都需要依賴于數(shù)據(jù)科學(xué)家建模,優(yōu)化算法,提高算法的計(jì)算效率。第三種是數(shù)據(jù)工程團(tuán)隊(duì),接近于傳統(tǒng)的產(chǎn)品研發(fā)團(tuán)隊(duì),偏工具平臺(tái),關(guān)注于數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)計(jì)算、云計(jì)算框架搭建、虛擬化等。數(shù)據(jù)工程團(tuán)隊(duì)需要提供工具平臺(tái),讓數(shù)據(jù)科學(xué)家、數(shù)據(jù)管理員、數(shù)據(jù)分析師更好地利用數(shù)據(jù),管理數(shù)據(jù)。第四種是領(lǐng)域工程團(tuán)隊(duì),是全能型的技術(shù)團(tuán)隊(duì),更加偏項(xiàng)目。領(lǐng)域工程團(tuán)隊(duì)負(fù)責(zé)解決客戶的問題,無論是用TalkingData的數(shù)據(jù)還是第三方數(shù)據(jù),無論是用TalkingData的技術(shù)還是第三方的技術(shù),最終目的都是為了解決客戶遇到的現(xiàn)實(shí)問題,完成交付。
此外,社區(qū)的貢獻(xiàn)也不可小覷,在解決客戶問題過程中,技術(shù)生態(tài)的每個(gè)部分,從基礎(chǔ)存儲(chǔ)計(jì)算架構(gòu)到數(shù)據(jù)科學(xué),從數(shù)據(jù)采集、獲取、準(zhǔn)備、分析到發(fā)布,幾乎都有涉及,有的靠合作伙伴做,有的需要自己去開發(fā),因此積累了不少技術(shù)能力。肖文峰強(qiáng)調(diào),只有保持一種開放的心態(tài),外延才會(huì)更大,才能看到更多,只有更多的貢獻(xiàn)才有更多的收獲!