某CTO眼中的WOT2015大數(shù)據(jù)技術(shù)峰會:干貨應(yīng)接不暇
原創(chuàng)上半部分文章推薦:資深粉絲眼中的WOT2015大數(shù)據(jù)技術(shù)峰會:干貨應(yīng)接不暇
9.《京東搜索和618實戰(zhàn)》劉尚堃,京東商城推薦搜索部總監(jiān)
強(qiáng)烈推薦這場分享!現(xiàn)場的反饋非常好,分享結(jié)束后分享人劉尚堃被眾多同學(xué)團(tuán)團(tuán)圍住,被問各種問題。直到最后大會組織方需要分享人去拍采訪視頻,熱情的同學(xué)們才離開。
詳細(xì)內(nèi)容,大家自行下載PPT。
10.《AB測試高效實現(xiàn)全數(shù)據(jù)驅(qū)動產(chǎn)品優(yōu)化》王曄,北京吆喝科技有限公司CEO
這場分享屬于典型的技術(shù)科普,將AB測試娓娓道來。也順便聊了一下他們的產(chǎn)品,集成了灰度上線、小流量、一鍵回滾、一鍵發(fā)布,支持定向試驗。我個人感覺這是一款很不錯的產(chǎn)品,一群專注的人,一起做一件專注的事。
不過我也有一個問題:這款產(chǎn)品是否有能力發(fā)現(xiàn)流量中的高仿真爬蟲流量。我之前在電商的經(jīng)驗,以及前一天京東劉尚堃也提到他們遇到的問題,總會有一些高仿真用戶行為的爬蟲出現(xiàn)在AB測試的結(jié)果中;如果不能排除,則會直接影響試驗的結(jié)論。
11.《云計算企業(yè)服務(wù)創(chuàng)業(yè)感悟》王璞,數(shù)人科技創(chuàng)始人兼CEO
做技術(shù)出身的王璞,現(xiàn)在創(chuàng)業(yè)做CEO,我這個同是技術(shù)出身,現(xiàn)初入創(chuàng)業(yè)大門的后來者真心佩服。幾個關(guān)鍵點(diǎn)記下了:
CEO要有很強(qiáng)的融資能力
toB方向有幾百位投資人,每位投資人各有各的秉性,各有各自的投資風(fēng)格和手法。像拜訪客戶一樣拜訪投資人。
A輪到B輪不用超過1年
前期發(fā)展越快越好
12.《投資人眼中的技術(shù)創(chuàng)業(yè)者》王金山,IDG資本投資經(jīng)理
印象很深的幾個點(diǎn):
常見減分項1:炫技術(shù)。技術(shù)是手段,而非目的。
配圖太形象了。
殺個人有那么麻煩么?像這張圖一樣,把所有見過的武器都堆在一起。
還是上圖一樣,來直接的!
常見減分項2:完美主義:在正確的時間推出80分的產(chǎn)品。
軟技能:生動的“叻”字:能做也能說。
銷售能力:
#p#
13.《大數(shù)據(jù)挖掘下的在線教育創(chuàng)新價值》李明小,51CTO學(xué)院技術(shù)部總監(jiān)
這場分享我沒有全程聽到,后半程才到場。
據(jù)我所知51CTO學(xué)院的業(yè)務(wù)做得非常好,無論學(xué)員規(guī)模還是講師數(shù)量,都在高速增長。今年在51學(xué)院的平臺上已經(jīng)有年收入過百萬的講師了,不是講師自己的年薪,而是講師在學(xué)院平臺上的收入哦!是不是有小伙伴磨拳霍霍了:)
當(dāng)有學(xué)員沒有按時間參加活動的話,系統(tǒng)會自動感知到,相應(yīng)信息會通知到輔導(dǎo)員,輔導(dǎo)員會跟上去交流溝通,了解到原因,再輔導(dǎo)學(xué)員學(xué)習(xí),反饋給講師改進(jìn)教學(xué)質(zhì)量。
之前都是耳聞,這次聽了李明小的分享,才不得不佩服51學(xué)院超強(qiáng)的運(yùn)營能力。
14.《大數(shù)據(jù)時代的數(shù)據(jù)資產(chǎn)管理》程永新,新炬網(wǎng)絡(luò)執(zhí)行副總裁
目前大客戶都是國企
有一張圖,數(shù)據(jù)規(guī)劃、開發(fā)、集成、運(yùn)營、存檔
企業(yè)中,數(shù)據(jù)要有專人管起來。這一點(diǎn),高度同意!
數(shù)據(jù)資產(chǎn)-管理平臺架構(gòu)圖
增值:對內(nèi)強(qiáng)化能力
變現(xiàn):對外呈現(xiàn)價值
關(guān)于大數(shù)據(jù)應(yīng)用的跨界場景
數(shù)據(jù)價值:與傳統(tǒng)行業(yè)的跨界合作。
案例:航空、電信、保險、銀行幾家數(shù)據(jù)互通、脫敏,為主營業(yè)務(wù)合作。
干貨心得:區(qū)域化的數(shù)據(jù)跨界交換,找到三五個partner,比理想主義的全球化有用的多。
#p#
15.《大數(shù)據(jù)點(diǎn)燃營銷---百分點(diǎn)精準(zhǔn)營銷實踐》蘇海波,百分點(diǎn)數(shù)據(jù)挖掘部研發(fā)總監(jiān)
目前,業(yè)內(nèi)真正應(yīng)用大數(shù)據(jù)比較充分的應(yīng)用是:推薦/營銷/征信。
百分點(diǎn)推出了營銷管家,此處見營銷管家的業(yè)務(wù)流程圖。
多用戶觸點(diǎn)打通,跨屏投放,整理企業(yè)一方的數(shù)據(jù)沉淀為用戶群體,豐富的營銷模型,應(yīng)用微觀層面的用戶畫像,形成用戶建模后的數(shù)據(jù)閉環(huán)。
目前百分點(diǎn)5000-6000千萬的日活躍UV,3.5億用戶畫像,1億商品記錄,分類體系比較準(zhǔn)確,準(zhǔn)確度達(dá)到95%。
舉了一個用戶年齡的例子:
通過填寫真實年齡的用戶數(shù)據(jù),預(yù)測準(zhǔn)確度達(dá)到85%后,再將所有用戶均打上年齡標(biāo)簽。
消費(fèi)層級分為9層。之前嘗試過3層,但發(fā)現(xiàn)聚類后,某一層如低價格區(qū)間的快消品會聚到很厚的一層。分為9層后,類間的差別比較明顯。
因為市面上的每個DSP能力各不相同,百分點(diǎn)搭建了一個自動對接所有DSP媒體的DSP,并在分鐘級將數(shù)據(jù)報表拉回來。因為百分點(diǎn)之前在用戶畫像方面的積累,所以轉(zhuǎn)作營銷時,幾個實際案例中都大幅地提升了投放效果。
目前百分點(diǎn)正在與各大公司互相“聚合”數(shù)據(jù),也算某種意義上的數(shù)據(jù)流通、數(shù)據(jù)互換。比如最近合作的公司就有華為這樣的大體量公司。
為傳統(tǒng)公司收集第一份數(shù)據(jù)時,打磨出了一套數(shù)據(jù)整合工具。
百分點(diǎn)不愧是行業(yè)內(nèi)在大數(shù)據(jù)領(lǐng)域的先行者之一,從2011年拿到A輪融資,到2014年拿到D輪融資,并發(fā)布BDOS-大數(shù)據(jù)操作系統(tǒng),發(fā)展很快。尤其在2014年趁著政企大推大數(shù)據(jù)的趨勢,發(fā)展勢頭迅猛。
#p#
16.《廣告大數(shù)據(jù)核心技術(shù)剖析》盧億雷,AdMaster副總裁
廣告系統(tǒng)的幾個大數(shù)據(jù)運(yùn)營難點(diǎn):可靠性、可用性、擴(kuò)展性、高性能、安全、性價比、監(jiān)控維護(hù)。
推薦關(guān)注Flink
目前Spark的失敗率高,如果是小時級的報表,推薦MR即可。
ElasticSearch/Druid(pinot)
也曾嘗試過100臺MongoDB,但最后去掉了。最終用SSD來解決復(fù)雜查詢的問題。
解決多值列問題,推薦Pinot/ES,用于區(qū)別用戶畫像在多個“行業(yè)”的場景數(shù)據(jù)。
可以看看ADMaster的數(shù)據(jù)處理流程,應(yīng)該是很有參考意義的。有一些近年來的改進(jìn),好在今年來改動不多。
廣告投放作弊金額,今年達(dá)到63億美金!作弊流量中75%流量是機(jī)器人。
目前ADMaster與在國內(nèi)有業(yè)務(wù)的世界500強(qiáng)中的70%有合作,廣告展示的監(jiān)測。
盧億雷這位技術(shù)大神恐怕是在中國互聯(lián)網(wǎng)圈內(nèi)大數(shù)據(jù)技術(shù)分享頻率最高的人之一,幾乎所有大數(shù)據(jù)相關(guān)論壇都少不了他的身影,也是業(yè)內(nèi)著名的交際花之一。
我本人曾有一次與盧兄兩個人在北京5號線地鐵里聊技術(shù)、聊行業(yè),聊了2個多小時,站的腿都酸了,都不忍離開。
17.《大數(shù)據(jù)質(zhì)量保障》錢承君,百度測試經(jīng)理
個人簡介:500人的大搜團(tuán)隊中,100人是做質(zhì)量保障。
目前的各種開源技術(shù),很難解決百度遇到的問題,比如幾萬-十幾萬機(jī)器在同一個機(jī)房,大數(shù)據(jù)量下的集群,很可能會跨機(jī)房。開源技術(shù)幾乎不考慮跨機(jī)房的問題。
幾百臺服務(wù)器有閑置資源,不算大事;但幾十萬臺服務(wù)器,如果有閑置資源,就太可惜了。
#p#
5分鐘級別的反作弊體系。
復(fù)雜系統(tǒng)的50%以上的代碼是容錯代碼。
比如有磁盤缺油了,在某個地方的磁道訪問會變慢,這時會引起上層應(yīng)用代碼的問題。還需要在線下環(huán)境中,比如30分鐘內(nèi)復(fù)現(xiàn)問題,定位問題根源,解決問題,再上線。
能定量地回放、可復(fù)現(xiàn)問題,在百度的大規(guī)模數(shù)據(jù)集群,各種低頻事件一定會發(fā)生。
Google的做法則是線上線下完全一樣,物理上也完全一致。比如100臺線上機(jī)器,100臺線下機(jī)器。這樣,大幅降低測試/線上環(huán)境不同帶來的異常。
Facebook也會遇到有狀態(tài)回滾和無狀態(tài)回滾。對于有狀態(tài)的回滾,仍然是頭疼的問題。曾經(jīng)問過Facebook的技術(shù)大神,遇到這種問題怎么解決,大神思索了片刻的回答更加神:you need very very be careful !
百度的做法是用多個面的測試代替一個體的測試。
程序走岔路后,一定是唯一的log標(biāo)識來表達(dá)路徑的選擇。
數(shù)據(jù)質(zhì)量保障:
數(shù)據(jù)log規(guī)則細(xì)化:按比例,當(dāng)有一天某個規(guī)則下的流量發(fā)生異常,監(jiān)控報警。以及報警系統(tǒng)自動逐級升級,從負(fù)責(zé)的工程師,到經(jīng)理。
錢承君分享的精彩結(jié)尾:“我是做測試的,今天給各位開發(fā)的同學(xué)做技術(shù)分享,大家還都聽的這么hi,我特別開心”。
錢承君分享時語速很快、風(fēng)格特別風(fēng)趣,是整個周末我聽到的所有分享中最有意思的。這場聽下來,大漲眼界的同時,人也精神抖擻了很多。沒想到聽錢承君的分享,還有這個功效:)可惜的是他用他最快的語速,也只講了PPT中的一半內(nèi)容;更可惜的是他現(xiàn)場講的東西,80%都不在PPT上,沒聽現(xiàn)場的同學(xué)很難從PPT倒推出他的分享干貨了。
18.《實時競價(RTB)廣告中的數(shù)據(jù)和算法》林招,品友互動數(shù)據(jù)部總監(jiān)
品友林招的本次分享是典型的RTB科普性分享,很多高技術(shù)含量的細(xì)節(jié)顯然沒法在45分鐘之內(nèi)展開,這場分享中我主要記錄一些很有啟發(fā)性的數(shù)據(jù)。
QPS:30萬次請求/每秒,2015年9月。每次請求處理時間100ms之內(nèi)。
200億請求/每日 10億網(wǎng)頁 20萬網(wǎng)站 60萬主流APP
Redis集群30T
PC人群400億,APP200億
至此,我們看到品友DSP的數(shù)據(jù)是不是有點(diǎn)“大”的味道了。這樣的數(shù)據(jù)訪問規(guī)模,每秒30萬次訪問、每日200億次請求,顯然已經(jīng)遠(yuǎn)遠(yuǎn)超出了非廣告領(lǐng)域的絕大多數(shù)企業(yè)接觸到的數(shù)據(jù)量。而國內(nèi)DSP的領(lǐng)先者再比較國內(nèi)的廣告領(lǐng)域領(lǐng)頭羊百度大搜、百度網(wǎng)盟、360、騰訊廣點(diǎn)通的數(shù)據(jù)量,恐怕又有較大的數(shù)據(jù)量和數(shù)據(jù)訪問量上的差距。
廣告時間:基于品友DMP的CTR/CPA的效果大幅提升,本質(zhì)依賴了品友獲取了更多跨站的用戶行為。
#p#
算法包括:LR、logitboost、BPR(Bayesian Probit Regression) FTRL DL。
算法這塊基本沒有展開,可惜了。畢竟CTR與用戶標(biāo)簽是DSP最核心的技術(shù)。
全局最優(yōu)規(guī)則,DSP的流量不是自己的,所以跟百度情況不一樣。
遇到挑戰(zhàn):冷啟動、臟數(shù)據(jù)
后記
在深圳的短暫周末很愉快,深圳天氣也很好,痛苦的是周日晚上我回到了霧都北京,趕上了霧霾爆表,整個人都不好了。現(xiàn)在的天氣還不錯,12月1日晚的大風(fēng)吹走北京的大霧,讓幾乎整個11月都沒見到晴天的北京又見到了太陽。
另外一個收獲是我在本次WOT大會上與3位曾經(jīng)的“黃金一代”成員再聚到了一起,微博推薦廣告技術(shù)總監(jiān)王傳鵬、百分點(diǎn)技術(shù)總監(jiān)蘇海波、京東推薦搜索總監(jiān)劉尚堃。你能想象到2010年左右這幾位技術(shù)大咖在一支團(tuán)隊中寫代碼么?你能想象出那支曾經(jīng)的“黃金一代”的團(tuán)隊?wèi)?zhàn)斗力么:)
最后一張,娛樂一下:
作者簡介:
傅強(qiáng),2015年年中作為技術(shù)合伙人加入九枝蘭,為企業(yè)提供在線營銷的整合投放Saas服務(wù)。2006年-2015年任職當(dāng)當(dāng),從工程師、架構(gòu)師、高級總監(jiān)到技術(shù)副總裁,從技術(shù)的維度,見證了中國電商時代的風(fēng)起云涌。