自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

初創(chuàng)公司大數(shù)據(jù)藥方|WOT技術(shù)門(mén)診第二期診斷書(shū)

移動(dòng)開(kāi)發(fā) Android
10月11日,WOT技術(shù)門(mén)診第二期會(huì)診結(jié)束,本期特邀門(mén)診專(zhuān)家當(dāng)當(dāng)廣告及推薦部高級(jí)架構(gòu)師 董四輩,針對(duì)很多初創(chuàng)公司遇到的大數(shù)據(jù)典型問(wèn)題開(kāi)出了那些藥方?

10月11日,WOT技術(shù)門(mén)診第二期會(huì)診結(jié)束,本期特邀門(mén)診專(zhuān)家當(dāng)當(dāng)廣告及推薦部高級(jí)架構(gòu)師 董四輩,針對(duì)很多初創(chuàng)公司遇到的大數(shù)據(jù)典型問(wèn)題開(kāi)出了那些藥方?

董四輩:當(dāng)當(dāng)廣告及推薦部高級(jí)架構(gòu)師、吉林大學(xué)本科碩士畢業(yè)、曾任搜狗地圖開(kāi)發(fā)經(jīng)理、現(xiàn)任當(dāng)當(dāng)推薦部高級(jí)架構(gòu)師

從事:架構(gòu)設(shè)計(jì) 、數(shù)據(jù)分析、網(wǎng)站安全等相關(guān)工作。并關(guān)注:互聯(lián)網(wǎng)安全、反欺詐、機(jī)器學(xué)習(xí)等新技術(shù)的應(yīng)用

問(wèn)題一:很多移動(dòng)APP創(chuàng)業(yè)公司,目前還只是用傳統(tǒng)的方式存貯數(shù)據(jù),或者分析數(shù)據(jù),那么大數(shù)據(jù)對(duì)我們而言還停留在概念階段,畢竟我們不是BAT,所以能否讓達(dá)人以一到兩個(gè)案例實(shí)際講解一下,從需求到技術(shù)架構(gòu)的舉例來(lái)講,從而讓創(chuàng)業(yè)公司更快收益?

董四輩:我想這個(gè)問(wèn)題,提問(wèn)者最關(guān)心的是如何“收益更快”。所謂收益快,一般來(lái)說(shuō)指的的是:時(shí)間成本少;人力投入少;運(yùn)維成本低。實(shí)際就是數(shù)據(jù)分析平臺(tái),主要分析的問(wèn)題如數(shù)據(jù)有哪些?成本如何?收益如何?什么結(jié)果?

  1. APP應(yīng)用分析 , 市場(chǎng)數(shù)據(jù)分析;
  2. 業(yè)務(wù)數(shù)據(jù)與行為數(shù)據(jù);
  3. 成本:人力成本,時(shí)間成本,運(yùn)維成本;
  4. 不斷變化的需求;

咱們主要是針對(duì)APP應(yīng)用來(lái)說(shuō),這里需要用到數(shù)據(jù)收集與數(shù)據(jù)分析。如果是要降低成本最簡(jiǎn)單的辦法就是直接使用第三方平臺(tái)來(lái)收集數(shù)據(jù)。比如:使用友盟這樣的第三方平臺(tái)。對(duì)于收集數(shù)據(jù)存儲(chǔ),當(dāng)然你也不必自己從頭開(kāi)始,可以租用公有云,按需付費(fèi)。比如:阿里云,七牛云存儲(chǔ)等。

但是,使用第三方平臺(tái)服務(wù)之后自然也會(huì)帶來(lái)負(fù)面作用:如友盟,簡(jiǎn)單好用,免費(fèi);不足之處,數(shù)據(jù)無(wú)法取回做深度與交叉分析無(wú)絕對(duì)安全性可言 。主要還是要看這個(gè)APP創(chuàng)業(yè)公司早期的決策是什么,使用第三方數(shù)據(jù)統(tǒng)計(jì)服務(wù)只是一個(gè)過(guò)渡方案。當(dāng)當(dāng)網(wǎng)現(xiàn)在使用的就是友盟服務(wù),這些數(shù)據(jù)我們也是同樣沒(méi)辦法進(jìn)行深度分析的,不過(guò)我們會(huì)做自己的數(shù)據(jù)收集與分析,讓兩者并存相互驗(yàn)證從而產(chǎn)生附加效應(yīng)。最后,這些數(shù)據(jù)如果想要出效率還是要再次挖掘,這個(gè)時(shí)候不同數(shù)據(jù)是要不同對(duì)待的,把業(yè)務(wù)數(shù)據(jù)和行為數(shù)據(jù)分開(kāi)。最后,數(shù)據(jù)必須,展現(xiàn)出曲線餅圖,柱狀圖,用于決策,才能說(shuō)明系統(tǒng)是否成功。

以下是大家需要注意的技術(shù)點(diǎn):

數(shù)據(jù)報(bào)表與儀表盤(pán)

業(yè)務(wù)數(shù)據(jù)寫(xiě)SQL:靈活定制數(shù)據(jù)準(zhǔn)確、實(shí)時(shí),可進(jìn)行復(fù)雜業(yè)務(wù)分析;不足之處:歷史狀態(tài)被覆蓋,自多擴(kuò)展復(fù)雜,計(jì)算力有限 。

數(shù)據(jù)模型:Event:eventid+pageid+properties+userid;User:userid+ properties

行為數(shù)據(jù)寫(xiě)日志:http傳輸 》kafka》 hdfs ,可以從kafka訂閱消息

數(shù)據(jù)挖掘與分析:python hadoop spark ,與業(yè)務(wù)數(shù)據(jù)庫(kù)解耦,計(jì)算力強(qiáng)大;維度,指標(biāo),漏洞分析,如(注冊(cè),訪問(wèn),點(diǎn)擊...)

數(shù)據(jù)展現(xiàn):曲線,餅圖,柱狀圖;工具HighCharts,OpenCharts

數(shù)據(jù)反饋:產(chǎn)品分析,迭代運(yùn)算

最后,總結(jié)第一個(gè)問(wèn)題的解決方式就是:

  1. 使用第三方服務(wù);
  2. 選擇2-3人小團(tuán)隊(duì);
  3. 選好數(shù)據(jù)模型;
  4. 工具就選常用的Python Hodoop Spark;5.業(yè)務(wù)數(shù)據(jù)最好使用Mysql(像訂單,物流,支付)這些都是結(jié)構(gòu)化數(shù)據(jù);
  5. 行為數(shù)據(jù)(搜索,瀏覽,點(diǎn)擊,收藏),每天都會(huì)大量產(chǎn)生直接存HDFS 就可以了。

問(wèn)題二:以前我們做過(guò)兩個(gè)大數(shù)據(jù)平臺(tái)項(xiàng)目,一個(gè)是IoT,一個(gè)是CityNext,一個(gè)是數(shù)據(jù)格式較少但數(shù)據(jù)量大,一個(gè)是數(shù)據(jù)格式復(fù)雜,基于Hadoop在做,幾十人的團(tuán)隊(duì)才完成了存儲(chǔ)和簡(jiǎn)單實(shí)時(shí)分析,如果是小型公司或者創(chuàng)業(yè)團(tuán)隊(duì)又何去何從呢?

董四輩:一個(gè)大數(shù)據(jù)項(xiàng)目前期投入了大量人力和時(shí)間成本,后期感到做出來(lái)的東西和一開(kāi)始預(yù)估的差距較大,就產(chǎn)生了上面問(wèn)題的出現(xiàn),那么這個(gè)時(shí)候到底應(yīng)該是何去何從呢?我個(gè)人認(rèn)為:做大數(shù)據(jù)平臺(tái)這樣的項(xiàng)目遇到成本問(wèn)題是很常見(jiàn)的,尤其是初創(chuàng)這個(gè)問(wèn)題尤為明顯,成本問(wèn)題分為三部分:人力成本;時(shí)間成本;運(yùn)維成本,如果是創(chuàng)業(yè)團(tuán)隊(duì),就應(yīng)該更加謹(jǐn)慎,況且市場(chǎng)與需求變化的特別快,如果你長(zhǎng)時(shí)間耗在一個(gè)地方,就是一種浪費(fèi)。建議:

  1. 團(tuán)隊(duì)?wèi)?yīng)當(dāng)盡量小:最好3-5人的技術(shù)骨干團(tuán)隊(duì),便于溝通,執(zhí)行力高,幾十人溝通過(guò)于繁瑣,溝通不暢時(shí)很容易導(dǎo)致執(zhí)行效率降低。
  2. 創(chuàng)業(yè)初期需求與市場(chǎng)變化速度快,應(yīng)該及時(shí)調(diào)整策略,不能再某一地方消耗太多時(shí)間。
  3. 在創(chuàng)業(yè)團(tuán)隊(duì)早期,最好能夠使用第三方基礎(chǔ)設(shè)施來(lái)降低運(yùn)維成本。比如租用公有云。

問(wèn)題三:我現(xiàn)在工作中遇到的問(wèn)題,我覺(jué)得就是一堆垃圾數(shù)據(jù),業(yè)務(wù)方希望我們能挖掘出價(jià)值,我們?cè)嚵烁鞣N算法,結(jié)果都不理想,現(xiàn)在我想給出一個(gè)理論界限,苦于不知道如何下手,有沒(méi)有什么辦法,從統(tǒng)計(jì)特性給出各種算法效果的理論邊界?

董四輩:這個(gè)問(wèn)題我也遇到過(guò),并且困惑過(guò)。比如,我現(xiàn)在是在做推薦系統(tǒng),就是針對(duì)某些商品做推薦,我可以無(wú)限優(yōu)化我的算法來(lái)提高KPI么(點(diǎn)擊率,訂單占比.....)?如果進(jìn)行數(shù)據(jù)價(jià)值挖掘能夠無(wú)限制挖掘嗎?如果,我不能無(wú)限制的分析和挖掘,我想知道這個(gè)峰值到底在什么地方?理論上來(lái)說(shuō),肯定不能無(wú)限優(yōu)化和無(wú)線挖掘的。

先給大家講一個(gè)小故事:第一年,算法團(tuán)隊(duì)從無(wú)到有,直接提升30%KPI。公司很高興。第二年。公司加大投入,發(fā)現(xiàn)第二年KPI僅提升了10%。第三年,公司決策層投入更多人力,發(fā)現(xiàn)KPI才提升了3%。大家發(fā)現(xiàn)了什么?雖然投入在不斷增加,但是KPI指標(biāo)增長(zhǎng)卻是越來(lái)越低。其實(shí),第三年就是一個(gè)瓶頸。對(duì)于第二個(gè)問(wèn)題的提問(wèn)者,我想說(shuō),你既然已經(jīng)把所有的方法都試了一遍,還是沒(méi)有找到結(jié)果,說(shuō)明,你已經(jīng)遇到了瓶頸。接著剛才的故事講,故事里的主人公也到了類(lèi)似的問(wèn)題,第四年,公司里來(lái)了一個(gè)產(chǎn)品經(jīng)理,說(shuō):“你們把產(chǎn)品的顏色改變下:紅色的叫”文藝紅“,藍(lán)色的叫”屌絲藍(lán)“,把商品給打上文藝和屌絲的標(biāo)志。”接下來(lái),你們猜結(jié)果怎么樣?KPI瞬間提高了30%。所以,有些時(shí)候數(shù)據(jù)分析瓶頸實(shí)際上反映了產(chǎn)品模式瓶頸。如果,你真的非常誠(chéng)實(shí)的驗(yàn)證了你的數(shù)據(jù),那么可以非??隙óa(chǎn)品形態(tài)或者產(chǎn)品模式遇到了瓶勁。一般來(lái)說(shuō),,如果你的優(yōu)化或者挖掘已經(jīng)大幅度下降了,這個(gè)時(shí)候就應(yīng)當(dāng)減小投入,并不是說(shuō)不分析了。然后,你就應(yīng)該過(guò)渡到產(chǎn)品方向上究其原因。

問(wèn)題四:對(duì)于傳統(tǒng)企業(yè)來(lái)說(shuō),決定搭建自己的人大數(shù)據(jù)平臺(tái)時(shí)有什么需要注意的呢?技術(shù)的選取?相關(guān)人員的定位?像成聯(lián)電商我們是做耐材(耐火材料)為主的傳統(tǒng)企業(yè),如果我們開(kāi)始自己搭建大數(shù)據(jù)平臺(tái)有什么比較通用化的模式嗎?

董四輩:先說(shuō)說(shuō)背景吧,商場(chǎng)變成了試衣間,大家都去網(wǎng)上買(mǎi),同理建材市場(chǎng)變成了建材展示中心怎么辦?這里其實(shí)包含兩個(gè)問(wèn)題1.真正的傳統(tǒng)行業(yè)的大數(shù)據(jù)分析平臺(tái);2.傳統(tǒng)行業(yè)怎么搞電商;這里就針對(duì)第一個(gè)問(wèn)題說(shuō)說(shuō)吧,在互聯(lián)網(wǎng)的沖擊下,“建材市場(chǎng)淪為材料展示中心”,在這種情況下傳統(tǒng)企業(yè)也需要借助大數(shù)據(jù)來(lái)進(jìn)行變革。相對(duì)于技術(shù)選型來(lái)說(shuō),更重要的是數(shù)據(jù)規(guī)劃與計(jì)劃,傳統(tǒng)行業(yè)的數(shù)據(jù)分析不能脫離行業(yè)背景,否則數(shù)據(jù)無(wú)法實(shí)現(xiàn)準(zhǔn)確落地。比如:客戶的訂貨時(shí)間,客戶量,客戶的特點(diǎn),年齡范圍,客戶地域分布;(這些確實(shí)需要具提的行業(yè)背景)從以上這些數(shù)據(jù)中挖掘分析,那些用戶喜歡什么耐材?在哪個(gè)時(shí)間段某種耐材最受歡迎?喜歡某種耐材的究竟是什么人?以及行業(yè)內(nèi)部運(yùn)作過(guò)程中會(huì)產(chǎn)生哪些數(shù)據(jù)?帶著這些問(wèn)題,再去看有哪些合適的技術(shù)平臺(tái)。

人員定位:不僅需要大數(shù)據(jù)技術(shù)人才,還需要有深厚行業(yè)背景且熱衷于大數(shù)據(jù)的專(zhuān)業(yè)人才

數(shù)據(jù)分析:大致可以分為,業(yè)務(wù)數(shù)據(jù)和行為數(shù)據(jù);業(yè)務(wù)數(shù)據(jù)(用戶,訂單,支付,物流...)這類(lèi)數(shù)據(jù)一般都比較精確與規(guī)則,這些結(jié)構(gòu)化數(shù)據(jù)可以直接使用傳統(tǒng)的數(shù)據(jù)庫(kù)存儲(chǔ)分析。

行為數(shù)據(jù)(瀏覽、搜索記錄、點(diǎn)擊記錄...)這類(lèi)數(shù)據(jù)一般量比較大,最好使用NoSQL(MongoDB),或存儲(chǔ)在hdfs上指定維度與指標(biāo):成本,銷(xiāo)量,決策,價(jià)格

數(shù)據(jù)挖掘:根據(jù)已定的目標(biāo)或指標(biāo),預(yù)測(cè)用戶的需求量提前預(yù)判,分析用戶人群(有興趣的,愿意購(gòu)買(mǎi)的,由于不覺(jué)的),地域定向等。

總結(jié)(重點(diǎn)是行業(yè)數(shù)據(jù)規(guī)劃,規(guī)劃不好數(shù)據(jù),系統(tǒng)就是個(gè)擺設(shè)很難落地,尤其是目標(biāo)與指標(biāo)制定):

人員構(gòu)成:大數(shù)據(jù)技術(shù)人才(3-5人),有深厚行業(yè)背景的人才(1-2人);

數(shù)據(jù)存儲(chǔ):結(jié)構(gòu)性業(yè)務(wù)數(shù)據(jù)mysql,復(fù)雜的行為數(shù)據(jù)NoSQL或hdfs;

分析與工具:python 、hadoop、spark;

行業(yè)數(shù)據(jù)規(guī)劃:客戶的訂貨時(shí)間,客戶量,客戶的特點(diǎn),年齡范圍,客戶地域分布;

分析目標(biāo)與指標(biāo):銷(xiāo)量、成本、區(qū)域、產(chǎn)品類(lèi)型;

數(shù)據(jù)展現(xiàn):曲線圖、柱狀圖,工具HighCharts;

問(wèn)題五:針對(duì)不同的類(lèi)型的公司的數(shù)據(jù)從業(yè)者來(lái)說(shuō),每天處理的問(wèn)題和要肩負(fù)的責(zé)任可能是不一樣的,大公司里邊可能每個(gè)員工的任務(wù)更加的明確些,而中小型企業(yè)的數(shù)據(jù)從業(yè)者可能要會(huì)的更多一些。能不能麻煩老師舉例說(shuō)明下,針對(duì)不同類(lèi)型的企業(yè)中數(shù)據(jù)工作者的相關(guān)技能是什么?

董四輩:針對(duì)這個(gè)問(wèn)題首先首先我想說(shuō)的是:作為數(shù)據(jù)工作者,在工作中除了有技術(shù)在身,還需要一點(diǎn)點(diǎn)”機(jī)智“。如果單單說(shuō)技術(shù)的話有很多教科書(shū)還有論文,其實(shí)僅僅掌握這些并不能使你和其他數(shù)據(jù)工作者區(qū)分開(kāi)來(lái),你還需要具有數(shù)據(jù)的敏感性以及懂得進(jìn)行深層次的思考(換位思考)。我先給大家講一個(gè)真實(shí)的案例:大約是在2014年年末的時(shí)候,有個(gè)做PC數(shù)據(jù)分析的小伙, 突然想分析一下移動(dòng)端的數(shù)據(jù)。然后,他發(fā)現(xiàn)移動(dòng)端的數(shù)據(jù)每個(gè)月都在增長(zhǎng),而他所在的團(tuán)隊(duì)卻是做PC數(shù)據(jù)業(yè)務(wù)分析。這個(gè)時(shí)候,他并沒(méi)有吧分析之后的結(jié)果放而制止,日有所思夜有所想,不久他做了一個(gè)夢(mèng),夢(mèng)見(jiàn)PC消失了,大家都在使用移動(dòng)端設(shè)備設(shè)備,PC端已經(jīng)沒(méi)有數(shù)據(jù)可分析了......驚醒之后,他把自己的擔(dān)憂告訴了leader,leader讓他把所有的數(shù)據(jù)分析了一遍,按他在夢(mèng)中的思路做了一個(gè)預(yù)測(cè),之后開(kāi)始大規(guī)模對(duì)移動(dòng)端數(shù)據(jù)業(yè)務(wù)擴(kuò)展,這個(gè)小伙理所應(yīng)當(dāng)?shù)木统蔀橐苿?dòng)端業(yè)務(wù)的相關(guān)人員了。最后,整個(gè)團(tuán)隊(duì)在他的帶領(lǐng)下成立了移動(dòng)端數(shù)據(jù)分析小組。其實(shí)工作中,很多數(shù)據(jù)工程師,就是分析完數(shù)據(jù)后就結(jié)束了,并未作深入分析。如果你無(wú)法優(yōu)化你的數(shù)據(jù),你就沒(méi)有數(shù)據(jù)可分析了。你是不是就會(huì)失業(yè)?縱使你熟知所有的數(shù)據(jù)分析方法又如何?數(shù)據(jù)工作者的下一個(gè)臺(tái)階如何走?其實(shí),掌握一些數(shù)據(jù)分析方法只是基礎(chǔ),還需要你的機(jī)智。

責(zé)任編輯:未麗燕 來(lái)源: WOT
相關(guān)推薦

2016-10-21 13:37:50

大數(shù)據(jù)大數(shù)據(jù)技術(shù)

2016-11-11 19:58:23

2015-12-01 13:46:19

論壇組委會(huì)

2020-03-02 16:44:44

戴爾

2012-10-23 16:25:16

技術(shù)沙龍

2018-06-14 11:15:08

區(qū)塊鏈數(shù)字貨幣比特幣

2011-10-18 10:17:39

Android應(yīng)用開(kāi)發(fā)

2016-12-26 17:01:44

大數(shù)據(jù) 醫(yī)療 移動(dòng)

2010-12-20 23:32:36

Phone Club51CTO移動(dòng)開(kāi)發(fā)技術(shù)

2013-07-02 17:36:49

IT半小時(shí)

2017-02-13 13:02:19

故事 IT技能 職場(chǎng)經(jīng)

2014-08-15 14:00:11

IT基礎(chǔ)架構(gòu)

2011-05-10 11:23:13

Windows

2014-07-11 15:47:17

京東技術(shù)開(kāi)放日

2011-03-28 08:51:47

51CTO沙龍Windows運(yùn)維

2017-08-03 14:13:00

開(kāi)發(fā)者管理員招募

2017-06-19 12:34:39

智能硬件行業(yè)

2021-05-10 09:44:32

鴻蒙HarmonyOS應(yīng)用

2019-05-13 18:17:40

業(yè)務(wù)安全
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)