自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

梁堰波:數(shù)據(jù)挖掘與機器學(xué)習(xí)算法

原創(chuàng)
數(shù)據(jù)庫 算法
本屆WOT軟件技術(shù)峰會特邀小象科技作為大會特邀合作伙伴,匯集大數(shù)據(jù)社區(qū)技術(shù)精英,于7月27日舉辦大數(shù)據(jù)專場培訓(xùn)。本次培訓(xùn)主要討論如何建立用戶標(biāo)簽系統(tǒng)和如何使用這些標(biāo)簽系統(tǒng)實現(xiàn)商業(yè)價值。

無論是電商還是互聯(lián)網(wǎng)廣告,直接面對的是用戶,用戶的屬性決定了他會購買哪些商品或者點擊哪些廣告。那么建立用戶標(biāo)簽系統(tǒng)對于這些企業(yè)非常重要。

本屆WOT軟件技術(shù)峰會特邀小象科技作為大會特邀合作伙伴,匯集大數(shù)據(jù)社區(qū)技術(shù)精英,于7月27日舉辦大數(shù)據(jù)專場培訓(xùn)。本次培訓(xùn)主要討論如何建立用戶標(biāo)簽系統(tǒng)和如何使用這些標(biāo)簽系統(tǒng)實現(xiàn)商業(yè)價值。

[[116386]]

梁堰波

ChinaHadoop小象社區(qū)核心成員

講師介紹:美團網(wǎng),數(shù)據(jù)開發(fā)與數(shù)據(jù)挖掘;北京航空航天大學(xué),計算機碩士;法國電信研發(fā)中心,云計算與大數(shù)據(jù)研究員;百度基礎(chǔ)架構(gòu)部存儲組,軟件開發(fā)實習(xí)生;VMware中國研發(fā)中心Big Data & Cloud組,研發(fā)實習(xí)生。

 

1.  從技術(shù)來說,您認(rèn)為大數(shù)據(jù)在今年還會有什么革新?總體感覺,如何與行業(yè)應(yīng)用結(jié)合?

今年大數(shù)據(jù)的革新從技術(shù)的角度來看主要體現(xiàn)在幾個方面,包括Spark生態(tài)系統(tǒng)的崛起,Hadoop生態(tài)系統(tǒng)越來越多地朝著實時的方向改進,以及各大企業(yè)對這些系統(tǒng)和數(shù)據(jù)基礎(chǔ)設(shè)施的使用和改進不斷深入,這個可以從今年已經(jīng)召開的Hadoop Summit(http://hadoopsummit.org/)和Spark Summit(http://spark-summit.org/2014)上看出一些趨勢。從行業(yè)應(yīng)用上來看,越來越多的行業(yè)和企業(yè)開始使用這些技術(shù)解決他們遇到的問題。從目前來看主要還是集中在互聯(lián)網(wǎng)廣告、電子商務(wù)、搜索引擎、推薦系統(tǒng)、游戲等一些大數(shù)據(jù)應(yīng)用的常規(guī)領(lǐng)域。但是隨著今年互聯(lián)網(wǎng)金融等新興領(lǐng)域的發(fā)展,這些領(lǐng)域也越來越多的使用大數(shù)據(jù)的技術(shù)和方法解決他們遇到的問題。

2.行業(yè)大數(shù)據(jù)其實早就存在,但對此認(rèn)知并不一樣,您認(rèn)為這種差異性表現(xiàn)在哪里?

大數(shù)據(jù)的行業(yè)應(yīng)用是大數(shù)據(jù)產(chǎn)生價值的關(guān)鍵。我們經(jīng)常提到的Hadoop、Spark等各種系統(tǒng)是數(shù)據(jù)基礎(chǔ)設(shè)施,各個行業(yè)利用這些基礎(chǔ)設(shè)施存儲和積累了很多數(shù)據(jù)。對于企業(yè)來說積累這些數(shù)據(jù)的目的就是要產(chǎn)生商業(yè)價值,那么從存儲在Hadoop等系統(tǒng)里的數(shù)據(jù)到商業(yè)價值的轉(zhuǎn)換就是各個行業(yè)的Data Scientist所需要探索的,而且這個變現(xiàn)或者價值實現(xiàn)點就是在大數(shù)據(jù)時代一個行業(yè)的核心和關(guān)鍵。我認(rèn)為行業(yè)大數(shù)據(jù)重點在于用大數(shù)據(jù)的方法把握住這個行業(yè)的信息制高點和核心問題。

3.行業(yè)大數(shù)據(jù)的實施,您認(rèn)為技術(shù)難點在哪里?

行業(yè)大數(shù)據(jù)的實施目前的難點在于人才的缺乏。行業(yè)大數(shù)據(jù)的實施需要的人才要求對所在的行業(yè)領(lǐng)域知識有所了解和涉獵,掌握數(shù)據(jù)化的思考問題的思維和方法,會用統(tǒng)計、計算機等系統(tǒng)和工具解決問題。所以本質(zhì)上行業(yè)大數(shù)據(jù)對人才的需求是復(fù)合型的,而且對經(jīng)驗的要求比較高。對于這樣一個比較新的領(lǐng)域來說,市場上對于這方面的人才還是相當(dāng)缺乏的。

 4.  請分享一個您參與的傳統(tǒng)企業(yè)大數(shù)據(jù)項目。這個項目大致分幾個階段?

我目前主要還是以互聯(lián)網(wǎng)企業(yè)的大數(shù)據(jù)項目經(jīng)驗為主

5. 大數(shù)據(jù)項目的實施,對已經(jīng)存在的業(yè)務(wù)分析架構(gòu),會帶來怎樣的影響?

大數(shù)據(jù)項目的實施,對已經(jīng)存在的業(yè)務(wù)分析架構(gòu)產(chǎn)生的影響還是比較大的。這個也是傳統(tǒng)企業(yè)利用大數(shù)據(jù)的主要的困難所在。一個是既有IT基礎(chǔ)設(shè)施不能適應(yīng)大數(shù)據(jù)時代的分析和挖掘的需求,另外就是既有的分析師還保持著傳統(tǒng)的分析的思路??梢耘e幾個例子簡單說明下這個不同,過去的企業(yè)的CRM系統(tǒng)只能記錄下用戶的交易信息,雖然交易信息是用戶的最重要的行為,但是影響用戶產(chǎn)生一次交易行為所涉及到的信息非常多,例如用戶瀏覽了什么、篩選了哪些類型的商品、搜索過什么、收藏過哪些商品等等。所以在互聯(lián)網(wǎng)上可以記錄的用戶的行為非常廣泛,這些數(shù)據(jù)對于企業(yè)實現(xiàn)商業(yè)價值也有非常大的影響,所以對于數(shù)據(jù)基礎(chǔ)設(shè)施的建設(shè)也提出了新的挑戰(zhàn),很多傳統(tǒng)的系統(tǒng)和軟件架構(gòu)已經(jīng)不能滿足新的業(yè)務(wù)需求,對于大多數(shù)企業(yè)構(gòu)建大數(shù)據(jù)基礎(chǔ)設(shè)施來說開源的Hadoop生態(tài)系統(tǒng)是一個不錯的選擇。

 6.大數(shù)據(jù)應(yīng)用工具的大量出現(xiàn),會取代數(shù)據(jù)分析人員的位置嗎?

大數(shù)據(jù)應(yīng)用工具的大量出現(xiàn)不會取代數(shù)據(jù)分析人員,而且對數(shù)據(jù)分析人員提出了更新的需求和挑戰(zhàn)。需要數(shù)據(jù)分析人員使用這些工具結(jié)合業(yè)務(wù)思考實現(xiàn)商業(yè)價值,這個也就是我們經(jīng)常提到的Data Scientist的作用。工具和分析師的作用是相輔相成的,使用大數(shù)據(jù)的思維解決這些商業(yè)問題是與具體的行業(yè)有緊密聯(lián)系的,而工具是沒有特別多的行業(yè)屬性的,所以就需要分析師/數(shù)據(jù)科學(xué)家做好這個橋梁工作,把枯燥的數(shù)據(jù)和計算機工具利用起來,結(jié)合行業(yè)規(guī)則和業(yè)務(wù)特點實現(xiàn)商業(yè)價值。

 7.數(shù)據(jù)是傳統(tǒng)企業(yè)最核心的資產(chǎn)。我們在大數(shù)據(jù)的分布式處理方式下,該如何保證數(shù)據(jù)的安全性和完整性?

數(shù)據(jù)的安全性和完整性是目前許多傳統(tǒng)企業(yè)使用大數(shù)據(jù)的主要擔(dān)憂點。傳統(tǒng)行業(yè)普遍對數(shù)據(jù)安全性要求比較高,例如金融、電信等領(lǐng)域,所以這些領(lǐng)域?qū)Υ髷?shù)據(jù)系統(tǒng)和基礎(chǔ)設(shè)施提出的要求也比較高。在開源Hadoop社區(qū)也在不斷完善和安全相關(guān)的一些feature和組件。例如對HDFS和HBase在安全和權(quán)限管理方面的不斷增強,Cloudera開源的Sentry提供了豐富的安全、權(quán)限管理和認(rèn)證機制等方面的特征,這些都為企業(yè)使用Hadoop生態(tài)系統(tǒng)作為大數(shù)據(jù)基礎(chǔ)設(shè)施掃清了障礙。

 8.在51CTO舉辦的WOT軟件技術(shù)峰會上,會有大數(shù)據(jù)專場培訓(xùn)。這里面會涉及哪些方面的內(nèi)容?這些培訓(xùn)適合哪些技術(shù)人員?

這個培訓(xùn)主要涉及到如何用大數(shù)據(jù)的方法解決實際商業(yè)社會的問題,是通過一個電子商務(wù)用戶標(biāo)簽系統(tǒng)的案例給大家展開的。主要涉及到一些數(shù)據(jù)挖掘和機器學(xué)習(xí)算法、工具、分布式實現(xiàn),數(shù)據(jù)團隊的建設(shè)與構(gòu)成,用戶數(shù)據(jù)建模,以及一些相關(guān)的案例。這些案例相對比較基礎(chǔ),但是在很多行業(yè)又比較常見,希望能夠?qū)Υ蠹业男袠I(yè)和業(yè)務(wù)中應(yīng)用大數(shù)據(jù)有所幫助。

責(zé)任編輯:彭凡 來源: 51CTO
相關(guān)推薦

2016-11-15 14:08:02

機器學(xué)習(xí)數(shù)據(jù)挖掘

2019-11-21 14:01:37

Python數(shù)據(jù)挖掘機器學(xué)習(xí)

2018-04-23 11:11:52

數(shù)據(jù)挖掘機器學(xué)習(xí)Python

2015-07-28 15:41:06

機器學(xué)習(xí)算法數(shù)據(jù)挖掘

2016-04-11 14:35:59

機器學(xué)習(xí)數(shù)據(jù)挖掘數(shù)據(jù)模型

2016-04-12 17:12:29

機器學(xué)習(xí)數(shù)據(jù)清洗美團

2024-03-04 08:00:00

PythonOrange3機器學(xué)習(xí)

2023-03-10 08:57:31

機器學(xué)習(xí)電商數(shù)據(jù)挖掘

2017-11-22 12:44:14

機器學(xué)習(xí)數(shù)據(jù)挖掘

2020-07-13 14:50:51

機器學(xué)習(xí)模型算法

2025-04-29 09:26:34

Orange交互式數(shù)據(jù)挖掘機器學(xué)習(xí)

2016-11-15 15:02:00

機器學(xué)習(xí)算法

2013-10-29 09:13:14

程序員數(shù)據(jù)挖掘

2020-12-16 15:56:26

機器學(xué)習(xí)人工智能Python

2021-04-11 18:09:57

機器學(xué)習(xí)業(yè)務(wù)價值人工智能

2024-05-27 00:05:00

2013-04-27 10:52:09

大數(shù)據(jù)全球技術(shù)峰會

2020-09-26 21:42:37

開源數(shù)據(jù)挖掘工具

2018-06-25 11:35:01

2021-07-21 11:25:17

機器學(xué)習(xí)?AI人工智能
點贊
收藏

51CTO技術(shù)棧公眾號