自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

IT龍門陣172期報(bào)道:數(shù)據(jù)挖掘技術(shù)面臨新挑戰(zhàn)

企業(yè)動(dòng)態(tài)
【TechWeb報(bào)道】8月28日消息,今晚在盛大創(chuàng)新院舉辦了第172期IT龍門陣,會(huì)上百分點(diǎn)COO張韶峰、獨(dú)到科技創(chuàng)始人張文浩、騰云天下數(shù)據(jù)挖掘總監(jiān)張夏天和紅麥軟件創(chuàng)始人屈偉分享了電子商務(wù)、社交網(wǎng)絡(luò)等方面的數(shù)據(jù)挖掘技術(shù)及數(shù)據(jù)挖掘面臨的挑戰(zhàn)。
      【TechWeb報(bào)道】8月28日消息,今晚在盛大創(chuàng)新院舉辦了第172期IT龍門陣,會(huì)上百分點(diǎn)COO張韶峰、獨(dú)到科技創(chuàng)始人張文浩、騰云天下數(shù)據(jù)挖掘總監(jiān)張夏天和紅麥軟件創(chuàng)始人屈偉分享了電子商務(wù)、社交網(wǎng)絡(luò)等方面的數(shù)據(jù)挖掘技術(shù)及數(shù)據(jù)挖掘面臨的挑戰(zhàn)。

    張韶峰:搜集了1.4億用戶偏好數(shù)據(jù)

    百分點(diǎn)科技COO張韶峰認(rèn)為互聯(lián)網(wǎng)將IT技術(shù)擴(kuò)展到全人類,大數(shù)據(jù)使得以IBM、Oracle為代表的IT技術(shù)企業(yè)和以Facebook為代表的web2.0互聯(lián)網(wǎng)應(yīng)用發(fā)生聯(lián)系。

    他表示,互聯(lián)網(wǎng)的興起,使得利用用戶在外網(wǎng)上的行為來推薦電子商務(wù)企業(yè)網(wǎng)上的商品成為可能。百分點(diǎn)就是通過“場景引擎”來計(jì)算用戶的心理,“規(guī)則引擎”融合專家的建議,配以算法來給用戶推薦個(gè)性化的商品。

    張韶峰介紹,目前百分點(diǎn)云平臺匯集了250多家公司,約1.4億用戶的偏好數(shù)據(jù)。百分點(diǎn)通過與客戶分享用戶行為數(shù)據(jù),打通顧客在多個(gè)網(wǎng)站的行為數(shù)據(jù),形成顧客商業(yè)行為數(shù)據(jù)平臺,這樣在為用戶服務(wù)時(shí),會(huì)利用這些積累的用戶全網(wǎng)行為偏好和規(guī)律為用戶推薦合適的商品。

    談到用戶識別,張韶峰表示目前百分點(diǎn)的技術(shù)主要是通過cookie 和合作客戶的用戶ID來識別用戶。而基于用戶行為的全網(wǎng)推薦必須解決不同網(wǎng)站對同一商品的不同分類描述,百分點(diǎn)通過建立自己的商品分類商品類目數(shù),通過機(jī)器學(xué)習(xí)和人工校正來對商品進(jìn)行匹配。

    張文浩:社交網(wǎng)絡(luò)數(shù)據(jù)是金礦

    獨(dú)到科技創(chuàng)始人張文浩認(rèn)為社交網(wǎng)絡(luò)產(chǎn)生了海量用戶、實(shí)時(shí)和完整的數(shù)據(jù),同時(shí)社交網(wǎng)絡(luò)也記錄的群體的情緒,通過深入挖掘這些數(shù)據(jù)來了解群體的智慧。

    他介紹了利用社交網(wǎng)絡(luò)數(shù)據(jù)來監(jiān)測天氣變化,這一看似無關(guān)的兩個(gè)概念。通過各個(gè)地區(qū)的“喊熱”人數(shù)來進(jìn)行監(jiān)測,具體流程是通過界定關(guān)鍵詞種子,如“熱”、“口渴”等,在新浪微博里通過爬蟲找到包含種子詞的文本集合,然后結(jié)合語凈抽取規(guī)則、語法規(guī)則得到相關(guān)數(shù)據(jù)。通過文本數(shù)據(jù)轉(zhuǎn)換到天氣相關(guān)的數(shù)據(jù)。

    同時(shí),張文浩指出,數(shù)據(jù)預(yù)測往往是事后諸葛,目前大部分?jǐn)?shù)據(jù)挖掘是基于歷史數(shù)據(jù)做出預(yù)測,而不是對未來的預(yù)測,他認(rèn)為社交網(wǎng)絡(luò)挖掘中機(jī)器對語言語境理解的不足,自然語言處理技術(shù),情感分析算法的給挖掘帶來挑戰(zhàn),此外社交網(wǎng)絡(luò)存在的大量的水軍和僵尸識別以及抽樣的準(zhǔn)確性都對挖掘的準(zhǔn)確性產(chǎn)生了影響。

    而對于微博的數(shù)據(jù)挖掘來說,也存在文本短,特征緯度低,文本口語化,符號多,水軍多等挑戰(zhàn)。“社交網(wǎng)絡(luò)數(shù)據(jù)是一座金礦,但是挖掘過程充滿挑戰(zhàn)。” 張文浩說。

    張夏天:流程管理平臺是數(shù)據(jù)挖掘的挑戰(zhàn)之一

    騰云天下數(shù)據(jù)挖掘總監(jiān)張夏天認(rèn)為大數(shù)據(jù)不是新問題,50年代數(shù)據(jù)挖掘就已存在。隨著計(jì)算機(jī)和互聯(lián)網(wǎng)的出現(xiàn),帶來了超大數(shù)據(jù)量、超高緯度的數(shù)據(jù),數(shù)據(jù)挖掘碰到單臺計(jì)算機(jī)無法解決的超大數(shù)據(jù)量。

    張夏天指出大數(shù)據(jù)對算法和計(jì)算平臺的挑戰(zhàn)增大,維數(shù)災(zāi)難更加嚴(yán)重,計(jì)算開銷大增。

    他認(rèn)為數(shù)據(jù)挖掘是一個(gè)很長的流程,是實(shí)驗(yàn)性探索性的工作,需要不斷調(diào)整算法和參數(shù),這就需要一個(gè)好的數(shù)據(jù)挖掘流程管理平臺來支持?jǐn)?shù)據(jù)挖掘工作。

    對于怎么去駕馭大數(shù)據(jù)挖掘,張夏天認(rèn)為,從數(shù)據(jù)層面來看,可以減少數(shù)據(jù)量,化大數(shù)據(jù)為小數(shù)據(jù),找到和挖掘出合適的數(shù)據(jù),通過抽樣的方式把數(shù)據(jù)分而治之也是解決大數(shù)據(jù)的一個(gè)不錯(cuò)的方式。

    此外他分享數(shù)據(jù)挖掘經(jīng)驗(yàn)認(rèn)為Hadoop不是做多次迭代的好選擇。用64GB單機(jī)單線程跑機(jī)器學(xué)習(xí),比有200多個(gè)節(jié)點(diǎn)的Hadoop集群耗費(fèi)時(shí)間更少。

    屈偉:數(shù)據(jù)挖掘應(yīng)用廣泛

    紅麥軟件技術(shù)有限公司創(chuàng)始人屈偉認(rèn)為數(shù)據(jù)挖掘存在廣泛應(yīng)用,他分享了幾種簡單的數(shù)據(jù)挖掘手段。

    首先是自動(dòng)標(biāo)簽技術(shù),即通過TF-IDF算法給文章設(shè)置關(guān)鍵詞,區(qū)分關(guān)鍵詞的重要程度。TF-IDF算法發(fā)現(xiàn)越是重要的詞出現(xiàn)的頻率越低,TF-IDF算法給沒個(gè)詞賦予不同的權(quán)重,來區(qū)分關(guān)鍵詞。

    自動(dòng)分類技術(shù)方面,GMAIL對垃圾郵件的過濾就是基于自動(dòng)分類的。具體的實(shí)現(xiàn)手段是對不同類型的文章進(jìn)行分詞,通過比較同一個(gè)詞在不同類別文章中的出現(xiàn)次數(shù),計(jì)算出現(xiàn)概率,利用貝葉斯理論來計(jì)算每一個(gè)詞對類別的貢獻(xiàn)概率,進(jìn)而進(jìn)行判別。而聚類分析,則可以通過計(jì)算距離的來實(shí)現(xiàn)對復(fù)雜特征的聚類。

    在談到社會(huì)化推薦時(shí),他認(rèn)為這個(gè)看似很復(fù)雜的功能也可以通過簡單的方法來實(shí)現(xiàn)。比如用戶已經(jīng)看過10本書,推薦第11本,那么可以找出同時(shí)看過10本書的人,假如找到了50人,然后在看找到這50人都讀過的書進(jìn)行推薦。

    在數(shù)據(jù)挖掘的應(yīng)用上,他表示數(shù)據(jù)挖掘口碑分析,產(chǎn)品評價(jià),競品分析,微博潛在用戶,市場效果評估,品牌影響等方面進(jìn)行應(yīng)用。(寧萌)

責(zé)任編輯:市場部 來源: TechWeb
相關(guān)推薦

2012-08-22 13:33:39

移動(dòng)視頻

2012-11-28 15:14:00

2012-07-25 16:37:11

IT龍門陣

2012-09-26 17:53:25

2012-08-06 17:32:58

移動(dòng)互聯(lián)網(wǎng)

2012-10-17 15:12:53

移動(dòng)廣告

2014-10-24 13:52:07

手機(jī)

2014-04-23 10:31:24

高德LBS應(yīng)用精品APP

2012-03-28 13:06:40

App

2014-06-27 15:47:49

2012-03-12 09:51:42

上市

2012-08-08 09:43:58

移動(dòng)端數(shù)據(jù)分享

2012-07-18 14:30:00

豬八戒網(wǎng)

2012-08-01 15:29:23

Android

2014-05-28 09:28:18

IT龍門陣

2012-03-14 11:25:17

愛樂活

2012-06-27 09:38:25

自然語言

2012-05-23 14:35:41

金山軟件

2012-09-19 15:38:02

移動(dòng)互聯(lián)網(wǎng)

2013-01-28 14:12:45

移動(dòng)廣告
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號