自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

活的大數(shù)據(jù)實(shí)戰(zhàn)——人群標(biāo)簽及標(biāo)簽關(guān)聯(lián)性挖掘

云計(jì)算
“大數(shù)據(jù)”時(shí)代的到來,為各個(gè)行業(yè)利用數(shù)據(jù)進(jìn)行預(yù)判、分析、優(yōu)化都起到了至關(guān)緊要的作用。而如何使大數(shù)據(jù)發(fā)揮其根本價(jià)值,真的為我們所用,是全世界數(shù)據(jù)算法科學(xué)家為之奮斗的技術(shù)性難題。

2013年初,第85屆奧斯卡金像獎(jiǎng)?lì)C獎(jiǎng)禮在美國好萊塢舉行。而在頒獎(jiǎng)禮之前,微軟紐約研究院經(jīng)濟(jì)學(xué)家David·Rothschild通過大數(shù)據(jù)分析,對(duì)此次奧斯卡各獎(jiǎng)項(xiàng)的得主進(jìn)行了預(yù)測(cè)。結(jié)果顯示,除最佳導(dǎo)演獎(jiǎng)有所出入外,其它各獎(jiǎng)項(xiàng)全部命中。這并不是David第一次準(zhǔn)確預(yù)測(cè),在2012年美國總統(tǒng)大選中,他就曾準(zhǔn)確預(yù)測(cè)了51個(gè)選區(qū)中50個(gè)地區(qū)的選舉結(jié)果,準(zhǔn)確度高于98%。

“大數(shù)據(jù)”時(shí)代的到來,為各個(gè)行業(yè)利用數(shù)據(jù)進(jìn)行預(yù)判、分析、優(yōu)化都起到了至關(guān)緊要的作用。而如何使大數(shù)據(jù)發(fā)揮其根本價(jià)值,真的為我們所用,是全世界數(shù)據(jù)算法科學(xué)家為之奮斗的技術(shù)性難題。

找出數(shù)據(jù)間的關(guān)系——

1980年,托夫勒在《第三次浪潮》中就曾預(yù)言:“如果說IBM的主機(jī)拉開了信息化革命的大幕,那么‘大數(shù)據(jù)’則是第三次浪潮的華彩樂章”。

在數(shù)據(jù)呈十萬億億字節(jié)ZB級(jí)增長的當(dāng)下,如何從海量數(shù)據(jù)中獲取并過濾有價(jià)值的關(guān)系信息,是對(duì)所有數(shù)據(jù)從業(yè)者而言的一大挑戰(zhàn)。而如何建立數(shù)據(jù)間的關(guān)系,也是如何使大數(shù)據(jù)“活”起來的必經(jīng)之路。

 

 

在日常生活中,我們常會(huì)發(fā)現(xiàn)這樣的情況,在諸如谷歌、百度等搜索引擎搜索若干關(guān)鍵詞后,例如“睫毛膏”、“不暈染”、“濃密”、“纖長”等關(guān)鍵字,在搜索結(jié)果頁面常會(huì)看到睫毛膏的廣告推廣。似乎,這些搜索引擎明確知道了我們想要做什么、我們會(huì)對(duì)什么感興趣。

這一切其實(shí)并不神奇,這只是算法科學(xué)家通過數(shù)據(jù)收集、建模、分析之后,將用戶、搜索字、搜索字相關(guān)廣告這幾類數(shù)據(jù)進(jìn)行了關(guān)聯(lián)。所以當(dāng)我們進(jìn)行搜索的時(shí)候,看到匹配的廣告,就并不難以理解了。

最近,美國的“棱鏡”計(jì)劃引起了全世界范圍內(nèi)的關(guān)注,諸如個(gè)人隱私等話題被不斷提及。在一系列爭(zhēng)議之中,隨著IT業(yè)巨頭們紛紛被斯諾登拉下水,“大數(shù)據(jù)”這一個(gè)先鋒技術(shù)概念再次被拉到聚光燈前。

有人甚至“善意”的對(duì)后續(xù)前往美國留學(xué)的求學(xué)者提出建議,在與家人或朋友的電話中多提及諸如“如何用高壓鍋制造炸彈”、“怎么制造TNT炸藥”等敏感字眼,用來加大美國情報(bào)分析機(jī)構(gòu)的工作量。然而,這種方法真的有效嗎?我看并不盡然。

事實(shí)上,沒有規(guī)律和結(jié)構(gòu)可言的數(shù)據(jù)并無任何意義,而美國的數(shù)據(jù)分析家顯然早已認(rèn)識(shí)到這一點(diǎn)。僅僅獲取電話錄音、上網(wǎng)足跡等數(shù)據(jù)、將這些數(shù)據(jù)匯聚在一起并不足夠,這僅僅完成了“大數(shù)據(jù)”。而真正使數(shù)據(jù)產(chǎn)生價(jià)值,只有將這些碎片化的數(shù)據(jù)進(jìn)行分析比對(duì),將人們的真實(shí)身份、性格、消費(fèi)習(xí)慣、需求等個(gè)人信息還原后,數(shù)據(jù)才得以“活”起來。

據(jù)美國數(shù)據(jù)分析家所言,僅通過一次電話發(fā)生的時(shí)間、通話時(shí)長、通話的地點(diǎn)這幾條數(shù)據(jù),就可判斷出該通話是否存在恐怖襲擊的可能性。而這,就是通過建立海量的用戶通話數(shù)據(jù)與恐怖襲擊之間的聯(lián)系后,才得出的分析結(jié)論。#p# 

可靠的數(shù)據(jù)模型——

David·Rothschild表示:“我們創(chuàng)建的模型是能夠預(yù)測(cè)未來的,而不只是過去發(fā)生的。科學(xué)是相同的,但證明哪些數(shù)據(jù)最有用卻存在千差萬別。”

 

 

和傳統(tǒng)由人工進(jìn)行數(shù)據(jù)統(tǒng)計(jì)及收集的方式,網(wǎng)絡(luò)時(shí)代的數(shù)據(jù)更多來自機(jī)器,利用機(jī)器進(jìn)行自動(dòng)化的數(shù)據(jù)抓取及存儲(chǔ),并批量化導(dǎo)入數(shù)據(jù)庫用于后續(xù)分析及使用。

例如某條街道上記錄車流量的攝像頭,通過24小時(shí)的實(shí)時(shí)監(jiān)控將道路情況,整理統(tǒng)計(jì)并用于后續(xù)分析。而通過攝像頭記錄道路情況,顯然比傳統(tǒng)交警站崗統(tǒng)計(jì)違章情況更有效,但同時(shí)對(duì)于數(shù)據(jù)的分析要求也就更高。

在大數(shù)據(jù)時(shí)代,隨著數(shù)據(jù)規(guī)模呈指數(shù)級(jí)增長,對(duì)數(shù)據(jù)進(jìn)行加工和分析的主角,也由原先統(tǒng)計(jì)和分析人員變成了程序員和算法師。程序員和算法師通過建立了無數(shù)且復(fù)雜的數(shù)學(xué)模型,并不斷進(jìn)行優(yōu)化與調(diào)整,找尋出數(shù)據(jù)間微妙的聯(lián)系,并在各渠道中對(duì)這些聯(lián)系進(jìn)行應(yīng)用。

我們先撇開“棱鏡”計(jì)劃這件事情本身是否應(yīng)該存在的爭(zhēng)議性不談,單純從技術(shù)角度來講,“棱鏡”計(jì)劃與大數(shù)據(jù)時(shí)代的發(fā)展是密不可分的。

誠然,每個(gè)個(gè)體的行為也許都不盡相同,但都是有規(guī)律的。通過海量數(shù)據(jù)的獲取與分析,能夠獲得人們的行為習(xí)慣的有效信息,當(dāng)信息量累積到足夠的規(guī)模之后,科學(xué)家們通過建模找尋數(shù)據(jù)間的聯(lián)系,從而對(duì)每個(gè)人的個(gè)體行為習(xí)慣進(jìn)行推測(cè),并提供分析。而“棱鏡”計(jì)劃正是通過海量數(shù)據(jù)的收集,建模與分析,找尋到單一個(gè)體與諸如“恐怖襲擊”、“隱藏罪案”等事件間的聯(lián)系,并采取相應(yīng)應(yīng)對(duì)方式的計(jì)劃。

當(dāng)洛杉磯警方通過“棱鏡”計(jì)劃所收集到的數(shù)據(jù),對(duì)幾十年的犯罪記錄進(jìn)行分析后,預(yù)測(cè)犯罪行為模式與頻率,從而有針對(duì)地安排警力的時(shí)候,廣告主也可以通過分析海量客戶的購買行為能夠了解客戶,進(jìn)行有針對(duì)的營銷以提升業(yè)務(wù),而易傳媒人群標(biāo)簽算法,就是幫助廣告主了解用戶并提升投放效果的數(shù)據(jù)分析模型,是“活”的大數(shù)據(jù)的現(xiàn)實(shí)實(shí)踐者。#p# 

“活”的大數(shù)據(jù)實(shí)踐者——

美國記者華萊士曾經(jīng)談笑風(fēng)生地說:“如果它看起來像鴨子,游泳像鴨子,叫聲像鴨子,那么它可能就是只鴨子。”

而易傳媒人群標(biāo)簽算法,就是幫助廣告主找到“鴨子”。

在營銷界,啤酒和尿布的案例一直為人們所熟悉。普通人可能無法理解,為什么尿布與啤酒這兩種風(fēng)馬牛不相及的商品擺在一起,居然使兩者的稍量大幅增加。原來,媽媽們通經(jīng)常會(huì)囑咐丈夫在下班回家的路上為孩子買尿布,而丈夫在買尿布的同時(shí)又會(huì)順手購買自己愛喝的啤酒。這個(gè)發(fā)現(xiàn)為商家?guī)砹舜罅康睦麧?,而在互?lián)網(wǎng)浩如煙海卻又雜亂無章的數(shù)據(jù)中,發(fā)現(xiàn)類似“啤酒和尿布”之間聯(lián)系,就是人群標(biāo)簽算法的核心價(jià)值所在。

人群標(biāo)簽算法首先根據(jù)互聯(lián)網(wǎng)的行為屬性將人進(jìn)行了區(qū)隔,隨后分析不同人群之間的共同屬性,建立人群間的聯(lián)系并應(yīng)用于后續(xù)的廣告投放。

這好比某超市門店發(fā)現(xiàn):老張買了2瓶啤酒、4袋花生米??墒窃诔兄?,了解一個(gè)又一個(gè)老張們的喝酒習(xí)慣沒有意義。門店需要知道的是,有多少個(gè)老張?又有多少個(gè)喝酒習(xí)慣不同的老李?將喝啤酒配花生米的老張與喝干白葡萄酒配腰果的老李分開,分成不同的客戶群體才有意義。比如只要知道,在喝酒的100個(gè)客戶里,有30個(gè)喝啤酒配花生米的老張,10個(gè)喝干白葡萄酒配腰果的老李,另外有20個(gè)老王是喝黃酒配豆腐干,這就足夠了。這時(shí)就可以知道,啤酒與花生米有關(guān)系,干白葡萄酒與腰果有關(guān)系,黃酒與豆腐干有關(guān)系,那么這些商品可以考慮一起促銷,或者擺放在相近的位置進(jìn)行陳列。

易傳媒人群標(biāo)簽算法,是將互聯(lián)網(wǎng)上的“老張”、“老李”、“老王”區(qū)分開,并找到他們真正關(guān)注的內(nèi)容,將其標(biāo)簽化處理后,分析標(biāo)簽間的關(guān)系并進(jìn)行關(guān)聯(lián)化投放的算法。比如我們發(fā)現(xiàn)到把瀏覽汽車網(wǎng)站作為每天必做事項(xiàng)的老張,也經(jīng)常搜索“LED電視”,從而對(duì)其標(biāo)記“汽車”與“LED電視”的人群標(biāo)簽,當(dāng)發(fā)現(xiàn)千千萬萬個(gè)“老張”都同時(shí)具有“汽車”與“LED電視”標(biāo)簽的時(shí)候,我們發(fā)現(xiàn)這兩個(gè)標(biāo)簽似乎存在某種必然的聯(lián)系,便可對(duì)這些“老張”們,投放LED電視的廣告了。而這在過去,僅憑經(jīng)驗(yàn)主義大行其道的時(shí)代,汽車與LED電視,便如啤酒與尿布一樣,是風(fēng)馬牛不相及的兩種東西,是萬萬想不到這兩者之間的聯(lián)系的。

 

 

互聯(lián)網(wǎng)的海量數(shù)據(jù)不僅可以提煉歸類并開發(fā)成為實(shí)用的系統(tǒng)工具,在實(shí)際執(zhí)行中,數(shù)據(jù)也是無處不在并且可以被擴(kuò)展化使用的。而“人群標(biāo)簽算法”就是賦予數(shù)據(jù)活力,使大數(shù)據(jù)“活”起來的一種典型體現(xiàn)。人群標(biāo)簽算法是通過線上人群行為數(shù)據(jù)的收集,抽取并標(biāo)記以產(chǎn)品導(dǎo)向的興趣標(biāo)簽,經(jīng)由人群標(biāo)簽聚類,并對(duì)人群進(jìn)行行為及興趣趨勢(shì)分析的流程化算法。

通過持續(xù)的、多渠道的、海量的數(shù)據(jù)收集及管理,易傳媒從線上到線下,從在線到移動(dòng),將受眾進(jìn)行納米級(jí)微分,幫助廣告主最準(zhǔn)找到人、管理人,支持強(qiáng)大的受眾區(qū)隔,提供包括26類人口屬性細(xì)分、20大類159小類行為興趣細(xì)分、3大類產(chǎn)品行業(yè)、數(shù)千種行業(yè)產(chǎn)品意向細(xì)分,共13000多個(gè)、3層結(jié)構(gòu)的受眾標(biāo)簽。

大數(shù)據(jù)時(shí)代,最大的創(chuàng)新就在于,人們可以通過算法科學(xué)家及數(shù)據(jù)分析師們不斷調(diào)整優(yōu)化的數(shù)據(jù)模型來解讀大腦無法處理的數(shù)據(jù)間關(guān)系,我們的四周充斥著數(shù)據(jù),而我們的生活也被不斷收集數(shù)據(jù)的計(jì)算機(jī)引導(dǎo)并優(yōu)化著。

通過大數(shù)據(jù)相對(duì)理性的分析,結(jié)合大腦感性的思維方式,在面對(duì)決策和判斷是十字路口,我們會(huì)得出性價(jià)比更高的結(jié)論,得到更高效的解決方案。而這一切,才是大數(shù)據(jù)帶給我們的無盡財(cái)富和價(jià)值。而易傳媒,在將“活”的大數(shù)據(jù)運(yùn)用在互聯(lián)網(wǎng)廣告投放這件事情上,也將不遺余力、不斷前進(jìn)。

責(zé)任編輯:王程程 來源: 速途網(wǎng)
相關(guān)推薦

2015-08-18 14:47:10

大數(shù)據(jù)

2018-01-05 16:07:49

VM-VMVM-host規(guī)則

2013-04-23 14:36:54

2009-07-21 08:41:05

Scala操作符優(yōu)先級(jí)

2015-11-06 09:43:28

大數(shù)據(jù)Palantir

2015-10-22 19:00:43

明略數(shù)據(jù)

2021-03-09 10:06:34

大數(shù)據(jù)畫像數(shù)據(jù)采集

2016-12-15 21:41:15

大數(shù)據(jù)

2009-06-05 10:12:36

Struts標(biāo)簽庫HTML標(biāo)簽

2011-03-16 09:49:54

HTML 5

2017-08-31 16:36:26

2016-11-08 13:11:46

大數(shù)據(jù)數(shù)據(jù)挖掘

2017-03-13 09:48:26

pysparkhive數(shù)據(jù)

2009-08-18 13:54:41

C#標(biāo)簽

2023-08-02 08:11:58

Gaussdb系統(tǒng)廠商

2011-03-21 09:55:14

2012-09-27 09:17:35

大數(shù)據(jù)云服務(wù)云計(jì)算

2018-12-07 14:59:37

2009-06-04 09:20:19

struts2 if標(biāo)使用

2021-10-19 17:52:56

數(shù)據(jù)分析標(biāo)簽
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)