自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

考拉FM的個(gè)性化數(shù)據(jù)挖掘和處理

新聞
提起FM類(lèi)APP,你都會(huì)想起哪些應(yīng)用程序?來(lái)自易觀智庫(kù)數(shù)據(jù)顯示,2014年3月電臺(tái)類(lèi)應(yīng)用月度活躍人數(shù)最高的APP仍是考拉FM。上線不到一年的考拉FM,為何發(fā)展如此之猛?

提起FM類(lèi)APP,你都會(huì)想起哪些應(yīng)用程序?來(lái)自易觀智庫(kù)數(shù)據(jù)顯示,2014年3月電臺(tái)類(lèi)應(yīng)用月度活躍人數(shù)最高的APP仍是考拉FM。上線不到一年的考拉FM,為何發(fā)展如此之猛?

 

與其他移動(dòng)端電臺(tái)不同的是,考拉FM采用個(gè)性化推薦音頻流的播放邏輯,在用戶(hù)未進(jìn)行主動(dòng)選擇的情況下依舊能夠收聽(tīng)到心儀的節(jié)目。移動(dòng)音頻娛樂(lè)與大數(shù)據(jù)挖掘的結(jié)合會(huì)是怎樣的爆發(fā)?不久前,在中國(guó)電子學(xué)會(huì)主辦的“云計(jì)算大會(huì)”上,考拉FM的CTO崔義超發(fā)表主題演講,闡述考拉FM的數(shù)據(jù)挖掘和處理方法。小編在聽(tīng)完崔義超的發(fā)言后趕腳很有價(jià)值,為了讓咱的粉絲們也能分享到這份干貨,小編放棄休息時(shí)間把速記文本整理成文。

 [[113738]]

考拉FM CTO崔義超

大數(shù)據(jù)在數(shù)字娛樂(lè)行業(yè)應(yīng)用,音頻媒體特點(diǎn)分析

1、音頻伴隨性高于視頻、文字內(nèi)容:

崔義超:現(xiàn)在大家上網(wǎng)可以看圖文、視頻,為什么還要“聽(tīng)”呢?因?yàn)?ldquo;聽(tīng)”有其獨(dú)特性,其目的是滿(mǎn)足用戶(hù)情感或資訊的需求,但最重要的一點(diǎn):“聽(tīng)”是一種伴隨狀態(tài),即在做重要事情時(shí)的伴隨效應(yīng):比如開(kāi)車(chē)時(shí)不能看視頻,工作學(xué)習(xí)時(shí)不能上網(wǎng)閱讀文章,唯獨(dú)音頻是可以在這些情況下進(jìn)行伴隨和消費(fèi)的媒介。

2、移動(dòng)互聯(lián)網(wǎng)時(shí)代,音頻將成為主流

崔義超:2000年前后,已經(jīng)有先驅(qū)嘗試在互聯(lián)網(wǎng)上做音頻內(nèi)容,就是所謂的互聯(lián)網(wǎng)電臺(tái),比如糖蒜廣播到現(xiàn)在已經(jīng)做了十來(lái)年,有上百萬(wàn)的粉絲,但這些嘗試一直沒(méi)有形成網(wǎng)絡(luò)媒介的主流。隨著移動(dòng)互聯(lián)網(wǎng)時(shí)代到來(lái),手機(jī)的普及,以及今年開(kāi)始的車(chē)聯(lián)網(wǎng)普及,使音頻與移動(dòng)互聯(lián)網(wǎng)高度結(jié)合,聲音以一種新的形式重新呈現(xiàn)在大家面前,這就是我們現(xiàn)在做的考拉FM。另外還有電臺(tái)匯總類(lèi)APP,比如蜻蜓FM,或點(diǎn)播聽(tīng)書(shū)類(lèi)APP等。

3、考拉FM是真正的移動(dòng)電臺(tái)——源源不斷的音頻流

崔義超:考拉FM是一個(gè)什么樣的產(chǎn)品?我們把它叫做個(gè)性化的手機(jī)電臺(tái)。這是什么含義?首先我們是一個(gè)電臺(tái)。傳統(tǒng)電臺(tái)大家可能都聽(tīng)過(guò),電臺(tái)的特性是一個(gè)源源不斷的流,只要不手動(dòng)停止,它就一直播下去;另外具有聲音不期而遇的特點(diǎn),聽(tīng)眾可以突然聽(tīng)到一段非常打動(dòng)人心的聲音,而不像聽(tīng)CD。我們做的手機(jī)電臺(tái)也想堅(jiān)持這樣的特點(diǎn),給聽(tīng)眾帶來(lái)不期而遇的驚喜和觸動(dòng)。

考拉FM個(gè)性化大數(shù)據(jù)挖掘和處理

1、考拉FM定義的個(gè)性化

崔義超:什么是個(gè)性化?考拉FM將其定義為“每一個(gè)人聽(tīng)到的都是自己愛(ài)聽(tīng)的,或至少是我不討厭的。”這叫個(gè)性化。為什么在手機(jī)電臺(tái)上需要個(gè)性化呢?音頻的特性是伴隨,試想一個(gè)場(chǎng)景:比如在家里做家務(wù)、做飯,用戶(hù)打開(kāi)考拉FM丟到旁邊,讓它自動(dòng)播放。這種狀態(tài)下,如果你聽(tīng)到的不是你想聽(tīng)的就需要操作,這就失去了伴隨的意義,所以只有你聽(tīng)到是你愛(ài)聽(tīng)的才會(huì)實(shí)現(xiàn)伴隨,丟到旁邊不用管。

2、音頻個(gè)性化體驗(yàn)重在專(zhuān)業(yè)編排,仿照傳統(tǒng)電臺(tái)

崔義超:音頻個(gè)性化推薦,不是考拉FM先提出來(lái)的,之前有很多先驅(qū)做這方面的事情。在互聯(lián)網(wǎng)或移動(dòng)互聯(lián)網(wǎng)之前,傳統(tǒng)電臺(tái)是怎么做的?經(jīng)常聽(tīng)電臺(tái)的人可能覺(jué)得傳統(tǒng)電臺(tái)做得很好,很直觀的感受,但為什么好聽(tīng),怎么樣做到好聽(tīng)?聽(tīng)眾可能說(shuō)不出來(lái)。其實(shí)這就是編排,即通過(guò)專(zhuān)家把節(jié)目串成音頻流,這是一個(gè)經(jīng)驗(yàn)工種。比如一檔節(jié)目播幾分鐘的音樂(lè),插一個(gè)主持人的幾句話,然后可能插播一段廣告,接著每個(gè)話題聊5分鐘、7分鐘……這些都是需要經(jīng)驗(yàn)的。我們希望比照傳統(tǒng)電臺(tái)聽(tīng)起來(lái)不累,可以一直聽(tīng)下去,達(dá)到伴隨的效果。

進(jìn)入互聯(lián)網(wǎng)時(shí)代,每個(gè)人聽(tīng)到的內(nèi)容不一樣,不可能靠專(zhuān)家預(yù)先給每個(gè)人編排好節(jié)目。于是就需要算法,美國(guó)的PANDORA和豆瓣FM都做了嘗試。對(duì)考拉FM,與其他音頻APP最大的不同即是我們比照傳統(tǒng)電臺(tái),通過(guò)獨(dú)特的算法編排把聲音串起來(lái),努力讓音頻流達(dá)到既讓用戶(hù)想聽(tīng)又好聽(tīng)的效果,這就是音頻個(gè)性化推薦要做的事情。

3、分類(lèi)、標(biāo)簽等輔助推薦

 15

崔義超:在后臺(tái)內(nèi)容組織體系里,為了完成個(gè)性化推薦,傳統(tǒng)視頻網(wǎng)站都建立了媒資系統(tǒng),比如上傳、發(fā)布、版權(quán)、編解碼等,但在與個(gè)性化推薦有關(guān)的獨(dú)特地方,就需要更精確的內(nèi)容分類(lèi),這需要有專(zhuān)家經(jīng)驗(yàn)推薦,還有標(biāo)簽體系。像PANDORA,從2004年開(kāi)始把每首歌打了400多個(gè)不同維度的標(biāo)簽。所以考拉FM要做到個(gè)性化推薦必須要有強(qiáng)大的標(biāo)簽體系,對(duì)不同維度進(jìn)行管理,建立規(guī)則體系。

4、建立用戶(hù)模型

 16

崔義超:每個(gè)用戶(hù)的用戶(hù)行為非常多且復(fù)雜,對(duì)于考拉FM就有喜歡、不喜歡、跳過(guò)等等。我們了解用戶(hù),可能要收集上傳很多用戶(hù)數(shù)據(jù),比如地域、收集時(shí)間,瀏覽路徑,收聽(tīng)順序、時(shí)間,是否使用快進(jìn)、快退等,所有這些數(shù)據(jù)都是具體了解用戶(hù)對(duì)節(jié)目的需求或用戶(hù)的使用場(chǎng)景狀況的基礎(chǔ)。

上報(bào)以后,我們用什么方式把這些數(shù)據(jù)進(jìn)行存儲(chǔ)?大家都很熟悉大數(shù)據(jù)用Hadoop存日志,怎樣做到在線進(jìn)行推薦,這和存儲(chǔ)結(jié)構(gòu)相關(guān)。這些數(shù)據(jù)要能夠用來(lái)做推薦,數(shù)據(jù)清晰肯定也是很重要的。比如測(cè)試機(jī)打開(kāi)以后24小時(shí)播放,每一個(gè)節(jié)目都不做操作,這種數(shù)據(jù)對(duì)實(shí)際分析來(lái)說(shuō)應(yīng)該去掉,因?yàn)闆](méi)有提供任何價(jià)值。還有同樣測(cè)試時(shí),每個(gè)節(jié)目快速滑過(guò),看到底能夠出現(xiàn)多少節(jié)目,下面是什么樣的,可能每個(gè)節(jié)目聽(tīng)了都不到2秒鐘,這種數(shù)據(jù)在做預(yù)處理時(shí)刪掉。在拿到有效數(shù)據(jù)后,考拉FM會(huì)分析用戶(hù)行為特征,比如通過(guò)聚類(lèi),看用戶(hù)到底有哪些特征,比如聚成30多類(lèi)用戶(hù),有些用戶(hù)特征明顯,早上起來(lái)就聽(tīng)新聞,放其他都滑過(guò);還有用戶(hù)中午就喜歡聽(tīng)音樂(lè),放其他的都不喜歡聽(tīng),最終建立用戶(hù)模型。

5、興趣圖譜分析

 17

崔義超:接下來(lái)做興趣分析。用興趣圖譜的分析,首先進(jìn)行用戶(hù)分析,建立興趣圖譜,針對(duì)每個(gè)用戶(hù)建立一個(gè)推薦節(jié)目的列表,也就是給他一個(gè)排序,我們有幾萬(wàn)期節(jié)目可能分成幾百上千檔,每個(gè)用戶(hù)興趣點(diǎn)不同,如果他非常喜歡某節(jié)目,這檔節(jié)目的排名就靠前,有些不喜歡的節(jié)目排名就非常低,甚至通過(guò)一些過(guò)濾條件把不喜歡的節(jié)目排除掉,除了用數(shù)據(jù)做分析,我們也可以用到數(shù)據(jù)挖掘,同樣類(lèi)型的用戶(hù)通過(guò)使用協(xié)同過(guò)濾、邏輯回歸、樸素貝葉斯等方法協(xié)助生成每一個(gè)用戶(hù)節(jié)目的排名。哪些用戶(hù)喜歡這個(gè)節(jié)目的小池子,就放到他的喜歡池里。

接著這些池子是不是按順序播放?如果這樣做,可能有些用戶(hù)喜歡,但每天都聽(tīng)到的是固定的,其實(shí)聽(tīng)起來(lái)并不好聽(tīng),這時(shí)候就要用到電臺(tái)獨(dú)特的編排。我們?cè)谧隹祭璅M初期,在不了解用戶(hù)時(shí),考拉FM先做一個(gè)普世的人工電臺(tái)播法,比如先播昨天所有新聞掃描,然后放國(guó)內(nèi)新聞、國(guó)際新聞,但實(shí)際用戶(hù)操作以后,這個(gè)預(yù)先編排就不成立了;比如我放體育新聞,一個(gè)女生對(duì)新聞完全不感興趣,她聽(tīng)到的新聞就會(huì)減少。這種情況下,我們?cè)趺礃油瓿删幣?,就要說(shuō)到一些規(guī)則,通過(guò)規(guī)則體系逐漸形成用算法代替人工,同時(shí)還要結(jié)合音頻獨(dú)特的時(shí)段分析,比如很多用戶(hù)早晨喜歡聽(tīng)新聞,晚上女生可能會(huì)聽(tīng)一些情感類(lèi)的,當(dāng)然也有一些用戶(hù)喜歡聽(tīng)鬼故事睡覺(jué)。

編排確定以后,再把用戶(hù)興趣圖譜結(jié)合起來(lái),就知道了用戶(hù)某時(shí)段想聽(tīng)情感類(lèi)節(jié)目,這類(lèi)節(jié)目可能有上百檔,再根據(jù)剛才的排名按順序給大家進(jìn)行推送。這是整個(gè)推薦的體系架構(gòu),但實(shí)際執(zhí)行中我們碰到很多技術(shù)上的難點(diǎn),比如存儲(chǔ)的體系,用戶(hù)數(shù)據(jù)是海量的,在收集了大概三四個(gè)月時(shí)間用戶(hù)數(shù)據(jù)就上了T,這些數(shù)據(jù)如果都參加實(shí)時(shí)計(jì)算,效率肯定非常低,所以我們?cè)趺礃訁^(qū)分活躍用戶(hù)和冷用戶(hù),用不同方式存起來(lái)就是個(gè)問(wèn)題??祭璅M的解決方案是把不常用數(shù)據(jù)用文件存起來(lái),有些則用其他手段存儲(chǔ)結(jié)構(gòu)性數(shù)據(jù),把不同存儲(chǔ)的數(shù)據(jù)抓過(guò)來(lái)進(jìn)行計(jì)算,同時(shí)計(jì)算效率。我們把內(nèi)容以及用戶(hù)數(shù)據(jù)結(jié)合起來(lái),選擇參與計(jì)算的數(shù)據(jù)和離線數(shù)據(jù)。

考拉FM的大數(shù)據(jù)分析到底效果好不好?這不是憑空決定的,既然都用數(shù)據(jù)說(shuō)話,就要有數(shù)據(jù)來(lái)評(píng)估效果。考拉FM是不是用收聽(tīng)人數(shù)增長(zhǎng)來(lái)考慮,這很難考量,因?yàn)槿藬?shù)有很多其他因素決定,比如推廣渠道、節(jié)假日因素等等。比如我做了一個(gè)算法改進(jìn)之后,用戶(hù)總收聽(tīng)時(shí)長(zhǎng)是否增加,或者完整收聽(tīng)率,即每一個(gè)節(jié)目是否聽(tīng)了,聽(tīng)了90%,還是聽(tīng)了85%,可以判斷這個(gè)算法到底是不是改進(jìn)了,或者是不是還有改進(jìn)的空間,這就是我們現(xiàn)在正在做的事情。

Q:對(duì)于考拉來(lái)說(shuō),用戶(hù)需要花多長(zhǎng)時(shí)間進(jìn)行操作學(xué)習(xí)?

崔義超:這是好問(wèn)題,對(duì)所有數(shù)據(jù)挖掘來(lái)說(shuō),訓(xùn)練時(shí)間都是很重要的。但我不能籠統(tǒng)回答,這個(gè)用戶(hù)只要使用了,可以說(shuō)一直在訓(xùn)練,而且他的提升都是一直在改進(jìn)。比如完整收聽(tīng)率,可能之前完全是收聽(tīng)的專(zhuān)家編排的節(jié)目,這時(shí)候完整收聽(tīng)率平均30%多,現(xiàn)在完整收聽(tīng)率達(dá)到60%、70%,這是一個(gè)持續(xù)不斷改進(jìn)的過(guò)程。對(duì)于一個(gè)新用戶(hù)來(lái)說(shuō),你用到“訓(xùn)練”這個(gè)詞,有一個(gè)最大的問(wèn)題其實(shí)不是訓(xùn)練,在用戶(hù)還沒(méi)有感受到你的個(gè)性化好處的時(shí)候,他可能不再使用了,所以預(yù)設(shè)的規(guī)則非常重要。我們會(huì)對(duì)大多數(shù)人進(jìn)行簡(jiǎn)單的了解,然后給出預(yù)設(shè)電臺(tái),這個(gè)電臺(tái)聽(tīng)起來(lái)至少不討厭,然后才會(huì)參與到所謂的訓(xùn)練中。用戶(hù)使用時(shí)間越長(zhǎng),推送內(nèi)容越精確,我很難答需要多長(zhǎng)時(shí)間,但如果用戶(hù)一周使用兩三次,基本上推送精確性就有明顯提升,使用時(shí)間越長(zhǎng),效果越好。

Q:作為一個(gè)新用戶(hù),能否利用我的一些社交數(shù)據(jù),比如微博或豆瓣閱讀之類(lèi)的個(gè)人信息來(lái)提供這樣的幫助?

崔義超:你這個(gè)問(wèn)題非常好,這是我們?nèi)ツ暌恢痹谧龅氖虑?。先講我們的思路和你的問(wèn)題非常接近,之前用戶(hù)進(jìn)來(lái)以后先不讓他收聽(tīng),希望用戶(hù)用微博登陸,如果用戶(hù)不用微博登陸我們有一個(gè)選項(xiàng)是“隨便聽(tīng)聽(tīng)”,為什么用微博登陸,因?yàn)槲覀冇幸惶壮墒斓耐ㄟ^(guò)微博數(shù)據(jù)分析方法,從而得出用戶(hù)興趣圖譜。但現(xiàn)在雖然還提供微博登陸入口,但不是強(qiáng)制登陸,因?yàn)閮牲c(diǎn):強(qiáng)制登陸提高了用戶(hù)使用門(mén)檻,導(dǎo)致部分用戶(hù)直接走掉了;第二和去年大環(huán)境有關(guān),當(dāng)時(shí)微博活躍度一直在下降,所以我們覺(jué)得微博這樣一個(gè)入口并不能提供很好的解決冷啟動(dòng)的渠道,所以我們后來(lái)?yè)Q用其他方式。你說(shuō)的非常重要,我們非常希望能通過(guò)社交數(shù)據(jù)的引入來(lái)部分解決冷啟動(dòng)的問(wèn)題。

Q:我剛剛下載的考拉,因?yàn)槲乙郧坝闷渌?,如果偶爾誤操作,比如點(diǎn)紅心或垃圾筒會(huì)不會(huì)影響到數(shù)據(jù)分析?

崔義超:我們最重要參考指標(biāo)是從大量的數(shù)據(jù)來(lái)得出的用戶(hù)行為模型,這個(gè)模型肯定不是一兩次操作的數(shù)據(jù)得出的,但我們也會(huì)體現(xiàn)“快速反應(yīng)”的效果,如果用戶(hù)總是操作以后推送不給反饋,用戶(hù)也不會(huì)愿意。怎么樣解決兩者之間的矛盾?考拉FM總體上的推送是通過(guò)大量數(shù)據(jù)分析給出的,但用戶(hù)的實(shí)時(shí)操作我們亦會(huì)提供一些實(shí)時(shí)反饋,這不影響到總體數(shù)據(jù)分析,但會(huì)讓用戶(hù)感覺(jué)到操作是有反饋的。

Q:您剛剛說(shuō)并不是所有數(shù)據(jù)都會(huì)參加實(shí)時(shí)的計(jì)算,大概是多少比例會(huì)參加?

崔義超:數(shù)據(jù)分成離線還是在線的,基本所有的在線數(shù)據(jù)都參加計(jì)算,實(shí)時(shí)的是按照音頻特性,比如新聞,只有最近兩天的新聞的數(shù)據(jù)才參加計(jì)算。從用戶(hù)屬性,我們最近一個(gè)月活躍的用戶(hù)才參與計(jì)算,用戶(hù)兩個(gè)月前下載了聽(tīng)了幾次,大概一個(gè)半月沒(méi)來(lái)過(guò),他的數(shù)據(jù)我們不參與計(jì)算,他再來(lái)了我們才參與計(jì)算。

責(zé)任編輯:黃丹 來(lái)源: qyppcb.com
相關(guān)推薦

2022-11-01 07:19:45

推薦系統(tǒng)非個(gè)性化

2020-06-28 07:00:00

推薦系統(tǒng)智能商務(wù)服務(wù)平臺(tái)

2018-05-14 12:48:04

大數(shù)據(jù)銷(xiāo)售企業(yè)

2015-11-09 10:12:08

大數(shù)據(jù)個(gè)性化推薦

2017-07-24 09:18:29

大數(shù)據(jù)設(shè)計(jì)UX

2012-03-28 14:58:37

手機(jī)推送移動(dòng)應(yīng)用

2013-07-13 14:11:11

個(gè)性化搜索

2023-03-21 12:46:30

智慧城市人工智能大數(shù)據(jù)

2023-06-16 08:00:00

語(yǔ)音助手GPTWhisper

2011-01-20 10:19:21

PowerShell個(gè)性化

2016-04-08 11:39:49

用戶(hù)畫(huà)像個(gè)性化推薦標(biāo)簽

2022-09-06 17:43:02

??AISummit數(shù)據(jù)運(yùn)營(yíng)

2017-11-22 09:24:00

2021-10-19 08:00:00

Windows 11Windows微軟

2019-09-20 09:06:27

物聯(lián)網(wǎng)個(gè)性化客戶(hù)體驗(yàn)

2016-11-08 13:03:56

大數(shù)據(jù)小數(shù)據(jù)Dysart

2013-11-07 16:42:34

Windows 8.1個(gè)性化

2011-05-04 14:38:53

海爾江山帝景一體機(jī)

2013-06-28 10:08:49

云計(jì)算大數(shù)據(jù)個(gè)性化

2020-08-31 12:00:17

Linux終端顏色命令
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)