自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

利用數(shù)據(jù)分析量化協(xié)同過濾算法的兩大常見難題

原創(chuàng)
人工智能 深度學(xué)習(xí) 數(shù)據(jù)分析 算法
推薦系統(tǒng)自從問世以來解決了許多不同的商業(yè)產(chǎn)品問題,深受廣大互聯(lián)網(wǎng)從業(yè)者的喜愛。傳統(tǒng)的互聯(lián)網(wǎng)電商公司像阿里巴巴和京東已經(jīng)把推薦系統(tǒng)當(dāng)成了自己的核心技術(shù)資產(chǎn)之一,而新興的互聯(lián)網(wǎng)產(chǎn)品像今日頭條和抖音,也早已把推薦系統(tǒng)作為了自己的技術(shù)立足之本。

【51CTO.com原創(chuàng)稿件】推薦系統(tǒng)自從問世以來解決了許多不同的商業(yè)產(chǎn)品問題,深受廣大互聯(lián)網(wǎng)從業(yè)者的喜愛。傳統(tǒng)的互聯(lián)網(wǎng)電商公司像阿里巴巴和京東已經(jīng)把推薦系統(tǒng)當(dāng)成了自己的核心技術(shù)資產(chǎn)之一,而新興的互聯(lián)網(wǎng)產(chǎn)品像今日頭條和抖音,也早已把推薦系統(tǒng)作為了自己的技術(shù)立足之本。然而伴隨著推薦系統(tǒng)的蓬勃發(fā)展,一些推薦系統(tǒng)在技術(shù)上的挑戰(zhàn)和困難卻總是揮之不去。

在優(yōu)化算法的過程中,工程師總是強調(diào)分析數(shù)據(jù)進(jìn)一步提高算法性能。但是對于一些老大難問題怎樣分析數(shù)據(jù),業(yè)內(nèi)目前還沒有一些較為全面和體系化的方法論。2018年在成都舉行的 ICCCBDA 2018 會議刊登了一篇題為 Quantitative Analysis of Matthew Effect and Sparsity Problem in Recommender Systems 的論文,嘗試著精準(zhǔn)量化協(xié)同過濾算法中的兩個常見難題:馬太效應(yīng)和稀疏性問題。

協(xié)同過濾是推薦系統(tǒng)最基本的方法。雖然如今推薦系統(tǒng)已經(jīng)是深度學(xué)習(xí)的各種算法像 DeepFM 等的天下,但是一些基本的推薦系統(tǒng)的方法仍然是被用作 baseline 的工具。并且在一些并不具備深度學(xué)習(xí)能力的企業(yè),協(xié)同過濾仍然是流行的算法。

協(xié)同過濾面臨的兩個主要挑戰(zhàn),一個是馬太效應(yīng),另一個是數(shù)據(jù)稀疏性問題。馬太效應(yīng)是指在協(xié)同過濾的相似性計算中與某個物品相似的物品數(shù)量極大,導(dǎo)致這個物品對所有的物品都有影響。另外馬太效應(yīng)會導(dǎo)致數(shù)據(jù)分布不均衡,直接造成在 MapReduce 計算的過程中效率低下。而數(shù)據(jù)稀疏性問題指的是有的用戶對應(yīng)的物品過少或者有的物品對應(yīng)的用戶過少,導(dǎo)致算法的計算結(jié)果覆蓋率很低。研究界和工業(yè)界針對這兩個問題提出了很多不同的算法意圖解決相應(yīng)問題。但是在 ICCCBDA 2018 的論文之前,并沒有人明確的用數(shù)學(xué)公式對這兩個問題進(jìn)行量化,以方便數(shù)據(jù)分析和算法的進(jìn)一步優(yōu)化。

作者用相似度的期望值來衡量協(xié)同過濾中的馬太效應(yīng),而用相似度計算中關(guān)聯(lián)的用戶/物品數(shù)來衡量協(xié)同過濾中的稀疏性問題。因為推薦系統(tǒng)的應(yīng)用場景大部分是長尾物品,作者假設(shè)了物品的分布服從 Zipf’s Law,也就是熱度排名第 i 位的物品的分布占比是 1/i。利用組合數(shù)學(xué)的方法,我們可以得到一系列的公式。推導(dǎo)過程論文中有詳細(xì)的記載。最終的推導(dǎo)結(jié)果如下:

針對于基于用戶的協(xié)同過濾的馬太效應(yīng),我們有用戶 A 和用戶 B 的平均期望為:

針對基于物品的協(xié)同過濾的馬太效應(yīng),我們有用戶 A 和用戶 B 的平均期望為:

針對基于用戶的協(xié)同過濾的稀疏性問題,參與相似性計算的物品數(shù)量期望為:

針對基于物品的協(xié)同過濾的稀疏性問題,參與相似度計算的物品數(shù)量期望為:

作者隨后進(jìn)行了實驗,對于推導(dǎo)的公式進(jìn)行了驗證:

上圖顯示的是基于物品的協(xié)同過濾的稀疏性在真實數(shù)據(jù)集合 LastFM 中的分布,與公式中的馬太效應(yīng)基本吻合。

本文的數(shù)學(xué)公式推導(dǎo)過程以及整個的數(shù)據(jù)分析思路并不復(fù)雜。主要貢獻(xiàn)在于***提出了量化推薦系統(tǒng)馬太效應(yīng)和數(shù)據(jù)稀疏性的方法,使得系統(tǒng)化的解決這兩個問題成為可能。

[[264083]]

汪昊,區(qū)塊鏈公司科學(xué)家,前恒昌利通大數(shù)據(jù)部負(fù)責(zé)人,美國猶他大學(xué)本科/碩士,在百度,新浪,網(wǎng)易,豆瓣等公司有多年的研發(fā)和技術(shù)管理經(jīng)驗,擅長機器學(xué)習(xí),大數(shù)據(jù),推薦系統(tǒng),社交網(wǎng)絡(luò)分析等技術(shù)。在 TVCG 和 ASONAM 等國際會議和期刊發(fā)表論文 10 篇。本科畢業(yè)論文獲國際會議 IEEE SMI 2008 ***論文獎。 

【51CTO原創(chuàng)稿件,合作站點轉(zhuǎn)載請注明原文作者和出處為51CTO.com】

責(zé)任編輯:龐桂玉 來源: 51CTO
相關(guān)推薦

2020-06-28 07:30:00

推薦算法推薦系統(tǒng)

2017-04-27 18:09:26

item embedd推薦系統(tǒng)算法

2015-04-14 09:58:21

大數(shù)據(jù)分析工具常見難題

2021-11-15 12:45:44

協(xié)同過濾算法架構(gòu)

2015-09-21 09:33:47

大數(shù)據(jù)數(shù)據(jù)分析

2024-10-29 09:00:00

2022-07-20 23:04:59

矩陣分解算法Spark

2018-05-21 08:22:14

自編碼器協(xié)同過濾深度學(xué)習(xí)

2016-08-18 01:36:14

協(xié)同過濾推薦電影用戶

2010-05-04 14:30:45

Oracle數(shù)據(jù)

2023-10-31 16:46:45

2010-04-21 15:06:37

負(fù)載均衡算法

2017-02-05 21:02:44

大數(shù)據(jù)深度學(xué)習(xí)推薦系統(tǒng)

2013-09-22 17:15:08

2019-07-31 14:16:35

大數(shù)據(jù)人工智能算法

2018-03-23 11:33:56

協(xié)同過濾程序算法

2017-05-31 09:29:00

IT運維算法

2013-10-17 09:40:42

2024-05-11 07:57:47

因果推斷知識地圖算法

2020-09-16 10:16:54

數(shù)據(jù)分析量化大數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號