自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

泊松矩陣分解:無(wú)需數(shù)據(jù)解決推薦系統(tǒng)冷啟動(dòng)問(wèn)題的矩陣分解算法

原創(chuàng) 精選
人工智能 算法 前端
推薦系統(tǒng)是目前互聯(lián)網(wǎng)行業(yè)最火爆的技術(shù)之一。在過(guò)去的十年中,互聯(lián)網(wǎng)行業(yè)誕生了數(shù)以百萬(wàn)計(jì)的推薦系統(tǒng)模型迭代版本。

作者 | 汪昊

審校 | 孫淑娟

推薦系統(tǒng)是目前互聯(lián)網(wǎng)行業(yè)最火爆的技術(shù)之一。在過(guò)去的十年中,互聯(lián)網(wǎng)行業(yè)誕生了數(shù)以百萬(wàn)計(jì)的推薦系統(tǒng)模型迭代版本。盡管針對(duì)不同場(chǎng)景進(jìn)行優(yōu)化的推薦系統(tǒng)模型非常之多,但是經(jīng)典的模型非常少。矩陣分解是推薦系統(tǒng)領(lǐng)域勃興早期,在 Netflix 大賽中展露頭角的推薦系統(tǒng)算法,也是過(guò)去十年中最為成功的推薦系統(tǒng)算法。盡管到 2023 年的今天,推薦系統(tǒng)領(lǐng)域早已是深度學(xué)習(xí)的天下,矩陣分解仍然廣泛應(yīng)用于各大公司研發(fā)過(guò)程中,并且仍然有許多科研人員在從事相關(guān)算法的研究工作。

矩陣分解算法最為經(jīng)典的論文是 2007 年的 Probabilistic Matrix Factorization 。在此基礎(chǔ)上,后人進(jìn)行了大量的擴(kuò)展工作,比如 2021 年的 RankMat(論文下載地址:https://arxiv.org/abs/2204.13016)、ZeroMat (論文下載地址:https://arxiv.org/abs/2112.03084) 和 2022 年的 DotMat (論文下載地址:https://arxiv.org/abs/2206.00151)、KL-Mat (論文下載地址 :https://arxiv.org/abs/2204.13583/ 代碼下載地址:https://github.com/haow85/KL-Mat)等。推薦系統(tǒng)因?yàn)槠浜?jiǎn)單易用性,以及速度快等原因,深受互聯(lián)網(wǎng)行業(yè)廣大工程師的喜愛(ài)。

推薦系統(tǒng)冷啟動(dòng)問(wèn)題是今年來(lái)備受關(guān)注的另一個(gè)研究熱點(diǎn)。許多從業(yè)者解決推薦系統(tǒng)的思路都是遷移學(xué)習(xí)和元學(xué)習(xí)。然而這個(gè)思路有個(gè)致命的缺點(diǎn),就是需要其他知識(shí)領(lǐng)域的數(shù)據(jù)。而許多公司是不具備這一條件的。真正不需要任何數(shù)據(jù)的冷啟動(dòng)算法,是在 2021 年 ZeroMat 提出以后出現(xiàn)的。代表算法包括上一節(jié)提到的 ZeroMat 和 DotMat。本文將要介紹的泊松矩陣分解算法(PoissonMat)是 2022 年國(guó)際學(xué)術(shù)會(huì)議MLISE 2022發(fā)表的論文。論文的名稱(chēng)是PoissonMat:Remodeling Matrix Factorization using Poisson Distribution and Solving the Cold Start Problem without Input Data(論文下載地址:https://arxiv.org/abs/2212.10460)。

我們首先回顧一下Probabilistic Matrix Factorization的MAP定義:

我們隨后定義用戶(hù)給物品打分這一行為為泊松分布。根據(jù)泊松分布的定義,我們得到以下公式:

根據(jù)泊松公式中參數(shù)的定義,我們有:

根據(jù)齊夫分布,我們可以得到如下公式:

綜合以上公式,我們得到泊松矩陣分解(PoissonMat)的解析形式:

采用隨機(jī)梯度下降算法求解以上公式,我們得到如下算法流程:

作者隨后在 MovieLens 1 Million Dataset 和 LDOS-CoMoDa Dataset 上進(jìn)行了算法準(zhǔn)確率和公平性的實(shí)驗(yàn)對(duì)比:

圖 1 泊松矩陣分解在 MovieLens 1 Million Dataset 上的對(duì)比實(shí)驗(yàn)

圖 2 泊松矩陣分解在 LDOS-CoMoDa Dataset 上的對(duì)比實(shí)驗(yàn)

根據(jù)實(shí)驗(yàn)對(duì)比效果,我們可以得出如下結(jié)論:泊松矩陣分解(PoissonMat)在準(zhǔn)確率和公平性指標(biāo)方面都優(yōu)于其他算法。并且難能可貴的是,泊松矩陣分解算法沒(méi)有用到任何輸入數(shù)據(jù),是一個(gè)徹頭徹尾的零樣本學(xué)習(xí)算法,很好的解決了冷啟動(dòng)問(wèn)題。

最后,作者是在 16G RAM 和 Intel Core i5 的聯(lián)想家用筆記本上做的實(shí)驗(yàn),算法運(yùn)行速度飛快,并且實(shí)現(xiàn)也非常簡(jiǎn)單。

以解決推薦系統(tǒng)冷啟動(dòng)問(wèn)題為目標(biāo)的零樣本學(xué)習(xí)算法,目前是研究熱點(diǎn)。而不需要任何數(shù)據(jù)解決零樣本學(xué)習(xí)問(wèn)題的真正的零樣本學(xué)習(xí)算法,始自 2021 年的 ZeroMat 算法。本文介紹的泊松矩陣分解算法(PoissonMat)性能優(yōu)于 ZeroMat 及其后續(xù)算法 DotMat,是目前這一領(lǐng)域最優(yōu)秀的算法之一。由于相關(guān)研究還處于起步階段,希望能夠引起廣大科技從業(yè)者的關(guān)注和重視。

作者介紹

汪昊,前 Funplus 人工智能實(shí)驗(yàn)室負(fù)責(zé)人,前恒昌利通大數(shù)據(jù)部負(fù)責(zé)人。本科 (2008 年)和碩士(2010年)畢業(yè)于美國(guó)猶他大學(xué)(University of Utah)。對(duì)外經(jīng)貿(mào)大學(xué)在職 MBA (2016年)。在推薦系統(tǒng)(公平性/基于場(chǎng)景的推薦/冷啟動(dòng)/可解釋性/排序?qū)W習(xí))、計(jì)算機(jī)圖形學(xué)(幾何建模/可視化)、自然語(yǔ)言處理(工業(yè)界的落地應(yīng)用)、風(fēng)控反欺詐(金融/醫(yī)療)等方向有多年的經(jīng)驗(yàn)和獨(dú)到的見(jiàn)解。在互聯(lián)網(wǎng)(豆瓣、百度、新浪、網(wǎng)易等)、金融科技(恒昌利通)和游戲公司(Funplus等)有 12 年的技術(shù)研發(fā)和管理經(jīng)驗(yàn)。在國(guó)際學(xué)術(shù)會(huì)議和期刊發(fā)表論文 30 篇,獲得國(guó)際會(huì)議最佳論文獎(jiǎng) / 最佳論文報(bào)告獎(jiǎng) 3 次 (IEEE SMI 2008 Best Paper Award / ICBDT 2020 Best Oral Presentation Award / ICISCAE 2021 Best Oral Presentation Award)。2006 年 ACM/ICPC 北美落基山區(qū)域賽金牌。2004 年全國(guó)大學(xué)生英語(yǔ)能力競(jìng)賽口語(yǔ)決賽銅牌。2003 年濟(jì)南市高考理工科英語(yǔ)狀元。

責(zé)任編輯:華軒 來(lái)源: 51CTO
相關(guān)推薦

2017-02-08 09:25:16

Spark分解推薦

2021-10-13 08:00:00

數(shù)據(jù)算法人工智能

2021-06-24 08:30:00

人工智能數(shù)據(jù)計(jì)算

2024-10-23 09:05:07

PixijsMatrixTransform

2018-07-05 08:26:16

矩陣分解技術(shù)

2024-02-26 00:06:00

排序?qū)W習(xí)算法斯奇拉姆

2017-07-06 08:36:10

特征向量矩陣PCA

2025-01-14 14:04:45

2023-11-14 07:16:51

冷啟動(dòng)技術(shù)推薦系統(tǒng)

2014-07-15 09:36:55

機(jī)器學(xué)習(xí)

2011-03-21 08:58:03

Oracle數(shù)據(jù)庫(kù)服務(wù)啟動(dòng)

2014-07-04 10:05:57

機(jī)器學(xué)習(xí)

2020-08-03 08:04:04

限流算法Sentinel

2021-10-29 07:25:32

螺旋矩陣整數(shù)

2023-10-12 07:32:27

冷啟動(dòng)推薦模型

2014-07-31 11:40:08

ssh

2022-04-06 15:05:52

機(jī)器學(xué)習(xí)深度學(xué)習(xí)數(shù)據(jù)庫(kù)

2013-08-16 10:04:46

OpenSUSE 12VirtualBox

2013-12-16 11:01:08

OpenSUSEOpenSUSE 12VirtualBox

2009-06-11 11:50:00

netbeans jd
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)