作者 | 汪昊
審校 | 孫淑娟
推薦系統(tǒng)是目前互聯(lián)網(wǎng)行業(yè)最火爆的技術(shù)之一。在過(guò)去的十年中,互聯(lián)網(wǎng)行業(yè)誕生了數(shù)以百萬(wàn)計(jì)的推薦系統(tǒng)模型迭代版本。盡管針對(duì)不同場(chǎng)景進(jìn)行優(yōu)化的推薦系統(tǒng)模型非常之多,但是經(jīng)典的模型非常少。矩陣分解是推薦系統(tǒng)領(lǐng)域勃興早期,在 Netflix 大賽中展露頭角的推薦系統(tǒng)算法,也是過(guò)去十年中最為成功的推薦系統(tǒng)算法。盡管到 2023 年的今天,推薦系統(tǒng)領(lǐng)域早已是深度學(xué)習(xí)的天下,矩陣分解仍然廣泛應(yīng)用于各大公司研發(fā)過(guò)程中,并且仍然有許多科研人員在從事相關(guān)算法的研究工作。
矩陣分解算法最為經(jīng)典的論文是 2007 年的 Probabilistic Matrix Factorization 。在此基礎(chǔ)上,后人進(jìn)行了大量的擴(kuò)展工作,比如 2021 年的 RankMat(論文下載地址:https://arxiv.org/abs/2204.13016)、ZeroMat (論文下載地址:https://arxiv.org/abs/2112.03084) 和 2022 年的 DotMat (論文下載地址:https://arxiv.org/abs/2206.00151)、KL-Mat (論文下載地址 :https://arxiv.org/abs/2204.13583/ 代碼下載地址:https://github.com/haow85/KL-Mat)等。推薦系統(tǒng)因?yàn)槠浜?jiǎn)單易用性,以及速度快等原因,深受互聯(lián)網(wǎng)行業(yè)廣大工程師的喜愛(ài)。
推薦系統(tǒng)冷啟動(dòng)問(wèn)題是今年來(lái)備受關(guān)注的另一個(gè)研究熱點(diǎn)。許多從業(yè)者解決推薦系統(tǒng)的思路都是遷移學(xué)習(xí)和元學(xué)習(xí)。然而這個(gè)思路有個(gè)致命的缺點(diǎn),就是需要其他知識(shí)領(lǐng)域的數(shù)據(jù)。而許多公司是不具備這一條件的。真正不需要任何數(shù)據(jù)的冷啟動(dòng)算法,是在 2021 年 ZeroMat 提出以后出現(xiàn)的。代表算法包括上一節(jié)提到的 ZeroMat 和 DotMat。本文將要介紹的泊松矩陣分解算法(PoissonMat)是 2022 年國(guó)際學(xué)術(shù)會(huì)議MLISE 2022發(fā)表的論文。論文的名稱(chēng)是PoissonMat:Remodeling Matrix Factorization using Poisson Distribution and Solving the Cold Start Problem without Input Data(論文下載地址:https://arxiv.org/abs/2212.10460)。
我們首先回顧一下Probabilistic Matrix Factorization的MAP定義:
我們隨后定義用戶(hù)給物品打分這一行為為泊松分布。根據(jù)泊松分布的定義,我們得到以下公式:
根據(jù)泊松公式中參數(shù)的定義,我們有:
根據(jù)齊夫分布,我們可以得到如下公式:
綜合以上公式,我們得到泊松矩陣分解(PoissonMat)的解析形式:
采用隨機(jī)梯度下降算法求解以上公式,我們得到如下算法流程:
作者隨后在 MovieLens 1 Million Dataset 和 LDOS-CoMoDa Dataset 上進(jìn)行了算法準(zhǔn)確率和公平性的實(shí)驗(yàn)對(duì)比:
圖 1 泊松矩陣分解在 MovieLens 1 Million Dataset 上的對(duì)比實(shí)驗(yàn)
圖 2 泊松矩陣分解在 LDOS-CoMoDa Dataset 上的對(duì)比實(shí)驗(yàn)
根據(jù)實(shí)驗(yàn)對(duì)比效果,我們可以得出如下結(jié)論:泊松矩陣分解(PoissonMat)在準(zhǔn)確率和公平性指標(biāo)方面都優(yōu)于其他算法。并且難能可貴的是,泊松矩陣分解算法沒(méi)有用到任何輸入數(shù)據(jù),是一個(gè)徹頭徹尾的零樣本學(xué)習(xí)算法,很好的解決了冷啟動(dòng)問(wèn)題。
最后,作者是在 16G RAM 和 Intel Core i5 的聯(lián)想家用筆記本上做的實(shí)驗(yàn),算法運(yùn)行速度飛快,并且實(shí)現(xiàn)也非常簡(jiǎn)單。
以解決推薦系統(tǒng)冷啟動(dòng)問(wèn)題為目標(biāo)的零樣本學(xué)習(xí)算法,目前是研究熱點(diǎn)。而不需要任何數(shù)據(jù)解決零樣本學(xué)習(xí)問(wèn)題的真正的零樣本學(xué)習(xí)算法,始自 2021 年的 ZeroMat 算法。本文介紹的泊松矩陣分解算法(PoissonMat)性能優(yōu)于 ZeroMat 及其后續(xù)算法 DotMat,是目前這一領(lǐng)域最優(yōu)秀的算法之一。由于相關(guān)研究還處于起步階段,希望能夠引起廣大科技從業(yè)者的關(guān)注和重視。
作者介紹
汪昊,前 Funplus 人工智能實(shí)驗(yàn)室負(fù)責(zé)人,前恒昌利通大數(shù)據(jù)部負(fù)責(zé)人。本科 (2008 年)和碩士(2010年)畢業(yè)于美國(guó)猶他大學(xué)(University of Utah)。對(duì)外經(jīng)貿(mào)大學(xué)在職 MBA (2016年)。在推薦系統(tǒng)(公平性/基于場(chǎng)景的推薦/冷啟動(dòng)/可解釋性/排序?qū)W習(xí))、計(jì)算機(jī)圖形學(xué)(幾何建模/可視化)、自然語(yǔ)言處理(工業(yè)界的落地應(yīng)用)、風(fēng)控反欺詐(金融/醫(yī)療)等方向有多年的經(jīng)驗(yàn)和獨(dú)到的見(jiàn)解。在互聯(lián)網(wǎng)(豆瓣、百度、新浪、網(wǎng)易等)、金融科技(恒昌利通)和游戲公司(Funplus等)有 12 年的技術(shù)研發(fā)和管理經(jīng)驗(yàn)。在國(guó)際學(xué)術(shù)會(huì)議和期刊發(fā)表論文 30 篇,獲得國(guó)際會(huì)議最佳論文獎(jiǎng) / 最佳論文報(bào)告獎(jiǎng) 3 次 (IEEE SMI 2008 Best Paper Award / ICBDT 2020 Best Oral Presentation Award / ICISCAE 2021 Best Oral Presentation Award)。2006 年 ACM/ICPC 北美落基山區(qū)域賽金牌。2004 年全國(guó)大學(xué)生英語(yǔ)能力競(jìng)賽口語(yǔ)決賽銅牌。2003 年濟(jì)南市高考理工科英語(yǔ)狀元。