ZeroMat:不利用任何數(shù)據(jù)解決推薦系統(tǒng)冷啟動問題
原創(chuàng)【51CTO.com原創(chuàng)稿件】推薦系統(tǒng)自誕生以來在學(xué)術(shù)界和工業(yè)界都得到了廣泛的應(yīng)用。許多舉足輕重的網(wǎng)站比如亞馬遜、今日頭條和抖音都依靠推薦系統(tǒng)獲得了大量的點擊和豐厚的企業(yè)利潤。如何提升推薦系統(tǒng)的點擊率至今仍是業(yè)內(nèi)主要研究的方向之一。
盡管推薦系統(tǒng)引起了很多人的關(guān)注,但是有些固有的內(nèi)在問題一直困擾著推薦系統(tǒng)的從業(yè)者。冷啟動問題作為重要的推薦系統(tǒng)研究課題,雖然廣受關(guān)注,但是一直以來都缺乏有效的解決方案。
推薦系統(tǒng)的冷啟動問題指的是當(dāng)我們遇到新的用戶或者新的物品的時候,因為缺乏歷史數(shù)據(jù),無法給用戶進(jìn)行推薦的問題?,F(xiàn)在流行的解決方案包括元學(xué)習(xí)(Meta Learning)等技術(shù)方法。
在 ICISCAE 2021 上研究者提出了一個名為 ZeroMat 的算法,在完全不利用任何輸入數(shù)據(jù),僅僅知道評分?jǐn)?shù)據(jù)最大值的情況下解決了推薦系統(tǒng)冷啟動問題。
首先,作者借鑒了 Probabilistic Matrix Factorization 的框架定義了矩陣分解的問題,也就是我們要計算如下概率的最大值:
根據(jù)齊夫定律,我們對用戶評分概率分布進(jìn)行如下建模:
另外,我們用正態(tài)分布進(jìn)行如下建模:
將公式展開,我們得到如下公式:
利用隨機(jī)梯度下降,我們得到:
整理之后,我們復(fù)原用戶評分值:
我們注意到,整個計算的過程中沒有用到任何的外部輸入數(shù)據(jù), U 和 V 都是參數(shù),唯一需要知道的就是評分的最大值。比如電影評分的最大值是 1 分還是 5 分,這通常是個產(chǎn)品設(shè)計問題,并且都是預(yù)先都知道的。
在實驗中,作者對比了 3 個算法的效果,分別是 ZeroMat, 隨機(jī)定值和經(jīng)典的矩陣分解算法,作者用 MAE 和 Degree of Matthew Effect 這 2 個指標(biāo)分別驗證了 ZeroMat 的效果。令人驚奇的是 ZeroMat 的效果有的時候竟然比有完整輸入數(shù)據(jù)的經(jīng)典矩陣分解算法更優(yōu)。
3 種不同算法在 MAE 上的測試效果
3 種不同算法在 Degree of Matthew Effect 上的測試效果
推薦系統(tǒng)馬太效應(yīng)是困擾研究學(xué)者和工業(yè)界從業(yè)者已久的問題,ZeroMat 是首次提出了在完全不利用任何數(shù)據(jù)的情況下解決冷啟動問題的算法框架。算法簡單易懂,運行速度快,效果非常好,為徹底解決推薦系統(tǒng)冷啟動問題打開了一扇不同于以往的門。
【51CTO原創(chuàng)稿件,合作站點轉(zhuǎn)載請注明原文作者和出處為51CTO.com】