齊夫矩陣分解:解決推薦系統(tǒng)馬太效應(yīng)的利器
原創(chuàng)【51CTO.com原創(chuàng)稿件】算法公平性是推薦系統(tǒng)近幾年來(lái)重要的研究方向。很多的研究人員和工程師在這個(gè)問(wèn)題上做出了卓越的努力。因?yàn)橥扑]場(chǎng)景中的輸入數(shù)據(jù)通常存在馬太效應(yīng),因此會(huì)對(duì)計(jì)算的中間過(guò)程和計(jì)算結(jié)果產(chǎn)生影響。自 2017 年以來(lái)包括馬太效應(yīng)在內(nèi)的推薦系統(tǒng)公平性問(wèn)題獲得了極大的關(guān)注。2020年推薦系統(tǒng)子領(lǐng)域權(quán)威會(huì)議 RecSys 上的相關(guān)論文數(shù)量達(dá)到了前所未有的程度。SIGIR 和 WWW 等頂級(jí)會(huì)議也出現(xiàn)了多篇排序?qū)W習(xí)公平性的論文。相關(guān)企業(yè)比如 Google 也有自己研發(fā)的推薦系統(tǒng)公平性框架。
一個(gè)經(jīng)常出現(xiàn)的解決推薦系統(tǒng)馬太效應(yīng)的框架是損失函數(shù)加懲罰項(xiàng)。懲罰項(xiàng)的選取各個(gè)研究論文表述不同,然而很多懲罰項(xiàng)比如相關(guān)性都不能在理論層面精確的反映馬太效應(yīng)的程度。 在剛剛結(jié)束的 2021 年的國(guó)際學(xué)術(shù)會(huì)議 ICAIBD 2021 有一篇針對(duì)推薦系統(tǒng)馬太效應(yīng)的論文 Zipf Matrix Factorization : Matrix Factorization with Matthew Effect Reduction 在理論層面解決了懲罰項(xiàng)如何選擇的問(wèn)題,并且通過(guò)實(shí)驗(yàn)結(jié)果演示了推薦系統(tǒng)可以同時(shí)提升技術(shù)性能和公平性指標(biāo)。
齊夫矩陣分解首次明確的提出了衡量推薦系統(tǒng)結(jié)果中物品馬太效應(yīng)的統(tǒng)計(jì)指標(biāo)(如下所示):
,其中 x 代表的是推薦系統(tǒng)輸出結(jié)果中物品的熱度排名。
加上懲罰項(xiàng)之后的損失函數(shù)如下圖所示:
在優(yōu)化損失函數(shù)的過(guò)程中,我們并不知道熱度排名 x 的值,只能通過(guò)預(yù)估的方式。作者利用線性方程組和不加懲罰項(xiàng)的矩陣分解的方式對(duì) x 值進(jìn)行了近似,之后損失函數(shù)可以用隨機(jī)梯度下降(如下所示)等方法求解:
作者在 MovieLens 數(shù)據(jù)集上測(cè)試算法 MAE 如下:
可以看到,以藍(lán)線表征的齊夫矩陣分解 MAE 曲線總體性能優(yōu)于沒(méi)有懲罰項(xiàng)的原始矩陣分解算法。而下圖則顯示了在算法性能提升的同時(shí),馬太效應(yīng)也得到了改善:
齊夫矩陣分解算法實(shí)現(xiàn)簡(jiǎn)單,性能出眾,是解決推薦系統(tǒng)馬太效應(yīng)的利器。隨著人工智能算法公平性問(wèn)題得到越來(lái)越多的關(guān)注,人類終將走出矩陣的迷霧,迎來(lái)人機(jī)和平共處的曙光(黑客帝國(guó))。我們有幸處在這樣的一個(gè)歷史時(shí)刻,見(jiàn)證著偉大的科技革命發(fā)生在自己的身邊。
原文鏈接:https://arxiv.org/abs/2106.07347
作者介紹
汪昊,技術(shù)總監(jiān)/架構(gòu)師,美國(guó)猶他大學(xué)本科/碩士,對(duì)外經(jīng)貿(mào)大學(xué)在職MBA。曾在百度,新浪,網(wǎng)易,豆瓣等公司有多年的研發(fā)和技術(shù)管理經(jīng)驗(yàn),擅長(zhǎng)機(jī)器學(xué)習(xí),大數(shù)據(jù),推薦系統(tǒng),社交網(wǎng)絡(luò)分析等技術(shù)。在 TVCG 和 ASONAM 等國(guó)際會(huì)議和期刊發(fā)表論文 11 篇。國(guó)際學(xué)術(shù)會(huì)議 IEEE SMI 2008 和 ICBDT 2020 最佳論文獎(jiǎng)。
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】