自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

關(guān)于推薦系統(tǒng),有六大讓人震驚的“秘密”

原創(chuàng) 精選
人工智能
推薦系統(tǒng)的經(jīng)典算法非常多,從早期的淺層學(xué)習(xí)算法協(xié)同過濾,到矩陣分解和線性模型,再到后面的深度學(xué)習(xí)和序列推薦,每一個發(fā)展時期都見證了某幾個里程碑算法贏家通吃的現(xiàn)象。推薦系統(tǒng)的技術(shù)這么成熟,還會有什么我們平常不留心的知識嗎?你別說,還真有。不信請看本文:

推薦系統(tǒng)自1992 年代誕生以來, 到2024 年的今天已經(jīng)有32 年的發(fā)展歷程。在這幾十年的發(fā)展歷程中,各個互聯(lián)網(wǎng)和科技公司上線過數(shù)以百萬計的推薦系統(tǒng)模型。盡管推薦系統(tǒng)經(jīng)歷過 2012 到 2014 年的發(fā)展低潮,但很快就被后起之秀快手和字節(jié)跳動一改頹勢,從而重新成為了熱點技術(shù)。在經(jīng)歷過淺層學(xué)習(xí)和深度學(xué)習(xí)之后,推薦系統(tǒng)的研究方向目前在往多元化方向發(fā)展,包括公平性和序列推薦等等。

推薦系統(tǒng)的經(jīng)典算法非常多,從早期的淺層學(xué)習(xí)算法協(xié)同過濾,到矩陣分解和線性模型,再到后面的深度學(xué)習(xí)和序列推薦,每一個發(fā)展時期都見證了某幾個里程碑算法贏家通吃的現(xiàn)象。推薦系統(tǒng)的技術(shù)這么成熟,還會有什么我們平常不留心的知識嗎?你別說,還真有。不信請看本文:

1、什么?協(xié)同過濾算法在我的數(shù)據(jù)集合上有可能不成立?

是的,有可能。在 2023 年召開的國際學(xué)術(shù)會議 CECNet 2023 上,研究人員發(fā)表了一篇題為 “Collaborative Filtering is a Lie or Not ? It Depends on the Shape of Your Domain” 的論文。這篇論文指出,協(xié)同過濾在某些數(shù)據(jù)集合上可能不成立。

作者首先利用任意一種降維算法,使用相似度矩陣推導(dǎo)的距離矩陣將用戶-用戶關(guān)系映射到二維空間。然后在點 i 處定義 N (N 是和用戶 i 相似的用戶個數(shù))個尾部在點 i 坐標(biāo)的向量,每個向量為(Sim(i,j)-C, Sim(i,j)-C), 其中 Sim(i,j) 為用戶 i 和用戶 j 之間的相似度,而 C 為任意實數(shù)。

我們根據(jù)推薦系統(tǒng)的預(yù)測評分是實數(shù)的特點,認(rèn)為在這些離散點之間存在著許多其他點,使得我們定義的向量場成立。

根據(jù) Poincare-Hopf Theorem ,如果一個向量場是定義在一個有向和緊致的流形上時,這個向量的零點的數(shù)量只和流形本身的歐拉示性數(shù)有關(guān),而向量場本身無關(guān)。所以,如果我們降維下來的這個二維空間數(shù)據(jù)集合,滿足特定性質(zhì),則協(xié)同過濾算法是不成立的。意不意外?驚不驚喜?

2、什么?矩陣分解算法中的先驗概率不是高斯分布?

是的,矩陣分解算法中的先驗概率不是高斯分布,是錐形分布。

研究人員在國際學(xué)術(shù)會議 CAMMIC 2023 上發(fā)表了一篇題為 “Analysis and visualization of the parameter space of matrix factorization-based recommender systems”的論文,對矩陣分解算法中的用戶向量矩陣和物品向量矩陣進行了 Henze-Zirkler 檢驗,發(fā)現(xiàn)矩陣分解算法中用戶向量和物品向量的先驗分布不是高斯分布。作者隨后把這些向量進行了可視化,得到了下圖:

圖 1 用戶向量分布

圖 2 物品向量分布

通過觀察可視化結(jié)果,并通過邏輯分析,我們得到如下結(jié)論:矩陣分解算法中的先驗概率是錐形分布,不是高斯分布。

3、什么?推薦系統(tǒng)評分?jǐn)?shù)據(jù)的長尾現(xiàn)象可以用泊松過程建模?

是的,可以。我們可以通過如下關(guān)系對推薦系統(tǒng)的用戶評分進行建模,我們姑且稱它為推薦系統(tǒng)中的齊夫分布:

打個比方。在電影評分網(wǎng)站中,口碑 5 星的電影的評分?jǐn)?shù)量為 5;口碑 4 星的電影的評分?jǐn)?shù)量為 4 …… 我們發(fā)現(xiàn),如果我們用Non-homogeneous Poisson Process 給用戶打分行為進行建模之后,能夠通過解方程的形式得到符合評分滿足齊夫分布的解。

在 2023 年召開的國際學(xué)術(shù)會議 CAMMIC 2023 上,研究人員發(fā)表了一篇題為 “Evolution of the Online Rating Platform Data Structures and its Implications for Recommender Systems”,詳細(xì)敘述了這一建模過程。

4、什么?推薦系統(tǒng)可以完全不利用任何數(shù)據(jù)解決冷啟動問題?

推薦系統(tǒng)中的冷啟動問題一直是個老大難問題。傳統(tǒng)的解決方案無外乎 Transfer Learning / Meta Learning 或者熱點推薦。但是從 2021 年開始到 2023 年出現(xiàn)了一系列的無需 Transfer Learning / Meta Learning 解決推薦系統(tǒng)冷啟動的零樣本學(xué)習(xí)算法:ZeroMat、DotMat、RankMat、PoissonMat 和LogitMat。這些算法,無一例外的都不需要使用任何數(shù)據(jù),就能取得比肩使用全量數(shù)據(jù)的矩陣分解算法的效果。

下面我們看兩張來自 LogitMat 原始論文的實驗數(shù)據(jù)(MovieLens 1 Million Dataset)圖片:

圖 3 MAE 對比實驗

圖 4 公平性對比實驗

通過觀察實驗結(jié)果,我們發(fā)現(xiàn)這些算法無一例外的都可以比肩全樣本算法,甚至取得更好的效果。

5、什么?矩陣分解+正則化可以在 MovieLens 數(shù)據(jù)集上做到 MAE 0.6?

是的,可以。推薦系統(tǒng)的從業(yè)人員特別喜歡用 MovieLens 數(shù)據(jù)集測試自己的算法,然而歷史上的算法的 MAE 值通常都在 0.7 和 0.8 之間。其實,只要通過更改一下正則化項的懲罰函數(shù)的定義方式,就可以將 MAE 降到 0.6。下面我們來看一下研究人員是怎樣通過更改正則化項來優(yōu)化矩陣分解算法的:

通過隨機梯度下降對損失函數(shù) L 求解,得到如下公式:

我們通過在 MovieLens Small Dataset 上做實驗,發(fā)現(xiàn)通過修改矩陣分解的正則化項,可以將 MAE 降到 0.62 :

圖 3 MAE 對比實驗圖                                                     4 公平性對比實驗

關(guān)于正則化的這項新技術(shù),可以參考學(xué)術(shù)論文 Theoretically Accurate Regularization Technique for Matrix Factorization based Recommender Systems 。

6、什么?推薦系統(tǒng)的結(jié)果還可以這樣可視化?

是的,我們可以對推薦系統(tǒng)進行可視化。我們這里只舉一個例子:Takens Embedding。Takens Embedding 的細(xì)節(jié)我們不在這里敘述,我們這里只給出三張圖片,為讀者演示一下如何利用 Takens Embedding 對推薦系統(tǒng) MAE 曲線進行升維,以便對推薦系統(tǒng)進行可視化。具體的技術(shù)細(xì)節(jié),可以參考學(xué)術(shù)論文 Effective Visualization and Analysis of Recommender Systems。

圖 5 MAE @ 1D

圖 6 MAE @ 2D

圖 7 MAE @ 3D

圖5、圖6 和 圖7展示了 MAE 曲線在 1D、2D 和 3D 空間的不同情況。2D 和 3D 空間的誤差點云可以更好的反映 MAE 的具體情況。

盡管推薦系統(tǒng)發(fā)展了許多年,但是我們每天仍然面臨著許多新的挑戰(zhàn),仍然有數(shù)不勝數(shù)的新技術(shù)和新產(chǎn)品不斷出現(xiàn),沖擊著我們的知識體系。因此,我們需要時刻保持著一顆年輕的和求知若渴的心態(tài),這樣才能讓我們在時代的大潮中保持著不敗的競爭優(yōu)勢。

作者介紹

汪昊,前 Funplus 人工智能實驗室負(fù)責(zé)人。曾在 ThoughtWorks、豆瓣、百度、新浪等公司擔(dān)任技術(shù)和技術(shù)高管職務(wù)。在互聯(lián)網(wǎng)公司和金融科技、游戲等公司任職 12 年,對于人工智能、計算機圖形學(xué)和區(qū)塊鏈等領(lǐng)域有著深刻的見解和豐富的經(jīng)驗。在國際學(xué)術(shù)會議和期刊發(fā)表論文 42 篇,獲得IEEE SMI 2008 最佳論文獎、ICBDT 2020 / IEEE ICISCAE 2021 / AIBT 2023 最佳論文報告獎。

責(zé)任編輯:姜華 來源: 51CTO
相關(guān)推薦

2013-08-23 10:42:03

Hadoop

2023-03-16 14:40:43

光纖數(shù)據(jù)中心綜合布線

2017-11-07 08:54:06

云存儲技術(shù)系統(tǒng)

2019-02-22 21:53:22

習(xí)慣FabulousAPP

2018-04-14 08:15:32

2023-04-24 10:26:08

2018-07-03 09:00:00

Redis內(nèi)存分析工具

2010-09-03 10:26:54

IT人

2023-01-16 07:53:28

工業(yè)機器人趨勢

2020-12-25 09:23:05

云計算云技術(shù)機器學(xué)習(xí)

2010-08-05 10:38:10

Flex開源項目

2024-10-22 14:42:14

2010-03-01 14:13:06

2011-04-27 09:34:23

VMware vCen

2016-12-01 13:43:27

智慧城市物聯(lián)網(wǎng)

2023-10-23 17:23:38

人工智能AI

2019-07-03 10:02:47

聊天機器人平臺機器人

2021-03-08 09:50:34

工業(yè)機器人制造業(yè)工業(yè)

2013-04-08 14:29:04

Mac特性Windows用戶

2022-03-15 12:34:07

Nitrux OSLinux 發(fā)行版Linux
點贊
收藏

51CTO技術(shù)棧公眾號