自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

遷移學(xué)習(xí)與跨域推薦,以及解決跨域推薦的方法

新聞 機(jī)器學(xué)習(xí)
遷移學(xué)習(xí)(Transfer Learning,TL)是屬于機(jī)器學(xué)習(xí)的一種研究領(lǐng)域。本文主要是詳細(xì)介紹一下跨域推薦

  本文主要是詳細(xì)介紹一下跨域推薦,包含但不局限于以下幾個部分:

  • 遷移學(xué)習(xí)

  • 跨域推薦

  • 跨域推薦可以怎么做

    • 冷啟動的其他一些方法

  • 可以參考的論文有哪些

1. 遷移學(xué)習(xí)

以下內(nèi)容參考【推薦系統(tǒng)中的多任務(wù)學(xué)習(xí)-盧明冬】進(jìn)行修改和介紹,更多詳細(xì)內(nèi)容可以閱讀:https://lumingdong.cn/multi-task-learning-in-recommendation-system.html。

1.1 遷移學(xué)習(xí)介紹

遷移學(xué)習(xí)(Transfer Learning,TL)**是屬于機(jī)器學(xué)習(xí)的一種研究領(lǐng)域。它專注于存儲已有問題的解決模型,并將其利用在其他不同但相關(guān)問題上。比如說,用來辨識汽車的知識(或者是模型)也可以被用來提升識別卡車的能力。

 

ML vs TL

遷移學(xué)習(xí)設(shè)計(jì)用于解決這些相互隔離的學(xué)習(xí)方式,可以利用先前訓(xùn)練模型中的知識(即特征,權(quán)重等)訓(xùn)練新的模型,實(shí)現(xiàn)從其它任務(wù)獲取的知識去解決相關(guān)的問題,甚至可以解決諸如新任務(wù)具有較少數(shù)據(jù)等問題。

1.2 遷移學(xué)習(xí)可以解決哪些問題

  • 大數(shù)據(jù)與少標(biāo)注的矛盾:雖然有大量的數(shù)據(jù),但很多都是沒有標(biāo)簽的,這些數(shù)據(jù)應(yīng)用無監(jiān)督模型會比較好,但是當(dāng)使用有監(jiān)督模型時就不太友好了,而如果選擇人工標(biāo)注則會耗時耗力

  • 大數(shù)據(jù)與弱計(jì)算的矛盾:普通人無法擁有龐大的數(shù)據(jù)量與計(jì)算資源。因此需要借助于模型的遷移,比如圖像識別中進(jìn)行對訓(xùn)練好的模型進(jìn)行 fine-tuning 完成自己的任務(wù)

  • 普適化模型與個性化需求的矛盾:即使是在同一個任務(wù)上,一個模型也往往難以滿足每個人的個性化需求,比如特定的隱私設(shè)置。這就需要在不同人之間做模型的適配

  • 特定應(yīng)用(如冷啟動)的需求

遷移學(xué)習(xí)中還有三個比較重要的問題,即:

  • 遷移什么(What To Transfer):如何選擇我們的先驗(yàn)知識進(jìn)行遷移,并不是所有的源域都可以遷移到目標(biāo)域,比如說一個文本分類的經(jīng)驗(yàn)知識遷移到圖像分類上顯然是不合適的,因此在選定遷移的源域和目標(biāo)域時一定要判斷兩者有相關(guān)性,不論是用戶還是item

  • 何時遷移(When To Transfer):什么時候可以進(jìn)行遷移,什么時候不能遷移?在某些場景中,遷移知識可能要比改進(jìn)知識更糟糕(該問題也稱為 “負(fù)遷移”)。我們的目標(biāo)是通過遷移學(xué)習(xí)改善目標(biāo)任務(wù)的性能或結(jié)果,而不是降低它們。(避免負(fù)遷移)

  • 如何遷移(How To Transter):如何進(jìn)行遷移學(xué)習(xí)?我們需要確定跨域或跨任務(wù)實(shí)現(xiàn)知識實(shí)際遷移的方法。該問題涉及如何改進(jìn)現(xiàn)有的算法和各種技術(shù)(設(shè)計(jì)遷移方法)

1.3 遷移學(xué)習(xí)基本概念

遷移學(xué)習(xí)中有兩個很重要的概念:域(domain)和任務(wù)(Task)。

域:數(shù)據(jù)特征和特征分布組成,是學(xué)習(xí)的主體

  • 源域 (Source domain):已有知識的域

  • 目標(biāo)域 (Target domain):要進(jìn)行學(xué)習(xí)的域

任務(wù):由目標(biāo)函數(shù)和學(xué)習(xí)結(jié)果組成,是學(xué)習(xí)的結(jié)果

域的不同有兩種可能的場景:

  • 特征空間不同

    例如文本分類任務(wù)中,中文文本和英文文本的特征空間不同

    圖像識別任務(wù)中,人臉圖片和鳥類圖片的特征空間不同

  • 邊緣概率分布不同

    例如文本分類任務(wù)中,文本都是中文語言的特征空間,但討論的是不同的主題,如政治和娛樂

    圖片識別任務(wù)中,圖片都是鳥類的特征空間,但一個是在城市中拍到的鳥,一個是在大自然中拍到的

任務(wù)的不同也有兩種可能的場景:

  • 標(biāo)簽空間不同

    例如在文本分類任務(wù)中,一個標(biāo)簽是新聞類別標(biāo)簽,一個標(biāo)簽是文本情感標(biāo)簽;

    人臉識別任務(wù)中,一個標(biāo)簽是性別,一個標(biāo)簽是人名。

  • 條件概率不同

    例如源和目標(biāo)數(shù)據(jù)類別分布不均衡。這種情況非常普遍,可用過采樣(over-sampling)、欠采樣(under-sampling)、SMOTE 等方法進(jìn)行處理。

    一般標(biāo)簽不同,條件概率分布也會不同,因?yàn)楹苌贂霈F(xiàn)兩個不同的任務(wù)有不同的標(biāo)簽空間而條件概率分布完全相同的情況。

也有論文將域(domain)和 任務(wù)(task)合二為一稱之為一個 dataset,cross-dataset 指的就是 domain 或者 task 不同

1.4 遷移學(xué)習(xí)分類

按特征空間分

  • 同構(gòu)遷移學(xué)習(xí)(Homogeneous TL): 源域和目標(biāo)域的特征空間相同

  • 異構(gòu)遷移學(xué)習(xí)(Heterogeneous TL):源域和目標(biāo)域的特征空間不同

按遷移情景分

 

按照遷移情景分

 

 

參考上圖,根據(jù)所使用的傳統(tǒng)機(jī)器學(xué)習(xí)算法,遷移學(xué)習(xí)方法可分類為:

  • 歸納式遷移學(xué)習(xí)(Inductive Transfer learning):在該場景中,源域和目標(biāo)域相同,但源任務(wù)和目標(biāo)任務(wù)彼此不同。算法嘗試?yán)脕碜栽从虻臍w納偏差幫助改進(jìn)目標(biāo)任務(wù)。根據(jù)源域中是否包含標(biāo)記數(shù)據(jù),歸納式遷移學(xué)習(xí)可以進(jìn)一步分為類似于**多任務(wù)學(xué)習(xí)(Multi-task Learning)  自學(xué)習(xí)(Self-taught Learning)**這兩類方法

  • 直推式遷移學(xué)習(xí)(Transductive Transfer Learning):源域和目標(biāo)域不同,學(xué)習(xí)任務(wù)相同。在該場景中,源任務(wù)和目標(biāo)任務(wù)之間存在一些相似之處,但相應(yīng)的域不同。通常源域具有大量標(biāo)記數(shù)據(jù),而目標(biāo)域沒有。根據(jù)特征空間或邊緣概率的設(shè)置不同,直推式遷移學(xué)習(xí)可進(jìn)一步分類為多個子類

  • 無監(jiān)督遷移學(xué)習(xí)(Unsupervised Transfer Learning):源域和目標(biāo)域均沒有標(biāo)簽。該場景類似于歸納式遷移學(xué)習(xí),重點(diǎn)關(guān)注目標(biāo)域中的無監(jiān)督任務(wù)

下表總結(jié)了上述遷移學(xué)習(xí)策略在不同場景和領(lǐng)域下的對比:

 

遷移學(xué)習(xí)策略在不同場景和領(lǐng)域下的對比

 

 

按遷移內(nèi)容來分:

 

  • 基于樣本的遷移學(xué)習(xí)(Instance transfer):通常,理想場景是源域中的知識可重用到目標(biāo)任務(wù)。但是在大多數(shù)情況下,源域數(shù)據(jù)是不能直接重用的。然而,源域中的某些實(shí)例是可以與目標(biāo)數(shù)據(jù)一起重用,達(dá)到改善結(jié)果的目的。對于歸納式遷移,已有一些研究利用來自源域的訓(xùn)練實(shí)例來改進(jìn)目標(biāo)任務(wù),例如 Dai 及其合作研究者對 AdaBoost 的改進(jìn)工作

  • 基于特征表示的遷移學(xué)習(xí)(Feature-representation transfer): 該類方法旨在通過識別可以從源域應(yīng)用于目標(biāo)域的良好特征表示,實(shí)現(xiàn)域差異最小化,并降低錯誤率。根據(jù)標(biāo)記數(shù)據(jù)的可用性情況,基于特征表示的遷移可采用有監(jiān)督學(xué)習(xí)或無監(jiān)督學(xué)習(xí)

  • 基于參數(shù)的遷移學(xué)習(xí)(Parameter transfer): 該類方法基于如下假設(shè):針對相關(guān)任務(wù)的模型間共享部分參數(shù),或超參數(shù)的先驗(yàn)分布。不同于同時學(xué)習(xí)源和目標(biāo)任務(wù)的多任務(wù)學(xué)習(xí),在遷移學(xué)習(xí)中我們可以對目標(biāo)域的應(yīng)用額外的權(quán)重以提高整體性能

  • 基于關(guān)系知識的遷移學(xué)習(xí)(Relational-knowledge transfer): 與前面三類方法不同,基于關(guān)系知識的遷移意在處理非獨(dú)立同分布(i.i.d)數(shù)據(jù)即每個數(shù)據(jù)點(diǎn)均與其他數(shù)據(jù)點(diǎn)存在關(guān)聯(lián)。例如,社交網(wǎng)絡(luò)數(shù)據(jù)就需要采用基于關(guān)系知識的遷移學(xué)習(xí)技術(shù)

下表清晰地總結(jié)了不同遷移內(nèi)容分類和不同遷移學(xué)習(xí)策略間關(guān)系:

 

 

不同遷移內(nèi)容分類和不同遷移學(xué)習(xí)策略間關(guān)系

 

 

OK上邊的便是關(guān)于遷移學(xué)習(xí)的介紹了,相信你讀完之后會有自己的理解!

2. 跨域推薦

那什么是跨域推薦呢?一句話概括就是:當(dāng)遷移學(xué)習(xí)應(yīng)用到推薦系統(tǒng)中時就被稱為跨域推薦(Cross-Domain Recommendation)。

跨域推薦的目的一般是有下面幾個:

  • 冷啟動:比如一個公司的兩個APP業(yè)務(wù),用戶群體交叉很大,但是item不同,當(dāng)A業(yè)務(wù)的用戶首次來訪B業(yè)務(wù)時,如何做出有效的推薦,從而提升留存、轉(zhuǎn)化率,跨域推薦為冷啟動提供了一種新的思路,但其局限性也很強(qiáng),對于一些一個公司只有一個業(yè)務(wù)的場景是很難適用的

  • 跳出信息繭房:基于同業(yè)務(wù)的推薦,往往會讓用戶的興趣越變越窄,因?yàn)槎际腔谟脩舻男袨檫M(jìn)行挖掘的,當(dāng)使用跨域推薦時可以跳出原先的舒適圈,從而改善推薦系統(tǒng)的平衡性、多樣性和新奇性

  • 減少數(shù)據(jù)稀疏性,提高準(zhǔn)確度:同樣是針對兩個不同業(yè)務(wù)場景而言的,新業(yè)務(wù)或者其中一個業(yè)務(wù)由于某些原因數(shù)據(jù)比較稀疏,通過引入跨域推薦,豐富數(shù)據(jù)

  • 強(qiáng)化用戶偏好:新用戶的偏好是很弱的,通過跨域推薦強(qiáng)化用戶偏好

3.跨域推薦可以怎么做

3.1 基于頻繁模式挖掘

獲取用戶在域A和域B中的共現(xiàn)行為,構(gòu)造共現(xiàn)pair對 <itemA, itemB>,當(dāng)其共現(xiàn)次數(shù)大于某個值時,認(rèn)為其有效,最終可以得到域A中item的“相似”域B中的item list

或者計(jì)算itemA與itemB的相關(guān)性,計(jì)算公式為:

其中:

  • 為物品的共現(xiàn)次數(shù),為對物品有行為的用戶數(shù),為對物品有行為的用戶數(shù)

  • 表示總的用戶數(shù)

3.2 簇類熱門

  • 獲取域A item的embedding,userID的embedding向量則由用戶最近行為的item序列的平均得到

  • 對域A的用戶進(jìn)行聚類,得到每個簇類的top 熱門

  • 用戶訪問域B時 推薦其所在簇類下的熱門

這里不一定使用embedding進(jìn)行聚類,也可以根據(jù)屬性進(jìn)行聚類

3.3 基于屬性標(biāo)簽映射

通過源域的屬性標(biāo)簽和目標(biāo)域的屬性標(biāo)簽在用戶訪問序列的共現(xiàn),構(gòu)建屬性映射,有兩種方法:

  • 基于統(tǒng)計(jì)的方法,計(jì)算源域?qū)傩院湍繕?biāo)域?qū)傩缘南嚓P(guān)性

  • word2vec,通過屬性序列,生成屬性的embedding

例如,用戶的屬性點(diǎn)擊序列數(shù)據(jù)為

  • user1: cate1, cate2, cate2, tag1, cate2, tag2,...

  • user1: cate3, cate4, tag1, cate2, tag3,...

基于統(tǒng)計(jì)的方法計(jì)算

統(tǒng)計(jì)包含(cate1,tag1)(cate2,tag2)(cate3,tag1)....的用戶數(shù)作為分子

統(tǒng)計(jì)包含cate1,cate2,....,tag1,tag2的用戶數(shù)作為分母,計(jì)算相關(guān)性

基于word2vec的方式

基于word2vec、skip-gram的方式,按天劃分session,計(jì)算得到cate和tag的embedding

3.4 基于FM

可以參考論文:2014_Cross-Domain Collaborative Filtering with Factorization Machines

這個后期會單獨(dú)出一篇文章來介紹其原理和實(shí)戰(zhàn)應(yīng)用!歡迎關(guān)注!

3.5 基于隱因子映射

參考論文:Cross-Domain Recommendation: An Embedding and Mapping Approach

  • 分別構(gòu)建源域和目標(biāo)域的user、item embedding

  • 構(gòu)建源域和目標(biāo)域 user embedding的映射函數(shù) f

  • 使用映射函數(shù)f將源域中的user embedding表示成 目標(biāo)域中的user embedding,然后根據(jù) embedding相似進(jìn)行召回

參考文章: 論文|一種基于Embedding和Mapping的跨域推薦方法

3.6 基于DNN

 

Multi-View-DSSM
具體可參考: 論文|從DSSM語義匹配到Google的雙塔深度模型召回和廣告場景中的雙塔模型思考

 

4.參考的論文有哪些

跨域推薦在業(yè)界被關(guān)注的比較多,發(fā)表的論文也很多,這里列舉了一些比較經(jīng)典的論文,可以在公眾號回復(fù)【跨域推薦論文】獲取。

  • 2014_Cross-Domain Collaborative Filtering with Factorization Machines

  • 2015_Cross-domain recommendation without shared users or items by sharing latent vector distributions

  • 2016_A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems

  • 2016_WRAP-connecting-social-media-e-commerce-He-2018

  • 2017_CCCFNet- A Content-Boosted Collaborative Filtering Neural Network for Cross Domain Recommender Systems

  • 2017_Cross-Domain Recommendation via Clustering on Multi-Layer Graphs

  • 2017_Cross-Domain Recommendation- An Embedding and Mapping Approach

  • 2018_Cross-Domain Recommendation for Cold-Start Users via Neighborhood Based Feature Mapping

  • 2018_Cross-domain Recommendation via Deep Domain Adaptation

  • 2019_DDTCDR- Deep Dual Transfer Cross Domain Recommendation

  • 2019_Easy Transfer Learning by Exploiting Intar-domain Structures

  • 2019_Transfer Learning with Domain-aware Attention Network for Item Recommendation in E-commerce

  • 2020_MiNet- Mixed Interest Network for Cross-Domain Click-Through Rate Prediction

5. 參考

  • https://lumingdong.cn/multi-task-learning-in-recommendation-system.html#%E8%BF%81%E7%A7%BB%E5%AD%A6%E4%B9%A0

  • https://xmzzyo.github.io/2020/04/12/Cross-domain-Recommendation/

 

 

責(zé)任編輯:張燕妮 來源: 搜索與推薦Wiki
相關(guān)推薦

2022-08-31 10:04:28

模型算法

2023-07-07 07:17:35

2019-04-10 10:32:16

CORSNginx反向代理

2024-05-20 09:28:44

Spring客戶端瀏覽器

2011-02-22 17:14:20

2017-08-20 12:49:59

瀏覽器跨域服務(wù)器

2011-07-05 10:48:41

javascript

2023-05-06 15:32:04

2009-02-18 09:30:10

AJAX跨域XML

2024-08-28 08:45:22

2016-11-01 21:51:03

phpjavascript

2024-10-29 16:41:24

SpringBoot跨域Java

2021-06-06 13:05:15

前端跨域CORS

2021-06-15 07:32:59

Cookie和Sess實(shí)現(xiàn)跨域

2023-12-01 08:28:29

推薦系統(tǒng)跨域多目標(biāo)建模

2018-12-12 15:50:13

2018-01-26 08:39:03

2011-11-07 11:15:31

2023-11-17 09:38:21

2011-04-08 09:16:12

JavaScript
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號