自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

清華開源遷移學(xué)習(xí)算法庫:基于PyTorch實現(xiàn),支持輕松調(diào)用已有算法

新聞 人工智能 算法
近日,清華大學(xué)大數(shù)據(jù)研究中心機器學(xué)習(xí)研究部開源了一個高效、簡潔的遷移學(xué)習(xí)算法庫 Transfer-Learn,并發(fā)布了第一個子庫——深度領(lǐng)域自適應(yīng)算法庫(DALIB)。

 近日,清華大學(xué)大數(shù)據(jù)研究中心機器學(xué)習(xí)研究部開源了一個高效、簡潔的遷移學(xué)習(xí)算法庫 Transfer-Learn,并發(fā)布了第一個子庫——深度領(lǐng)域自適應(yīng)算法庫(DALIB)。

清華大學(xué)大數(shù)據(jù)研究中心機器學(xué)習(xí)研究部長期致力于遷移學(xué)習(xí)研究。近日,該課題部開源了一個基于 PyTorch 實現(xiàn)的高效簡潔遷移學(xué)習(xí)算法庫:Transfer-Learn。使用該庫,可以輕松開發(fā)新算法,或使用現(xiàn)有算法。

清華開源遷移學(xué)習(xí)算法庫:基于PyTorch實現(xiàn),支持輕松調(diào)用已有算法

項目地址:https://github.com/thuml/Transfer-Learning-Library

目前,該項目發(fā)布了第一個子庫——領(lǐng)域自適應(yīng)算法庫(DALIB),其支持的算法包括:

Domain Adversarial Neural Network (DANN)

Deep Adaptation Network (DAN)

Joint Adaptation Network (JAN)

Conditional Domain Adversarial Network (CDAN)

Maximum Classifier Discrepancy (MCD)

Margin Disparity Discrepancy (MDD)

領(lǐng)域自適應(yīng)背景介紹

目前,深度學(xué)習(xí)模型在一部分計算機視覺、自然語言處理任務(wù)中超越了人類的表現(xiàn),但是它們的成功通常依賴于大規(guī)模標(biāo)記數(shù)據(jù)。在實際應(yīng)用場景中,標(biāo)記數(shù)據(jù)往往是稀缺的。

解決標(biāo)記數(shù)據(jù)稀缺問題的一個方法是通過計算機模擬生成訓(xùn)練數(shù)據(jù),例如使用計算機圖形學(xué)技術(shù)合成訓(xùn)練數(shù)據(jù)(如下圖所示)。此外,還可以從相關(guān)的領(lǐng)域 “借用” 標(biāo)記數(shù)據(jù)。

清華開源遷移學(xué)習(xí)算法庫:基于PyTorch實現(xiàn),支持輕松調(diào)用已有算法

但是,在此場景下,訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)不再服從獨立同分布,使訓(xùn)練得到的深度網(wǎng)絡(luò)準(zhǔn)確率大打折扣。為了解決數(shù)據(jù)集偏移造成的泛化難題,領(lǐng)域自適應(yīng) (Domain Adaptation) 的概念被提出。

領(lǐng)域自適應(yīng)的目標(biāo)是將機器學(xué)習(xí)模型在源領(lǐng)域 (Source) 學(xué)到的知識遷移到目標(biāo)領(lǐng)域 (Target)。例如在計算機模擬生成訓(xùn)練數(shù)據(jù)的例子中,合成數(shù)據(jù)是源領(lǐng)域,真實場景的數(shù)據(jù)是目標(biāo)領(lǐng)域。領(lǐng)域自適應(yīng)有效地緩解了深度學(xué)習(xí)對于人工標(biāo)記數(shù)據(jù)的依賴,受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。目前已廣泛應(yīng)用到圖像分類、圖像分割、目標(biāo)檢測、情感分析、機器翻譯等眾多任務(wù)上。

吳恩達曾說過:「在監(jiān)督學(xué)習(xí)之后,遷移學(xué)習(xí)將引領(lǐng)下一輪機器學(xué)習(xí)技術(shù)商業(yè)化浪潮。」圖靈獎得主 Bengio 也認(rèn)為遷移能力是深度學(xué)習(xí)進一步發(fā)展的基礎(chǔ)能力之一。隨著產(chǎn)品級機器學(xué)習(xí)應(yīng)用進入數(shù)據(jù)稀缺領(lǐng)域,監(jiān)督學(xué)習(xí)得到的尖端模型性能大打折扣,領(lǐng)域自適應(yīng)變得越來越重要。

研究現(xiàn)狀

深度領(lǐng)域自適應(yīng)方法主要包括以下三大類:

統(tǒng)計距離。通過最小化源領(lǐng)域和目標(biāo)領(lǐng)域分布的統(tǒng)計距離,實現(xiàn)不同領(lǐng)域特征分布對齊。例如深度適配網(wǎng)絡(luò) DAN、聯(lián)合適配網(wǎng)絡(luò) JAN。

對抗訓(xùn)練。領(lǐng)域?qū)咕W(wǎng)絡(luò) DANN 是最早的工作,它引入領(lǐng)域判別器,鼓勵特征提取器學(xué)習(xí)領(lǐng)域無關(guān)的特征。在 DANN 的基礎(chǔ)上衍生出了一系列方法,例如條件領(lǐng)域?qū)咕W(wǎng)絡(luò) CDAN、最大分類器差異 MCD。

理論啟發(fā)。通過嚴(yán)格的理論推導(dǎo),得到可以顯式控制遷移學(xué)習(xí)泛化誤差的算法,如間隔分歧散度 MDD 等。

清華開源遷移學(xué)習(xí)算法庫:基于PyTorch實現(xiàn),支持輕松調(diào)用已有算法

DANN 網(wǎng)絡(luò)架構(gòu)圖。

清華開源遷移學(xué)習(xí)算法庫:基于PyTorch實現(xiàn),支持輕松調(diào)用已有算法

MDD 網(wǎng)絡(luò)架構(gòu)圖。

上述方法在實驗數(shù)據(jù)上表現(xiàn)出良好的性能。然而目前學(xué)術(shù)界領(lǐng)域自適應(yīng)方法的開源實現(xiàn)存在下述問題:

復(fù)用性差。領(lǐng)域自適應(yīng)方法和模型架構(gòu)、數(shù)據(jù)集耦合在一起,不利于領(lǐng)域自適應(yīng)方法在新的模型、數(shù)據(jù)集上復(fù)用。

穩(wěn)定性差。部分對抗訓(xùn)練方法隨著訓(xùn)練進行,準(zhǔn)確率會大幅度下降。

針對這些不足,深度領(lǐng)域自適應(yīng)算法庫(DALIB)設(shè)計的初衷就是:用戶通過少數(shù)幾行代碼,即可將領(lǐng)域自適應(yīng)算法應(yīng)用到實際項目中,無需考慮領(lǐng)域自適應(yīng)模塊的實現(xiàn)細節(jié)

易用性

DALIB 將現(xiàn)有領(lǐng)域自適應(yīng)訓(xùn)練代碼中的領(lǐng)域自適應(yīng)損失函數(shù)分離出來,按照 PyTorch 交叉熵?fù)p失函數(shù)的形式進行封裝,以方便用戶使用。

領(lǐng)域自適應(yīng)損失函數(shù)也和模型架構(gòu)進行了解耦,不依賴于具體的分類任務(wù),所以算法庫很容易擴展到圖像分類以外的機器學(xué)習(xí)任務(wù)。

如下所示,使用兩行代碼即可定義一個與任務(wù)無關(guān)的領(lǐng)域?qū)箵p失函數(shù):

清華開源遷移學(xué)習(xí)算法庫:基于PyTorch實現(xiàn),支持輕松調(diào)用已有算法

各種領(lǐng)域自適應(yīng)損失函數(shù)中有一些公用的模塊,例如所有算法中都用到的分類器模塊、對抗訓(xùn)練中用到的梯度反轉(zhuǎn)模塊和領(lǐng)域判別器模塊、統(tǒng)計距離中用到的核函數(shù)模塊等。

這些公用模塊和提供的領(lǐng)域自適應(yīng)損失函數(shù)是分離的。因此,在 DALIB 中,用戶可以像搭積木一樣,重新定制自己需要的領(lǐng)域自適應(yīng)損失函數(shù)。

例如,在核方法中,用戶可以自定義不同參數(shù)的高斯核函數(shù)或其他核函數(shù),然后將其傳入到多核最大均值差異(MK-MMD)的計算中。

清華開源遷移學(xué)習(xí)算法庫:基于PyTorch實現(xiàn),支持輕松調(diào)用已有算法

目前,所有的模塊和損失函數(shù)均已提供詳細的 API 說明文檔:https://dalib.readthedocs.io/en/latest/。

穩(wěn)定性

領(lǐng)域自適應(yīng)算法研究往往關(guān)注方法的創(chuàng)新性或理論價值,而忽視了工程實現(xiàn)中的穩(wěn)定性和可復(fù)現(xiàn)性。在復(fù)現(xiàn)現(xiàn)有算法的過程中,出現(xiàn)了部分算法準(zhǔn)確率不穩(wěn)定的問題。DALIB 通過對數(shù)值計算方面的改進,解決了這些問題。(具體實現(xiàn)此處不再展開。)

DALIB 在常見的領(lǐng)域自適應(yīng)基準(zhǔn)集上的測試準(zhǔn)確率都比原論文匯報準(zhǔn)確率高,在部分?jǐn)?shù)據(jù)集上的準(zhǔn)確率甚至高出 14%。下圖分別是 Office-31 和 VisDA-2017 三個基準(zhǔn)集上的測試結(jié)果:

清華開源遷移學(xué)習(xí)算法庫:基于PyTorch實現(xiàn),支持輕松調(diào)用已有算法

Office-31 上不同算法的準(zhǔn)確率。

清華開源遷移學(xué)習(xí)算法庫:基于PyTorch實現(xiàn),支持輕松調(diào)用已有算法

VisDA-2017 上不同算法的準(zhǔn)確率。

DALIB 算法庫提供了所支持的算法在 Office-31、Office-Home 和 VisDA-2017 三個基準(zhǔn)集上的測試結(jié)果,以及完整的測試腳本。清華大學(xué)龍明盛老師課題組認(rèn)為開源這一算法庫有助于更好地推進遷移學(xué)習(xí)方向的未來研究工作。

未來的工作

領(lǐng)域自適應(yīng)算法子庫 DALIB 的下一個版本將支持領(lǐng)域自適應(yīng)算法的各種復(fù)雜設(shè)定,包括部分集領(lǐng)域自適應(yīng)任務(wù)(Partial Domain Adaptation)、開放集領(lǐng)域自適應(yīng)任務(wù)(Open-Set Domain Adaptation)、通用域自適應(yīng)任務(wù)(Universal Domain Adaptation)等。同時,還將支持多功能領(lǐng)域自適應(yīng)算法(Versatile Domain Adaptation)。

遷移學(xué)習(xí)算法庫 Transfer-Learn 目前還處于初期開發(fā)階段。該研究團隊表示,隨著遷移學(xué)習(xí)方向的不斷發(fā)展,今后 Transfer-Learn 算法庫將不斷跟進新工作中比較好的算法,不斷擴展優(yōu)化,為遷移學(xué)習(xí)提供一個穩(wěn)定可靠的評測基準(zhǔn)。

當(dāng)前版本由龍明盛老師課題組的江俊廣、付博兩名同學(xué)維護。清華大學(xué)軟件學(xué)院、大數(shù)據(jù)系統(tǒng)軟件國家工程實驗室為研發(fā)該算法庫提供了強大的平臺支撐。

責(zé)任編輯:張燕妮 來源: 機器之心Pro
相關(guān)推薦

2024-04-08 10:13:31

2020-03-20 14:33:29

人工智能深度學(xué)習(xí)技術(shù)

2020-12-16 15:56:26

機器學(xué)習(xí)人工智能Python

2019-09-29 10:42:02

人工智能機器學(xué)習(xí)技術(shù)

2016-12-09 10:11:40

機器學(xué)習(xí)算法庫Fregata

2022-04-26 09:44:29

算法庫EasyCV開源

2018-12-24 14:53:23

TigerGraph開源數(shù)據(jù)庫

2019-03-18 10:57:42

開源技術(shù) 軟件

2021-11-03 15:01:50

算法開源技術(shù)

2023-04-21 15:54:46

AI開源

2022-03-17 17:08:05

機器學(xué)習(xí)算法類型

2009-08-19 09:42:34

F#并行排序算法

2020-05-26 18:35:00

機器學(xué)習(xí)人工智能AI

2022-06-30 09:00:00

算法庫開發(fā)pymoode

2011-04-14 10:18:20

數(shù)據(jù)遷移

2016-12-01 07:41:37

機器學(xué)習(xí)常用算法

2020-11-18 10:29:07

模型人工智能開源

2024-10-21 12:30:52

2025-03-19 09:15:00

AI算法模型

2024-10-08 09:20:00

深度學(xué)習(xí)編譯器模型
點贊
收藏

51CTO技術(shù)棧公眾號