自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一個項目幫你了解數(shù)據(jù)集蒸餾Dataset Distillation

大數(shù)據(jù) 新聞
近期由北海道大學(xué)的 Dr. Guang Li,愛丁堡大學(xué)的 Dr. Bo Zhao 和 MIT 的 Dr. Tongzhou Wang 共同發(fā)起的數(shù)據(jù)集蒸餾項目總結(jié)了數(shù)據(jù)集蒸餾領(lǐng)域所有優(yōu)秀論文以及開源代碼。

數(shù)據(jù)集蒸餾研究簡介

數(shù)據(jù)集蒸餾是合成小數(shù)據(jù)集的任務(wù),以便在其上訓(xùn)練的模型在原始大數(shù)據(jù)集上實現(xiàn)高性能。數(shù)據(jù)集蒸餾算法將要蒸餾的大型真實數(shù)據(jù)集(訓(xùn)練集)作為輸入,并輸出一個小的合成蒸餾數(shù)據(jù)集,該數(shù)據(jù)集通過在單獨的真實數(shù)據(jù)集(驗證 / 測試集)上在該蒸餾數(shù)據(jù)集上訓(xùn)練的測試模型進(jìn)行評估。

圖片

數(shù)據(jù)集蒸餾問題設(shè)定

這項任務(wù)最初是在 Dr. Tongzhou Wang 2018 年的論文 Dataset Distillation [1] 中介紹的,改論文同時提出了通過優(yōu)化步驟使用反向傳播的算法。由于最初算法的局限性,當(dāng)時僅僅可以在一些簡單數(shù)據(jù)集如 MNIST,CIFAR-10 上進(jìn)行蒸餾操作且準(zhǔn)確率比較低。這也是最初的 Dataset Distillation 沒有被一些 AI 頂會 (NeurIPS/ICCV/ICLR) 收錄的原因。

圖片

最初的數(shù)據(jù)集蒸餾效果

一個好的小型蒸餾數(shù)據(jù)集不僅對數(shù)據(jù)集理解有用,而且具有各種應(yīng)用(例如,隱私保護(hù),持續(xù)學(xué)習(xí),神經(jīng)架構(gòu)搜索等)。其中,Dr. Guang Li 最先將數(shù)據(jù)集蒸餾應(yīng)用于醫(yī)學(xué)圖像領(lǐng)域,并對其在隱私保護(hù)方面的特性做了探索,該研究通過將十幾萬張胃部 X 光圖像蒸餾到只有 3 張并達(dá)到了很好的胃炎檢測效果,研究成果發(fā)表于 ICIP 2020 [2].

圖片

匿名化的胃部 X 光蒸餾圖像

2021 年后,數(shù)據(jù)集蒸餾在研究界、許多研究所和實驗室中越來越受到關(guān)注?,F(xiàn)在每年都有更多的論文發(fā)表。這些精彩的研究一直在不斷改進(jìn)數(shù)據(jù)集蒸餾并探索其各種變體和應(yīng)用。其中最具有突破性的研究之一是由 Dr. Bo Zhao 在 ICLR 2021 中提出的 Dataset Condensation,該論文首次提出通過梯度匹配策略來蒸餾數(shù)據(jù)集并大大提升了測試準(zhǔn)確率以及泛化能力 [3].

圖片

基于梯度匹配的數(shù)據(jù)集縮合算法

最近由 CMU,MIT,UC Berkeley 的學(xué)者們發(fā)表的一篇論文首次實現(xiàn)了對 ImageNet 的蒸餾并又一次大幅提升了蒸餾數(shù)據(jù)集的測試效果, 該成果發(fā)表于 CVPR 2022 [4]。

圖片

ImageNet 上的蒸餾效果

對于目前數(shù)據(jù)集蒸餾領(lǐng)域的巨大進(jìn)展 Dr. Tongzhou Wang 表示非常驚喜并在推特上對 Awesome-Dataset-Distillation 項目進(jìn)行了介紹。

圖片

圖片

圖片

Dr. Tongzhou Wang 在推特上對數(shù)據(jù)集蒸餾項目的介紹


在 Awesome-Dataset-Distillation 項目完成后,短短一個月的時間在 GitHub 上已經(jīng)獲得了 300Star,受到了國內(nèi)外很多知名學(xué)者的關(guān)注。此外,上個月被外媒選為八月份最受關(guān)注的 AI 研究之一。

  • 數(shù)據(jù)集蒸餾的項目地址:?https://github.com/Guang000/Awesome-Dataset-Distillation?
  • Dr. Guang Li (Hokkaido University) :?https://www-lmd.ist.hokudai.ac.jp/member/guang-li/?
  • Dr. Bo Zhao (The University of Edinburgh):?https://bozhaonanjing.wixsite.com/mysite?
  • Dr. Tongzhou Wang (MIT):??https://www.tongzhouwang.info/?

?[1] Wang, Tongzhou, et al. "Dataset distillation." arXiv preprint arXiv:1811.10959.

[2] Li, Guang, et al. "Soft-label anonymous gastric x-ray image distillation." ICIP 2020.

[3] Zhao, Bo, et al. "Dataset Condensation with Gradient Matching." ICLR 2021.

[4] Cazenavette, George, et al. "Dataset distillation by matching training trajectories." CVPR 2022.

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2022-06-08 00:10:33

數(shù)據(jù)治理框架

2023-12-01 16:23:52

大數(shù)據(jù)人工智能

2022-03-14 09:44:14

數(shù)據(jù)庫虛擬化

2020-04-17 10:45:21

數(shù)據(jù)中心IT技術(shù)

2023-12-26 15:13:09

以太網(wǎng)交換機(jī)

2023-02-28 07:34:12

數(shù)據(jù)庫索引

2014-06-17 09:51:57

Docker

2010-02-04 11:15:12

數(shù)據(jù)交換技術(shù)

2021-02-21 22:26:15

數(shù)據(jù)庫測試數(shù)據(jù)庫

2010-12-27 14:45:27

2018-06-11 17:27:56

APP流量華為

2015-11-26 09:33:04

數(shù)據(jù)中心冷卻系統(tǒng)

2023-06-29 15:35:44

數(shù)據(jù)中心IT設(shè)備

2020-06-23 10:03:33

版本控制項目

2017-12-12 12:08:36

數(shù)據(jù)結(jié)構(gòu)算法函數(shù)

2023-04-23 15:59:10

數(shù)據(jù)中心存儲

2010-05-06 09:50:16

負(fù)載均衡產(chǎn)品

2020-04-21 15:42:26

數(shù)據(jù)科學(xué)數(shù)據(jù)集數(shù)據(jù)

2013-01-09 14:29:09

數(shù)據(jù)治理Informatica

2020-03-08 16:45:58

數(shù)據(jù)挖掘學(xué)習(xí)數(shù)據(jù)量
點贊
收藏

51CTO技術(shù)棧公眾號