自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

像Git一樣用AI數(shù)據(jù)!免費托管工具上線,用「活」數(shù)據(jù)集訓練

新聞 人工智能
國外,一位名叫Simon Lousky的程序員小哥終于不能忍了,開發(fā)出了一套用于機器學習的數(shù)據(jù)版本控制工具 (Data Version Control,DVC)。

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯(lián)系出處。

搞機器學習的人,很多都飽受數(shù)據(jù)管理的折磨。

要么是數(shù)據(jù)集老舊,需要手工修訂標注。

要么是同一個數(shù)據(jù)集有很多被別人調(diào)整過的版本,無從下手。

或者,干脆沒有合適數(shù)據(jù)集,需要自己建立。

[[377448]]

國外,一位名叫Simon Lousky的程序員小哥終于不能忍了,開發(fā)出了一套用于機器學習的數(shù)據(jù)版本控制工具 (Data Version Control,DVC)。

一鍵調(diào)用數(shù)據(jù)集、一鍵查看編輯歷史……最重要的是,在DVC工具背后,有一個GitHub一樣的數(shù)據(jù)托管社區(qū)。

“盤活”數(shù)據(jù)集

Simon Lousky在學生時代做項目時,就已經(jīng)感受到了機器學習數(shù)據(jù)集管理不便的痛點。

當時,他的模型需要一個植物和花朵的數(shù)據(jù)進行訓練,而開源數(shù)據(jù)集無論如何也得不到合理的結果。

于是他自己花了幾個小時的時間,一一修正了數(shù)據(jù)集中大量過時、不合理的標注,之后訓練結果讓人十分滿意。

[[377449]]

除了這個項目,他之后又進行過很多數(shù)據(jù)集的修正、增補、創(chuàng)建工作,他把這些費時費力的工序稱為“數(shù)據(jù)集的調(diào)試試錯”,并且開始有意記錄操作歷史。

他逐漸發(fā)現(xiàn),自己的項目中,數(shù)據(jù)管理總是一塌糊涂,而依靠GitHub托管的代碼,卻一直井井有條。

那為什么不做一個類似GitHub、專門服務數(shù)據(jù)管理的工具呢?

像git一樣用AI數(shù)據(jù)!免費托管工具上線,用「活」數(shù)據(jù)集訓練

DVC就這樣誕生了。

這是一個預裝的工具庫,實現(xiàn)功能包括對數(shù)據(jù)集的調(diào)用、歷史操作信息的查看等等功能。

它的出現(xiàn),意味著之前,研究人員在本地“死”的數(shù)據(jù)集上訓練模型的方式徹底改變。

你可以將項目鏈接到在線托管的數(shù)據(jù)集(或任何文件),建立實時、準確的聯(lián)系。數(shù)據(jù)集的任何更新變動,都能及時獲知,方便項目的開展。

像git一樣用AI數(shù)據(jù)!免費托管工具上線,用「活」數(shù)據(jù)集訓練

比如,現(xiàn)在有一個Repository A,這是一個“活”數(shù)據(jù)集,其中元數(shù)據(jù)文件,指向存儲在專用服務器的真實大文件。

用戶可以將數(shù)據(jù)集文件組織到目錄中,并添加帶有utils函數(shù)的代碼文件,以此來方便調(diào)用。

此外,還有一個Repository B,這是對應機器學習項目,項目代碼中,包含使用DVC導入數(shù)據(jù)集的指令。

只要創(chuàng)建一個數(shù)據(jù)注冊表,就能建立A和B之間的聯(lián)系:

  1. mkdir my-dataset && cd my-dataset 
  2. git init 
  3. dvc init 

此時,數(shù)據(jù)集目錄會是這樣:

像git一樣用AI數(shù)據(jù)!免費托管工具上線,用「活」數(shù)據(jù)集訓練

需要查看數(shù)據(jù)集相關信息時,輸入指令:

  1. dvc add annotations 
  2. dvc add images 
  3. git add . && git commit -m “Starting to manage my dataset” 

數(shù)據(jù)集的預覽會保存到一個目錄里,這個目錄也會被DVC跟蹤。

然后用戶只需要把代碼和數(shù)據(jù)推送到托管倉庫,這樣就隨時隨地訪問它,并與其他人分享。

當然,DVC要發(fā)揮作用,自然少不了背后的DAGsHub。

像git一樣用AI數(shù)據(jù)!免費托管工具上線,用「活」數(shù)據(jù)集訓練

DAGsHub就是一個GitHub的數(shù)據(jù)管理版本,由三部分組成,git倉庫、DVC、和機器學習流程平臺mlflow。

用戶可以提交自己的項目,DAGsHub會自動掃描提交,并提取有用的信息,如實驗參數(shù),數(shù)據(jù)文件和模型的鏈接,并將它們結合到一個簡單的界面。

像git一樣用AI數(shù)據(jù)!免費托管工具上線,用「活」數(shù)據(jù)集訓練

DAGsHub可以瀏覽和比較代碼、數(shù)據(jù)、模型和實驗,而且不需要下載任何東西。

此外,還能生成可視化數(shù)據(jù)管道、數(shù)據(jù)操作歷史,并記錄模型性能,自動且美觀。

如何在機器學習項目中使用“活”數(shù)據(jù)集

要使用DAGsHub,只需要注冊登錄。

像git一樣用AI數(shù)據(jù)!免費托管工具上線,用「活」數(shù)據(jù)集訓練

通過以下指令安裝DVC:

  1. pip3 install dvc 

在DAGsHub上找到一個數(shù)據(jù)集,如何在自己的模型中使用它呢?

首先,要從托管的數(shù)據(jù)集中導入一個目錄,并把它當作原始文件:

  1. mkdir -p data/raw 
  2. dvc import -o data/raw/images \ 
  3. https://dagshub.com/Simon/baby-yoda-segmentation-dataset \ 
  4. data/images 
  5. dvc import -o data/raw/annotations \ 
  6. https://dagshub.com/Simon/baby-yoda-segmentation-dataset \ 
  7. data/annotations 

接著,圖片和注釋就會下載到你自己的項目中,并保留其中歷史信息的信息。

像git一樣用AI數(shù)據(jù)!免費托管工具上線,用「活」數(shù)據(jù)集訓練

當你想要知道數(shù)據(jù)集的變更歷史時,只需運行命令:

dvc update

就能將可視化結果返回默認目錄保存:

像git一樣用AI數(shù)據(jù)!免費托管工具上線,用「活」數(shù)據(jù)集訓練

是不是很方便?

對了,無論是DVC,還是DAGsHub,都是開源且免費的,趕快來試試吧

傳送門:

DVC教程:https://dagshub.com/docs/experiment-tutorial/2-data-versioning/
DAGsHub主頁:https://dagshub.com/

 

 

責任編輯:張燕妮 來源: 量子位
相關推薦

2019-11-20 09:10:12

開源技術 數(shù)據(jù)

2013-08-22 10:17:51

Google大數(shù)據(jù)業(yè)務價值

2018-09-21 11:06:10

2013-07-26 10:15:29

云計算大數(shù)據(jù)Hadoop

2017-11-06 14:18:03

2022-02-24 13:59:59

AI智能體研究

2020-09-30 17:12:09

人工智能技術數(shù)據(jù)

2023-04-05 14:19:07

FlinkRedisNoSQL

2021-12-28 11:23:36

SQLServerExcel數(shù)據(jù)分析

2025-01-17 13:53:11

AI大模型檢測工具

2017-04-26 14:02:18

大數(shù)據(jù)數(shù)據(jù)分析Excel

2017-06-23 08:18:17

2022-08-03 08:52:35

Bytebase開源

2019-04-11 18:00:40

數(shù)據(jù)數(shù)據(jù)科學項目

2022-08-26 08:17:32

Sidekick開源

2013-12-17 09:02:03

Python調(diào)試

2022-12-21 15:56:23

代碼文檔工具

2023-05-23 13:59:41

RustPython程序

2013-12-31 09:19:23

Python調(diào)試

2021-02-07 10:34:21

可視化編程Numpy
點贊
收藏

51CTO技術棧公眾號